The US Postal Service bruker optisk tegngjenkjenning (OCR ) teknologi for å lese adresser på biter av post . For posten skal kunne leses av en OCR post sorter, men adressene og fonter må være formatert på en bestemt måte . OCR-programvare er nyttig for å konvertere skannede bilder av maskinskrevne eller håndskrevne dokumenter til søkbare elektroniske teksten , men det har ulemper som begrenser dets applikasjoner . Begrenset Dokumenter
OCR fungerer best med god kvalitet maskinskrevne dokumenter . Håndskrevne dokumenter kan ikke være lett leses av OCR -programvare. Likeledes , maskinskrevne fonter som ligner håndskrift - så vel som ikke -latinske skrifter - skape mange feil i løpet av OCR prosessen . Hvis dokumentet har dårlig kontrast , er krøllete eller skitten, eller teksten og bakgrunnen er like i mørket , da OCR ikke kan fungere godt . OCR har problemer med dokumenter som har både bilder og tekst . Regneark vil også produsere flere feil .
Nøyaktighet
Ingen OCR-programvare er 100 prosent nøyaktig . Antallet feil avhenger av kvaliteten og typen av dokumentet, inkludert skriften anvendes. Feil som oppstår under OCR inkluderer lesefeil bokstaver , hoppe over bokstaver som er uleselig , eller blande sammen tekst fra tilstøtende kolonner eller bilde bildetekster . Hvis høy nøyaktighet er nødvendig - som med konvertering av digitale bøker til elektronisk format - da en opprydding av elektronisk tekst vil være nødvendig
omgåelsesprosedyre
OCR har problemer med å skille mellom tegn , som for eksempel antall null og en kapital " O." For å omgå dette , kan en spesiell OCR font brukes , for eksempel skriving ut null. Men dette fungerer bare for dokumenter som er opprettet med OCR i tankene , for eksempel spørreskjemaer . Når du oppretter spørreskjemaer som vil være håndskrevne , forskere også bruke bokser for hver bokstav .
Merarbeid
Selv om det skannede bildet på originaldokumentet er høy - kvalitet , ekstra skritt må være å rydde opp i OCR-tekst . Det er svært arbeidskrevende å rette opp feilene som er opprettet av OCR. En person har å manuelt sammenligne det opprinnelige dokumentet og elektronisk tekst . Folk også gjøre feil når du skriver tekst fra et dokument , men noen ganger er det raskere å hoppe over OCR trinn.