? Optical Character Recognition ( OCR ) er en data -entry teknikk som bruker en bestemt skrifttype og en OCR scanner til å lese tegnsett og send den til datamaskinen . The American National Standards Institute, eller ANSI definerer skrifttype som et sett av tegn 0-9 , A til Z, og noen spesialtegn , som hver inneholder en definert størrelse og form. OCR fonter er reproduserbare , og mennesker og OCR skannere kan lese og skille dem . Kategorier
OCR skannere er enten inntasting eller datafangst skannere. Tekst Input skannere lese hele dokumentet , eller i det minste store deler av det. Data input kan være hånd -matet eller skanneren kan ha automatisk data fôring , lesing , sortering og stabling evner. Når du bruker en inntasting skanner, tar redigering sted enten under eller etter skanning. Datafangst skannere fangst og formatere data under skanningen , og ingen menneskelig redigering av data foregår . På grunn av dette , må datafangst skannere være mer nøyaktig.
Typer
Scanner typer kan være stasjonær eller håndholdt . Stasjonære skannere , som for eksempel flatbed , arkmatede og tromme skannere bruker hovedsakelig inntasting til å lese , behandle og lagre data bilder på datamaskinen, der du kan redigere eller på annen måte formatere fanget tekst . Håndholdte skannere , for eksempel digitale penner eller strekkodelesere , bruke enten inntasting eller datafangst å lese og behandle data informasjon og deretter lagre den for senere redigering , eller " lock " data for å hindre redigering.
Metoder
kort , tar en OCR skanner et bilde av dokumentet , og deretter OCR skanner programvaren ser på OCR skriften på bildet inneholder , og deretter leser og konverterer den til tekst ved hjelp av enten en Matrix Matching eller Feature Extraction metoden. Matrix Matching er en form for mønstergjenkjenning der skanneren ser på en karakter og matcher den til en i bibliotek med tegn eller tegn maler . Feature Extraction ikke er avhengig av en forhåndsdefinert bibliotek , men på generelle funksjoner som åpne områder , lukkede former og kryssende linjer når tyde tegn. Feature Extraction går også under navnet Intelligent Character Recognition , eller ICR .
Fordelene
Den viktigste fordelen med å bruke en OCR skanner er eliminering av menneskelige dataregistrering feil . OCR skannere lese data i hastigheter som kan nå over 200 tegn per sekund. Nøyaktigheten frekvensen av en OCR skanner er 99,9975 prosent , eller ett tegn misread i 40000 , sammenlignet med et menneske misread hastighet på en i 300 tegn. Automatisk kontrollsiffer validering kan bringe OCR nøyaktighet til færre enn én av tre millioner .
Hensyn
Dårlig kvalitet originaler vil resultere i mindre nøyaktige OCR dokumenter. Håndskrevne dokumenter , ikke dokumenter som inneholder stylet tekst , eldre dokumenter , fotokopier og mest fakset dokumenter ikke fungerer godt med OCR- skannere. Anbefalinger for akseptable dokumenter inkluderer trykt tekst i en skriftstørrelse mindre enn 72 poeng, laser-og blekkskriver tekst, faks dokumenter med 200 punkter per tomme ( dpi) eller høyere oppløsning og kommersielt trykt materiale som bøker , brosjyrer og magasiner .