Optinio simbolio atpažinimas (OCR) - tai programinė įranga, sukurianti spausdintą, spausdintą ar ranka užrašytą dokumentą skaitmenine versija, kurią kompiuteriai gali skaityti be rankos įvesti arba įvesti tekstą. OCR paprastai naudojamas nuskaitytuose dokumentuose PDF formatu, bet taip pat galima sukurti kompiuteriu nuskaitomą teksto versiją vaizdo rinkmenoje.
Kas yra OCR?
OCR, taip pat vadinamas teksto atpažinimu, yra programinės įrangos technologija, kuri paverčia simbolius, tokius kaip skaičiai, raidės ir skyrybos ženklai (taip pat vadinamų glyphs) iš spausdintų arba rašytinių dokumentų į elektroninę formą, kurią kompiuteriai ir kitos programinės įrangos lengviau atpažįstamos ir skaitomos. Kai kurios OCR programos atlieka tai kaip dokumentą, nuskaitymas ar fotografavimas naudojant skaitmeninį fotoaparatą, o kiti gali taikyti šį procesą dokumentams, kurie anksčiau buvo nuskaityti arba fotografuojami be OCR. OCR leidžia vartotojams ieškoti PDF formatu, redaguoti tekstą ir performuoti dokumentus.
Kas yra OCR naudojamas?
Greitai, kasdien nuskaito poreikius, OCR gali būti ne didelis pasiūlymas. Jei atliekate daugybę nuskaitymo, kad galėtumėte ieškoti PDF formatu, kad surastumėte tikslią jums reikalingą informaciją, galite sutaupyti šiek tiek laiko ir padaryti OCR funkciją skaitytuvo programoje svarbesnę. Štai keletas kitų dalykų, kuriuos OCR padeda:
- Automatinis duomenų apdorojimas ir duomenų įvedimas (Pavyzdys: darbo ieškančiųjų stebėjimo sistemos atnaujinimui)
- Skenuotų knygų paieška
- Rankraščio nuskaitymas konvertuojamas į kompiuterio nuskaitomą tekstą
- Kad dokumentai taptų labiau pritaikomi skaitytojų programoms, kurios padeda vartotojams su regėjimo negalia
- Išlaikyti istorinius dokumentus ir laikraščius, taip pat padaryti juos ieškotinais
- Duomenų ištraukimas ir perkėlimas į apskaitos programas (Pavyzdys: įplaukos ir sąskaitos faktūros)
- Indeksuojami dokumentai, kuriuos naudoja paieškos varikliai
- Vairuotojo pažymėjimo numerių atpažinimas naudojant greičio kamerą ir raudonos šviesos fotoaparato programinę įrangą
- Kalbos sintezatoriai žmonėms, kurie negali kalbėti - teorinis fizikas Stephenas Hawkingas, greičiausiai labiausiai žinomas kalbos sintezatoriaus programos vartotojas
Kodėl naudokite OCR?
Kodėl ne tik fotografuoti, ar ne? Kadangi jūs negalėsite nieko redaguoti arba ieškoti teksto, nes jis tiesiog bus vaizdas. Dokumento nuskaitymas ir "OCR" programinės įrangos veikimas gali paversti tą failą kažkuo, kurį galite redaguoti, ir galėsite ieškoti.
OCR istorija
Nors ankstyviausias teksto pripažinimo naudojimas prasidėjo 1914 m., Plačiai paplitęs OCR technologijų kūrimas ir naudojimas prasidėjo 1950-aisiais, ypač sukūrus labai supaprastintus šriftus, kuriuos lengviau paversti skaitmeniniu būdu nuskaitomu tekstu. Pirmasis iš šių supaprastintų šriftų buvo sukurtas Davido Shepardo ir visuotinai žinomas kaip OCR-7B. OCR-7B šiandien vis dar naudojamas finansų sektoriuje standartiniam šriftui, naudojamam kredito kortelėms ir debetinėms kortelėms. 1960 m. Pašto tarnybos keliose šalyse pradėjo naudoti OCR technologijas, kurios žymiai pagreitina pašto rūšiavimą, įskaitant Jungtines Valstijas, Didžiąją Britaniją, Kanadą ir Vokietiją. OCR vis dar yra pagrindinė technologija, naudojama paštu siunčiant pašto paslaugas visame pasaulyje. 2000 m. Pagrindinės žinios apie OCR technologijos ribas ir galimybes buvo naudojamos kuriant CAPTCHA programas, naudojamas norint sustabdyti robotai ir nepageidaujamo e. Pašto platintojus.
Per dešimtmečius OCR tapo labiau tiksli ir sudėtingesnė dėl pažangių susijusių technologijų sričių, tokių kaip dirbtinis intelektas, mašinų mokymasis ir kompiuterio vizija. Šiandien OCR programinė įranga naudoja modelio atpažinimą, funkcijų aptikimą ir teksto šalinimą, kad greičiau ir tiksliau keistųsi dokumentais nei bet kada anksčiau.