hvordan til at scanne og ocr som en professionel med open source - værktøjer

,,, til optisk tegngenkendelse (ocr), kan du scanne indholdet af et dokument i en enkelt fil af redigerbar tekst.denne artikel, der fokuserer på scanning bøger beskriver de foranstaltninger, de skal træffe for at forberede sider for optimal ocr resultater, og sammenligner de forskellige frie ocr redskaber til at afgøre, hvad der er den bedste til udvinding af teksten.,,,,,,, tænd for din distribution ' s pakke manager for at hente et par pakninger og tilhørende områder.i debian, der pakker er normale, sunde utils, imagemagick, unpaper, tesserakten ocr, og tesseract-ocr-eng. du kan også installere andre sprog pakker for tesserakten. for eksempel, jeg har installeret tesserakten ocr deu til den tyske tekst.,, - sider, før du kan oversætte billeder til tekst, du er nødt til at scanne sider.hvis du ønsker at scanne bogen, du kan ' brug ikke en automatisk foder til din skanner.følgende lille fest /ksh manuskript scanninger sider en ad gangen og output hver til en separat fil i bærbare anymap format kaldet scan -, n, n -. pnm:,,,, for jeg $(ff - format =% 003. f. 1 150) har echo forbereder side $jeg og trykke enter læse scanimage - anordning ' brother2: bus1; dev1 &format =' - pnm - mode ' rigtigt, grå og' - resolution 300 - l 90 - 0 - x 210 - 200 - lys - 20 - modsætning 15 > scan - $i.pnm gjort,,,,, tilpasse parametrene for, scanimage, kommando i henhold til din skanner model (finder ud af, hvilken anordning navne, du kan bruge, scanimage - l, og se anordning specifikke muligheder, scanimage - hjælp - anordning, yourdevice,,).også tilpasse indstillinger for parametrene - l (kassér til venstre), o (kassér øverst) - x, og - y, (x - og y - koordinater på det nederste højre hjørne af side).prøv at holdning den bog på en måde, der gør det muligt at anvende disse parametre for at definere et rektangel, der kun indeholder den tekst, ikke den bindende eller ved grænsen.- og' t bekymre sig om side nummer, kan du skære det ud senere med en lille indsats,.,,,, jeres scanninger må ikke være placeret konsekvent eller skygger i hjørnerne.hvis du fodre disse billeder til en ocr program, vil du og' t få nøjagtige resultater, uanset hvor gode de ocr motor, måske.men du kan bruge den unpaper kommando før anvendelsen af ocr magi til at preprocess image og dermed få teksten anerkendes mere nøjagtigt.hvis du har gennemsøgt sider i den rigtige retning. det er rigtigt. du kan bruge indstillinger med unpaper; ellers kan du bruge nogle af nytten og' mange muligheder.for eksempel... pre - roter - 90, har billedet mod uret.du kan også fortælle unpaper to sider er scannet med et billede.se den manuelle side for yderligere oplysninger.følgende unpaper manuskript forbereder scannede billeder for optimal ocr ydeevne:,,,,,, fordi jeg $(ff - format =% 003. f. 1 150) har echo forbereder side $jeg unpaper scan - $i.pnm unpapered - jeg omdanner unpapered - $i.pnm forberedt - - $i.tif & og amp; rm unpapered - $i.pnm gjort,,,, du er nødt til at omdanne scanningerne fra. pnm filer, fordi den bedste ocr værktøj, jeg har fundet kræver tiff input - format.,,,, at sammenligne ocr værktøjer,,,,,, nu kommer den vigtigste del: automatisk optisk tegngenkendelse.mange open source - værktøjer, der er til rådighed til dette job, men jeg har testet en udvælgelse, og fandt, at de fleste har ' ikke giver tilfredsstillende resultater.det er ikke en repræsentativ undersøgelse, men det er klart, at nogle af open source - værktøjer, udføre langt bedre end andre.,,,, at illustrere, jeg har forberedt en lille eksempel fra en tysk bog er skrevet af min kone og' s bedstefar.tallet til højre viser den oprindelige tekst.det ' en mindre udgave af det oprindelige 300 dpi scanning, at jeg gav til ocr programmer.,,,,, gocr gav følgende resultater:,,,, - var _einer __leute hat ihn njcht i _3meg.menc_al fra_e 3ch _jch, wa - _ gerade der maulbeerba_ es 3st. ejne aprikose ist eine vjel dok. h edlere m3cht.,,,, ocrad, forudsat at følgende:,,,, ia, hendes meiner _leute hat ihn nicht i _ime_.m ò nchmal fragte ich mich, na - nm gerade der maulbeerbaum es ist.- eine rpyik_e ist eine viel edlere nvcht.,,,, jeg brugte, - l deu mulighed med tesserakten ocr at udvælge det tyske ord bibliotek, der resulterede i følgende:,,,,,,, ja.han meiner landsleute hat ihn nicht i erinnerung.manchmal fragte ich mich, wa - rom gerade der maulbeerbaum es ist.- eine aprikose ist eine viel edlere frucht.,,,, af de tre tesserakten ocr virkede bedst, at kun én fejl: den fortolkede den komma i første linje i en periode.derfor gjorde jeg tesserakten ocr værktøjet til at vælge.denne enkle manuskript bruger denne ansøgning om at måtte anvende ocr til hver scannet side:,,,,,, fordi jeg $(ff - format =% 003. f. 1 150) har echo gør ocr side $jeg tesserakten forberedt - - $i.tif tesserakten - i - l eng,,,, og resultatet i denne proces er en flok tekst filer, som hver repræsenterer indholdet af én side.,,,,, at det alt sammen,,,,, før du skabe et konsolideret dokument, du og' 11 ønsker at fjerne enhver side numre, der stadig findes i deres tekst filer.hvis de ' er beliggende over teksten, kan du tage den første linje fra hver tekst fil at tesserakten ocr produceret:,,,,,, fordi jeg $(ff - format =% 003. f. 1 150), hale - n + 2 tesserakten - $i.txt > tekst - $i.txt gjort,,,,, hvis de er under den tekst, bare brug, hoved - n - 1, i ovennævnte manuskript i stedet for, hale - n + 2.dette forårsager manuskriptet til at fjerne den sidste linje og ikke de første.,,,, endelig anvendelse, kat tekst - *. txt > complete.txt, til at skabe en stor fil, der indeholder hele din bog.edit, der fil og unhyphenate hele teksten, således at hver kombinerede forekomst af en bindestreg og en linje af foder med et tomt snor.du kan også fjerne unødvendige linje foder.i gedit, kan du definere deres egne redskaber og gøre dem tilgængelige via et tastatur genvej.jeg er defineret som redskab til at arbejde med de eksisterende udvælgelse:,,,,,, #!/bin /sh&#nye replikker til rum tr ' \\ n ' ' '&#kun én plads karakter på et tidspunkt sed ' s /[[: blank:]] (2) //',,,,,,,, dette kan du vælge nogle linjer og presse din defineret genvej.hele udvælgelse bliver en linje.,,,, du har nu et stort dokument, der svarer til indholdet af den bog.mener, at læse hele filen igen for at finde en slåfejl, der kan være til venstre, og så videre til latex - at skabe en professionel ud bærbare dokument format fil fra din scannet tekst.




Previous:
Next Page: