- en hoe OCR als een pro

open source - instrument, met ocr, kan je scannen op de inhoud van het document in een enkel document kan verzameling van teksten.In dit document - boeken, je moet klaar zijn voor de resultaten van de maatregelen de beste OCR pagina 's, en een vergelijking van de verschillende instrumenten om te bepalen welke gratis basisonderwijs is de winning van de tekst het beste.,,,,,, in de eerste plaats de verdeling van de #, open je en Neem een paar pakjes 39; de verpakking de manager van de afhankelijkheid.In het pakket moet nuchter verstand waar, en instrumenten, imagemagick, unpaper, de tesseract ocr, en tesseract-ocr-eng. je ook kan worden geregeld in andere talen dan - zoals ik het pakket, de installatie van de tesseract OCR DeU de Duitse tekst,., pagina 's vertaald kan worden als je in beeld, tekst, je moet De pagina' s.Als je wil een scan van een boek, en je kan niet automatisch' gebruik van de scanner.De volgende kleine hamer /H een scan van een script pagina 's en de productie van elke afzonderlijke documenten in de vorm van draagbare anymap heet het scannen, n,,,,,,, ik $(e.v. - formaat =% 003 1 150); voorbereiding en enter lees ik $ECHO' scanimage - apparatuur en' brother2:bus1; Dev1 en' - formaat - model en&#pnM 39; de echte grijze' resolutie van 300 - 90 - 0 X 210 y 200 helderheid 20 tegen 15 > - i.pnm dollar,,,, aanpassing, scanimage parameters, afhankelijk van uw scanner vinden om het model (De naam van die apparatuur kan worden gebruikt, scanimage L, het vinden van een bepaalde optie, scanimage - helpen - apparatuur, uitrusting,,).Bovendien, de aanpassing van parameters, - l, (links), - ton (boven), - - - - - (op bladzijde rechts boven in de hoek van de coördinaten).Probeer dit boek in een mogelijk gebruik van deze parameters voor de definitie van een tekst, in plaats van bindende of grens rechthoekige manier.Niet' hoeft zich geen zorgen te maken over de bladzijden; je kan stoppen met weinig inspanningen na.,,,, je kan niet met eenparigheid van stemmen of - locatie in de hoek is de schaduw.Als je deze beelden OCR programma zou je' niet de precieze resultaten hoe goed OCR motor kan.Maar je kan unpaper besteld voor de toepassing van de OCR magische beelden, waardoor de tekst nauwkeuriger identificatie.Als je in de juiste richting de pagina 's aan de rechterkant... Kun je de standaardinstellingen unpaper; anders, je kan met behulp van een aantal praktische en' veel opties.Bijvoorbeeld, de pre - 90, tegen de wijzers van de klok in beeld.Je kan ook zeggen dat unpaper twee pagina 's is een beeld.Details. Blz.De volgende script voor optimalisering van unpaper scan OCR eigenschappen:,,,,,, ik heb $(e.v. - formaat =% 003 1 150 pagina 's); ik unpaper scan ECHO voorbereiding van $i.pnm unpapered zal ik unpapered dollar i.pnm klaar i.tif & en AMP; rm unpapered tot i.pnm doen,,,, moet je de scan. PnM dossier omdat ik al de beste OCR instrumenten moeten TIFF - formaat in de,,,,,,,, in vergelijking met de OCR instrument, en nu is het belangrijkste deel: automatische erkenning.Vele andere open source - instrument kan worden voor deze klus, maar ik vond de selectie en test van de meest fundamentele' geen bevredigende resultaten opleveren.Dit is niet van een representatieve enquête, maar het is duidelijk dat sommige van de open source - instrumenten doen het beter dan de anderen.,,,,, ik heb een klein voorbeeld uit Duitsland, en M 'n vrouw en', opa.De cijfers tonen aan dat de oorspronkelijke tekst aan de rechterkant.Dit' vermindering van de oorspronkelijke 300 DPI - versie van me in een OCR programma,,,,,, gocr leiden tot de volgende resultaten:,,,,, we _einer __leute hoed van hem njcht ongeveer _3meg.Menc_al fra_e e _jch, w e der maulbeerba_ _ es de derde. Ejne aprikose is Dr. H vjel liever een nobele kleren m3cht.,,,,,, ocrad bepaalt:,, ik ben het, ze zijn niet in de _ime_ _leute hoed.Fusies en overnames ograve; nchmal vroeg me dat -, nano - elektronica der maulbeerbaum es ist.Een in een multi - rpyik_e liever nobele kleren nvcht.,,,, ik, ik ben een tesseract OCR optie kiezen, en het Duitse woord database, die luidt als volgt:,,,, ja.Mijn hoed is landsleute die niet in de herinnering.Soms vroeg ik, gewoon water maulbeerbaum es ist der rum.Een in een multi - aprikose groenten liever nobele kleren.,,,, drie, de tesseract OCR werken het beste, maar een verkeerde interpretatie van de eerste rij: het in een periode van komma 's.Dus, ik heb mijn keuze gemaakt instrument de tesseract OCR.Het script, en wordt toegepast op elke pagina 's):,,,,,, ik heb $(e.v. - formaat =% 003 1 150); ECHO doen voor $i.tif OCR blz. Ik - - ik - - - - van meer dan $meer dan $ik,,,,, is het Resultaat van een proces van elke vertegenwoordiger van de tekst van de documenten en een website.,,,,,, allemaal samen, als je een geconsolideerd document, je' om het schrappen van de bladzijden, bestaat nog steeds in je dossier.Als ze' heroriëntering van boven de tekst van elk artikel, kan je de eerste regel van de tekst, de tesseract OCR productie:,,,,,, ik heb $(e.v. - formaat =% 003 1 150); de staart de n + 2 - meer tot de huidige tekst van de Amerikaanse dollar, >,,, als ze de volgende tekst, maar met de hoofd - n - 1, in de bovenstaande scenario 's in plaats van de n + 2 - regel, de staart,.Dit maakt het script het schrappen van de laatste zin van en het is niet de eerste keer.,,,, tot slot, de tekst met de kat * txt > complete.txt, het creëren van een groot dossier, met inbegrip van Je boek.De volledige tekst van de documenten voor de opmaak en de unhyphenate met streepjes en een lege string - elke combinatie optreedt.Je kan ook de schrapping van onnodige regels van oorsprong.In de definitie van gedit, je kan je eigen instrumenten, zodat ze kunnen worden door middel van het toetsenbord.Mijn definitie van de volgende instrumenten van de huidige keuze:,,,,,, #!Versie van de ruimte worden bin //SH&#tr en' n en' en' en'&#slechts een ruimte van karakter en een SED' S /[] [niet] {2}:: ///////&#en 39;,,,, en zo, je kan kiezen wat lijnen en volgens de definitie van je weg te zijn.De keuze van een,,, je hebt nu een groot bestand, vertegenwoordigers van de inhoud van het boek.Het hele dossier te lezen kan weer vinden waardoor alle typefouten, ga dan naar het creëren van een professionele latex portable document format dossiers van uw tekst, de scan.




Previous:
Next Page: