Den papirløse kontor: om å bekjempe rot eller lagre skogene, har det vært drømmen for mange en datamaskin bruker helt siden den første elektroniske registreringen av, vel, sannsynligvis noe. Men det gjenstår unnvikende, på ingen liten del fordi uansett hva dine personlige intensjoner, du bare ikke kan kontrollere handlingene til andre mennesker, og mange bedrifter i dag fortsatt insisterer på å sende deg utskrevne regninger og kvitteringer. Du kan i det minste dispensere med arkivskap, men ved scanning i dokumentene du trenger som søkbare, fulltekst PDF-filer. Fyr opp skanneren og helg.
Klart, du kan Det er der optisk tegngjenkjenning (OCR) kommer i. OCR gjenkjenner bokstav i det skannede dokumentet image og utganger selve teksten, som er nettopp det vi er ute etter. Men i stedet for å kjøre en kommandolinje OCR program på hver skannet bilde og produsere en .txt-fil, er det bedre å kombinere de to til ett enkelt dokument, og forhåpentligvis en enkelt trinn. Det er hensikten med gscan2pdf, en lett GUI program som har en innebygd SANE skanner grensesnitt, en OCR-motor, og Selge evnen til å skrive PDF-dokumenter som embed den OCRed tekst og bruke det skannede bildet som bakgrunn for bedre lesbarhet. Du kan hente den nyeste gscan2pdf build fra prosjektets nettsted, inkludert tjære arkiver og RPM-pakker. Hvis du bruker en Debian-basert distro (inkludert Ubuntu), er det allerede tilgjengelig via pakkebehandleren (og det er nok verdt å sjekke etter i andre desktop distribusjoner i tillegg). Hvis du installerer fra kilde, trenger du SANE biblioteker, Perl, ImageMagick, og noen få andre vanlige pakker. De eneste avhengig du kanskje ikke allerede har installert er OCR-motorer: GOCR, Tesseract, kileskrift, støtte pakken Unpaper, og DjVu bildeformat bibliotek. Unpaper er en post-prosessor som renser opp skanner for bedre OCR ytelse, og DjVu er et alternativ bilde output format som, i likhet PDF, bevarer både tekst og bilder. Når du starter gscan2pdf de fleste av hovedvinduet er tatt opp av en forhåndsvisning panel med to kategorier: " Bilde " og ". OCR Output " Ned til venstre er en miniatyrrute som vil tillate deg å bla mellom de enkelte sidene når du skanner dem. Den grunnleggende arbeidsflyten er enkel: Klikk på " scan " ikonet på verktøylinjen, som åpner opp den flytende skannervinduet. Hvis du tilfeldigvis har flere skannere festet, velge den rette fra Device rullegardin velgeren. Det er sju kategorier av kontroller og alternativer du kan konfigurere, men på et punkt kan du bare slå den " Scan " knappen nederst, og gscan2pdf vil skanne i den gjeldende siden, kjøre OCR på den, og skyv den inn i listen over sider i miniatyrleseren. Skanningen vinduet holder åpent, så når du får dine innstillinger rett, kan du skanne side etter side uten grensesnittet forsvinner eller på annen måte å komme i veien. Derimot, hvis du har mange sider å skanne i en app som XSane, må du stoppe og lagre hver enkelt for å fortsette. De fleste av mental energi du expend i løpet av denne prosessen er i å få skannerinnstillingene riktig. &Quot; Scan Mode " Kategorien eksponerer hver skannerfunksjonen maskinvaren din støtter, men i min erfaring er det ikke tar spesielt nyttige mislighold rett ut av startblokken. Skanneoppløsning, for eksempel, burde settes til 200 eller høyere, og du vil nesten helt sikkert vil enten farge eller gråtoner bildemodus. Enten lysstyrke, skarphet, og de ulike fargekorrigering forbedre resultatene dine er en toss-up; du kan sikkert få bedre ser bilder ved å tukle med innstillingene, men med mindre dokumentet du skanner må være perfekt og arkiv-kvalitet for noen juridisk grunn, er det virkelige målet å få bedre OCR resultater (og i juridisk sak, du bør nok spare papir opprinnelige uansett ...) Jeg hadde problemer med å få ". Preview " tab for å jobbe, og " Ekstrautstyr " Kategorien gir deg tilgang til film og åpenhet skannerfunksjoner, som ikke er bruken tilfelle vi beskriver her, men det lar deg også velge en ekstern dokumentmater hvis du har en. . Men først og fremst er gode resultater kommer til å komme fra å få en kvalitet scan, og velge riktig OCR-motoren Du velger OCR-motoren fra " Post-prosessering " delen av " Page Options " tab. Blant de anbefalte motorer, fant jeg Tesseract å gi de beste resultatene, men det er verdt å kjøre flere prøver for å være sikker: Jeg er sikker på at ulike typer dokumenter er sannsynlig å fare bedre under forskjellige OCR algoritmer. &Quot; Rydd opp bilder " alternativet kan du angi Unpaper funksjoner, for eksempel å filtrere ut solide blokker av farge, ignorerer grenser, og automatisk de-forvrenger bildet. Deskewing kan ha en dramatisk effekt, men i mine tester kunne Unpaper bare rette en viss skjevhet, utover som fikk det forvirret, og det gjorde ikke håndtere godt med sider ved hjelp av en masse på innrykk. Beste råd: prøv å ha en stødig hånd når du lukker skannerlokket OCR er aldri perfekt, og du kan åpne en innebygd editor for teksten i noen. sides " OCR Output " tab. Når du er fornøyd med innholdet, hit " Lagre " fra verktøylinjen eller Fil-menyen. Dette bringer opp et mellomledd fil-format dialogboksen snarere enn vanlig GNOME " Lagre fil " vindu, noe som kan være forvirrende i begynnelsen. Selv om du kan lagre skanningen som en flat bildefil (TIFF, PNG, etc.), de eneste formater som bevarer OCR tekst og det skannede bildet er PDF og DjVu. Du kan også lagre arbeidet ditt som en " gscan2pdf session " for senere gjenopptakelse. DjVu, for de som ikke kjenner, er et åpent format dedikert til skannede dokumenter. Det opprettholder separate tekst og bakgrunn bildelag, og kan oppnå en høy komprimeringsnivå på god kvalitet takket være noen smarte koding teknikker. PDF er et format mer vid støtte blant programmene, skjønt, så det er det foretrukne valget. Merkelig nok, vil gscan2pdf eksportere et skannet bilde til Postscript-fil format, men da det bygger bildet som en TIFF-fil, men gjør ikke Uten tvil den beste egenskap av gscan2pdf dokumentbesparende prosessen er at du kan bruke den til å lage flersidige PDF-filer. Når du skanner sider, " Page Options " Kategorien har en funksjon som tall hver påfølgende scan som neste side i et sammensatt dokument. I samme kategori kan du merke sider som tosidig. Disse funksjonene sammen tillate gscan2pdf å skrive flersidige PDF-filer som en moderne PDF-leser som Evince kan vise, søk, og side-trinn gjennom akkurat som resultatet av en high-end DTP program. Gscan2pdf har sine quirks. En venn av meg beklaget nylig at han ikke kunne få programmet til å produsere kvalitets skanne bilder, og bemerker at hver side var visuelt skjevt, som et parallellogram. Dessverre er den slags feil mest sannsynlig å være et SANE problem, og siden SANE bruker forskjellige back-ender for ulike skanner familier, kan det være vanskelig å spore opp. Du må også gå inn i prosessen fullt klar over hva OCR kan og ikke kan produsere. Det er en ufullkommen vitenskap, og du vil Du har andre alternativer for å konvertere papirdokumenter til OCR 'ed digitale filer, også. Kooka, for eksempel, lar deg utføre OCR i tillegg til skanning, men den mangler de automatiserte utgang og PDF-generasjons funksjoner som gjør gscan2pdf så enkel å bruke. Søk på.
bare skanne alt og lagre dokumenter som TIFF eller JPEG-filer. Linux har solid støtte for USB-skannere (selv alt-i-ett skriver /faks /skanne enheter og de med ark-brett eller andre vedlegg) takket være SANE prosjektet. Det er heller ingen mangel på kvalitet skanneprogrammer, som Kooka, XSane, eller Simple Scan. Men med bilder alene du mister muligheten til å søke på tekstinnholdet i dokumentene – og husk, du kan ikke bare søke innenfor et bestemt dokument, men bruker GNU verktøy til å søke gjennom hele dokumentsamlingen.
Installere det, Firing it Up
Makin 'kopier
synes å inkludere OCR teksten. Jeg har fortsatt ikke funnet ut hva som skjer der.
Scanner Beware
må lese gjennom hver side av teksten for å rette tegngjenkjenningsfeil. Gscan2pdf ikke har en innebygd stavekontroll, som er en kaste opp på sin hjelpsomhet. Ja, det kan være fint å ha en stavekontroll alternativ (for eksempel for å ta dine egne skrivefeil når du gjør korreksjoner), men sannheten er at OCR produserer et helt annet sett av karakter-substitusjons feil enn mennesker gjør når du skriver, slik at en automatisk stavekontroll basert på ispell, aspell eller andre åpen kildekode-motorer vil være mer forverring enn assistent. Det ville flagg dusinvis og dusinvis av feil, men ville ikke være noe hjelp å komme med forslag, fordi feilene stammer fra den visuelle likheten av tegn, ikke keyboarding eller staving problemer.