weekend - projektet: skabe en papirløs linux kontor

,,, det papirløse kontor: om at bekæmpe rod eller redde skovene, det har været en drøm for mange edb - bruger lige siden den første elektronisk registrering af, måske noget.men det er stadig vanskeligere, ikke mindst fordi uanset deres personlige hensigter, du kan ikke kontrollere de aktioner af andre mennesker, og mange virksomheder i dag stadig insisterer på at sende dig trykt fakturaer og kvitteringer.du kan i det mindste give afkald på arkivskabe, men i forbindelse med de dokumenter, som de har brug for som søgbare fuldtekst pdfs.tænd den skanner og weekenden.,,, det er klart, at man kunne så scanner alt og red din dokumenter som tiff eller jpeg - filer.linux er faste støtte til usb - desktop - scannere (selv totalt printer /fax /scan - udstyr og personer med blad kabler eller andre anordninger) tak til samme projekt.der er ikke mangel på kvalitet scanning ansøgninger, som kooka, xsane, eller blot en scanning.men med billeder, du mister evnen til at lede den tekst, indholdet af deres dokumenter, og mdash. og husk, du kan ikke kun søgning inden for et bestemt dokument, men anvende nationale samlingsregering værker til at gennemsøge din hele dokumentet samling.,,, at ' hvor til optisk tegngenkendelse (ocr) kommer ind i billedet.ocr erkender, letterforms i scannet dokument image og output faktiske tekst, og det er netop, hvad vi ' er efter.men i stedet for at løbe en command-line ocr program på hver scannet billede og udarbejde en. txt fil, og' bedre at kombinere de to i et enkelt dokument, og forhåbentlig et enkelt skridt.at ' formålet med gscan2pdf, en let gui ansøgning, der er indbygget en normal scanner grænseflade, et ocr motor, og evnen til at skrive pdf - dokumenter, der omfatter de ocred tekst og anvende den scannet billede som baggrund for en bedre læsbarhed.,, installation, giver den op, kan du tag den seneste gscan2pdf bygge projektet ' s hjemmeside, herunder tjære arkiver og rpm pakker.hvis du bruger en debian baseret distro (herunder ubuntu), der allerede er til rådighed gennem pakken manager (og det er nok værd at undersøge, om andre stationære fordeling).hvis du vil installere fra kilden, får du brug for den normale biblioteker, perl, imagemagick, og et par andre fælles pakker.de eneste områder, man måske ikke har allerede installeret er ocr motorer: gocr, tesserakten, kileskrift, støttepakken unpaper, og djvu billedformat bibliotek.unpaper er en post - processor, der rydder op scanninger for bedre ocr ydeevne, og djvu er et alternativt billede output - format, som pdf, bevarer både tekst og billeder.,, når du affyre gscan2pdf, de fleste af de vigtigste vindue er taget op af en forsmag panel med to tabletter: ", image " og " ocr produktion. " den er en virksomhed beskrevet rude, der vil give dem mulighed for at gennemse mellem de enkelte sider som du scanne dem.den grundlæggende arbejdsgang er enkel: klik på " scanning " ikon i toolbar, som åbner op for de flydende scanner vindue.hvis de har flere scannere, der vælger det rigtige udstyr ud fra komitéen.der er syv tabletter af kontrol og muligheder, de kan få, men ikke på noget punkt, du kan bare slå " scanning " knap på bunden, og gscan2pdf vil scanne i den aktuelle side, løb ocr på det, og lad den glide ind i den liste over sider i virksomhed beskrevet browser, den videnskabelige komité for foder. vinduet er åbent, så når du får dine indstillinger, kan du scanne side efter side uden grænseflade forsvinder eller på anden måde kommer i vejen.i modsætning hertil, hvis du har en masse sider til scanning i en app, som xsane, du er nødt til at stoppe op og spare hver en for at fortsætte.,, de fleste af de mentale energi - og' alle udgifter under denne proces, er, at scanneren indstillinger." scanning mode " regning udsætter enhver scanner træk din pistol støtter, men i min erfaring er ' t - særlig nyttig misligholdelse ud af start - block.scan beslutning, for eksempel burde fastsættes til 200 eller højere, og de vil næsten helt sikkert vil enten farve eller grayscale image tilstand.om lys, skarphed og de forskellige farver korrektion muligheder forbedre din resultater er et kast op. du kan sikkert få bedre ser billeder af pusle med de indstillinger, men medmindre det dokument, de ' er scanningen skal være fejlfrit og arkivers kvalitet til nogle juridiske grund, det virkelige mål er at få bedre resultater (ocr og den sag, du burde gemme papiret oprindelige alligevel...).,, jeg havde problemer med at få " forpremiere " regning til at arbejde, og de " ekstraudstyr " tab giver dig adgang til film og gennemsigtighed scanner karakteristika, som ikke anvendelse, hvis vi ' er at beskrive her, men det lader du vælge en ekstern arkføderen, hvis du har en.men først og fremmest gode resultater, skal komme fra en kvalitet scanning, og at vælge den rigtige ocr motor.,,, du vælger den ocr motor fra " efter forarbejdning " sektion af " side muligheder " regning.blandt de anbefalede motorer, jeg har fundet tesserakten, giver de bedste resultater, men det er værd at løbe flere prøver, for at være sikker: jeg ' m bestemte, at forskellige typer af dokumenter kan klare sig bedre under forskellige ocr algoritmer." rent billeder " valg lader dig unpaper elementer som f.eks. filtrering af faste blokke af farve, uden hensyntagen til grænser, og automatisk de fordrejede billede.deskewing kan få en dramatisk indvirkning, men jeg prøver unpaper kan kun rette en vis skævhed, hvorefter det har forvirret, og det ville ikke kunne klare det med sider med en masse på fordybninger.bedste råd: prøv at få en rolig hånd, når du lukker den skanner lid.,, at ' kopier, ocr er ikke perfekt, og du kan åbne en indbygget redaktør for teksten i s ' s " ocr output " regning.når du og' er tilfreds med indholdet, ramte " medmindre " fra toolbar eller fil menuen.dette er en formidler filformat dialog snarere end den normale gnom " medmindre fil " vindue, som kan være forvirrende på først.selv om du kan redde din scanning som et fast billede fil (tiff, men heller ikke dér er menneskene sikre osv.), den eneste produktion formater, at bevare ocr tekst og scannet billede er pdf og djvu.du kan også redde dit arbejde som " gscan2pdf samling " og senere genoptagelse.,, djvu, for disse ukendte, er et åbent format, der afsættes til scannede dokumenter.det fører separat tekst og baggrund image lag, og der kan opnås et højt niveau af god kvalitet med takket være nogle kloge indkodning teknikker.- er en mere bred format mellem ansøgninger, så det er det foretrukne valg.mærkeligt nok, gscan2pdf vil eksportere en scannet billede for efterskrift filformat, men det gør den inddrager image som et skænderi - sagen endnu ikke ud til at omfatte ocr tekst.jeg har stadig ' t regnet ud hvad ' der foregår der, muligvis det bedste træk ved gscan2pdf ' dokument at redde proces, er, at du kan bruge det til at skabe flere side pdfs.når scanning sider, " side muligheder " tab er et træk, der numre hver efterfølgende scanning som næste side i et sammensat dokument.i samme regning, du kan mærke sider som dobbelsidet.disse elementer sammen, give gscan2pdf at skrive flere side pdfs, at en moderne pdf - som viser kan vise, eftersøgnings - og side gå gennem ligesom produktionen af et eksklusivt dtp anvendelse.,, scanner pas,, gscan2pdf har sine særheder.en ven sagde for nylig, at han ikke kunne få den ansøgning om at producere kvalitet scanning billeder, bemærke, at hver side var visuelt skæv som en parallelogram.desværre er den slags fejl er mest sandsynligt, at en fornuftig problem, og da normalt anvender forskellige tilbage ender for forskellige scanner familier, det kan være svært at spore.,, du også er nødt til at gå ind i processen fuldt ud klar over hvad ocr kan og ikke kan producere.det er en uperfekt videnskab, og du vil have til at læse hver side af tekst korrekt tegngenkendelse fejl.gscan2pdf ikke har en indbygget jo, der er en kaste op på sin hjælp.ja, det kunne være rart at have en stavekontrol mulighed (f.eks. til at fange din egen slåfejl, når de foretager korrektioner), men sandheden er, at ocr producerer helt anderledes karakter substitution fejl end mennesker, når maskinskrivning, så en automatisk jo baseret på ispell, aspell eller andre open source - motorer ville være mere forværring end assistent.det ville sætte snesevis af fejl, men ville ikke være til nogen hjælp forslag, fordi de fejl skyldes visuelle lighed mellem tegn, ikke keyboarding eller stave problemer.,,, du har andre muligheder for at omdanne papirdokumenter til ocr ' ed digitale filer.kooka, for eksempel lader dem udføre ocr i tillæg til scanning, men ikke automatiseret produktion og pdf generation træk, der gør gscan2pdf så let at anvende.scan på.

Scanning with gscan2pdf
Using OCR with gscan2pdf



Previous:
Next Page: