projekt gutenberg - og du: anvendelse af open source, til at bidrage til, at pg

, michael. hart døde i begyndelsen af september &mdash, du måske ikke kender hans navn, men du kender hans arbejde.hart baseret projekt gutenberg, den ældste og bedste gratis e - bogslæser bibliotek i verden, hjem til titusinder af titler på mange sprog, som alle har bidraget med frivillige.projekt gutenberg - uden tvivl vil fortsætte med at blomstre, men som en hyldest til hart, lad ' se gratis software, du kan bruge til at deltage, fra scanning i en gammel bog, at projektet ' s løbende korrekturlæsning og formatering arbejde og mdash; og deling af pg bøger med andre.,, ligesom en opfyldning, projekt gutenberg ' s (pg) ebook bibliotek består af værker, der er ude i offentligheden i de forenede stater (hvor pg er baseret på).med et par særlige undtagelser, at offentligt status betyder, at de tidligere har været offentliggjort for længe siden, og pg kræver, at nye ebook angivelser være " ryddet " — som regel ved at kontrollere den dato, en rigtig gammel kopi af bogen i spørgsmål. den praktiske betyder, at pg titler, stammer alle som scanninger af gamle, trykt mængder, som så bliver kørt igennem til optisk tegngenkendelse (ocr) til at konvertere de billeder til tekst og menneskelige korrekturlæsning, formatering, oveni, og i nogle afsnit, oversættelse.som de kan forestille dem, der kræver en masse software.,, ocr: undervisning edb - at læse, er altid en vanskelig ocr forslag: det kræver computervision naturligt sprog, og en række andre discipliner arbejder sammen for at vælge breve fra et billede fil med en grad af pålidelighed.der er flere af åbne ocr motorer, der er konstrueret til at fungere enten som biblioteker eller cli værktøj.i praksis, vil du ønsker at scanne billeder fra en bog med en gui værktøj (korrekt eksponering, tilpasning, og alt andet visuelt identificerbare), der kan ringe på en af cli ocr ansøgninger til at udføre teksten omstilling.,, den nuværende bedste race ocr motor er tesserakten, som blev oprettet på hp og så givet til google, der overgår det som åben kilde i 2008.de bygger har tilføjet flere manuskripter og sprog til corpus, hvad tesserakten kan genkende og bedre støtte til mere image filformater.andre motorer, du måske ønsker at installere omfatter kileskrift, ocrad, og gocr.det er nok en god ide at installere alle de motorer, som din distro ' s pakke forvaltningssystem, og de kan variere i resultaterne fra udkast til tekst (eller skrifttype til skrifttype).hvis du har dem alle installerede du kan behandle et par test sider, inden vi parti over store dele af en bog, som for meget avancerede og - software, ocrfeeder er et sted at starte.en gtk + - baseret på anvendelse, kan den scanning, direkte fra en scanner, eller import billeder du scannet i en app (f.eks. skanlite, xsane, eller blot en scanning).ocrfeeder kan benytte alle de ocr tilbage ender, nævnt ovenfor, og kan endda gøre dokument layout anerkendelse, som er nødvendige for flere kolonne tekster og bøger med illustrationer.,, når teksten er i en mening i det, selv hvis din ocr output er 99% korrekt, et menneske skal korrekturlæse elektronisk kopi af teksten for at finde, hvor det besværlige én procent er skjult, og ordner det.- har i to hovedretninger, gør det alene metode og kurateret fordelt korrekturlæsere (dp) - projektet.dp bestemt er mere stringent og tegner sig for en stor del af pg ' nye ebooks, men af hensyn til sammenligning, lad ' s overveje både &mdash, korrekturlæsning og - foranstaltninger kan være vigtig for alle ebook projekt arbejder du på, pg bundet eller private.,, hvis du tager gør det alene rute, skal de beviser deres tekst, både for interne stavning og afstand problem (i det mindste i den slags fremavlet af ocr. man bør ikke forsøge at modernisere stavemåde af en gammel bog).at trække teksten til tekstbehandling (eller tekst, redaktør) med stavekontrol for det pågældende sprog er en god idé, men pg fans har også udviklet et ocr specifikke kontrol - program kaldet gutcheck, som kan være et bedre valg for deres first - pass.ocr har tendens til at gøre forskellige fejl end menneskers maskinskrivere, tekstbehandlingsanlæg og' stavekontrol ofte ikke fange dem. en af pg ' principper er, at bøger bedst kan bevares ved hjælp af de enkleste, mest forenelig filformater til rådighed, så alle titler, stilles til rådighed som almindelig ascii - tekst (eller i en passende simpelt kodning, der fanger korrekt accent mærker, hvis ascii - ikke).men de fleste læsere foretrækker at bruge html.mange tekst redaktører kan produktion blot formaterede tekst som html med nul indsats, men hvis den besynderlige formatering af din bog er det et problem, kan du bruge en ebook redaktør vartegn for at rydde op i produktionen.,, pg anbefaler også, at alle html gennem de officielle w3c html validatoren at finde fejl.du kan også bruge gutenmark (en cli app) eller den grafiske front end guitenmark til at omdanne deres ebook fra almindelig tekst til pænt formateret. html.,, disse skridt og give dem en idé om, hvad der skal til for at få en tekst om optagelse i pg bibliotek, men en langt bedre tilgang end at gøre det hele selv er at deltage i distribuerede korrekturlæsere proces, der udnytter et stort fællesskab af dedikerede frivillige og har alle problemerne i den forbindelse udjævnes.dp bryder korrekturlæsning og korrektionsproces i diskret " runder, ", og giver en glat webbaseret værktøj til frivillige til at gøre dem en side ad gangen.,, en frivillig direktør overvåger hver bog - projektet, sikre konsekvens.dp har beskyttelse og formatering vejledninger for de frivillige.udviklingspartnerskabet lokalitet har detaljerede instruktioner om, hvordan at komme i gang, kan du få en god fornemmelse for arbejdsgangen ved læsning af fao og begynder at signalere fejl som et ikke - registreret ", glat læser. ",, men hvor er bøgerne fra?,, alle tekniske spørgsmål til side, bliver en ny bog godkendt til optagelse i pg bibliotek eller dp - projektet er en vigtig del af den proces, der ikke kan være hastet igennem.det er vigtigt, at begge projekter, som kvalitetskontrol følges for at kontrollere ophavsret status af bog projekter, og for at sikre, at to mennesker ikke identiske projekter til at digitalisere samme titel. begge disse projekter giver retningslinjer for at hjælpe.du kan sagtens finde en bogtitel og sørge for, at det ikke er allerede i biblioteket, men hvis det ikke er det, bør du stadig kontakt med projektet at indlede ophavsret (og de overlapninger) godkendelsesproces, før du begynder.pg forklarer sine regler og giver oplysninger om sin ophavsret til side og forbindelser til et onlineværktøj til at hjælpe dig at kontrollere en bog og' s ophavsret status.dp har også en god landing side om, hvordan du skal fortsætte med at foreslå en ny bog projekt. det kaldes indholdsudbyderen ' s faq.,, david ' i fremskridt over holder styr på den igangværende bog projekter, som gør det let at kontrollere deres forslag mod programmer, der ikke er endnu i biblioteket.dp har også en liste over delvist færdige bøger, der mangler sider &mdash. hvis du har en kopi, og kan give en ct - scanning eller tekst til den side, du kan hjælpe meget.endelig, dp driver en web diskussionsforum om indhold, indkøb, som er et godt sted at få de mest ajourførte oplysninger og hente tips om, hvordan vi skal komme videre.,, men vent der ' mere!projektet har været gutenberg, en imponerende samling af litteratur, en masse, som i stigende grad er svære at finde på tryk.men dens indflydelse rækker videre end det, med det, der har skabt andre projekter, der også fremmer læse - og åben adgang til indhold.måske finder du en af dem, at frivilligt arbejde på såvel.,, pg har en officiel indsats for at brænde og distribuere periodiske ebook samlinger på cd - og dvd - medier, for at hjælpe dem, der ikke har permanent adgang til internettet.der er en særskilt pg bestræbelser i gang for at digitalisere noder — for det meste klassisk kammermusik, men en række forskellige stilarter og komponister.der er en masse overlapning med pg ebook metoder, men musikken har sine egne særlige udfordringer, frivillige forsøgspersoner med musikalsk ekspertise er stor efterspørgsel efter.,, en nær slægtning til pg ', s ebook bibliotek er dens lydbøger indsats.der er adskillige kilder til lydoptagelser, navnlig librivox projekt, hvor menneskers frivillige register fungerer i deres egen stemme.et stykke tid var også, at edb - pg optagelser, men på grund af en sort eller tekniske problemer, og de er sjældent så godt som et menneske.indsamling af pg lydbøger, er langt mindre end de elektroniske tekst bibliotek, så hjælp er værdsat. og endelig er det vigtigt at huske, at pg er baseret i usa og fokuserer sin indsats på værker, der er offentligt i denne kompetence.andre lande har forskellige love om ophavsret, at ophavsretten status for de seneste internationale udgivelser vanskelige at verificere.der er nu pg tilknyttede projekter i flere andre lande, herunder canada, australien, tyskland og norge.de nationale datterselskaber projekter ofte fokus på bygge - og anlægsarbejder i modersmål (er) i regionen, foruden at overholde relevant ophavsret. og, i bredere forstand, projekt gutenberg (der blev oprettet i 1971), er noget af en forløber for mange af de åbne data, projekter, som er populær i dag og mdash; wikipedia, internettet, arkiv, openstreetmap osv. de tager folk købte, frivillig drevet model, som hart gjort populært, og bruger det til at give fri adgang til information for alle.at ' er en god arv.



Previous:
Next Page: