Project Gutenberg og du: Bruke Open Source å bidra til PG

Michael S. Hart gikk bort i begynnelsen av september – du kanskje ikke vet navnet hans, men du sikkert vet sitt arbeid. Hart grunnla Project Gutenberg, den eldste og kanskje den beste gratis e-bok biblioteket i verden, hjem til titusener av titler i dusinvis av språk, som alle bidro med frivillige. Project Gutenberg er ingen tvil kommer til å fortsette å trives, men som en hyllest til Hart, la oss ta en titt på gratis programvare verktøy du kan bruke til å delta, fra skanning i en gammel bok for å hjelpe prosjektet pågående korrekturlesing og formatering arbeid – og dele PG bøker med andre.

Akkurat som et oppfriskningskurs, består Project Gutenberg-tallet (PG) ebook bibliotek av arbeidene som er ute i det offentlige rom i USA (hvor PG er basert). Med noen få merkelige unntak, betyr at public domain status de har vært tidligere utgitt for lenge siden, og PG krever at nye eBok oppføringer være " ryddet " – vanligvis ved å bekrefte datoen på en virkelig gammel kopi av den aktuelle boken.

Den praktiske endelige utfallet er at PG titler alle stamme som skanninger av gamle, trykte volumer, som deretter få kjørt gjennom optisk tegngjenkjenning (OCR) å konvertere bilder til tekst, og menneskelig korrekturlesing, formatering, markup, og på enkelte titler, oversettelse. Som du kan forestille deg, som tar mye programvare

OCR. Undervisning datamaskinen til Les

OCR er alltid et vanskelig forslag: det krever computer vision, naturlig språk, og en rekke andre disipliner som arbeider sammen for å plukke ut brev fra en bildefil med noen grad av pålitelighet. Det er flere av høy kvalitet åpne OCR-motorer, hvorav de fleste er designet for å fungere som enten biblioteker eller CLI-verktøy. I praksis vil du ønsker å skanne bilder fra en bok ved hjelp av en GUI verktøy (for å korrigere eksponering, justering og alt annet visuelt identifiserbare) som kan ringe på en av CLI OCR programmer for å utføre tekst konvertering.
< p> Den nåværende best-of-breed OCR-motoren er Tesseract, som ble opprettet på HP og deretter gitt over til Google, som ga det ut som åpen kildekode i 2008. Nyere nybygg har lagt til flere skript og språk til corpus av hva Tesseract kan gjenkjenne, og bedre støtte for flere filformater. Andre motorer kan være lurt å installere inkludere kileskrift, Ocrad, og GOCR. Det er trolig en god idé å installere alle de motorene som tilbys av distro sitt pakkesystem; de kan variere i ytelse fra tekst til tekst (eller font til font). Hvis du har dem alle installert du kan behandle et par testsider før du fortsetter å batch-konvertere store deler av en bok.

Som for GUI front-end og skanneprogramvare, er OCRFeeder stedet å begynne. En GTK + -basert program, kan den skanne direkte fra en skanner, eller importere bilder du skannet i en annen app (som Skanlite, XSane, eller Simple Scan). OCRFeeder kan bruke noen av OCR tilbake ender nevnt ovenfor, og kan selv gjøre dokument-layout-anerkjennelse, noe som er nødvendig for multi-kolonne tekster og bøker med illustrasjoner.

Når teksten er på, Making Sense Of Det

Selv om OCR produksjonen er 99% nøyaktig, må et menneske fortsatt korrekturlese elektronisk kopi av teksten å finne hvor
den brysomme én prosent gjemmer seg, og fikse det. PG har to hovedtilnærminger, den går-det-alene-metoden, og kuratert Distributed Korrekturlesere (DP) prosjekt. DP er definitivt mer strenge, og står for en stor andel av PG nye ebøker, men for sammenligningens skyld, la oss vurdere både – korrekturlesing og markering trinn kunne bevise viktig for enhver ebook prosjekt du jobber på, PG-bundet eller privat.

Hvis du tar go-it-alene rute, må du bevis teksten, både for intern staving og avstand problem (minst de av den typen framsatt OCR, bør du ikke
forsøke å modernisere staving av en svært gammel bok). Trekke inn teksten i et tekstbehandlingsprogram (eller tekst editor) med stavekontroll for det aktuelle språket er en god idé, men PG fans har også utviklet en OCR-spesifikk kontroll program kalt Gutcheck som kan være et bedre valg for din første pass . OCR har en tendens til å gjøre forskjellige feil enn menneskelige typists, så tekstbehandlere 'stavekontroll ofte ikke fange dem.

En av PG prinsipper er at bøker kan best bevart ved hjelp av de enkleste og mest kompatible filformater tilgjengelig , så alle titlene er gjort tilgjengelig som ren ASCII tekst (eller i en passende enkel koding som fanger opp de riktige aksenter hvis ASCII ikke). Men de fleste leserne foretrekker å bruke HTML. Mange tekstredigeringsprogrammer kan utgang bare-formatert tekst som HTML med null innsats, men hvis den særegne formatering av boken gjør at et problem, kan du bruke en eBok editor som Sigil for å rydde opp i produksjonen.

PG også anbefaler at all HTML føres gjennom den offisielle W3C HTML Validator å finne feil. Du kan også være lurt å bruke GutenMark (en CLI app) eller dens grafisk front-end GUItenMark å konvertere din eBok fra ren tekst til pent formatert HTML.

Disse trinnene gi deg en viss idé om hva det tar å polere en tekst for inkludering i PG bibliotek, men en langt bedre tilnærming enn å gjøre alt selv, er å delta i Distributed Korrekturlesere prosessen, som utnytter et stort fellesskap av engasjerte frivillige og har alle de Kinks i prosessen glattet ut. DP bryter korrekturlesing og korrigering prosessen i diskrete " runder, " og tilbyr en sleip web-basert verktøy for frivillige til å gjøre korrektur én side om gangen.

En frivillig for oppsyn hvert bokprosjekt, som sikrer konsistens. DP har prøvetrykk og formatering guider for de frivillige. DP nettstedet har detaljerte instruksjoner om hvordan du kommer i gang; du kan få en god følelse for arbeidsflyten ved å lese FAQ og selv begynne flagging feil som en uregistrert " glatt leser ".?

Men hvor bøkene kommer fra

All teknisk problemer til side, får en ny bok som er godkjent for inkludering i PG biblioteket eller DP-prosjektet er en viktig del av prosessen som ikke kan skyndte seg gjennom. Det er viktig å både prosjekter som kvalitetskontroller følges for å verifisere opphavsrettsstatus bokprosjekter, og å sørge for at to mennesker ikke begynner identiske prosjekter for å digitalisere samme tittel.

Begge prosjektene gir retningslinjer for å hjelpe . Du kan enkelt søke etter en boktittel og sørg for at det ikke er
allerede i biblioteket, men hvis det ikke er det, bør du likevel kontakte prosjekt for å begynne opphavsretten (og de-duplisering) klaring prosessen før du begynner. PG forklarer sine regler, og gir kontaktinformasjon på sin Copyright How-to siden, og lenker til et nettbasert verktøy for å hjelpe deg å kontrollere en bok opphavsrett status. DP har også en god destinasjonsside som beskriver hvordan du bør gå frem for å foreslå et nytt bokprosjekt; det kalles innholdsleverandørens FAQ.

Davids In-Progress List holder styr på de pågående bokprosjekter, noe som gjør det enkelt å sjekke forslaget mot verk som er ikke-helt-ennå i biblioteket. DP opprettholder også en liste med delvis ferdige bøker som mangler sider – hvis du har en kopi, og kan gi en skanning eller tekst av den manglende siden, kan du hjelpe en god del. Til slutt kjører DP en web diskusjonsforum om innhold sourcing, som er et flott sted å få den mest up-to-date informasjon og plukke opp tips om hvordan du går frem.

Men vent det er mer! Anmeldelser

Project Gutenberg har samlet en utrolig samling av litteratur, mye som er stadig mer vanskelig å finne på trykk. Men dens innflytelse går lenger enn det, med krusninger som har skapt andre prosjekter også fremme leseferdighet og åpen tilgang til innholdet. Du kan finne en av dem verdt frivillig ved også.

har PG en offisiell forsøk på å brenne og distribuere periodiske eBok samlinger på CD og DVD media, for å hjelpe de som ikke har konstant tilgang til Internett. Det er en egen PG innsats i gang med å digitalisere notene – hovedsakelig klassisk kammermusikk, men en rekke ulike stiler og komponister. Det er mye overlapping med PG eBok metoder, men notene har sine egne spesielle utfordringer, så frivillige med musikalsk kompetanse er svært etterspurt.

En nær slektning til PGS eBok bibliotek er dens lydbøker innsats. Det er flere kilder for lydopptak, blant dem det LibriVox prosjektet, hvor frivillige posten fungerer i sin egen stemme. For en stund PG ble også legge datagenererte opptak, men på grunn av en rekke eller tekniske problemer, er de sjelden så god som en menneskelig stemme. Samlingen av PG lydbøker er langt mindre enn den elektroniske teksten biblioteket, så hjelp er verdsatt.

Til slutt er det viktig å huske at PG er basert i USA, og fokuserer sin innsats på verk som er public domain i den jurisdiksjonen. Andre land har ulike lover om opphavsrett, noe som gjør opphavsrettsstatus senere internasjonalt publiserte arbeider vanskelig å verifisere. Det er nå PG tilknyttet prosjekter i flere andre land, blant annet Canada, Australia, Tyskland og Norge. De nasjonale agent prosjekter ofte fokus på arbeid i morsmålet (e) i regionen, i tillegg til å følge de riktige betingelser for opphavsrett.

I en bredere forstand, er Project Gutenberg (som ble grunnlagt i 1971) noe av en forløper til mange av de åpne-data-prosjekter som er populære i dag – Wikipedia, Internet Archive, OpenStreetMap, etc. Alle tar publikum-hentet, frivillig-drevet modell som Hart gjort populært, og bruke den til å tilby fri tilgang til informasjon, for alle. Det er en ganske god arv. Anmeldelser