Bruk antiword å trekke ut tekst fra .doc files

Jeg vet hva du tenker: "Hvorfor ikke bare bruke Openoffice til å få teksten du trenger" Det er en god grunn. Hvis du noen gang har brukt en tekstbehandler for å få rå tekst fra en annen vet du at formateringen blir ofte liggende igjen. Slutten av linjen tegn, etc kan være å gjøre klippe og lime tekst fra en kilde til en annen et problem (spesielt når du går fra en .doc-fil til en html-sluttpunkt.) Dette har ført meg masse problemer når jeg har skrevet artikler off-line som skal limes inn, sier ghacks. Jeg har sett formatering strenger etterlatt bare til å gå tilbake og slette dem.

Når trekke ut tekst med et verktøy som antiword du ikke har dette problemet. Og selv om antiword er et kommandolinje eneste verktøyet, er det ikke komplisert å installere eller bruke. Med dette verktøyet kan du enten trekke ut teksten umiddelbart til standard utgang (terminalvinduet) eller du kan pakke ut til en tekst. Begge metodene er enkle, begge er effektive

Installere antiword

Installasjonen av antiword kan gjøres på to måter:. Kommandolinje eller GUI. Hvis du ønsker å bruke GUI brann opp din legg til /fjern programvare verktøyet, gjør et søk etter antiword velger resultatene, og klikk Bruk. Du vil også være lurt å installere catdoc også, som kan installeres med samme metode

Hvis du er delvis til kommandolinjen du kan åpne opp en konsoll og sende en kommando som ligner.
< p> sudo apt-get install antiword catdoc

yum install antiword catdoc

En av de som er sikker på å installere programmene på maskinen din.

antiword [ALTERNATIVER] file.doc:

Nå, hvordan er dette verktøyet

Grunnleggende bruk

Den grunnleggende strukturen i antiword kommandoen er brukt?

Når kommandostrukturen ovenfor brukes vil du se teksten fra .doc-fil bla forbi i konsollen vinduet. Alternativene er ikke mange, men er nyttig:

-a [PAPIR] Produksjonen i Adobe PDF-format. Du må spesifisere paper for dokumentet. Gyldige papersizes er: A3, A4, A5, B4, B5, executive, folio, juridiske, brev, notat, Quarto, uttalelser eller tabloid

-f Output i formatert tekstform.. Dette vil skrive fet tekst som * fet *, kursiv
som /kursiv /, og underlinedtext som _understreket_.

-i dette definerer bildet nivå. 0 = bruker ikke-standard Ghostscript- utvidelser. 1 = Ingen bilder. 2 = Postscript-nivå 2. 3 = Postscript Level 3.

-m Hvilke unicode tilordningsfilen å bruke. . Du finner en oversikt over tilgjengelige kart filer i /usr /share /antiword

Så for å se teksten fra file.doc du ville gi kommandoen:

antiword -f file.doc

som ville raskt bla innholdet av filen i konsollen vinduet. Ikke mye hjelp hvis du ikke trenger å kopiere og forbi den siste bit - eller du kan maksimere konsollen for å se hele teksten. I stedet kan du katt teksten til en fil som så:

antiword -f file.doc > file.txt

Denne teksten kan nå sees med følgende kommando:

mindre file.txt

PDF format

La oss si at du ønsker å eksportere tekst fra et .doc dokument til en PDF-dokument. Tro det eller ei dette er enkelt, så vel. For dette trenger du -p
alternativ sammen med størrelsen tilhørende papir. Så la oss si at vi ønsker å eksportere dokumentet til et brev størrelse PDF-dokument. For å gjøre dette problemet kommandoen:

antiword -p brev file.doc > file.pdf

Du kan kjøre inn i kartleggingsspørsmål her. Hvis du gjør det mest sannsynlig at du trenger å fortelle antiword å bruke 8859-1 kartlegging med følgende kommando:

antiword -m 8859-1 -p file.doc > file.doc

file.doc filen vil være et lesbart PDF-dokument, kan du nå bruke.

Final Thoughts

Selvfølgelig er dette bare "bare bones "av antiword. Ved hjelp av denne kommandoen og andre du virkelig være kreativ og sette opp automatiske utvinning scripts og mye mer. Hvis du gjør mye lime inn i formater som ikke kan håndtere vogn returnes eller slutten av linjen merker, er antiword den perfekte løsningen for deg.