tika - udvinding af tekst dokument

, er angivet nedenfor, er programmet til at udvinde indhold og metadata fra en tekst, dokument, import java.io.file; import java.io.fileinputstream; import java.io.ioexception; import org.apache.tika.exception.tikaexception; import org.apache.tika.metadata.metadata; import org.apache.tika.parser.parsecontext; import org.apache.tika.sax.bodycontenthandler; import org.apache.tika.parser.txt.txtparser; import org.xml.sax.saxexception; offentlige klasse textparser {offentlige statisk tomrum vigtigste (sidste snor [] args) kaster ioexception, saxexception, tikaexception (//påvisning af filen type bodycontenthandler kontaktperson = nye bodycontenthandler(); metadata metadata = nye metadata(); fileinputstream inputstream = nye fileinputstream (ny database (f.eks. txt "); parsecontext pcontext = nye parsecontext(); //tekst dokument parser txtparser textparser = nye txtparser(); textparser. analysere (inputstream, kontaktperson, metadata, pcontext) system. println (" indholdet af dokumentet: "+ kontaktperson. tostring()); system. println (" metadata af dokumentet: "); snor [] metadatanames = metadata. names(); (string navn: metadatanames) (system. println (navn +": "+ metadata. kom (navn)}}}, medmindre ovennævnte kode, som textparser - og samler det fra kommandoen omgående ved hjælp af følgende kommandoer:, javac textparser.java java textparser under givet er snappet, skudt af.. txt dokument, er teksten dokument har følgende egenskaber:,, efter udførelsen af ovennævnte program, du vil få følgende output.,, output:,, indholdet af dokumentet, på tutorialspoint.com stræber vi hårdt for at give kvalitet tutorials for selvlæring formål inden for akademikere, informationsteknologi, forvaltning og programmeringssprog. den indsats, der blev indledt af mohtashim, et amu - elever, der er stifter og direktør for tutorials litra i) pvt. ltd. han kom op med det websted, tutorialspoint.com i år 2006 ved hjælp af håndplukkede freelancere, med en række tutorials for programmeringssprog., metadata af dokument: indholdskodning: windows-1252 content type: tekst /plai. charset = windows-1252,

Simple Document
Document Properties



Previous:
Next Page: