- tika - udvinding

, er angivet nedenfor, er programmet til at udvinde indhold og metadata fra en pdf., import java.io.file; import java.io.fileinputstream; import java.io.ioexception; import org.apache.tika.exception.tikaexception; import org.apache.tika.metadata.metadata; import org.apache.tika.parser.parsecontext; import org.apache.tika.parser.pdf.pdfparser; import org.apache.tika.sax.bodycontenthandler; import org.xml.sax.saxexception; offentlige klasse pdfparse {offentlige statisk tomrum vigtigste (sidste snor [] args) gør ioexception, tikaexception {bodycontenthandler kontaktperson = nye bodycontenthandler(); metadata metadata = nye metadata(); fileinputstream inputstream = nye fileinputstream (ny database (f.eks. pdf "); parsecontext pcontext = nye parsecontext(); //parsing dokumentet med pdf parser pdfparser pdfparser = nye pdfparser(); pdfparser. analysere (inputstream, kontaktperson, metadata, pcontext); //bliver indholdet af dokumentet system. println ("indholdet i de pdf:" + kontaktperson. tostring()); //at metadata i dokumentet system. println ("metadata i de pdf:"); snor [] metadatanames = metadata. names(); (string navn: metadatanames) (system. println (navn + ":" + metadata. kom (navn)}}}, medmindre ovennævnte kode som, pdfparse - og udarbejde det fra kommandoen omgående ved hjælp af følgende kommandoer:, javac pdfparse.java java pdfparse under given er et øjebliksbillede af example.pdf dokument:,, pdf - dokument har følgende egenskaber:,, efter udførelsen af ovennævnte program, får man følgende output, output:,, indhold i de pdf: apache tika er en ramme for content type påvisning og indhold, som er designet af apache udvinding software - fonden.det opdager og ekstrakter metadata og struktureret tekst indhold fra forskellige typer af dokumenter, som f.eks. regneark, tekst - dokumenter, billeder eller pdfs herunder lyd eller billede inputformater til vis grad.metadata i de pdf: dcterms: modificerede: 2014-09-28t12:31:16z meta: oprettelsesdato: 2014-09-28t12:31:16z meta: redde dato: 2014-09-28t12:31:16z dc: skaber: krishna kasyap pdf: pdfversion: 1,5 senest ændret: 2014-09-28t12:31:16z forfatter: krishna kasyap dcterms: oprettet: 2014-09-28t12:31:16z dato: 2014-09-28t12:31:16z modificerede: 2014-09-28t12:31:16z skaber: krishna kasyap xmptpg: npages: 1 oprettelsesdato: 2014-09-28t12:31:16z pdf - krypterede: falske meta: forfatter: krishna kasyap skabt: sol sep 28 05:31:16 pdt 2014 dc: format: anvendelse /pdf, version = 1,5 producent: microsoft ® ord 2013 content type: anvendelse /pdf xmp: creatortool: microsoft ® ord 2013 last-save-date: 2014-09-28t12:31:16z,

PDF Example
PDF Example1



Previous:
Next Page: