, zijn de volgende procedures: //europa.eu.int /comm /inhoud van winning en metagegevens, de invoer van java.io.file; de invoer van java.io.fileinputstream; de invoer org.apache.tika.exception.tikaexception; org.apache.tika.metadata.metadata; invoer org.apache.tika.parser.parsecontext; de invoer van org.apache.tika.parser.html.htmlparser; de invoer van org.apache.tika.sax.bodycontenthandler; de invoer van org.xml.sax.saxexception; openbare HtmlParser {openbare statische leegte belangrijkste (laatste touwtje [...] dringt erop gegooid ioexception, saxexception), tikaexception (//soorten keuringsdocumenten bodycontenthandler processor = nieuwe bodycontenthandler (); - = nieuwe metagegevens (input);- = nieuwe fileinputstream (nieuwe documenten ("voorbeeld. Http: //europa.eu.int)); parsecontext pContext = nieuwe parsecontext (); de partners htmlparser: //europa.eu.int /comm ////////htmlparser = nieuwe htmlparser (); HtmlParser. Analytische (Port, verwerking, metagegevens, PCONTEXT); Het systeem. Uit de leegte fac (". De inhoud van het document: "+ begeleider. Tostring ()); van de inbreng van het systeem (" - documenten: "); akkoord [] = - metadatanames. Names (); voor (naam: metadatanames) {systeem. Leegte fac (naam +": "+ metagegevens. (naam));}}}, zal meer de code is htmlparse. Java - opstelling van het commando, en gebruik van de volgende beschikking gegeven: Java, htmlparse.java HtmlParser opgenomen, de volgende voorbeelden van H momentopname.Tmi documenten: //europa.eu.int /comm /.,, met de volgende eigenschappen: de uitvoering van de programma 's, boven, en je krijgt de volgende produktie, de produktie van:,,, de inhoud van het document: naam van de leeftijd van 20 Hussein lonen ramesh Raman 50000 50000 70000 25 van de 30 De Raman somesh 50000 35 - dossier: de titel: http: //europa.eu.int - code: windows-1252 inhoud inhoud type: firewall; charset = windows-1252 dc: titel: http: //europa.eu.int formulier titel.
Tika winning: //europa.eu.int /comm /
Previous:Uit de tekst van documenten