tika - arkitektur

, applikationsniveau arkitektur af tika, anvendelsen programmører kan let integrere tika i deres ansøgninger.tika skaber en kommandolinje grænseflade, og ved at gøre det brugervenlige. i dette kapitel vil vi drøfte de fire vigtige moduler, som udgør tika arkitektur.følgende eksempel viser de arkitektur af tika sammen med sine fire moduler:,, sprog påvisning mekanisme., mime påvisning mekanisme. parser grænseflade,.,, tika facade klasse.,, sprog påvisning mekanisme, når en tekst er vedtaget dokument tika, det vil opdage det sprog, som det blev skrevet.det accepterer dokumenter uden sprog anmærkning, og tilføjer, at oplysninger i overensstemmelse med den af det dokument, ved at detektere sprog. for at støtte sprog identifikation, tika har en klasse, som hedder, sprog - id, i den pakke, org. apache. tika. sprog, et sprog, og som indeholder identifikation register i algoritmer til påvisning af et givet sprog tekst.tika internt brug n-gram algoritme for sprog, påvisning, mime påvisning mekanisme, tika kan detektere dokumenttype i henhold til mime - standarder.misligholdelse mime - påvisning i tika er færdig med org.apache.tika.mime.mimetypes.det bruger org.apache.tika.detect.detector grænseflade for de fleste af de content type afsløring, internt tika anvender flere teknikker som fil globs, content type hentydninger, magiske bytes, karakter encodings, og flere andre teknikker,.,, parser grænseflade, parser grænseflade af org.apache.tika.parser er den vigtigste grænseflade for parsing dokumenter i tika.denne grænseflade ekstrakter teksten og metadata fra et dokument og giver en oversigt over for eksterne brugere, der er villige til at skrive parser plugins. ved hjælp af forskellige konkrete parser klasser, der er specifikke for de enkelte dokumenttyper, tika støtter en masse dokumentformater.disse format specifikke klasser, yde støtte til forskellige dokumentformater, enten ved direkte at gennemføre parser logik eller ved hjælp af eksterne parser biblioteker. tika facade klasse ved hjælp af tika facade klasse er den mest enkle og direkte måde at kalde tika fra java, og det følger facaden bestemt mønster.kan du finde tika facade, klasse i org.apache.tika pakke af tika api. ved at gennemføre grundlæggende anvendelse tilfælde tika optræder som formidler af landskabet.det abstracts de underliggende kompleksiteten af tika biblioteket som mime påvisning mekanisme, parser grænseflade og sprog påvisning mekanisme, og giver brugerne en enkelt grænseflade til brug., træk i tika,,,, fælles parser interface, der sammenfatter alle: tika tredjemand parser biblioteker inden for en enkelt parser grænseflade.på grund af denne funktion, brugeren flygter fra byrden af udvælgelsen af egnede parser bibliotek og bruge det i henhold til den fil, type osv.,,,, lav hukommelse brug: tika forbruger mindre hukommelse ressourcer, det er derfor let indlejret i java - applikationer.vi kan også bruge tika i anvendelse, der kører på platforme med færre ressourcer som mobile pda.,,,, hurtig behandling,: hurtig indhold påvisning og ekstraktion fra ansøgninger kan forventes,.,,,, fleksible metadata: tika forstår alle de metadata, modeller, der anvendes til at beskrive filer.,,,, parser integration: tika kan anvende forskellige parser biblioteker, der er til rådighed for hver dokumenttype i en enkelt ansøgning,.,,,, mime - påvisning,: tika kan spore og ekstrakt indhold fra alle medier typer, der indgår i mime standarder.,,,, sprog, påvisning,: tika omfatter sprog identitetsmærke, kan derfor anvendes i dokumenter baseret på sprog, type i flersprogede websteder.,,, funktioner i tika, tika støtter forskellige functionalities:,, dokumenttype påvisning, indhold, udvinding, metadata, udvinding, sprog, sporing, dokumenttype afsløring, tika anvender forskellige påvisningsteknikker og registrerer den type dokument, som den har fået.,, indhold, udvinding, tika har en parser bibliotek, der kan analysere indholdet af forskellige dokumentformater og få dem ud.efter påvisning af typen af det dokument, kommissionen udvælger de relevante parser fra parser register og sender dokumentet.forskellige klasser af tika har metoder til at analysere forskellige dokumentformater.,, metadata, udvinding, sammen med indholdet, tika ekstrakter metadata af dokumentet med den samme procedure som i indhold udvinding.for visse dokumenttyper, tika har klasser, ekstrakt metadata, sprog, påvisning, internt tika følger algoritmer som n-gram til påvisning af sprog af indholdet i et givet dokument.tika afhænger af klasser som sprog - id og profiler for sprog, identifikation.

Tika Architecture
Detection
Extraction
Extraction1
Detection1



Previous:
Next Page: