påvisning

tika - sprog, behov for sprog, påvisning, til klassificering af dokumenter, som er baseret på det sprog, som de er skrevet i et flersproget websted, et sprog, påvisning redskab er nødvendigt.dette værktøj skal acceptere, at dokumenter uden sprog anmærkning (metadata) og tilføje, at oplysninger i overensstemmelse med den af dokumentet ved påvisning af sproget., algoritmer til profilering corpus, hvad er corpus?for at påvise sprog af et dokument, som en sproglig profil er konstrueret og sammenlignet med profilen af de kendte sprog.den tekst, der er fastsat i disse kendte sprog er kendt som, corpus.,, corpus er en samling af tekster af det skrevne sprog, der forklarer, hvordan de sprog, der anvendes i virkelige situationer, corpus er udviklet af bøger, papirer, og andre oplysninger, ressourcer, som f.eks. internet.nøjagtigheden af corpus afhænger af profilanalyser algoritme, vi bruger til at ramme corpus. hvad er profilanalyser algoritmer.den fælles vej til påvisning af sprog ved hjælp af ordbøger.de ord, der anvendes i et bestemt stykke tekst vil blive sammenlignet med dem, der er i gang, en liste over fælles ord, der anvendes i et sprog, vil være det mest enkle og effektive corpus til påvisning af et bestemt sprog, f.eks. artikel,,,,,,, med ord på engelsk. sæt som corpus, i et sæt, en simpel algoritmen er udformet med henblik på at finde afstanden mellem to selskaber, som vil være lig med summen af forskelle mellem hyppigheden af tilsvarende ord. disse algoritmer, lider af følgende problemer:,,, da hyppigheden af tilsvarende ord er meget mindre, den algoritme, kan ikke effektivt arbejde med små tekster under par sætninger.det kræver en masse tekst til nøjagtig match.,,, kan det ikke finde ord grænser for sprog under sammensatte sætninger, og dem, som ikke har nogen ord sprosser som rum eller tegnsætning.,,, på grund af disse vanskeligheder ved at bruge ord er corpus, individuelle personer eller grupper, der karakter betragtes som corpus tegnsæt. da de tegn, som er almindeligt anvendt i et sprog er begrænsede i antal, er det let at anvende en algoritme baseret på ord frekvenser i stedet for tegn.denne algoritme fungerer endnu bedre i tilfælde af visse tegnsæt, der anvendes i en eller få sprog. denne algoritme lider af følgende ulemper:,,, er det vanskeligt at skelne mellem to sprog har samme karakter frekvenser.,,, der er ingen specifikke værktøjer eller algoritme til specifikt at identificere et sprog ved hjælp af (som corpus) karakter, der anvendes af flere sprog.,,, n-gram algoritme, de ulemper, nævnt ovenfor, gav anledning til en ny tilgang af sekvenser af en bestemt længde af karakter for at profilere corpus.denne sekvens af tegn, som n-grams kaldes i almindelighed, hvor n er længden af den karakter sekvens.,,,,,, n-gram algoritme, er en effektiv metode til påvisning af sprog, især i tilfælde af europæiske sprog som engelsk.,,, denne algoritme fungerer fint med korte tekster.,,, selv om der er avanceret sprog profilering algoritmer til påvisning af flere sprog i et flersproget dokument under mere attraktive træk, tika bruger 3-grams algoritme, som det er passende i de konkrete situationer.,,, sprog påvisning i tika, blandt alle de 184 standard sprog er standardiseret efter iso 639 - 1. tika, kan påvise 18 sprog.sprog påvisning i tika er ved hjælp af den, getlanguage(), metode for, languageidentifier, klasse.denne metode giver kodenavn af sprog i snor format.i det følgende skal listen over 18 sprogkode par påvist ved tika:, da dansk de tyske og estiske el græsk engelsk es spansk fi finske fr fransk hu ungarske er islandsk italiensk nl nederlandsk nr det norske pl polen pt portugisisk jernbanevirksomhed russiske sv svenske de thailandske, mens instantiating, languageidentifier, klasse, du skulle gå snoren udformning af indholdet er udvundet, eller en, languageprofile, klasse objekt. languageidentifier objekt = nye languageidentifier ("det er engelsk"), er angivet nedenfor, er f.eks. program for sprog påvisning i tika., import java.io.ioexception; import org.apache.tika.exception.tikaexception; import org.apache.tika.language.languageidentifier; imhavn org.xml.sax.saxexception; offentlige klasse languagedetection {offentlige statisk tomrum vigtigste (string - args [...]), kaster ioexception, saxexception, tikaexception {languageidentifier id = nye languageidentifier ("det er engelsk"); snor language = id. getlanguage(); system. println ("sprog af de givne indhold er:" + sprog)}}, medmindre ovennævnte kode, som languagedetection.java, og lede det fra kommandoen omgående ved hjælp af følgende kommandoer:, javac languagedetection.java java languagedetection, det giver følgende output:, sprog af de givne indhold er følgende: en, sprog, påvisning af et dokument til påvisning af sprog af et givet dokument, er du nødt til at analysere det ved hjælp af parse() metode.den parse() metode parses indhold og oplagrer det i vores objekt, som blev vedtaget på det som et af argumenterne.bestå den snor format for handleren genstand for producenten af det, languageidentifier, klasse som vist nedenfor: parser. analysere (inputstream, kontaktperson, metadata, forbindelse); languageidentifier objekt = nye languageidentifier (kontaktperson. tostring()), er angivet nedenfor, er det komplette program, der viser, hvordan at påvise sprog af et givet dokument:, import java.io.file; import java.io.fileinputstream; import java.io.ioexception; import org.apache.tika.exception.tikaexception; import org.apache.tika.metadata.metadata; import org.apache.tika.parser.autodetectparser; import org.apache.tika.parser.parsecontext; import org.apache.tika.parser.parser; import org.apache.tika.sax.bodycontenthandler; import org. apache. tika. sprog. *; import org.xml.sax. saxexception; offentlige klasse documentlanguagedetection {offentlige statisk tomrum vigtigste (sidste snor [] args) kaster ioexception, saxexception, tikaexception (//instantiating en fil objekt fil file = nye fil (f.eks. txt "); //parser metodeparametrene parser parser = nye autodetectparser(); bodycontenthandler kontaktperson = nye bodycontenthandler(); metadata metadata = nye metadata(); fileinputstream indhold = nye fileinputstream (fil); //parsing det pågældende dokument parser. analysere (indhold, kontaktperson, metadata, nye parsecontext()); languageidentifier objekt = nye languageidentifier (kontaktperson. tostring()) system. println (" sprog navn: "+ objekt. getlanguage())), medmindre ovennævntehar kode, som setmetadata.java og løb fra kommandoen hurtig:, javac setmetadata.java java setmetadata,,,: går ud fra, sample.txt har følgende indhold: hej elever velkommen til tutorialspoint, det giver følgende output:, sprog: en, sammen med tika glas tika giver en grafisk brugergrænseflade anvendelse (gui) og en kommandolinje grænseflade (cli) anvendelse.du kan udføre tika anvendelse fra kommandoen omgående for andre java - ansøgninger.

Previous:tika - indhold udvinding

Next Page:tika - gui