Http: //europa.eu.int analytische en eenvoudig: //europa.eu.int /comm /dom bibliotheek

schrapen scherm: //europa.eu.int /comm /analytische en het scherm en eenvoudig: //europa.eu.int /comm /- bibliotheek,,,,,,,,,,.,, delen, delen van,,,,,, het netwerk van maandag wat in tuts + koers zal dalen tot slechts drie dollar.Niet' niet missen, als je moet zoeken. EN: //europa.eu.int /comm /, regelmatig uitdrukking is niet weg te gaan.In deze handleiding zal je leren om met behulp van een open - source, gemakkelijk te begrijpen taal - analysator, lezen, te wijzigen, en spuug het uit: //europa.eu.int /comm /uit externe bronnen.Het gebruik van NETTUTS als voorbeeld van, je zal leren om van alle artikelen in de website.,,,, stap 1.Klaar, het eerste wat je moet doen is de bibliotheek gedownload van simplehtmldom, gratis downloaden van een aantal van sourceforge, in het dossier, maar het enige wat je nodig hebt is een voorbeeld van simple_html_dom.php dossiers en documenten; de rest.,, stap 2.Analyse van de bibliotheek, het is heel makkelijk, maar je moet voor de herziening in actie, een aantal fundamentele: //europa.eu.int /comm /http: //europa.eu.int simple_html_dom (), USD = nieuwe; ///////belasting van een string: //europa.eu.int /comm /> belasting ("< http: //europa.eu.int > < body> < P > hallo wereld!< /P > < p> we hier < /P > < /body > < /html >; ///////- dossier "): //europa.eu.int /comm /> load_file ('http://netwerk. Tutsplus. COM"), kan je een touw van de: //europa.eu.int /comm /het oorspronkelijke doel, of van een dossier.- een dossier kan door de URL, of door middel van Je lokale systeem, een waarschuwing: de methode van de Commissie load_file (PHP) file_get_contents werken.Als die niet in het dossier allow_url_fopen zoals, echt, je kan niet worden geopend op een dossier op deze manier.Je kan altijd rekenen op de bibliotheek in dit geval de belasting op pagina 's, en dan kijken ze op en (), toegang tot de informatie, zodra je dom object, en je bent klaar om te gaan, door het creëren van een verzameling ().Dat is een groep van voorwerpen die door de grammatica - is zeer vergelijkbaar is. < http: //europa.eu.int > < lichaam > < p>. Hoe gaat het met de wereld.< /P > < p> we hier < /P > < /body > < /html > in dit geval: //europa.eu.int /comm /, en we zullen zien hoe de toegang tot informatie in de tweede paragraaf van Het veranderen van de resultaten, en&#creëren en laden, (met inbegrip van'simple_html_dom: //europa.eu.int /comm /index.php); $: //europa.eu.int /comm /= nieuwe simple_html_dom (); $: //europa.eu.int /comm /> belasting ("< http: //europa.eu.int > < lichaam > < p>. Hoe gaat het met de wereld.< /P > < p> we hier < /P > < /body > < /html > ");&#worden vertegenwoordigd in de tweede alinea van $= $: //europa.eu.int /comm /elementen gevonden (>" P "); - wijziging van $# [1] - > innerText. =" we blijven hier. "# output.ECHO: //europa.eu.int /comm /> Save () (); de methode, en altijd weer een verzameling (-) het etiket, tenzij je wil je 'n kind aangewezen als een tweede parameter.,,, lijn 2 - 4, de: uit een reeks laden: //europa.eu.int /comm /, zoals eerder vermeld, 7. Lijn: dit is de lijn vinden alle < http: //europa.eu.int p> in, en ze terug te keren naar een generator.De eerste alinea is 0 - indicatoren zal worden, en de daaropvolgende leden worden geïndexeerd, dus, rij 10, tweede alinea, van het bezoek van de leden: in onze collectie (index 1), die naast de innerText eigenschap.De vertegenwoordigers van de innerText tussen inhoud en etikettering, met inbegrip van de etikettering van de vertegenwoordiger van outertext.We kunnen gebruik maken van outertext volledig vervangen door etikettering, we moeten nog op een rij, en wijziging van het tweede Lid - klasse. En $element [1] - > = "class_name"; ECHO $: //europa.eu.int /comm /> Save (); de beschikking, die is opgeslagen: //europa.eu.int /comm /, < http: //europa.eu.int > < lichaam > < p>. Hoe gaat het met de wereld.< /P > < P = "class_name" > we zijn hier en we blijven hier. < /P > < /body > < /html >, andere keuze, hier zijn een paar voorbeelden van andere telers.Als je dit, deze lijkt te kennen,&#zijn id = "foo" één dollar = HTML > de eerste ("; dat&#foo", 0);&#worden = "foo" collection = dollar dat alle elementen: //europa.eu.int /comm /> (".&#foo"); alle pagina 's van de verzameling van etiketten op het anker: //europa.eu.int /comm /= dollar > dat (a);&#in H1 - TAG verzamelde dollar = HTML > alle etiketten dat Anker; ('h1 ");&#IMG - etikettering van alle" in de titel van himom dollar = dollar te verzamelen: //europa.eu.int /comm /> ('img [titel = himom vinden.] "); het eerste voorbeeld is niet volledig en rechtstreeks de vraag naar alle standaard set, zelfs de identificatie, het moet alleen weer een resultaat.Maar door de aanwijzing van twee parameters, zeggen we "de in de eerste alinea van deze verzameling alleen terug". Dit betekent dat, één is een enkel element, in plaats van een reeks elementen.De realiteit van de wereld van het voorbeeld van de bibliotheek, in actie, moeten we een script schrijven voor de inhoud van de website van de nettuts schrapen, en een lijst van de titel en een beschrijving van de huidige website... Artikelen, maar als een voorbeeld.Kras is een lastige netwerken op het gebied van, mogen niet zonder toestemming.,,, met inbegrip van ('simple_html_dom. PHP); artikelen = - ($); getarticles ('http://netwerk. Tutsplus. COM /page /76 /");, en we begonnen door met inbegrip van de bibliotheek, en doet een beroep op de getarticles functie en de pagina 's wat we willen beginnen Met zoeken.In dit geval hebben we het begin van het einde, voor nettuts server, hebben we ook een eenvoudige verklaring van wereldwijde netwerken voor het verzamelen van informatie over alle artikelen in een plek.Voordat we beginnen met de analyse, laten we eens kijken of we een beschrijving van zijn samengevat in Nettuts+., < div = "zien" > <.Post - indeling - > < div = "post_taxonomy" >...< /div > <.- na de titel:% GT% < h = "post_title" > < een > titel < /> < /H1 > <.- na - > < div = "post_meta" >...< /div > < div = "tekst" > < p> beschrijving van < /P > < /div > < /div > dit is een van de fundamentele artikelen op het gebied van formaat, met inbegrip van de bron van de code op.Waarom opmerkingen zo belangrijk?- ze zal als de knooppunten, stap 4.Uit de analyse van functies, taken getarticles ($) {artikelen van de dollar; http: //europa.eu.int = nieuwe simple_html_dom (); $: //europa.eu.int /comm /> load_file (euro /blz.).Meer...}, we gewoon beginnen met te zeggen dat we de wereld en het creëren van een nieuwe simple_html_dom object, geladen en vervolgens moeten we analytische pagina 's.Deze functie zal later bellen, dus zullen we het een parameter, als een parameter.We willen informatie te vinden, en $project = $: //europa.eu.int /comm /> vinden ('div [type = preview. "(een project); voor $post) {# weet, voor een hoeveelheid van node opmerkingen artikel [] = - $($na > kinderen (3) - > outertext, $post - > kinderen (6) - > first_child () - > outertext);}, dit is getarticles functie van vlees.Om te kijken of we begrijpen wat er gebeurd is.,, lijn 1: het creëren van een reeks elementen die - preview klasse.We hebben nu een verzameling is opgeslagen in een $5, punten,.,: $post nu is één van die preview.Als we kijken naar de oorspronkelijke: //europa.eu.int /comm /, zien we dat het derde kind is met titel H1.Zijn we van mening dat de aan de artikelen [] [0] dollar - index, herinner je je de graaf van nul opmerkingen bij het vaststellen van passende indicatoren een sub -.,, lijn zes: de kinderen die na zes dollar < = "tekst" >.We willen dat in de tekst van het eerste kind, dus we pakken de outertext - en dat zal ook lid is.In een artikel van de gegevens, lijkt nu zo: dollar artikel [0] [0] = "mijn artikel?"; in de artikelen [0] [1] = "dit is mijn artikel 6, beschreven stappen", de oproep, het eerste wat we doen is om te bepalen hoe we vinden. De volgende pagina 's.In de Nettuts+, URL 's is makkelijk te vinden, maar we zullen doen alsof ze niet worden opgelost, door de volgende schakel, als we kijken naar de: //europa.eu.int /comm /.,, zien we als volgt:, < href = "http://net.tutsplus.com/page/2/" = "nextpostslink" > * < />, als er sprake is van een pagina' s (niet altijd), vinden wij dat de nextpostslink met anker.Nu, de informatie kan worden gebruikt als (= dollar: //europa.eu.int /comm /> vinden (een nextpostslink] = [klasse 0)) {% URL 's = $> banden;: //europa.eu.int /comm /> duidelijk ('); UNSET ($http: //europa.eu.int); getarticles ($), in de URL); de eerste regel van de soort, als we het kunnen vinden nextpostslink zien we het anker.Met twee parameters, met bijzondere aandacht voor ().Dit kunnen we alleen maar hopen dat de terugkeer van de aangewezen om het eerste element van de verzameling (index 100).De toekomst zal alleen de afzonderlijke elementen van een dollar, in plaats van een reeks elementen, de volgende stap, zullen we de banden van de variabelen href $URL 's.Dit is erg belangrijk, want we moeten vernietigen.Als gevolg van een cyclus van 5 naar lekken, op dit moment simple_html_dom voorwerpen moeten opruimen en in afwachting van een andere is het creëren van een.Als je dat niet doet, kan je eet alle beschikbare geheugen, tot slot, dat we met een getarticles blz. URL 's.Aan het einde van deze terugkerende, niet nog meer pagina 's, analyse van de resultaten, 7. Stap in, we moeten een paar fundamentele stappen.Dit is volkomen willekeurig. - kan je je produktie kijken, maar je wens.&#(marge:,, de belangrijkste, auto 's, breedte: 500px;} {lettertype H1: vet 30px /38px helvetica, Ariel, sans serif; deposito' s: 0;} H1 (kleur:&#tekst -: Geen; 600; achtergrond:&#P {} ECECEC vullen; het lettertype Arial /14: vaststelling van een marge, sans serif; 0: 8px 15px; 1 - pixel - grens&#vaste, oude 15px;} {projecten: 10 pixels gevuld;}, we gaan een beetje PHP pagina 's in de reeds opgeslagen informatie oplevert, en LT.???????PHP voor ($posten dollar) (ECHO "< div = 'item >"; ECHO $alinea [0]; ECHO $) [1]; ECHO "< /div >";}?> het resultaat is van een lijst van alle artikelen: //europa.eu.int /comm /begin van de eerste, op de voorpagina getarticles () worden weergegeven.,, salaristrap 8 van de conclusies van de analyse van een groot aantal, als je de pagina 's (dat wil zeggen, de hele website) duurt Misschien langer door je server toegestaan maximum uitvoeringstermijn.Zoals uit mijn lokale machine nodig, ongeveer een seconde per bladzijde (met inbegrip van de tijd genomen, in deze gebieden NETTUTS), en de huidige blz. 78 gidsen, dit loopt in een minuut, u begon met het gebruik van deze handleiding: //europa.eu.int /comm /Analytische.Het werk van een andere methode en dom, met inbegrip van een ingebouwde PHP, het laat je sterke xpath - te zoeken naar elementen.Ter vergemakkelijking van het gebruik van snelle start, ik vond deze bibliotheek is de beste.Als een gesloten notities, altijd nog op een website voor het verkrijgen van een vergunning heeft, dit is erg belangrijk.Bedankt voor het lezen.,

Download from Sourceforge
Transforming your HTML
special properties
Screen Scraping Nettuts
Count The Children
Find the next page to parse
Final Output



Previous:
Next Page: