Semalt hlutabréf er auðveld leið til að vinna úr upplýsingum frá vefsíðum

Vefskrapun er vinsæl aðferð til að afla efnis frá vefsíðum. Sérstakur forritaður reiknirit kemur á aðalsíðu vefsins og byrjar að fylgja öllum innri hlekkjum, setja saman innréttingar divanna sem þú tilgreindi. Fyrir vikið - tilbúin CSV skjal sem inniheldur allar nauðsynlegar upplýsingar liggja í ströngum röð. Hægt er að nota CSV sem myndast í framtíðinni og skapa næstum einstakt efni. Og almennt, eins og tafla, eru slík gögn mikils virði. Ímyndaðu þér að allur vörulisti byggingarverslunar sé settur fram í töflu. Ennfremur, fyrir hverja vöru, fyrir hverja tegund og tegund vörunnar, eru öll svið og einkenni fyllt. Allir textahöfundar sem vinna fyrir netverslun væru ánægðir með svona CSV skjal.

Það er til mikið af tækjum til að vinna úr gögnum frá vefsíðum eða skafa á vefnum og ekki hafa áhyggjur ef þú þekkir engin forritunarmál, í þessari grein mun ég sýna eina auðveldustu leiðina - að nota Scrapinghub.

Fyrst af öllu, farðu á scrapinghub.com, skráðu þig og skráðu þig inn.

Þú getur bara sleppt næsta skrefi um skipulag þitt.

Svo kemstu á prófílinn þinn. Þú verður að búa til verkefni.

Hér þarftu að velja reiknirit (við notum reikniritið "Portia") og gefum verkefninu nafn. Við skulum kalla það einhvern veginn óvenjulegt. Til dæmis „111“.

Nú komum við inn á vinnurými reikniritsins þar sem þú þarft að slá vefslóð vefsíðu sem þú vilt draga gögn úr. Smelltu síðan á „Ný kónguló“.

Við förum á síðuna sem á eftir að þjóna sem dæmi. Heimilisfangið er uppfært í hausnum. Smelltu á „Tilkynna þessa síðu“.

Færðu músarbendilinn til hægri sem gerir valmyndina birtan. Hér höfum við áhuga á flipanum „Útdráttur hlutar“, þar sem þú þarft að smella á „Breyta hlutum“.

Samt birtist tómur listi yfir reitina okkar. Smelltu á „+ reit“.

Allt er einfalt hér: þú þarft að búa til lista yfir reiti. Fyrir hvert atriði þarftu að slá inn nafn (í þessu tilfelli, titill og innihald), tilgreina hvort þessi reitur er krafist („Nauðsynlegt“) og hvort hann getur verið breytilegur („Varískt“). Ef þú tilgreinir að hlutur sé „krafist“ sleppir reiknirit einfaldlega síðum þar sem það getur ekki fyllt þennan reit. Ef ekki er flaggað getur ferlið varað að eilífu.

Smelltu nú einfaldlega á reitinn sem við þurfum og tilgreindu hvað hann er:

Lokið? Smelltu síðan á „Vista sýnishorn“ í haus vefsíðunnar. Eftir það geturðu farið aftur í vinnurýmið. Nú veit reikniritið hvernig á að fá eitthvað, við verðum að setja okkur verkefni fyrir það. Smelltu á „Birta breytingar“ til að gera þetta.

Farðu á verkefnisborðið, smelltu á "Keyra kónguló". Veldu vefsíðu, forgang og smelltu á „Hlaupa“.

Jæja, skrap er nú í vinnslu. Hraði þess er sýndur með því að beina bendilnum á fjölda sendra beiðna:

Hraðinn við að fá tilbúna strengi í CSV - með því að benda á annað númer.

Smelltu á þetta númer til að sjá lista yfir hluti sem þegar hafa verið gerðir. Þú munt sjá eitthvað svipað:

Þegar því er lokið er hægt að vista niðurstöðuna með því að smella á þennan hnapp:

Það er það! Nú geturðu dregið út upplýsingar frá vefsíðum án þess að hafa neina reynslu af forritun.