Az Interneten található adatokat (szöveges tartalmakat) több módon is összegyűjthetjük. Akár magunk is megpróbálhatjuk az adatokat felkutatni és letölteni, vagy választhatunk kész megoldások közül is. A döntést több tényező is befolyásolja, ezeket és a lehetséges megoldásokat járjuk most körbe.
A legmeghatározóbb tényezők az adat mennyisége, minősége és elérhetősége.
Adatmennyiség
Az összegyűjtendő tartalmak mennyisége alapvetően meghatározza, hogy milyen módszert választunk. Kisebb adatmennyiség összegyűjtése esetén természetesen mi magunk is elvégezhetjük a feladatot. Gondoljunk csak arra az esetre, amikor például kizárólag a múlt hónap nyertes lottószámait szeretnénk megtudni, illetve azokat adatbázisba rendezni. Ilyenkor a feladat megoldható lényegében minimális szakértelemmel. De mi van akkor, ha egy vezető tudományos oldal több ezer cikke lenne az alapja egy nagyobb lélegzetű tanulmány megírásának vagy egy fejlesztési projektnek? Ilyenkor mindenképpen tömeges legyűjtésre van szükség, melyhez célzott megoldásra van szükség.
Adatminőség
Az adatok összegyűjtése során a mennyiség mellett fontos tényező lehet az adatminőség is, ez is befolyással van arra, hogy milyen megoldás mellett tesszük le voksunkat
Az adatminőség alatt azt értjük, hogy az adat milyen mértékben felel meg a vele szemben támasztott követelményeknek.
Ilyen követelmények lehetnek például:
- minden rekordnak tartalmaznia kell a közzététel dátumát
- minden cikknek adóügyekről kell szólnia
- ne legyenek duplikátumok.
Számtalan esetben előfordul, hogy a gyűjtés mellett egyéb munkafolyamatok – adattisztítás, adatgazdagítás - elvégzésére is szükség van annak érdekében, hogy az elvárásoknak meg tudjunk felelni. Ilyen kritérium lehet például a kimeneti formátum, melyet a következő munkafolyamat (pl.: vizualizáció egy business intelligence eszközzel) megkövetel, vagy a különböző forrásokból származó dátumadatok formátumának egységesítése.
Bizonyos esetekben a letöltött adat kizárólag egy másik forrásból származó információ hozzáfűzésével válik értékes adattá (például pénzügyi adatoknál az aktuális devizaárfolyamok segítségével történő átváltás, ha a forrásoldal nem az elvárt devizával számol).
Az adat elérhetősége
A tartalmakhoz való hozzáférés bonyolultsága is behatárolja a választható adatgyűjtő eszközöket
Az Internetes oldalak eltérő felépítése (dinamikus és scrollozással betöltődő, vagy trükkös lapozással elérhető, esetleg bejelentkezést igénylő oldalak) nagyon megnehezítik az adatgyűjtést. Negatívan befolyásolja az adatgyűjtést az is, amennyiben az adatgyűjtés csak több adatforrás egyidejű letöltésével valósítható meg.
Emellett figyelembe kell venni a robots.txt által megjelölt oldalakat, tartalmakat.
Az adatmennyiség, minőség és elérhetőség függvényében tekintsük át, hogy milyen megoldások kínálkoznak és mik ezeknek az előnyei és hátrányai!
Csináld magad, avagy open source megoldások
Ma már komoly open source eszközök állnak rendelkezésre, mint a például a Scrapy vagy a Mechanical soup. Ezek kimondottan hasznos, ingyenesen elérhető eszközök, azonban nem alkalmasak például a dinamikus oldalak tartalmainak gyűjtésére, ami azért is komoly probléma, mert jelenleg az ilyen jellegű oldalak aránya közel 30% a weben. Így ezen megoldások használata nem garantál kimagasló eredményt, illetve hatékonyságuk növelése komoly fejlesztői-programozói tudást igényel.
Kompakt megoldások
A nemzetközi piacon találhatóak már havi pár száz dolláros előfizetés mellett elérhető kész megoldások – ilyenek például a Diffbot és az import.io. Ezek kimondottan felhasználóbarát és szűkebb keretek között testreszabható eszközök, azonban mégsem alkalmasak az egyedi és magasabb igények kielégítésére, illetve az extra szolgáltatásokat is csak magasabb díjszabás mellett tudják biztosítani. Emellett ezek a szolgáltatások nem nyújtanak további kapcsolódó szöveganalitikai megoldásokat (pl.: egyedi vállalati keresőmotor az összegyűjtött szöveges tartalmak keresésére).
Egyedi megoldás
Az olyan eszközök, mint a Precognox TAS Data Collector tökéletes megoldást kínálnak abban az esetben, ha nagyobb webes adatmennyiség összegyűjtésére van szükség magas adatminőség mellett és még az adatok hozzáférhetősége is komoly kihívást jelent. A komplex követelményeknek kizárólag ilyen, a feladatra specializált adatgyűjtő megoldással lehetséges megfelelni.
Emellett a Data Collector egy komplex szöveganalitikai platform része, így nem csak a szöveges tartalmak gyűjtésére, hanem az adatokkal történő munkavégzésre is különleges megoldásokat kínál. Mindezt nagyon kedvező árképzés mellett, hiszen akár havi néhány tízezer forintos díjszabással is elérhető - ismétlődő adatlegyűjtés esetén). A TAS – Text Analytics System mögött álló Precognox informatikai háttere, szoftverfejlesztési és szöveganalitikai tapasztalata pedig garantálja az egyedi megoldás magas minőségét.
Hogyan döntsünk?
Az internetről történő adatletöltéshez megfelelő eszköz kiválasztása előtt alapvetően fontos meghatározni, hogy mekkora adatmennyiségre van szükség, milyen jellemzői vannak a forrás oldalnak és milyen kritériumai vannak az elvárt adatnak. Emellett tekintetbe kell venni azt is, hogy mennyire bonyolult az adatforrás elérhetősége és milyen további szöveganalitikai munkafolyamatokat kell elvégezni a letöltött tartalmakkal. A követelmények tisztázása után könnyebben tudunk választani megfelelő eszközt, legyen szó akár open source, kompakt vagy egyedi megoldásról.
Amennyiben egyedi adatletöltési vagy szöveganalitikai megoldásra van szüksége, akkor keresse fel a Precognox oldalát, vagy a szöveganalitikai megoldásokat bemutató TAS termékoldalt.
További információk:
A Data Collector részletes leírása
Képek: Pixabay