HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Vállalati keresőnk segítségével a Precognox által kezelt blogok tartalmában tudsz keresni.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adatbányászat (9) adatelemzés (6) adatok (13) adatújságírás (16) adatvizualizáció (18) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (51) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) Google (24) google (57) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (62) kereséselmélet (8) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (7) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (14) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (30) nyelvtechnológia (73) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (53) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (35) szövegbányászat (18) társadalomtudomány (7) tartalomelemzés (55) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (13) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Milyen megoldások kínálkoznak a web-es tartalmak összegyűjtésére?

2019.06.18. 09:33 Szerző: Hódi Péter Címkék: internet adatok adatbányászat adatmennyiség adatminőség big data Precognox

Az Interneten található adatokat (szöveges tartalmakat) több módon is összegyűjthetjük. Akár magunk is megpróbálhatjuk az adatokat felkutatni és letölteni, vagy választhatunk kész megoldások közül is. A döntést több tényező is befolyásolja, ezeket és a lehetséges megoldásokat járjuk most körbe.

 access-data-436712_1280.jpg

A legmeghatározóbb tényezők az adat mennyisége, minősége és elérhetősége.

 

Adatmennyiség

Az összegyűjtendő tartalmak mennyisége alapvetően meghatározza, hogy milyen módszert választunk. Kisebb adatmennyiség összegyűjtése esetén természetesen mi magunk is elvégezhetjük a feladatot. Gondoljunk csak arra az esetre, amikor például kizárólag a múlt hónap nyertes lottószámait szeretnénk megtudni, illetve azokat adatbázisba rendezni. Ilyenkor a feladat megoldható lényegében minimális szakértelemmel. De mi van akkor, ha egy vezető tudományos oldal több ezer cikke lenne az alapja egy nagyobb lélegzetű tanulmány megírásának vagy egy fejlesztési projektnek? Ilyenkor mindenképpen tömeges legyűjtésre van szükség, melyhez célzott megoldásra van szükség.

 

Adatminőség


Az adatok összegyűjtése során a mennyiség mellett fontos tényező lehet az adatminőség is, ez is befolyással van arra, hogy milyen megoldás mellett tesszük le voksunkat
Az adatminőség alatt azt értjük, hogy az adat milyen mértékben felel meg a vele szemben támasztott követelményeknek.
Ilyen követelmények lehetnek például:

  • minden rekordnak tartalmaznia kell a közzététel dátumát
  • minden cikknek adóügyekről kell szólnia
  • ne legyenek duplikátumok.

Számtalan esetben előfordul, hogy a gyűjtés mellett egyéb munkafolyamatok – adattisztítás, adatgazdagítás - elvégzésére is szükség van annak érdekében, hogy az elvárásoknak meg tudjunk felelni. Ilyen kritérium lehet például a kimeneti formátum, melyet a következő munkafolyamat (pl.: vizualizáció egy business intelligence eszközzel) megkövetel, vagy a különböző forrásokból származó dátumadatok formátumának egységesítése.
Bizonyos esetekben a letöltött adat kizárólag egy másik forrásból származó információ hozzáfűzésével válik értékes adattá (például pénzügyi adatoknál az aktuális devizaárfolyamok segítségével történő átváltás, ha a forrásoldal nem az elvárt devizával számol).

Az adat elérhetősége


A tartalmakhoz való hozzáférés bonyolultsága is behatárolja a választható adatgyűjtő eszközöket
Az Internetes oldalak eltérő felépítése (dinamikus és scrollozással betöltődő, vagy trükkös lapozással elérhető, esetleg bejelentkezést igénylő oldalak) nagyon megnehezítik az adatgyűjtést. Negatívan befolyásolja az adatgyűjtést az is, amennyiben az adatgyűjtés csak több adatforrás egyidejű letöltésével valósítható meg.
Emellett figyelembe kell venni a robots.txt által megjelölt oldalakat, tartalmakat.

privacy-policy-445157_1280.jpg

 

 

Az adatmennyiség, minőség és elérhetőség függvényében tekintsük át, hogy milyen megoldások kínálkoznak és mik ezeknek az előnyei és hátrányai!

 

Csináld magad, avagy open source megoldások


Ma már komoly open source eszközök állnak rendelkezésre, mint a például a Scrapy vagy a Mechanical soup. Ezek kimondottan hasznos, ingyenesen elérhető eszközök, azonban nem alkalmasak például a dinamikus oldalak tartalmainak gyűjtésére, ami azért is komoly probléma, mert jelenleg az ilyen jellegű oldalak aránya közel 30% a weben. Így ezen megoldások használata nem garantál kimagasló eredményt, illetve hatékonyságuk növelése komoly fejlesztői-programozói tudást igényel.

Kompakt megoldások


A nemzetközi piacon találhatóak már havi pár száz dolláros előfizetés mellett elérhető kész megoldások – ilyenek például a Diffbot és az import.io. Ezek kimondottan felhasználóbarát és szűkebb keretek között testreszabható eszközök, azonban mégsem alkalmasak az egyedi és magasabb igények kielégítésére, illetve az extra szolgáltatásokat is csak magasabb díjszabás mellett tudják biztosítani. Emellett ezek a szolgáltatások nem nyújtanak további kapcsolódó szöveganalitikai megoldásokat (pl.: egyedi vállalati keresőmotor az összegyűjtött szöveges tartalmak keresésére).

Egyedi megoldás


Az olyan eszközök, mint a Precognox TAS Data Collector tökéletes megoldást kínálnak abban az esetben, ha nagyobb webes adatmennyiség összegyűjtésére van szükség magas adatminőség mellett és még az adatok hozzáférhetősége is komoly kihívást jelent. A komplex követelményeknek kizárólag ilyen, a feladatra specializált adatgyűjtő megoldással lehetséges megfelelni.
Emellett a Data Collector egy komplex szöveganalitikai platform része, így nem csak a szöveges tartalmak gyűjtésére, hanem az adatokkal történő munkavégzésre is különleges megoldásokat kínál. Mindezt nagyon kedvező árképzés mellett, hiszen akár havi néhány tízezer forintos díjszabással is elérhető - ismétlődő adatlegyűjtés esetén). A TAS – Text Analytics System mögött álló Precognox informatikai háttere, szoftverfejlesztési és szöveganalitikai tapasztalata pedig garantálja az egyedi megoldás magas minőségét.

 

stress-2860025_1280.jpg 

 

Hogyan döntsünk?


Az internetről történő adatletöltéshez megfelelő eszköz kiválasztása előtt alapvetően fontos meghatározni, hogy mekkora adatmennyiségre van szükség, milyen jellemzői vannak a forrás oldalnak és milyen kritériumai vannak az elvárt adatnak. Emellett tekintetbe kell venni azt is, hogy mennyire bonyolult az adatforrás elérhetősége és milyen további szöveganalitikai munkafolyamatokat kell elvégezni a letöltött tartalmakkal. A követelmények tisztázása után könnyebben tudunk választani megfelelő eszközt, legyen szó akár open source, kompakt vagy egyedi megoldásról.

Amennyiben egyedi adatletöltési vagy szöveganalitikai megoldásra van szüksége, akkor keresse fel a Precognox oldalát, vagy a szöveganalitikai megoldásokat bemutató TAS termékoldalt.

 

További információk: 

A Data Collector részletes leírása

 

Képek: Pixabay

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr6314899626

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.