HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adatbányászat (9) adatelemzés (6) adatok (13) adatújságírás (16) adatvizualizáció (18) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (51) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) google (57) Google (24) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (60) kereséselmélet (8) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (7) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (14) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (30) nyelvtechnológia (73) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (52) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (35) szövegbányászat (18) társadalomtudomány (7) tartalomelemzés (55) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (13) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Min múlik az intelligens keresés IQ-szintje?

2019.07.08. 14:37 Szerző: Hódi Péter Címkék: keresés nyelvészet szinonima Precognox tezaurusz

Egy igazán hatékony és intelligens vállalati kereső működéséhez szükséges egy háttérben meghúzódó adatbázis, pontosabban adathálózat, mely alapul szolgálhat a keresés optimalizálásához. Jelen cikk erre az adatbázisra, az ún. tezauruszra koncentrál.

 

thesa2.PNG

A TAS Thesaurus Manager kezelőfelülete

 


A cikk szerzője jelenleg egy szaktezauruszon dolgozik, mely az üzleti világ különböző ágazatainak (pl. tőzsde, banki világ, közgazdaságtan, adózás, munkajog, vezetés és menedzsment, marketing) nyújt majd támogatást ahhoz, hogy a TAS vállalati keresőt hatékonyabban használhassák.

Tezaurusz történelem


A tezaurusz eredetileg egy könyvtárosok által használt fogalom volt, és az ezzel a névvel illetett információgyűjteményt a könyvtárban tárolt dokumentumok rendszerezésére és hatékony kezelésére használták fel. A tezaurusz hasonló egy szótárhoz, azonban a szócikkelyekben nem a szavak magyarázata vagy fordítása található, hanem további fogalmak, melyek az eredeti fogalomhoz különböző relációkban kapcsolódnak.

 

A tezaurusz és a vállalati kereső


A keresésoptimalizáláshoz nincs szükség minden tudásra, ami egy hagyományos tezauruszban megtalálható, elsősorban az alá-fölérendeltségi viszony és a szinonima az, ami segítséget nyújthat az intelligens keresés eléréséhez. Ezen túl hasznos lehet egy további, a hagyományos tezauruszokból hiányzó adat is: a szó tipikus elírásainak feltüntetése.


Az adatbázis – a szemantikai fogalomháló – kidolgozásához a Precognox TAS Thesaurus Manager-e nyújt segítséget, melybe bele vannak építve a fent említett relációk, és a felvett kapcsolatok átláthatóságát grafikus (gráfos) megjelenítés is segíti. Többlépcsős annotátori rendszere pedig lehetővé teszi, hogy a bevitt fogalompárokat akár két szaklektor is könnyedén, néhány kattintással ellenőrizze.

thesa1_1.PNG

A TAS Thesaurus Managerben létrejött gráf

 

Egy ilyen adatbázis segítségével a felhasználó sikeresebben találhatja meg azt, amit keres, még akkor is, ha nem pontosan azt írta be a keresőmotorba, amire gondolt.

Így növelhető meg egy vállalati kereső IQ-szintje tezauruszok építésével.

 

Korábbi cikkünk a tezauruszokról.

Szerző: Fodor Gréta

Képek: Precognox TAS Thesaurus Manager

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Sminkelj online a mesterséges intelligencia segítségével!

2019.07.05. 11:24 Szerző: Hódi Péter Címkék: online smink mesterséges intelligencia

Egy hölgy lép be a drogéria ajtaján, határozott léptekkel közelíti meg a sminkes részleget. Hosszasan válogat a megannyi szín között, majd választ. Lelki szemeivel már látja is magát, hogy milyen jól fog állni neki a választott szín és mennyire fog tetszeni a barátnőknek is. Fizet és boldogan távozik az üzletből alig várva, hogy az első adandó alkalommal kipróbálja új szerzeményét. Rohan haza, csillogó szemekkel keni magára új make-upját és magát nézve a tükörben tekintete egyre szomorúbbá válik:

- Ez nem is az a szín, ez szörnyen mutat rajtam és még öregít is!

 

smink.jpg

 

Kedves Hölgyek, ismerős a történet és a probléma?

Ha igen, akkor van egy jó hírünk: a mesterséges intelligencia segítségével már erre a problémára is van megoldás. A  Sephora Virtual Artist alkalmazás által már online is kipróbálhatóak a különböző színek és árnyalatok, hogy biztosra lehessen menni.

Az alkalmazáshoz jó szórakozást kívánunk! Próbálja ki Ön is... és indulhat a hódítás!

 

Kép: Pixabay

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Milyen megoldások kínálkoznak a web-es tartalmak összegyűjtésére?

2019.06.18. 09:33 Szerző: Hódi Péter Címkék: internet adatok adatbányászat adatmennyiség adatminőség big data Precognox

Az Interneten található adatokat (szöveges tartalmakat) több módon is összegyűjthetjük. Akár magunk is megpróbálhatjuk az adatokat felkutatni és letölteni, vagy választhatunk kész megoldások közül is. A döntést több tényező is befolyásolja, ezeket és a lehetséges megoldásokat járjuk most körbe.

 access-data-436712_1280.jpg

A legmeghatározóbb tényezők az adat mennyisége, minősége és elérhetősége.

 

Adatmennyiség

Az összegyűjtendő tartalmak mennyisége alapvetően meghatározza, hogy milyen módszert választunk. Kisebb adatmennyiség összegyűjtése esetén természetesen mi magunk is elvégezhetjük a feladatot. Gondoljunk csak arra az esetre, amikor például kizárólag a múlt hónap nyertes lottószámait szeretnénk megtudni, illetve azokat adatbázisba rendezni. Ilyenkor a feladat megoldható lényegében minimális szakértelemmel. De mi van akkor, ha egy vezető tudományos oldal több ezer cikke lenne az alapja egy nagyobb lélegzetű tanulmány megírásának vagy egy fejlesztési projektnek? Ilyenkor mindenképpen tömeges legyűjtésre van szükség, melyhez célzott megoldásra van szükség.

 

Adatminőség


Az adatok összegyűjtése során a mennyiség mellett fontos tényező lehet az adatminőség is, ez is befolyással van arra, hogy milyen megoldás mellett tesszük le voksunkat
Az adatminőség alatt azt értjük, hogy az adat milyen mértékben felel meg a vele szemben támasztott követelményeknek.
Ilyen követelmények lehetnek például:

  • minden rekordnak tartalmaznia kell a közzététel dátumát
  • minden cikknek adóügyekről kell szólnia
  • ne legyenek duplikátumok.

Számtalan esetben előfordul, hogy a gyűjtés mellett egyéb munkafolyamatok – adattisztítás, adatgazdagítás - elvégzésére is szükség van annak érdekében, hogy az elvárásoknak meg tudjunk felelni. Ilyen kritérium lehet például a kimeneti formátum, melyet a következő munkafolyamat (pl.: vizualizáció egy business intelligence eszközzel) megkövetel, vagy a különböző forrásokból származó dátumadatok formátumának egységesítése.
Bizonyos esetekben a letöltött adat kizárólag egy másik forrásból származó információ hozzáfűzésével válik értékes adattá (például pénzügyi adatoknál az aktuális devizaárfolyamok segítségével történő átváltás, ha a forrásoldal nem az elvárt devizával számol).

Az adat elérhetősége


A tartalmakhoz való hozzáférés bonyolultsága is behatárolja a választható adatgyűjtő eszközöket
Az Internetes oldalak eltérő felépítése (dinamikus és scrollozással betöltődő, vagy trükkös lapozással elérhető, esetleg bejelentkezést igénylő oldalak) nagyon megnehezítik az adatgyűjtést. Negatívan befolyásolja az adatgyűjtést az is, amennyiben az adatgyűjtés csak több adatforrás egyidejű letöltésével valósítható meg.
Emellett figyelembe kell venni a robots.txt által megjelölt oldalakat, tartalmakat.

privacy-policy-445157_1280.jpg

 

 

Az adatmennyiség, minőség és elérhetőség függvényében tekintsük át, hogy milyen megoldások kínálkoznak és mik ezeknek az előnyei és hátrányai!

 

Csináld magad, avagy open source megoldások


Ma már komoly open source eszközök állnak rendelkezésre, mint a például a Scrapy vagy a Mechanical soup. Ezek kimondottan hasznos, ingyenesen elérhető eszközök, azonban nem alkalmasak például a dinamikus oldalak tartalmainak gyűjtésére, ami azért is komoly probléma, mert jelenleg az ilyen jellegű oldalak aránya közel 30% a weben. Így ezen megoldások használata nem garantál kimagasló eredményt, illetve hatékonyságuk növelése komoly fejlesztői-programozói tudást igényel.

Kompakt megoldások


A nemzetközi piacon találhatóak már havi pár száz dolláros előfizetés mellett elérhető kész megoldások – ilyenek például a Diffbot és az import.io. Ezek kimondottan felhasználóbarát és szűkebb keretek között testreszabható eszközök, azonban mégsem alkalmasak az egyedi és magasabb igények kielégítésére, illetve az extra szolgáltatásokat is csak magasabb díjszabás mellett tudják biztosítani. Emellett ezek a szolgáltatások nem nyújtanak további kapcsolódó szöveganalitikai megoldásokat (pl.: egyedi vállalati keresőmotor az összegyűjtött szöveges tartalmak keresésére).

Egyedi megoldás


Az olyan eszközök, mint a Precognox TAS Data Collector tökéletes megoldást kínálnak abban az esetben, ha nagyobb webes adatmennyiség összegyűjtésére van szükség magas adatminőség mellett és még az adatok hozzáférhetősége is komoly kihívást jelent. A komplex követelményeknek kizárólag ilyen, a feladatra specializált adatgyűjtő megoldással lehetséges megfelelni.
Emellett a Data Collector egy komplex szöveganalitikai platform része, így nem csak a szöveges tartalmak gyűjtésére, hanem az adatokkal történő munkavégzésre is különleges megoldásokat kínál. Mindezt nagyon kedvező árképzés mellett, hiszen akár havi néhány tízezer forintos díjszabással is elérhető - ismétlődő adatlegyűjtés esetén). A TAS – Text Analytics System mögött álló Precognox informatikai háttere, szoftverfejlesztési és szöveganalitikai tapasztalata pedig garantálja az egyedi megoldás magas minőségét.

 

stress-2860025_1280.jpg 

 

Hogyan döntsünk?


Az internetről történő adatletöltéshez megfelelő eszköz kiválasztása előtt alapvetően fontos meghatározni, hogy mekkora adatmennyiségre van szükség, milyen jellemzői vannak a forrás oldalnak és milyen kritériumai vannak az elvárt adatnak. Emellett tekintetbe kell venni azt is, hogy mennyire bonyolult az adatforrás elérhetősége és milyen további szöveganalitikai munkafolyamatokat kell elvégezni a letöltött tartalmakkal. A követelmények tisztázása után könnyebben tudunk választani megfelelő eszközt, legyen szó akár open source, kompakt vagy egyedi megoldásról.

Amennyiben egyedi adatletöltési vagy szöveganalitikai megoldásra van szüksége, akkor keresse fel a Precognox oldalát, vagy a szöveganalitikai megoldásokat bemutató TAS termékoldalt.

 

További információk: 

A Data Collector részletes leírása

 

Képek: Pixabay

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Business Intelligence eszközök

2019.05.24. 14:51 Szerző: Hódi Péter Címkék: szövegbányászat adatvizualizáció adatelemzés business intelligence Precognox RapidMiner Tableau szöveganalitika Power BI

A Business Intelligence, avagy üzleti intelligencia alatt azon adatfeldolgozást és megjelenítést támogató eszközöket értjük, melyek elősegítik a megfelelő üzleti döntések meghozatalát. Természetesen a BI kifejezés magába foglalja az adatgyűjtés- és elemzés módszertanát is. Mostani írásunkban a vezető BI eszközökre fókuszálunk.

 

Korábbi cikkünkben írtunk már arról, hogy belevágtunk a Keresővilág Blog elemzésébe, amihez a Precognox TAS Platform szolgáltatásait és BI eszközöket hívtunk segítségül. Most is a Blog szöveges tartalmának segítségével mutatjuk be, hogy melyek a vezető adatvizualizációs BI eszközök.

 

Rapid Miner

A RapidMiner egy olyan adatkezelő platform, mely integrált környezetet biztosít az adatok előkészítéséhez, a gépi tanuláshoz és a prediktív elemzéshez. A RapidMiner ezeken felül alkalmas a vállalati belső adatforrások tartalmának vizualizációjára is.

5.PNG

A RapidMiner alkalmazás által készített vizualizáció

 

Microsoft Power BI

A Power BI – mint a Microsoft Business Intelligence eszköze – adatbázisok részletes elemzését és látványos vizualizációját teszi lehetővé. Ezzel, a ma már igen elterjedt eszközzel az esetek nagy részében a vállalati struktúrán belül elérhető adatokat elemezzük.

5_1.PNG

 Egyszerű vizualizáció a Power BI-ban

 

Google Data Studio

Data Studio a Google saját Business Intelligence eszköze, mellyel adatbázisok elemzését és vizualizációját valósíthatjuk meg. Ezzel az egyszerűen használható eszközzel többnyire a vállalati struktúrán belül elérhető adatokat elemezzük.

9.png

Gyorsan és egyszerűen készítetünk diagramokat a Data Studio-ban

 

Tableau

A Tableau az egyik legkedveltebb analitikai (adatelemző) platform, mely szinte megkerülhetetlen eszköz, amennyiben vállalati adatainkat szeretnék elemezni. Szinte minden méretű vállalat számára megfelel, legyen szó energetikai, banki, kiskereskedelmi vagy egyéb szektorról.

 

tableau_vizu.jpg

A korábban már bemutatott Tableau vizualizáció

 

Érdemes a fenti Business Intelligence eszközöket kipróbálni, hiszen a vállalkozások egyre több és több adattal dolgoz(hat)nak és ezekkel az analitikai eszközökkel lehetséges az adatokban lévő üzleti potenciál kiaknázása. Amennyiben a felhasználni kívánt adatok a weben érhetőek el, akkor pedig a TAS Data Collector segítségével lehetséges az adott internetes oldal tartalmának legyűjtése és strukturált adatbázisba történő rendezése, így szinte bármely webes tartalomból hasznos elemzések és vizualizációk készíthetők.

További BI eszközök a teljesség igénye nélkül:

Sisense

Qlik

Dundas

Zoho

 

Az említett BI eszközök közül bármelyiket is próbálja ki, hasznos adatelemzést és látványos vizualizációkat kívánunk!

Következő cikkünkben pedig már a keresőmotorok világába fogjuk Önt elkalauzolni, természetesen akkor is a Keresővilág tartalmán keresztül.

 

Képek: RapidMiner, Power BI, Google Data Studio és Tableau vizualizációk

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A puding próbája – a Keresővilág blog analitikus szemmel – 1. rész

2019.04.16. 12:32 Szerző: Hódi Péter Címkék: blog adat adatbányászat tartalomelemzés szövegbányászat vizualizáció tableau Precognox szöveganalitika

Több, mint 12 évet ölel fel a Keresővilág Blog története. Ez a hosszú időszak - úgy gondoltuk - megér egy objektív áttekintést. Ennek megvalósításában volt segítségünkre a TAS (Text Analytics System). A Precognox saját fejlesztésű szöveganalitikai platformja kimondottan ilyen feladatok megoldására (is) alkalmas.

De mit is tud akkor, ha a fennállásának 12. születésnapját ünneplő Keresővilág Blog az adatforrás? A TAS szöveganalitikai rendszer szolgáltatásai által legyűjtésre és elemzésre került blogunk tartalma analitikus szemmel. A letöltött adatok alapján készült vizualizációk remek betekintést nyújtanak a Keresővilág tartalmába.

 

A módszer

A tartalom legyűjtése a TAS Data Collector-ral történt, ezt a folyamatot az adattisztítás követte. Az így kinyert tisztított adatok vizualizálására a Tableau programot és a WordCloud-ot hívtuk segítségül.

Íme az eredmény:

 

puding_probaja_szofelho.jpg

 Szófelhő a használt címkékből

(nagyításért katt a képre!)

 

puding_probaja_szofelho_2.png 

Szófelhő a cikkekben használt szavakból

(nagyításért katt a képre!)

 

 

Cikkek száma / szerző / év

 (interaktív vizualizáció)

 

Lájkok száma / szerző / év

  (interaktív vizualizáció)

 

A képekből is jól látszik, hogy mennyi hasznos információ nyerhető ki nagyobb adat (szöveg) tartalomból – ne feledjük, hogy a Keresővilág Blogon 12 év alatt közel 900 publikáció jelent meg!

A megvalósítás

A Keresővilág Blogról legyűjtött tartalmakat a TAS rendszer az adattisztítást, validálást követően strukturált adatbázisba rendezni, az adatbázist pedig egy biztonságos és authentikált csatornán keresztül teszi elérhetővé. Ezek az adatbázisok azonnal integrálhatóak a vezető Business Intelligence eszközökbe, mint a Tableau, a Rapid Miner vagy a Power BI.

Újabb kihívás

A Precognox szöveganalitikai rendszere tehát kiállta a pudingpróbát, de hamarosan újabb feladat elé állítjuk majd, ezekről a feladatokról és a megoldásról következő cikkünkben fogunk – szintén sok vizuális tartalom segítségével – beszámolni.

 

A Keresővilág Blog tartalmának adatletöltését és az abból készült vizualizációkat a Precognox készítette a TAS Platform segítségével.

Vizualizációs eszközök: WordClouds, Tableau

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre