HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A Facebook tudja kivel kavarsz - akkor is ha nem jelölöd a profilodon

2013.11.05. 08:00 Szerző: Zoltán Varjú Címkék: hálózatelemzés Facebook

Granovetter óta tudjuk, hogy az ún. gyenge kapcsolatoknak nagyon fontos szerepe van a társadalmi hálózatokban. Lars Backstorm a Facebook kutatója és Jon Kleinberg a Cornellről Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook című tanulmányukban rámutattak arra, hogy a gyenge kötések szerelmi életünkről is árulkodnak.

2013-11-04 08.28.01.png

Granovetter ún. gyenge kapcsolatok (weak ties) elmélete (amit The Strength of Weak Ties tanulmányában fektetett le) szerint egy embernek általában sok kapcsolata van, ezek között egyesek erősebbek (pl. család, barátok, szomszédok stb.) mások gyengébbek. Kitől szoktunk új információkat hallani; azoktól akikkel szoros kapcsolatot ápolunk vagy azoktól akikkel gyenge kapcsolatban állunk? Egy találkozás egy rég nem látott volt osztálytárssal vagy szomszéddal gyakran beindítja a pletykát és hirtelen sok mindent megtudunk hajdani barátokról, ismerősökről. Ahogy a fenti ábra is szemlélteti az ún. gyenge kapcsolatok hídként kötik össze az egyes csoportokat és biztosítják az információ áramlását. A tanulmányhoz a Facebook felhasználói bázisából vett mintát használtak. Mivel a legtöbben jelölik kapcsolati státuszukat, a kapcsolati hálón végzett vizsgálatok hatékonysága remekül tesztelhető. 

2013-11-04 08.28.22.png

A hálózatelemzéshez két metrikát alkottak meg a kutatók. A beágyazottság (embeddedness) a kölcsönös ismerősök számát jelenti egy adott végpontban. A szétszórtsággal ([recursive] dispersion) jellemezhető, hogy két egymással kapcsolatban álló személy kapcsolati hálója mennyire nem kötődik össze. A két metrikát összevetették más, a gépi tanulásban előrejelzésre használt tulajdonságokkal is. A beágyazottság és a szétszórtság mint látható legalább olyan jól jelzi előre a kapcsolati státuszt, mint a fotók és a profil áttanulmányozása!

2013-11-04 08.29.30.png

A szétszórtság ismét arra világít rá, hogy milyen fontosak az emberi kapcsolatok. Egy pár két tagja nem csak egymással létesít kapcsolatot, hanem - ha csak gyengén is - egymás számára ismeretlen csoportokat is összeköt és ezen gyenge kapcsolatok mentén sok információ áramlik át. Az már egy másik kérdés, hogy a Facebook csak a tudományt szolgálja-e a tanulmánnyal és tiszteletben tartja azon felhasználók döntését, akik nem jelenítik meg kapcsolati státuszukat de van párjuk, vagy a marketingesek megpróbálnak élni valahogy az ölükbe hullott adatokkal.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

47 komment • Kövess Facebookon • Iratkozz fel értesítőre

Lájkolj, s megmondom ki is vagy!

2013.10.31. 08:00 Szerző: Zoltán Varjú Címkék: Facebook Big Five pszichológiai profilozás

Mennyire vagyunk kiismerhetőek Facebook profilunk alapján? A YouAreWhatYouLike oldalon bárki kipróbálhatja, mennyire sikeresen alkotható meg róla egy pszichológiai profil pusztán az általa kedvelt dolgok alapján, a szerzőről például az alábbi elemzés készült mindössze kilenc lájkra alapozva.

youRwhatUlike.PNG

Persze mindenki ódzkodik a kategorizálástól s így a blog szerzője is, hiszen ő egyáltalán nem tartja magát félénknek és visszahúzódónak, pláne nem gondolja, hogy rámenős és versengő lenne, de a környezetében valahogy mindenki erősen egyetértett a buta kis program elemzésével... Hogy lehetséges ez? Egyrészt természetesen mindenki félreismerte a poszt íróját! Másrészt talán lehet hogy Kosinski és tsai Private traits and attributes are predictable from digital records of human behavior című tanulmányukban azért mégis csak fontos dolgokra mutatnak rá...

A myPersonality Project önkénteseket kért meg arra, hogy hozzáférhessen Facebook adataikhoz, a lájkoktól kezdve posztjaikig mindent szépen be is gyűjtöttek, persze ügyelve a kutatásetikára. De ez sem volt elég a kutatóknak, ugyanis minden résztvevővel különböző pszichológiai teszteket is kitöltettek, hogy a Big Five személyiségjegyek mentén kategorizálják őket és demográfiai jellemzőiket is megismerhessék. Az így keletkezett adatokhoz már csak egy kis statisztika szükségeltetik és meg lehet vizsgálni, hogy Facebook profilunk árulkodik-e személyiségünkről.

2013-10-14 18.38.48.png

Ahogy a fenti ábra is mutatja, a nem (gender) már egy(!) lájk alapján is 0.5 a Pearson korreláció értéke és 20-25 darab esetében már a nagyon jónak számító 0.75-ig is el lehet jutni. A kor (age) esetében azonban 0.6-0.7 a maximális prediktív pontosság (ez egyébként nagyon jó eredménynek számít!) amihez szintén 20-25 darab lájkolás szükségeltetik, a nyitottság (openness) esetében a közepes erősségű korrelációhoz viszont már 30-40 elemet kell megvizsgálni. (A Pearson korreláció 0.1-0.3 tartományban gyenge, 0.3-0.5 között közepes, 0.5 felett pedig erősnek tekinthető.)

2013-10-14 18.34.47.png

A fenti ábra további jegyek prediktív erejét szemlélteti. A legérdekesebb számunkra az, hogy a Caucasian/African American, azaz a fehér/fekete faji háttérre vonatkozó információ nagyon nagy pontossággal előrejelezhető, azaz a két csoport ízlése, érdeklődési köre a jelek szerint nagyon eltérő. Hasonlóan meglepő a politikai beállítottság (Democrat vs. Republican) markáns volta is - a jelek szerint a politikai szegregáció (big sort) online is kimutatható.

Ha tetszik, ha nem az online térben is eláruljuk magunkat, felfedjük személyiségünket, preferenciáinkat és viszonyunkat a világhoz. Persze lehetünk tudatos nethasználók (és ez a blog lelkesen buzdít mindenkit erre!!!!), de viselkedésünk öntudatlanul is sok dolgot elárul rólunk, ezt pedig nagyon érdekli a marketingeseket.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A saját kis világunk - mit kezdjünk a filter bubble jelenséggel?

2013.10.30. 08:00 Szerző: Zoltán Varjú Címkék: filter bubble big sort

A perszonalizáció egyrészt szükséges rossz, hiszen a ránk zúduló információt valahogy szűrni kell és mi lenne jobb erre, mint saját preferenciáink? Eli Pariser azonban nagyon meggyőzően érvel amellett, hogy e szűrés következtében jelentősen torzul a világról alkotott képünk, hiszen kiesnek azok a dolgok, amik nem érdekelnek minket, de a minket érdeklő témákkal is csak a nekünk tetsző nézőpontokon keresztül találkozunk így.

Bill Bishop és Robert G. Cushing a The Big Sort című könyvükben kimutatták, hogy az Egyesült Államokban egyre homogénebbek a választókörzetek. Ezért csak részben felelős a választási körzetek átrajzolása egy csoport érdekében (amire szép angol szó is van; gerrymandering) a másik ok, hogy öntudatlanul is olyan lakóhelyet választanak maguknak az emberek, ahol hozzájuk hasonló szomszédokra lelhetnek. (Bőbben l. a The Economist cikkét.)

Ilyen környezetben az ún. statisztikai diszkrimináció remekül működik. Miért foglalkozzak a másik csoporttal, ha azok úgyis buták, lusták, érdektelenek stb. az én ügyemmel szemben? Itt nem arról van szó, hogy valaki szívből utálja a másik politikai csoportot, vagy egy kisebbség tagjait, hanem szimplán "statisztikai alapon" lát egy mintázatot, ami alapján elutasítja társaságukat, véleményüket stb. A szegregáció viszont a csoporton belül megerősíti az extrém nézeteket, ahogy Schkade, Sunstein és Hastie tanulmánya is mutatja, homogén közösségeken belül a liberálisok és a konzervatívok is szélsőséges álláspontra jutottak olyan kérdések megvitatásában, mint pl. a globális felmelegedés és a melegházasság.

Hiába születnek technológiai megoldások a jelenség orvoslására, valahogyan nehéz belátni miképp oldja meg a begubózást a DuckDuckGo vagy a Prismatic. Nem kell persze temetni a jövőt és várni az apokaliptikus véget, de érdemes odafigyelni a körülöttünk zajló folyamatokra mind az on- mind az offline világban.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hírelemzés

2013.10.29. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia szentimentelemzés fintech

A nyelvtechnológia legizgalmasabb és egyben talán legkevésbé ismert alkalmazása az ún. high frequency trading vagy automatikus pénzügyi kereskedelmi rendszerek területe. A nagy hír- és adatszolgáltató cég, mint pl. a Bloomberg és a Reuters már évek óta kínálnak ún. machine readable news szolgáltatásokat, melyek összeszedik, elemzik és programmatikusan is "emészthető" formában metaadatokkal feldúsítva API-n keresztül kínálják a pénzügyi és gazdasági híreket (szinte) valós időben. A teljesség igénye nélkül a hírelemzéssel kapcsolatos legfontosabb tanulmányokat mutatjuk be posztunkban röviden. 

Rich Brown, Incorporating News Analytics into Quantitative Investment and Trading Strategies, April 12, 2011 from Seth Grimes on Vimeo.

Tim Loughran és Bill McDonald When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks című tanulmányukban kimutatták, hogy a szentimentelemzéshez használt általános szótárak nem működnek jól a pénzügyi területen, mivel a hagyományos eszközök az esetek háromnegyed(!!!) részében rosszul azonosították az egyes szavak polaritását. A tanulmányt megjelenése óta szeretik idézni más területeken is, mivel úgy tűnik, hogy vagy új szótárakat kell építeni minden esetben, vagy egyszerűbb tréningkorpuszt készíteni és klasszifikációval megközelíteni a szentimentelemzést.

Dzielinski News sensitivity and the cross-section of stock returns tanulmányában a Reuters NewsScope szolgáltatását használva kimutatta, hogy egyes részvények mozgása érzékenyebb a hírekre. További érdekesség, hogy ez a hírérzékenység egyben prémiumot is jelent (0.84%) a tőzsdei árfolyamban.

Akbas és társai a Pollyanna jelenséghez hasonló folyamatot figyeltek meg a pénzügyi híreket elemezve, melyet Mispricing Following Public News: Overreaction for Losers, Underreaction for Winners című tanulmányukban összegeztek. A vizsgálatok szerint a negatív szentimentre alapozott kereskedési stratégia sokkal jobban teljesít, mint a pozitív hírekre figyelő. A szerzők ezt egy ún. kognitív torzításnak (cognitive bias) tulajdonítják, ami összhangban van a Pollyanna jelenség vizsgálata során felhalmozott empirikus adatokkal.

Érdekes, hogy habár sok más területen egyre elterjedtebb a nyelvtechnológia, a pénzügyi világban kapcsolják csupán össze igazán a felhasználók, a piacok és egyéb ágensek viselkedésének megértését a rendelkezésre álló nyelvi információval. Reméljük ez a szemlélet hamarosan máshol is teret nyer!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Gépi fordítás másképp

2013.10.24. 08:00 Szerző: Zoltán Varjú Címkék: gépi fordítás nyelvtechnológia Google

Tomas Mikolov és tsai a Google laboratóriumában egy új gépi fordítási eljárást dolgoztak ki, ami alaposan felkavarta a szakmát. Mivel a Nyelv és Tudomány már összefoglalta a lényeget, mi most a kalandvágyóbb olvasókat csábítjuk a vektorterekbe, hogy lássuk hogyan lehet hasonlóságot találni két különböző nyelvű és tárgyú dokumentumhalmaz között.

Miért kell új módszer?

Jogosan merülhet fel a kérdés, miért kell nekünk új módszer. Erre válaszolni csak úgy lehet, hogy a hegymászók is azért másznak meg egy hegyet, mert ott van. A kutatóknak meg problémáik vannak, és ahogy a hegymászók is felmennek olyan csúcsokra, melyeken előttük mások már jártak, úgy a kutatók is nekiesnek régi, részben vagy egészben már megoldott kérdéseknek. Jelen esetben azonban van egy nagyon praktikus magyarázata is a dolognak; nincs elegendő ún. párhuzamos korpusz, azaz több nyelven is elérhető szöveg, mely tartalma megegyezik. Ha lenne elegendő ilyen szövegünk minden lehetséges nyelvpárra, akkor a napjainkban divatos statisztikai módszerekkel egész jól működne már a gépi fordítás.

paralel.jpg

Sajnos azonban kevés párhuzamos szöveg létezik, ha akad is, akkor az általában egy vagy két világnyelven, vagy egy kisnyelv és egy világnyelv viszonylatában létezik. Az Ethnologue katalógusában 7105 élő nyelvet tartanak nyilván, ha minden nyelvre csupán az angol szöveggel készítünk párhuzamos korpuszt, már az is hatalmas szövegmennyiséget jelent (eltekintve attól, hogy a nyelvek jelentős részének nincs írott formája). Egyszerűbb tehát azzal dolgozni ami van, szövegekkel.

Vektorterek

A legtöbb kereső és információkinyerő alkalmazás ún. vektorterekkel dolgozik, ami nagyon egzotikusnak hangzik, de valójában egyszerű, mint egy faék. Minden dokumentum (vagy mondat, bekezdés stb.) jellemezhető a benne előforduló szavak számával, így egy dokumentum tkp. egy vektor. Az alábbi ábra ezt szemlélteti, amin az M1,...,M14 oszlopok az egyes dokumentumok.

tdm.gif

Egy ilyen táblázatot term-document mátrixnak hívunk. Ez tkp. egy ún. szózsák, vagy bag-of-words modell, mivel a nyelvtani struktúrát figyelmen kívül hagyja. Ez annyit tesz, hogy a "Kutya megharapta a postást" és a "Postás megharapta a kutyát" mondatok között nem tud különbséget tenni, hiszen mindegyikben ugyanazok a szavak ugyanannyiszor fordulnak elő (természetesen szótövezés után). Ugyanakkor a táblázat egyes sorai megadják egy adott szó disztribúcióját. Amelyik oszlopban értéket vesz fel az adott szó, ott az adott dokumentumot leíró oszlop egyben jelzi, milyen más szavakkal fordul elő. Ha elfogadjuk a disztribúciós szemantika alaphipotézisét, mely szerint egy szó jelentését ismerni annyi, mint ismerni lehetséges előfordulásait, akkor a term-document matrix sorai egyben egy-egy szó jelentését is rögzítik.

vector_space.png

Ha geometriailag szeretnénk ábrázolni egy-egy term-document mátrixot, akkor a fenti ábrához hasonló ún. többdimenziós teret kapnánk, melynek minden szó egy dimenziója, egy dokumentum pedig ezen tengelyek mentén felvett értékekkel jellemezhető. Többdimenziós terekben nagyon nehéz egy embernek gondolkodnia, és momentán még a számítógépek sem dolgoznak velük eléggé fürgén. Szerencsére azonban a főkomponens-analízis nevű technikának hála a sok-sok dimenzió leredukálható akár kettőre is.

2013-10-21 09.40.49.png

Régóta ismert jelenség, hogy különböző nyelveken a (kb.) azonos jelentésű szavak helyzete a vektortérben hasonló. A fenti ábra, melyet Mikolov és tsai tanulmányából vettünk át, remekül szemlélteti ezt a jelenséget. Az új módszer lényege, hogy a két- vagy többdimenziós vektortérben kereshetünk hasonló pozíciókat, nem kell feltétlenül párhuzamos korpuszokkal rendelkeznünk a fordításhoz.

Kérdések

Az új eljárás azért izgalmas különösen, mert nyelvelméleti kérdéseket is felvet. Mennyire hasonlóak a nyelvek, mennyire tartható a hipotézis, hogy a vektorterek hasonló pozíciói, hasonló fogalmakat jelenítenek meg? Ha a szózsák modell el is tekint a nyelvtani szerkezettől, a hasonlóság okának tarthatjuk-e azt, hogy a nyelvek rendelkeznek univerzális tulajdonságokkal? Fordítva is kérdezhetjük, az eljárás működőképessége alátámasztja a nyelvi univerzálék meglétét?

Napjainkban az ún. generatív grammatika irányzata egyre inkább visszaszorul, mivel általános szabályokat keres és nem igazán vizsgálja a nyelv statisztikai tulajdonságait. Az új eljárás viszont épp arra épít, hogy minden nyelv mögött ott van egy univerzális struktúra és a gépi tanulás módszereivel a szisztematikus különbségek "megtanulhatóak". Lappin és Shieber Machine learning theory and practice as a source of insight into universal grammar című tanulmányukban is amellett érveltek, hogy a gépi tanulás módszere talán sikeresen tárhatják fel az univerzális grammatikát.

Az eljárás legnagyobb hátránya szerintünk az, hogy hiányzik belőle a kompozicionalitás, mely szerint egy összetett kifejezés jelentése függ a benne szereplő tagok (szavak, kifejezések stb.) jelentésétől és az összetétel módjától. Azaz a "A kutya megharapta a postást" és a "A postás megharapta a kutyát" mondatok jelentésbeli különbségét nem csupán a bennük előforduló szavak gyakorisága (disztribúciója), hanem azok grammatikai struktúrája által jelzett sorrendje is meghatározza. Ezért úgy gondoljuk, a jövőt a kompozicionális disztribúciós szemantika jelenti a gépi fordítás és a nyelvtechnológia egyéb területein is - de ehhez sokkal izmosabb számítógépekre lesz szükségünk, addig pedig marad a szózsák modell és a vektorterek.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása