HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Fogyasztói hangulat mérése online szövegekre alapozva

2013.07.25. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia gazdasági előrejelzés szentimentelemzés SmogFarm Pollyanna

A gazdasági élet szereplőit izgatja a jövő, hiszen szeretnek előre tervezni. Ezért rendkívül népszerűek, az olyan viszonylag egyszerű jelentések, melyek a vásárlói hangulatot (szentiment néven is szokták ezt emlegetni, de nem tévesztendő össze a nyelvtechnológiában használatos szentimentelemzéssel!) vizsgálják, hiszen ez egész jól leképezi a potenciális vásárlók költési szándékait. Az automatikus pénzügyi kereskedelmi platformokba is gyakran építik be ezeket. Eddig bevett gyakorlat volt, hogy a tréderek fizettek, hogy a hivatalos közzététel előtt kapják meg ezen adatokat, azonban a New York-i bíróság ítéletében eltörölte ennek lehetőségét. Ezért a szakma most keresi annak lehetőségét, hogy hasonló indexeket állítson elő online szövegekre és a közösségi médiában található tartalmakra alapozva. Ebben a posztban megvizsgáljuk, hogy mennyire lehetséges ez és milyen kihívásokkal kell szembesülnie annak, aki hasonló indexek előállítására adja a fejét.

 

R-Word Index - hírekre alapozott gazdasági előrejelzés

2013-07-21 17.11.02_1.png

A The Economist és a The Economist Intelligence Unit régóta jelen van a gazdasági elemzések piacán. Leghíresebb gazdasági indexük az ún. Big Mac Index, ami az elterjedt hamburger ára alapján hasonlítja össze a különböző valuták túl- ill. alulértékeltségét. Hasonlóan egyszerű és érthető, ám sajnos kevésbé ismert a csoport R-Word Indexe (vagy más néven Recession Index). Ez a Washington Post és a New York Times cikkeiben méri a "recession" (recesszió) szó előfordulását. Az index viszonylag jól teljesít, 1981-ben, 1990-ben, 2001-ben és 2008-ban is jelezte a válság közeledését, de 1991-ben továbbra is válságot jelzett miután már hivatalosan elmúlt a recesszió. Az index népszerű, hiszen egyszerű mint egy faék, de könnyen előállítható és két olyan sajtótermékre alapozták ami a döntéshozók és a vásárlók várakozásait nagyban alakítja.

A Michigan Consumer Sentiment Index - a fogyasztói hangulatindexek őse

2013-07-21 17.55.26.png

A University of Michigan Consumer Sentiment Index néven kiadott havi jelentései a legmeghatározóbbak az Egyesült Államokban. Az indexet telefonos interjúkra alapozva készítik el, mely módszertani alapjait a magyar származású pszichológus, George Katona fektette le még a múlt század ötvenes éveiben.

2013-07-21 18.18.01.jpg

A Michigan-i fogyasztói hangulat index nagyon népszerű lett pénzügyi körökben, mivel jó előrejelzője a költési hajlandóságnak.

2013-07-21 16.47.54.png

Marta Lachowska Expenditure, Confidence, and Uncertainty: Identifying Shocks to Consumer Confidence Using Daily Data című tanulmányában megerősíti ezt az összefüggést, ugyanakkor felhívja a figyelmet arra is, hogy a fogyasztói szentiment információtartalma eltér mind a gazdasági hírektől, mind pedig a költési görbétől (habár ahogy a fenti ábra is mutatja, kb. együtt mozognak).

Tyúk vagy a tojás? - avagy a közhangulat hat a hírekre, vagy fordítva?

2013-07-21 16.50.53.png

Mark Doms és Norman Morin Consumer Sentiment, the Economy, and the News Media című tanulmányukban megpróbálták megfejteni milyen összefüggés van a hírek és a fogyasztói hangulat alakulása között. A szerzők a The Economist R-Word Indexét "turbózták fel" több forrással és ezt vetették össze a Consumer Sentiment Index grafikonjával. A sárga oszlopok a válságokat jelzik, amennyiben ezeken belül csökkenést mutat a felső (Consumer Index) ill. emelkedést az alsó (R-Word Index) grafikon, akkor helyesen azonosította a trendet. Látható, hogy kb. együtt mozog a két görbe (igaz az elmozdulás iránya ellentétes!) de jelent-e ez oksági kapcsolatot? Ha igen, akkor a sajtó hat a fogyasztókra, vagy fordítva? Persze ez a mi volt előbb, a tyúk vagy a tojás kérdésére hasonlít. Ezzel a szerzők is tisztában vannak, és az alábbi ábrával szemléltetik, milyen összetett kapcsolat áll fent az egyének hangulatának alakulása és a sajtóban megjelenő tartalmak között.

2013-07-21 16.52.20.png

A gordiuszi csomót átvágva Doms és Morin arra koncentrál, hogy a média miképp hat az aggregált szentiment kialakulására. Úgy találták, hogy három faktor különíthető el, az információ maga, a hír hangneme és annak valószínűsége, hogy a hír hatására valaki megváltoztatja hangulatát. Azonban a fogyasztók nem figyelik állandóan a médiát, ezért nem reagálnak ugyanakkor. További érdekesség, hogy a recesszió megjelenésekor egy pillanatig nem történik semmi, majd hirtelen úgy tűnik, hogy mindenki hozzáigazítja a várakozásait a kialakult helyzethez. Az szentiment változásának két legmeghatározóbb eleme viszont nem maga a hír, hanem annak hangneme és volumene (azaz hányszor hangzott el). Ezek alapján úgy tűnik, hogy online hírekre alapozva egész jól meg lehet tippelni a fogyasztói hangulat alakulását, vagy Lachowska érvelését elfogadva, annak azon részét, mely információtartalmát a hírekből nyeri.

 

A hírek meglepően jól jelzik előre a fogyasztói szentimentet!

2013-07-21 15.41.57.png

David Fan Predicting the Index of Consumer Sentiment When It Isn't Measured című tanulmányában arra tesz kísérletet, hogy egy hírkorpuszra alapozva jelezze előre a vásárlói hangulatot. Ahogy a fenti ábra mutatja, jó eredményeket sikerült elérnie (a tanulmányban több modellel is sikerült ez neki!). A grafikonokon látható pontok a valós szentimentértékek, a folytonos görbe pedig a predikció. Nyugodtan hátra is dőlhetnénk, hiszen a jelek szerint az R-Word Index javított változatával helyettesíthető egy fogyasztói index. Fan azonban maga is szembesült avval a problémával, hogy egyes kiadók meggondolják magukat és akár visszamenőlegesen is törlik szabadon hozzáférhető tartalmaikat egy archívumból. Manapság egyre több kiadó fontolgatja az ingyenes tartalmak körének szűkítését, vagy a teljesen fizetős modell kialakítását. Így a módszer igen költségessé válhat, használata akár meg is haladhatja a telefonos panelvizsgálat költségeit. A másik probléma elméleti; Lachowska szerint két különböző vizsgálat (hírelemzés és vásárlói hangulat mérése) eredményei nem hordozhatnak teljesen azonos információtartalmat. Továbbá Doms és Morin is azt sugalja, hogy a média és a fogyasztók között létezik valamilyen visszacsatolási folyamat, amit a fenti módszerekkel nem tudunk megragadni.

 

A közösségi média emócióelemzése is jó prediktor!

2013-07-21 18.09.37.png

A blogunkon korábban már bemutatott SmogFarm tartalomelemző cég a Gallup Daily Mood Indexéhez hasonló jelentést készít, melyhez a közösségi médiában fellelhető nyilvános tartalmakat elemzi. A módszer a szentiment elemzés új irányát jelentő ún. emócióelemzésre támaszkodik és Pennebaker eljárását alkalmazza. Az egyes bejegyzéseket nyelvi jellemzőik alapján sorolja be emocionális kategóriákba, majd ún. döntési fa módszerrel alakítja ki az aggregált értékeket. Ahogy az alábbi ábra is mutatja, a két index között nagy korreláció áll fent.

2013-07-21 18.10.00.png

De mindig van egy de...

Minden szépnek tűnik és úgy néz ki, hogy mind a közösségi média, mind az online sajtó alkalmas alapanyag a vásárlói hangulatindexek helyettesítésére. Ne feledjük azonban, hogy a közösségi tartalmait nem vizsgálhatjuk historikus adatokon (a Facebookot 2004-ben, a Twittert pedig 2006-ban alapították) a The Economist R-Word Index viszont arra int minket, hogy a hírek nem minden esetben jó előrejelzők! A Long Term Capital Management igazgatóságában hiába ült két Nobel-díjas közgazdász is, a cég tönkrement. A szofisztikált matematikai modellre épülő befektetési stratégiájukba nem építettek bele kellő mennyiségű historikus adatot s így alábecsülték a várható kockázatokat. Így számolnunk kell azzal, hogy a historikus adatok hiányában az online tartalmak elemzése nagy bizonytalanságot hordoz magában.

Úgy tűnik a nyelvi információ nem tükrözi le teljesen a vásárlói hangulatot, ahogy maga a vásárlói hangulat sem képezi le teljesen a tényleges vásárlói viselkedést. Hogy miért van ez? Valószínűleg nem direkt hazudnak random páran, hogy torzítsák az eredményeket és bizonyára sok tényező szerepet játszik ebben (pl. ahogy említettük, az emberek nem folyamatosan igazítják hangulatukat a hírek tükrében, amikor nagy változás következik be, akkor pedig egy pillanatra "megmerevedik" a helyzet). Talán ezen torzító tényezők közé tartozik maga a nyelv is. A Pollyanna jelenséget bemutató posztjainkban már említettük, hogy a pozitív töltetű szavak gyakorisága magasabb, mint a negatívaké. Ez avval is jár, hogy a negatív szavak információtartalma magasabb, s így amikor egy negatív hír megjelenik, gyorsabban tud terjedni és jobban is tartja magát a köztudatban. Egy későbbi posztunkban ezt a jelenséget még alaposabban fogjuk elemezni blogunkon.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr635418592

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása