HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Design (és NLP?) - meetup slideok

2014.10.17. 14:49 Szerző: zoltanvarju Címkék: design beszédtechnológia NLP meetup opp.io Ergománia

Legutóbbi meetupunk előadóinak diáit találjátok alább. Következő meetupunkat november 27-én tartjuk, témánk: NLP eszközök magyarra.

  • Rung András: Hangrobbanás

András Ergománia blogját ajánlom figyelmetekbe.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A természetes nyelv leföldelése programnyelvekkel

2014.10.15. 07:45 Szerző: kadar.akos Címkék: keresés szemantikus keresés nyelvtechnológia grounded learning

A Tilburgi Egyetemre írt tézisem angol címe Grounded Learning for Source Code Component Retrieval és erről fogok mesélni röviden ebben a posztban. Az alapötlet a konzulensem Grzegorz Chrupala és előző tanítványa Jing Deng közös munkájából származik, ahol különböző szokatlan modelleket  alkalmaznak forráskód keresésre. Több poén is van a munkájukban. Az egyik az, hogy source code component-ek vagyis forráskód komponensek között keresnek, ami újdonságnak számít, a másik pedig, hogy a keresést, mint fordítási problémát fogják föl programnyelvről természetes nyelvre. Alapvetően két oldala van a történetnek: egyrészt a cél az, hogy létrehozzunk egy kereső motort, ami forráskód komponensek között keres, másrészt, hogy fogjuk meg a természetes-nyelvi kifejezések jelentését valamilyen formális nyelvvel, jelen esetben forráskód komponensekkel.  Az első ponttal még egyet is lehet érteni, a kereső motorok jók, mert keresnek, de minek “belegroundolni” a természetes-nyelvi kifejezéseket forráskódba? A rövid válasz az, hogy fölösleges, de ha valakit érdekel a hosszabb magyarázat olvassa tovább a posztot.

 

A nyelvészet különböző szinteken elemzi a nyelveket: a fonológia foglalkozik a hangokkal, a morfológia nagyobb, hangokból álló és jelentéssel rendelkező egységeket kutat, a szintaxis több jelentéssel bíró egységből - mondjuk szavakból - álló szerkezetekkel foglalkozik, a szemantika pedig a különböző nyelvi egységek jelentését kíséri meg leírni. A tézisem a szemantika témakörébe tartozik, hiszen a kifejezések jelentésével kapcsolatban barkácsolok. Eszméletlenül sok szemantikai elmélet írja le a jelentés különböző aspektusait, de alapvetően két fontos témát boncolgatunk már több ezer éve:

1.) Hogy kötődnek a nyelvi kifejezések a külvilághoz?

2.) Milyen kapcsolatban állnak egymással?

 

lionkingsemantics.jpg

 

A disztribúciós szemantika a második kérdéssel foglalkozik. Már számtalan cikk jelent meg a disztribúciós technikákkal kapcsolatban a blogon, de az alap ötlet az, hogy a szavak jelentése a kontextus függvénye. Firth (1957): "You shall know a word by the company it keeps". A disztribúciós technikák nagy előnyei, hogy nem igényelnek annotációt, átlátható és elég általános matematikai modelleken nyugszanak, nem bonyolult az implementációjuk, rahedli könyvtár létezik hozzájuk, sokrétűen és hatékonyan használhatóak. A tézisem egyik fő problémája tulajdonképp az, hogy ezeket a modelleket, hogy lehet úgy csűrni-csavarni, hogy valamilyen módon az 1-es kérdésre adjanak választ.

 

A nyelvi kifejezéseket a szemantika hagyományosan a következőképp képezi le a nyelven kívüli valóságra: A kifejezéseket valamilyen logikai formulákkal reprezentálja és ezeket a formulákat matematikai modellekre értelmezi pl.: halmaz elmélet, kategória elmélet. Az ötlet Grzegorz Chrupala és Jing Deng munkájában az, hogy a logikai formulákat cseréljük le programnyelvi kifejezésekre, amik alatt amúgy is van modell és így tulajdonképp egy fordítási problémára redukáltuk a természetes-nyelvi kifejezések megalapozását. A fordítási problémákat pedig egy elég egyszerű ötlettel szokás megoldani: paralell-corpussal. A lényeg az, hogy keresünk egy corpust, ahol az X nyelven megfogalmazott gondolatok és azok Y nyelvi megfelelői össze vannak párosítva. Egy ilyen paralell-corpuson megint csak a disztribuciós alapvetésünket vetjük be csak ez esetben nem nyelv-internálisan, hanem nyelvek között tételezzük fel azt, hogy hasonló kontextusban szereplő szavak jelentése hasonló. Esetünkben olyan paralell-corpust kell találnunk, ami a természetes-nyelvi megnyilatkozások és azok programnyelvi megfelelőjét tartalmazza.

Úgy gondoltuk, hogy erre a célra kifejezetten jó parallel-corpust nyújtana egy programnyelv különböző könyvtárainak dokumentációja. A Java Standard Library-t használtuk és az úgy nevezett method-signature-k szolgáltatták a programnyelvi kifejezéseket míg azok leírásai az angol nyelvi megfelelőjüket. A szokásos előfeldolgozási lépesek után - pl.: stemming, funkciószavak kiszűrése - meg is volt a data set, amire lehet illeszteni egy modellt, amely képes Java method-signature-ket angolra fordítani. Grzegorz Chrupala és Jing Deng az IBM model 1-t és a PLDA modelleket alkalmazza fordító modellként, ami nem meglepő, hisz az előbbi egy gépi-fordításra, míg az utóbbi nyelvek közti dokumentum keresésre alkotott modell.

 

Chrupla és Deng munkájában tetszett, hogy ilyen un-orthodox módon fordítással keresnek ráadásul ilyen fura dolgok között, de egy igaz magyar un-orthodox fordító modelleket is használ! Az én olvasatomban ez a "bag-of-words fordítás" a regresszió probléma körébe tartozik, hiszen ha az angol leírásokat és azok method-signature megfelelőit tf*idf mátrixokban ábrázoljuk egyszerűen regressziós modellt illeszthetünk a két vektor-térre, ahol a bemenet a deskripció-vektor és a cél pedig a hozzá tartozó method-signature vektor. Több modellt is kipróbáltam, de a Ridge-regresszió teljesített a legjobban megverve a PLDA-t és azért viszonylag alul múlva az IBM modell 1-t. Szerintem az alábbi táblázatban az Acc@10 a legfontosabb mutató, azt mondja meg, hogy az esetek mekkora részében adja vissza a rendszer a megfelelő találatot az első kereső oldalon.

 

 

MRR Acc@1 Acc@10
Ridge 0.39 0.23 0.71
PLDA 0.35 0.24 0.56
IBM model 1 0.49 0.34 0.79

 

 

De mint említettem nem kizárólag az volt a cél, hogy írjak egy fura keresőmotort, hanem hogy hozzájáruljak a ma még gyerekcipőben járó Grounded Learning módszertanához. Arra voltam kíváncsi, hogy a Java terminusok mennyire tudják megragadni az angol kifejezések jelentését egy ilyen regressziós fordítás során és hogy mindezt, hogy lehetne letesztelni. Végül úgy döntöttem, hogy neurális hálót használok a kísérletezgetéshez méghozzá több szintes neurális hálót azaz Multilayer Perceptront, ami a projektem szempontjából azért érdekes, mert a köztes (rejtett) szinteken érdekes absztrakt reprezentációt tanulhat a nyelvi adatokból.

 

 NN.png

 

Ahogy a fentiekben már ecseteltem a képen illusztrált neurális háló is tf*idf deskripció-vektorokból tanul meg jósolni tf*idf method-signature-vektorokat. Hogy szemléletes legyek a háló baloldalán van az Angol-tér, a jobb oldalán a Java-tér és ott középen vagyunk a nyelvek között. Az volt az ötletem, hogy csinálok a deskripció összes szavához one-hot-encodinggal szó-vektort (jó sok 0 és egyetlen 1-es a szó indexének helyén) és ezekből kapott mátrixokat "beágyazom a háló közepébe". A poén az, hogy one-hot-encodinggal a szavak közti kapcsolatok nincsenek reprezentálva, de ha a tanulás során az angol kifejezések jelentését valamennyire megfogtuk Java terminusokkal, akkor a beágyazott szó-vektorok esetében azt várjuk, hogy a hasonló szavak vektora hasonló helyen helyezkedjen el (hasonló irányba mutasson) a beágyazott vektortérben. Szerencsére teljesült a kívánságom, alább mutatok pár példát az így kapott szólistáimból.

 

zip currency cos true yyyy
compressed symbol argument whether sep
compression represent trigonometric boolean oct
checksum territories cosine equality nov
uncompressed countries angle false mm

 

Ahogy láthatjátok tényleg "összeklasztereződtek" a hasonló szavak, ami azt jelenti, hogy valamit elcsíptünk az angol szavak jelentéséből Java terminusokkal. Kicsit másképp megfogalmazva: a poén az, hogy a neurális hálóba ágyazott szó-vektorok egész reálisan reprezentálják az angol szavak egymás közti viszonyait, de ezt nem úgy értük el, hogy megfigyeltünk angol szövegeket, hanem azok viszonyát figyeltük meg rajtuk kívül eső dologhoz.

 

Ez mind tök király és cum laude is lett a vége, de nem árultam a poszt elején zsákbamacskát és így a vége felé is nehéz lenne megmondanom, hogy valójában mi értelme volt az egész vállalkozásnak. Amikor elkezdtem írni a szakdogát teljesen nyilvánvaló volt, hogy itt nagy dolgok vannak készülőben, kis idő távlatából azonban inkább egy ilyen "Rube Goldberg search engine avagy a keresőmotor a modern lélek tükre" című installációnak látom az Ernst múzeum egyik ingyenesen látogatható kiállításán. Mindenki döntse el maga mit gondol. Az egész rendszer az adatokkal együtt elérhető egy publikus repóban, mert azért a reproducable research az igazi party.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Tartalomelemzés - a DE Bevezetés a digitális bölcsészetbe kurzusán tartott előadásom diái

2014.10.14. 08:50 Szerző: zoltanvarju Címkék: tartalomelemzés nyelvtechnológia

Ma a Debreceni Egyetemen tartok előadást, Szekrényes István barátom Bevezetés a digitális bölcsészetbe kurzusán. A posztban megtalálhatjátok a kapcsolódó diákat és ajánlok pár korábbi posztot azoknak, akik jobban elmélyednének a témában.

Mivel egy előadás kevés ahhoz, hogy a tartalomelemzéssel úgy igazán megismerkedjen valaki, ezért arra gondoltam, megmutatom hogy a legegyszerűbb módszerrel, szavak számolgatásával, mi mindenre lehet jutni.

Bemelegítés

Akár kideríthetjük egy ember nemét, korát és főbb pszichológiai jellemzőit is:

Egyszerű szógyakoriság

A legegyszerűbb szógyakorisági "viszgálat" az R-index, ami nagyon jól működik a válságok előrejelzésében. Ennek mintájára, sokan szeretnék tartalomelemzési technikákkal kiváltani az amúgy költséges fogyasztói bizalmi indexeket és egyéb mutatókat. Erről bővebben l.

Történeti kutatásoknál a Google Ngram Viewer korpuszát érdemes használni, l. az alábbi posztokat

Saját, az index.hu cikkeire alapozott R-indexünkkel kapcsolatos vizsgálódásainkról pedig a

c. posztunkban olvashatsz.

Az

irományban a GoogleTrends egy érdekes használatát mutatjuk be.

 Szentiment- és emócióelemzés

A polaritások szemléltetéséhez a példákat a Neticle rendszeréből vettem. A legjobb példa ma magyar nyelvű szentimentelemzéssel segített tartalomelemzésre, a Méltányossággal közösen folytatott Politikai véleményárfolyam riportjuk, melyet havonta adnak ki. A srácokkal erről beszélgettünk egy posztban:

 Az emócióelemzés elméleti hátteréről:

A tökéletes rap slágert alábbi posztjainkban kutattuk:

A főpolgármester-jelöltekkel kapcsolatos emóciókat a

Miért haragszanak annyira a twitterezők a főpolgármester-jelöltekre?

c. posztunkban elemeztük. A jelenbecslésről többet alábbi írásainkból tudhatsz meg:

Saját, a Jobmonitor adataival végzett munkánkról a

c. posztunkban olvashatsz.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Miért haragszanak annyira a twitterezők a főpolgármester-jelöltekre?

2014.10.12. 10:43 Szerző: kittibalogh Címkék: pollyanna R szentimentelemzés emócióelemzés Precognox Labs főpolgármester választás

A vasárnapi önkormányzati választás előtt kíváncsiak voltunk, hogy a magyar twitterezők milyen gyakorisággal és milyen szövegkörnyezetben tesznek említést a főpolgármester-jelöltekről. Leginkább az a kérdés izgatott minket, hogy a jelölteket említő tweetek száma, polaritása és emóciója kapcsolatban áll-e a várható eredményekkel. Ehhez újra kipróbálhattuk a szentiment- és emóciószótárainkat, ahogy azt nemrég a politikai blogok vizsgálata közben is tettük, és valami egészen mást találtunk.

Persze a magyar Twitter közösség nem tekinthető reprezentatívnak a magyar társadalom jellemzőire nézve, azonban egyre több példa adódik a hagyományos és online médiában megjelenő tartalmak társadalmi és gazdasági elemzési céllal történő sikeres felhasználására. Ennek egyik oka, hogy egy esemény médiabeli megjelenése egyszerre reflektál és hat a közönséghangulatra és az emberek véleményére. Ebben az oda-visszaható folyamatban az események és a vélemények várhatóan az érdeklődéssel arányosan kapnak visszhangot. Egy korábbi posztban már bemutattuk, hogy DiGrazia, McKelevy, Bollen és Rojas hogyan használták a 2010-es egyesült államokbeli választás során a tweetek gyakoriságát a választói viselkedés jelzőszámaként, melyet More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior c. tanulmányukban fejtenek ki. Azt állítják, hogy a választási eredményekkel való kapcsolat a polaritás mérése nélkül is erős. Ennek okát a pollyanna hipotézisben látják, mely szerint az emberek nagyobb gyakorisággal használnak pozitív szavakat és kifejezéseket, mint negatívakat és emiatt azokról a jelöltekről beszélnek szívesebben, akiket támogatnak.

Az általunk talált adatok azonban eltérő képet mutatnak. Eredményeink különböznek attól, amit a politikai blogok vizsgálatánál találtunk, amely szerint a politikai blogokon meglepő módon az öröm a leggyakoribb érzelem. Ezzel összefüggésben a pollyanna hipotézis sem látszik beigazolódni. Az elemzésre használt tweeteket a választás előtti estén, 2014. október 11. 20 és 22 óra között gyűjtöttük be, és összesen 462 olyan bejegyzést találtunk, mely tartalmazta valamelyik főpolgármester-jelölt nevét az öt közül. Természetesen az elemszám felől is lehetnek kétségeink, hiszen a komolyabb kutatásokban több(száz)millió bejegyzéssel dolgoznak, de a hazai twitterező közönség ennyi tweetet termelt ki a témával kapcsolatban.

 

tarlós cloud.png

Tarlós Istvánt említő tweetek emóció szerinti szófelhője

 

A legtöbb bejegyzés Tarlós Istvánról szólt (210 db), de nem volt sokkal elmaradva a Bokros Lajost említő tweetek száma se (201). Staudt Gábor nevét 10, Csárdi Antalét 22, Bodnár Zoltán Györgyét pedig 19 alkalommal említették. Emóció és szentiment szerinti bontásban pedig a következőképp alakulnak a számok:

 

Tweetek gyakorisága emóció szerint

Tarlós

Bokros

Staudt

Csárdi

Bodnár

Düh

164

133

7

13

15

332

Szomorúság

6

6

1

1

1

15

Öröm

9

9

1

2

1

22

Félelem

1

0

0

0

0

1

Meglepődás

0

1

0

0

0

1

Undor

0

0

0

0

0

0

Ismeretlen

30

52

1

6

2

91

210

201

10

22

19

462

 

Tweetek gyakorisága szentiment szerint

 

Tarlós

Bokros

Staudt

Csárdi

Bodnár

 

Semleges

149

146

6

16

14

331

Pozitív

26

33

3

3

4

69

Negatív

35

22

1

3

1

62

 

210

201

10

22

19

462

 

Már ezekből a számokból is látszik, hogy Tarlós és Bokros neve uralja az általunk vizsgált posztok túlnyomó részét, és hogy a pozitív és negatív kifejezések használata nem igazán igazodik a pollyanna hipotézishez. Emellett feltűnően gyakori a haragot kifejező szavak és kifejezések használata (a tweetek kb. 72%-a), amely mellett eltörpül a többi érzelem gyakorisága, holott a szomorúság (3,2%) és az öröm (4,7%) is jellemző emóciója a vizsgált bejegyzéseknek. A nem felismert emóciójú posztok az összes poszt 19%-át teszik ki, ami bár nem csekély, de nem tudna belezavarni a harag emóció uralmába. Ha az egyes érzelmeket számítjuk 100%-nak, a fenti két táblázat a következőképpen néz ki:

 

Tweetek relatív gyakorisága emóció szerint

Tarlós

Bokros

Staudt

Csárdi

Bodnár

Düh

49,40%

40,06%

2,11%

3,92%

4,52%

Szomorúság

40,00%

40,00%

6,67%

6,67%

6,67%

Öröm

40,91%

40,91%

4,55%

9,09%

4,55%

Félelem

100,00%

0,00%

0,00%

0,00%

0,00%

Megelepődés

0,00%

100,00%

0,00%

0,00%

0,00%

Undor

0,00%

0,00%

0,00%

0,00%

0,00%

Ismeretlen

32,97%

57,14%

1,10%

6,59%

2,20%

Minden

45,45%

43,51%

2,16%

4,76%

4,11%

 

Tweetek relatív gyakorisága szentiment szerint

 

Tarlós

Bokros

Staudt

Csárdi

Bodnár

Semleges

45,02%

44,11%

1,81%

4,83%

4,23%

Pozitív

37,68%

47,83%

4,35%

4,35%

5,80%

Negatív

56,45%

35,48%

1,61%

4,84%

1,61%

 

Ezeket a százalékokat már össze tudjuk vetni a közvélemény-kutatók által becsült választási eredményekkel. Az Ipsos, a Nézőpont és a Medián adatai közül a Nézőpont Intézet adatait használom összehasonlításként, ugyanis ez a legfrissebb elérhető felmérés, valamint az intézet által közölt mintavételi adatok szerint ez tűnik a legmegbízhatóbbnak (a minta nemre és korra reprezentatív, a mintavételi hibahatár +/- 4,4%).

 

 

Nézőpont,    2014.10. 6-8., biztos szavazók (n=500)

Minden

Düh

Szomorúság

Öröm

Seml.

Poz.

Neg.

Tarlós István (Fidesz-KDNP)          

52%

45,45%

49,40%

40,00%

40,91%

45,02%

37,68%

56,45%

Bokros Lajos  (MoMa)

25%

43,51%

40,06%

40,00%

40,91%

44,11%

47,83%

35,48%

Staudt Gábor (Jobbik)

6%

2,16%

2,11%

6,67%

4,55%

1,81%

4,35%

1,61%

Csárdi Antal (LMP)

6%

4,76%

3,92%

6,67%

9,09%

4,83%

4,35%

4,84%

Bodnár Zoltán György (MLP)

1%

4,11%

4,52%

6,67%

4,55%

4,23%

5,80%

1,61%

 

Ha a Nézőpont felmérésének becsült értékeitől vett eltérések négyzetösszegét vesszük (mean square error/ átlagos négyzetes hiba), a dühöt kifejező és a negatív tartalmú bejegyzések mutatják a Nézőpont eredményeihez leghasonlóbb képet. Tehát a pollyanna hipotézistől eltérő viselkedés nagyon is lényeges a jelenség esetében, az általunk vizsgált tweetekben ugyanis pont azok a kategóriák számítanak a választói viselkedés legjobb mutatószámainak, amelyek eltérnek a várt nyelvi viselkedéstől. Ez az eredmény azt támasztja alá, hogy igenis érdemes polaritást és szentimentet vizsgálni a politikai magatartás elemzésekor.

Nade mit jelentenek az adatok és miért pont a düh határozza meg ennyire a választói viselkedést? A negatív tweetek pozitívakéval hasonló mértékű használata a nagyobb információtartalom elérése miatt lehet, amiről már szintén írtunk egyszer. Mivel a nyelvhasználatunkban a pozitív töltetű szavak gyakorisága magasabb, ezért azok kevesebb információtartalommal bírnak, míg a negatív töltetű szavak fontosabbnak tűnnek számunkra. A Twitteren jellemzően rövid és tömör kiírásokkal találkozhatunk, így nem lenne meglepő, ha az emberek intuitívan is, de negatív tartalmú mondatokat használnának az informatívabb megnyilatkozás és a nagyobb hatás elérésének érdekében. Egy másik olvasata a jelenségnek az lehet, hogy a budapesti Twitter közösség tagjai, akik aktívan foglalkoznak az főpolgármester választással, túlnyomórészt baloldali ill. liberális kötődésűek, de legalábbis ellenzékiek. Ezt jelzi egyrészt a dühöt kifejező tweetek többiekéhez alacsony százaléka Bokros és Csárdi esetében, valamint a pozitív tweetek nagyobb százaléka Bokros, Staudt és Bodnár esetében. Ezzel összhangban a Tarlóst érintő posztok feltűnően nagy hányada fejez ki dühöt és a negatív polaritású bejegyzések hányada is az ő esetében a legmagasabb, közel másfélszerese a pozitívakénak. Az is alátámasztja ezt a feltételezést, hogy egyedül Tarlóssal kapcsolatban jelent meg a félelem mint emóció, míg a meglepődés csakis a Bokrost említő tweetek között bukkant fel. A megszokottól eltérő negativitás és düh pedig talán a politikai életben való csalódottsággal is összefügg. Az említett közvélemény-kutatások kb. 10%-os bizonytalan baloldali szavazóbázissal számolnak a biztosan szavazók között, akik a felmérések idején nem tudtak választani a jelöltek közül, de biztosan elmennek szavazni. Elképzelhető, hogy a baloldali jelöltek visszalépésének és a megfelelő alternatíva hiányának következtében ilyen negatív és dühös a tweetek hangulata.

bokros emo.png

bokros pol.png

tarlós emo.png

tarlós pol.png

 

Azonban az kiderült, hogy még közel 500 bejegyzés alapján is érdemes lehet megvizsgálni a polaritást és az emóciókat, mivel a választók nyelvi viselkedése egészen jól tükrözi a politikai viselkedésüket, és az eredmények hasonló képet mutatnak a közvélemény-kutatók által mért adatokkal. Azt pedig mindenképpen ki kell emelni, hogy figyeljünk oda a negatív tartalmakra, mivel meglepően jó indikátorai lehetnek a vizsgálni kívánt jelenségeknek.

 

bokros cloud.png

Bokros Lajost említő tweetek emóció szerinti szófelhője

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Egy igazi metaforamasina a Yossarian?

2014.10.10. 08:00 Szerző: zoltanvarju Címkék: keresés tesz metafora Yossarian

Hogy miért pont A 22-es csapdájának szereplőjéről Yossarianról kapta a nevét a londoni metaforakereső, az talány, ahogyan az is hogy mire lehet egyáltalán használni. Ellenben elindult, működik és ki is lehet próbálni. Teszteljük hát le a Yossarian-t!

yossarian01.PNG

Elvileg metaforákat, gyakorlatilag inkább asszociációkat kereshetünk a Yossarian segítségével. Sőt, igazából egy kereső kifejezéshez találunk képi asszociációkat. Természetesen nem hiányozhat az oldalról a "social" funkció sem, habár megléte nem igazán tűnik indokoltnak.

yossarian02.PNG

Elvileg a Yossarian-t kreatív csapatok használják, s ezt nem csak saját "Pro" szolgáltatásuk promóciója, hanem a Fast Company cikke is megerősíti. Ebből kiindulva arra gondoltunk tesztünk során megnézzük hogy olyan alaptermék reklámozásához mint pl. a sör milyen képeket asszociál nekünk a metaforakereső.

yossarian03.PNG

A találatokkal nem igazán tudunk mit kezdeni, hacsak nem az "igyunk munkahelyen" vagy "milyen jó lesz az egy nap megfeszített mosolygás után végre inni" asszociációkra gondolunk.

yossarian06.PNG

A találatokat elmenthetjük és ha nagyon rendesek vagyunk, akkor segíthetünk a Yossariannak azzal, hogy eláruljuk miért kedveljük az adott találatot.

 

Hogy ne legyünk igazságtalanok, más szavakkal is végeztünk keresést, pl. a "nice" és a "beautiful" esetében éreztük hogy a találatok tök jók, ellenben pl. a "toothbrush" és egyéb hétköznapi tárgyak beírása csak az időnket rabolta.

yossarian05.PNG

Emésztgettük egy ideig az alkalmazást mielőtt úgy döntöttünk, írunk róla. Nem akarunk igazságtalanok lenni, lehet egyszerűen nem mi vagyunk a Yossarian célközönsége, de egyszerűen nem látjuk hogy mire is használható. Ellenben maga a technológia nagyon izgalmas és reméljük, ahogy a cég fejlődik, úgy előbukkannak majd még értelmes felhasználási területek is.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre