HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kultúrafüggetlenség kontra kontextusfüggés, avagy Ekman "veszélyes" elmélete

2015.07.07. 09:00 Szerző: Szabó Martina Katalin Címkék: nyelvészet pszichológia szemantika pragmatika nyelvtechnológia kognitív nyelvészet Ekman szentimentelemzés emócióelemzés

A jelen posztban csoportunk eddigi emócióelemzési kutatómunkájához kapcsolódunk, és az érzelmek szövegszintű kivonatolásának elméleti alapvetését szeretnénk alaposabban górcső alá venni. 

Amint arról már több konferencián, cikkben és poszban is szóltunk (l. például a Nyelv, kultúra, társadalom konferencia előadás slide-ok, a Racionalitás, érzelmek, nyelv, a MANYE-n voltunk vagy a Miért foglalkozunk emócióelemzéssel és politikai blogokkal? című bejegyzéseinket),  arra törekszünk, hogy hatékony megoldást találjunk az érzelmeket kifejező szövegelemek automatikus kiszűrésére és feldolgozására. Hogy miért tartjuk mi ezt a feladatot ennyire fontosnak, azt ebben a bejegyzésben nem részletezzük, inkább majd külön posztot szentelünk a témának. Annyit mindenesetre itt is hangsúlyozni szeretnénk, hogy a szövegekben rejtőző emóciók megismerésétől olyan információkat remélhetünk, amelyet a szentimentelemzéstől nem. Az emóciók kivonatolása tehát egy másfajta, esetlegesen a szentimentelemzés eredményét kiegészítő gazdasági haszonnal szolgálhat.   

Ahhoz, hogy az érzelmeket ki tudjuk szűrni a szövegekből, nyilvánvalóan mindenekelőtt meg kell határoznunk azt, hogy mit is keresünk. Kézenfekvő megoldás, hogy olyan nyelvi kifejezéseket igyekezzünk megtalálni, amelyek egyértelműen egyik vagy másik érzelemtípushoz tartoznak. Nézzünk néhány valós nyelvi példát a netről!

1. XDDDDDDD hát hallod téged még egy ártatlan mosolygós fej is felmérgel.:)

2. Még mindig retteg a színésznő, ezért fordult a nyilvánossághoz. 

Úgy tűnik, hogy érdemes az itt kiemelt elemeket összegyűjteni, és aszerint szótárakba rendszerezni, hogy azok mely emóció kifejezésére szolgálnak, tehát mely érzelem meglétét jelölik. Ahhoz azonban, hogy ezeket az emóciókifejezéseket rendszerezni tudjuk, értelemszerűen meg kell határoznunk a kategóriákat, vagyis azt, hogy milyen rendszer szerint kívánjuk a kifejezéseket osztályozni. És itt jön a következő kézenfekvő lépés a nyelvész számára: keressük meg, mit mond a pszichológia, milyen érzelemkategóriákkal érdemes foglalkozni!

Az emócióelemzésnek e fentebb vázolt metódus jelenleg a kitaposott útja - már ha a nem túl magas számú nemzetközi, és még csekélyebb számú hazai publikáció mellett egyáltalán lehet kitaposott útról beszélni. Az emóciókat elemző nyelvtechnológus megnézi a pszichológia vonatkozó eredményeit, és megtalálja Paul Ekman elméletét. Ekman azt mondja, hogy hat olyan, ún. alapérzelem van, amelynek arckifejezései a vizsgálati eredmények alapján kultúrafüggetlenül azonosíthatóak, azaz ezek arckifejezései a világon minden ember számára ugyanazt az érzelmi állapotot (bánat, düh, félelem, meglepődés, öröm és undor) tükrözik

emitiou.jpg

Az 1970-es években azután Ekman, Friesennel együtt kidolgozta az ún. Arctevékenység-kódoló Rendszert, röviden a FACS rendszert. A módszer, amely több évtizednyi kutatás eredménye, feltérképezi az arc 23 pár izmának mozgását, s ezen apró mozgások elemzése alapján megállapítja, hogy az adott személy éppen milyen érzelmi állapotban van. Az elemző precizitását mutatja, hogy a segítségével az igazi és a színlelt érzelmeket is pontosan el lehet különíteni egymástól.

Nem csoda hát, ha a Time magazin 2009-ben Ekmant a világ 100 legbefolyásosabb emberének sorába választotta. 

lie-to-me-production-aug-2008-download-2-087.jpg

Paul Ekman és a Hazudj, ha tudsz! című tévésorozat sztárja, Tim Roth

(www.paulekman.com) 

Az ekmani elmélet átütő sikeréből következően a nyelvtechnológiai emócióelemzés is alapvetően ebből a kategorizálásból építkezik. A legtöbb vonatkozó dolgozat vagy egyenesen az ekmani hat alapemóció mentén csoportosítja az értelemkifejezéseket (l. pl. Liu et al. 2003; Alm et al. 2005; Neviarouskaya et al. 2007 a,b; Aman-Szpakowicz 2007), vagy ezeket alapul veszi, majd néhány egyéb csoporttal kiegészíti azt (pl. a vonzalom vagy a feszültség kategóriáival, ahogyan újabban például magunk is teszünk, l. Szabó et al. 2015). Annyira meggyőző érv ugyanis az, hogy ezek az érzelemtípusok kultúrafüggetlenek, hogy a számítógépes nyelvész bele sem gondol: Vajon valóban ez az a sajátság, amire nekünk szükségünk van? Illetve, vajon nem takar-e el ez (az egyébként nyilvánvalóan fontos) tény olyan jellegzetességeket a számítógépes nyelvész szeme elől, amely dugába döntheti az elemző munka eredményét?

Azt ígértem a poszt címében, hogy Ekman "veszélyes" elméletéről fogok írni. Nos, ezzel a jelzővel Daniel C. Dennett Darwin's dangerous idea (1995) című művére kívántam rájátszani, és az "ekmani veszélyre" igyekeztem rámutatni. Dennett két okból nevezi a darwini elméletet veszélyesnek: Egyrészt, mert Darwin gondolata alapjaiban forgatta fel a hagyományos kozmológiai gondolkodást, miszerint az ember kitüntetett szereppel bír a létezők sorában, sőt alapjaiban kérdőjelezte meg azt, hogy magának az életnek is egyáltalán kitüntetett ontológiai státusza volna. Másrészt, Dennett arra is rá kíván mutatni, hogy (véleménye szerint) sokan rosszul értelmezik Darwint az elmélete könnyű félreérthetősége okán, s ez a félreértelmezhetőség veszélyessé teszi azt. Ekman elmélete azért "veszélyes", mert annak kultúrafüggetlenül érvényes volta olyannyira meggyőző erejű, hogy hajlamosak vagyunk az emóciókifejezések - és legyenek azok most arc- vagy nyelvi kifejezések - egyéb sajátságaira már különösebb figyelmet nem is fordítani.

Az egyik ilyen sajátság a kontextus szerepe az emóciókifejezések interpretálásában. És itt nem feltétlenül szövegek elemzéséről van szó. Nézzük meg a jelenséget közelebbről is!

Barrett és szerzőtársai (Barrett et al. 2007) dolgozatukban egy a téma szempontjából igen érdekes fotóra hívják fel a figyelmet. A fényképet Jim Webbről, az Amerikai Egyesült államok szenátoráról készítették, miközben a 2007-es választási győzelmet ünnepli. A pszichológiai kísérletek azt mutatják, hogy amennyiben a szenátor arcát önmagában, a kontextusa nélkül látják az alanyok (l. (a) lentebb), arról azt a megállapítást teszik, hogy a férfi arckifejezése agressziót és haragot tükröz. Amennyiben azonban a szenátor arcát a kép eredeti formájában, a teljes kontextusban mutatják meg az alanyoknak (l. (b) lentebb), úgy azok örömöt és izgatottságot vélnek felfedezni rajta.   

nihms37844f1.jpg

A vizsgálat eredménye különösen figyelemre méltó, ha meggondoljuk, hogy a szenátor arckifejezését a vizsgálati személyek egyáltalán nem érzékelik  félreérthetőnek, többértelműnek, hanem automatikusan és bármiféle megerőltetés nélkül jutnak ellentétes megállapításra.

Barrett (Barrett et al. 2007) a jelenségre paradoxonként utal, hiszen mégiscsak elég paradoxális, ha van hat, egymástól biológiai jegyeiben jól elkülöníthető, emellett univerzális arckifejezés, amelynek interpretációja, mindennek ellenére, akár teljes mértékben kontextusfüggő lehet. A szerzők megpróbálnak valamiféle magyarázatot adni a jelenségre, és dolgozatukban a szavak mint a kategóriaképzés eszközével operálnak, véleményem szerint azonban elméletük nem ad megnyugtató választ.

Ugyanakkor, (talán az ekmani kategóráiákért cserébe?) most mintha a nyelvészet kölcsönözne elméleti keretet a pszichológiának. 

Az elméleti keretet egészen Wilson és Sperber (2004) pragmatikájáig kell visszavezetnünk. Wilson és Sperber (2004) azt mondja, hogy a megnyilatkozás kommunikált tartalma messze túlmutat azon a tartalmon, amelyet a puszta nyelvi elemek és szerkezetek kódolnak, ezért a jelentést a hallgatónak kell kidolgoznia az aluldeterminált jelentésből a kontextus alapján. Mindez a lexikai pragmatika elméleti keretében azt jelenti, hogy maga a puszta lexéma csupán alulspecifikált szemantikai reprezentációval rendelkezikEnnek következtében a lexéma a teljes jelentését majd csak a kontextusban nyeri el (vö. Bibok 2014). De honnan van mégis ez az aluldeterminált jelentés? Nyilvánvalóan lennie kell egy pragmatikai tudásnak, amely a kódok kidolgozásához szükséges enciklopédikus információkat tartalmazza. 

 

Mindez igen bonyolultan hangzik, ezért nézzünk meg néhány példát az elmélet működésére a szentiment- és emóciókifejezések megértése területéről!

3.a. Őrizetben a brutális kettős gyilkosság gyanúsítottja (mno.hu)

b. Félelmetes élményben volt része egy amerikai nőnek, aki Dél-Afrikában, a Mossel-öbölben vett részt egy ketreces cápamegfigyelésen. (www.erdekesvilag.hu)

4. Bemutatkozott a brutális Volkswagen GTI Supersport Vision Gran Turismo (...) Egy félelmetes ferdehátú, amely egy másik nézőpontból kelti életre a „GTI” koncepcióját. (http://auto-live.hu/)

Az fentebb vázolt elképzelés szerint a (3a) és (3b) mondatok esetében a kiemelt szavak megértése a pragmatikai tudásunkban lévő enciklopédikus információkra támaszkodva történik. Mindez azt jelenti, hogy van valamilyen, az eddigi tapasztalatainkon alapuló elképzelésünk arról, hogy milyen az, ami brutális, és milyen az, ami félelmetes. Ez tulajdonképpen az az enciklopédikus információ, amelyet a vizsgált kifejezések alulspecifikált szemantikai reprezentációi magukban foglalnak, és ezekre a számunkra már rendelkezésre álló információkra támaszkodva azt is meg tudjuk fejteni, hogy mit takarnak ezek a kifejezések ezekben az aktuális kontextusokban. Ugyanakkor, a (4) alatti példa esetében ez az enciklopédikus információ nem áll összhangban teljes mértékben az aktuális kontextussal, tehát az alulspecifikált szemantikai reprezentációban foglalt enciklopédikus információ nem elegendő a számunkra, ezért „távolabbi” enciklopédikus információk elérésére van szükség. A (4) alatti példa esetében ez a "távolabbi" információ a brutális és félelmetes kifejezések affektív jegye. Azt mondjuk tehát, hogy ebben és az ehhez hasonló esetekben a vizsgált lexémák prototipikus vagy sztereotipikus jelentése helyett annak puszta affektív vagy intenzitási szemantikai jegye aktiválódik az interpretáció során. Még egyszerűbben: nem arra a következtetésre jutok, hogy a Volkswagen e típusa úgy brutális, mint egy gyilkosság, és rettegnem kell tőle, hiszen félelmetes, hanem arra, hogy annyira hatásos, lehengerlő és meglepő, mint - hogy úgy fogalmazzunk - "amekkora" affektív jegy van a brutális és a félelmetes kifejezésekben.  

Ha meggondoljuk ezt az interpretálási folyamatot, könnyen felfedezhetünk egyfajta párhuzamot a szövegszintű emóciókifejezések, valamint az emóciók arckifejezéseinek a megértése között. Hiszen nem lehet nem észrevenni, hogy mennyire hasonlít egymásra az a két jelértelmezési folyamat, amelynek során képes vagyok megfelelően, a  prototipikus vagy sztereotipikus jelentéstől eltérően, a puszta affektív szemantikai sajátság alapján interpretálni jelen esetben például a brutális szót az ezt a fajta interpretációt megkívánó kontextusban, és, hogy képes vagyok az egyébként, kontextus nélkül a számomra a harag egyértelmű jegyeit mutató szenátori arcot az izgatottság és az öröm kifejeződéseként interpretálni az ezt a fajta értelmezést megkívánó kontextusban. 

Persze a fentebb bemutatott elméleti párhuzamot nem ok nélkül tárgyaltam - bár kétségtelen, hogy izgalmas és mindenképpen megfontolásra érdemes elképzelés önmagában is. Azt szerettem volna mindenekelőtt megvilágítani, hogy amíg az emócióelemzők (és áruljuk el: a szentimentelemzők is) gyakorta alapvetően a kategóriarendszerre, a rendszerezés problémáira és lehetőségeire fókuszálnak, elsikkadnak olyan jelentős kérdések fölött, mint jelen esetben például a kontextus szerepe a nyelvi (és az arckifejezések esetében nem nyelvi) jelek megértésében. Így pedig egy helytálló, és akár a nyelvtechnológiában és sikerrel alkalmazható pszichológiai elmélet is könnyen "veszélyessé"  válhat.           

IRODALOM

Alm, C.O.-Roth, D.-Sproat, R. 2005. Emotions from text: machine learning for textbased emotion prediction. In Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP 2005). Vancouver, Canada. 579-586.

Aman, S.-Szpakowicz, S. 2007. Identifying Expressions of Emotion in Text. In Proceedings of the 10th International Conference on Text, Speech, and Dialogue (TSD- 2007), Plzeň, Czech Republic, Lecture Notes in Computer Science (LNCS). SpringerVerlag. 196-205.

Barrett, L.F.-Lindquist, K.A.-Gendron, M. 2007. Language as context in the perception of emotion. Trends in Cognitive Sciences 11. 327-332.

Bibok, K. 2014. Lexical semantics meets pragmatics. Argumentum 10. Debreceni Egyetemi Kiadó. 221-231.

Ekman, P.-Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49-98.

Ekman, P.-Friesen, W. V.-Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion in the human face. New York: Cambridge University Press. 39-55.

Liu, H.-Lieberman, H.-Selker, T. 2003. A Model of Textual Affect Sensing using RealWorld Knowledge. In Proceedings of the International Conference on Intelligent User Interfaces, IUI 2003, Miami, Florida, USA.Wilson, D.-Sperber, D. 2004. Relevance Theory. In Ward, G.-Horn, L. eds. Handbook of Pragmatics. Oxford, Blackwell. 607−632.

Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007a. Analysis of affect expressed through the evolving language of online communication. In Proceedings of the 12th International Conference on Intelligent User Interfaces (IUI-07). Honolulu, Hawaii, USA. 278-281.

Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007b. Narrowing the Social Gap among People involved in Global Dialog: Automatic Emotion Detection in Blog Posts, In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2007). Boulder, Colorado, USA. 293-294. 

Szabó M.K.−Vincze V.−Morvay G. 2015. Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok. 25. MANYE-kongresszus, Budapest

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan befolyásolja a gondolkodásunkat a mindennapi számítógép-használat?

2015.07.06. 16:08 Szerző: zoltanvarju Címkék: kérdőív

Egy kérdőív kitöltésére buzdítjuk kedves olvasóinkat, amit alább meg is találhatnak. A vizsgálat eredményeiről természetesen egy posztban fogunk hamarosan beszámolni.

 cd.jpg

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan cenzúrázd az internetet?

2015.07.03. 09:00 Szerző: kittibalogh Címkék: pagerank politikai blogok R fragmentation

iután felderítettük a politikai blogok hálózatát, elemezgettük és előadtunk róla, épp itt az ideje, hogy szétromboljuk, ahogyan egy rendes LEGO-építményt illik. Na de mennyire ellenálló az építményünk? Szétesik egy jól irányzott csapástól vagy fogainkat és körmeinket segítségül véve kell szétszednünk az elemeket? Mit tegyen egy gonosz manó, ha nem tetszik neki, hogy a különböző nézeteket képviselő oldalak között összeköttetéseket, utakat találhatunk? Posztunkban a hálózat támadásának két stratégiáját vetjük össze.

001.png

Hogy szétbombázzuk az 1195 kapcsolattal összekötött 747 blogból és híroldalból álló hálózatunkat, két stratégiát vetettünk be Albert Réka, Hawoong Jeong és Barabási Albert László cikke alapján. Az első stratégia a random meghibásodások mintáját követi. Mivel egy hiba véletlenszerűen jelentkezik, mi is véletlenszerűen választunk ki egy-egy weboldalt, és töröljük minden kapcsolatával együtt. Majd jön a következő oldal, azt is töröljük, és így tovább. A második stratégiát követve azonban nem bízzuk a véletlenre a rombolást, hanem megkeressük a hálózat igazán fájó pontjait és azokat támadjuk meg. Barabásiék cikkétől eltérően nem a legnagyobb fokszámú (legtöbb kapcsolattal bíró) oldalakat szüntettük meg, hanem a legnagyobb PageRank értékkel rendelkezőket. (Ezt előzetesen kipróbáltuk, és a PageRank támadás nem sokkal, de valamivel hatásosabb tömegpusztítónak bizonyult.) A rombolást addig folytathatjuk, míg el nem fogy az összes oldal, de mivel mi éppen azon vagyunk, hogy kiélhessük a destruktív hajlamunkat, annak örülünk, ha minél kevesebb oldalt megsemmisítve tudjuk szétszedni a hálózatot.

És hogy melyik a nyerő stratégia, a véletlenszerű vagy a PageRank érték szerinti támadás, a következő két videó elárulja:

 

 

 

Mindkét videón 100 oldalt iktattunk ki egyik és másik stratégia szerint. Azt valószínűleg sejthettük, hogy ha a PageRank érték szerinti legfontosabb oldalakat semmisítjük meg, a hálózat súlyos sérüléseket szenved és hamar szétesik. Az azonban meglepő lehet, hogy a random támadások szinte meg sem kottyannak a hálózatnak, és alig történik valami a szerkezetével.

Ahogy Barabásiék cikkében is olvashatjuk, ez annak köszönhető, hogy a vizsgált hálózat - ahogyan a valós hálózatok többsége - skálafüggetlen, tehát nagyon sok olyan weboldal van a hálózatban, amely kevés kapcsolattal rendelkezik, és csak néhány olyan oldal van, amely nagyon sokkal. Ezért van az, hogy ha véletlenszerűen támadunk, jóval nagyobb valószínűséggel fogunk ki olyan oldalt, amelynek csak kevés kapcsolata van, és a hálózat szerkezetére nézve nincs különösebb jelentősége a kiiktatásának. Míg ha a PageRank érték szerint támadunk, akkor pont azokat az oldalakat semmisítjük meg, amelyek központi jelentőségűek a gráf szerkezetében.

Ezt a jelenséget szemlélteti a következő ábra is, csak a hálózat egy másik tulajdonságának szempontjából. Az ábra azt mutatja, hogy hogyan változik a hálózatban az átlagos úthossz a véletlenszerű és a PageRank támadások hatására. Az eredeti hálózatban kb. 3,26-os volt az átlagos úthossz, azaz bármelyik oldaltól egy másik bármelyik oldalig nagyjából három oldalon keresztül jutottunk el átlagosan. A PageRank támadás hatására az egyre fogyatkozó hálózatban az átlagos úthossz szinte azonnal növekedni kezd, ami azt jelzi, hogy fontos összekötő elemeket szüntettünk meg. Az oldalak csupán egytizedének törlésével szét is esik a hálózat, és az átlagos úthossz értéke is leesik. A random támadások azonban nincsenek nagy hatással az átlagos úthosszra, az oldalak ¾-ét is törölnünk kell ahhoz, hogy megérezze a támadást a hálózat és elkezdjen szétesni.

 

avl.png

 

Ha tehát van egy skálamentes hálózatunk, és szét szeretnénk rombolni, a legjobb amit tehetünk, hogy kiiktatjuk a szerkezetileg legfontosabb elemeket. A fontosságot pedig megítélhetjük fokszám, PageRank, köztesség vagy más szimpatikus centralitásmérték alapján. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Oroszosaim sikerei a III. Találkozások konferencián, avagy az élénkülő ruszisztika

2015.07.01. 09:00 Szerző: Szabó Martina Katalin Címkék: konferencia orosz nyelvészet számítógépes nyelvészet

E rendhagyó posztban egy olyan sikerről számolunk be, amely igazán reménykeltő lehet mindannyiunk számára a hazai orosz nyelvi kutatások - nem mellesleg a hazai orosz számítógépes (!) nyelvészeti kutatások - fellendülését illetően.

A múlt hónapban, május 8-án került megrendezésre a III. Találkozások Konferencia a Szegedi Tudományegyetem Juhász Gyula Pedagógusképző Karának Magyar és Alkalmazott Nyelvészeti Tanszékén (a konferencia honlapja itt érhető el). A szervezők, Klippel Rita és Tóth Eszter, valamint a házigazdák, Marsi István dékán, valamint Tóth Szergej tanár úr, a tanszék vezetője gondoskodtak a kiváló rendezésről és a kellemes légkörről. 

konf_talalkiii.jpg

A konferencián olyan BA, MA, valamint PhD-hallgatók mutathatták be tudományos eredményeiket, akik az alkalmazott nyelvészet területén kutatnak. Az előadásokat az erre felkért zsűri értékelte, amelynek tagjai Bácsi János, Kiss Gábor, Lengyel Zsolt, valamint Szőllősy-Sebestyén András voltak.

Az előadók között szerepelt Danics Szabina és Rasztik Zita is, akik a Szegedi Tudományegyetem Bölcsészettudományi Karán az Orosz nyelv és irodalom szak MA-s hallgatói, és a konferencián bemutatott kutatásaiknak volt szerencsém a témavezetője, illetve társtémavezetője lenni. A hallgatókkal a szakon tartott számítógépes nyelvészeti szemináriumon kezdtük el a közös gondolkodást, amely gyorsan kiforrta magát, és a konferencián már be is mutathatták a hallgatók az eredményeiket. A lányok a nyelvtechnológia eszközeit kiaknázva igyekeztek új megállapításokat tenni az orosz nyelv vonatkozásában.

Legnagyobb örömünkre a hallgatók munkáját a zsűri is jutalmazta: Szabina „A legmélyebb összehasonlító elemzésért”, Zita pedig „A ruszisztika megújításáért” különdíjat kapott, és könyvjutalomban részesült.

Nagy megtiszteltetésünkre Tóth Szergej tanár úr külön köszöntötte az ifjú kutatókat, és kifejezte örömét arra vonatkozóan, hogy az orosz nyelvi kutatások újabb lendületet véve ismét nagyobb számban képviseltetik magukat a konferencia programjában.

Az alábbiakban a két hallgató prezentációját közöljük, valamint mutatunk néhány, a konferencián készült fotót is.

 

 

17642_1000372079986752_5202381888094804772_n.jpg

11269828_1000371963320097_2952101094829117343_n.jpg

11137101_1000370503320243_1657409160589710293_n.jpg

10428547_1000373616653265_2184748888230977555_n.jpg

11102783_1000372343320059_842149056514381625_n.jpg
img_20150611_150655.jpg

 

Remélem, hamarosan ismét Találkozunk!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A „nemzet” és a „nép” szavak Orbán Viktor beszédeiben

2015.06.29. 13:29 Szerző: kittibalogh Címkék: tartalomelemzés Orbán Viktor R Precognox Labs Poisson regresszió

Noha mindenki tisztában van azzal, hogy a politikai kommunikáció tervezett és a politikusok tudatosan használnak bizonyos kifejezéseket, érveket beszédeikben, mégis megdöbbentő, mikor a kommunikáció mesterséges szabályozásának olyan kézzelfogható bizonyítékaival szembesülünk, mint például az EMMI ágazati kommunikációnak ajánlott és nem használható elemeit tartalmazó szótára. Ezen kívül persze nap mint nap találkozunk a Nemzeti Dohányboltok logójával, és azon sem lepődünk meg túlságosan, mikor a postaládánkból egy Nemzeti Konzultációs kérdőívet veszünk ki. Többek között ezek a jelenségek irányították a figyelmünket a „nemzet” és a „nép” szavak tudatos elválasztására a kormány kommunikációjában, melyet Orbán Viktor beszédeiben vizsgáltunk meg.

Az említett EMMI szótár többek között olyan szópárokat tartalmaz, mint a „nép” és a „nemzet”, a „közösség” és a „társadalom”, a „segély” és a „támogatás”, amelyek közül a dokumentum előbbieket nem ajánlott szavaknak minősíti, és helyettük utóbbiak használatát javasolja. A hétköznapi beszédben azonban ezeknek a fogalmaknak nem igazán érezzük a szemantikai különbségét, olyannyira nem, hogy egymás szinonimáiként használjuk őket. A „nemzet” és a „nép”, valamint a szótárban olvasható többi fogalompáros szétválasztását tehát politikai és társadalmi céloknak tulajdoníthatjuk, amelyek szétválasztása egy külön eszmetörténeti feltárást igényelnének. Mi erre itt nem vállalkozunk, azonban van pár sejtésünk a „nemzet” és a „nép” elkülönítésével kapcsolatban. A „nemzet” fogalomban egyrészt ott érezzük a habermasi értelemben vett kulturális és etnikai homogenitás illúziójának megteremtését, és ezzel egyidejűleg a más „nemzethez” tartozók kirekesztését. Ennek szép példája a 2015. május 19-i straßbourgi parlamenti vita, ahol Orbán Viktor kijelentette a bevándorláspolitikával kapcsolatban, hogy meg akarja őrizni „Magyarországot magyar országnak”. Másrészt a „nép” szóra rárakódik a magyar történelem hordaléka is, ezáltal érezhetjük a baloldalisághoz való kötődését. Emellett a jelenből is hozzáadódik egy jelentésréteg, amely a népi kultúrát, hagyományokat kisajátító radikális jobboldalisághoz kapcsolódik. Ezt támaszthatja alá Orbán Viktor 2015. április 12-i tapolcai időközi választáson elhangzott beszéde, amelyben a népről egy olyan entitásként beszélt, amelyre a Fidesznek és a kormánynak nincs befolyása, és amiért nem tudnak felelősséget vállalni. Ezzel kvázi a nem-FIDESZ szavazókat azonosította a néppel.

Adatok

Ezeket megfontolva logikusnak tűnik a „nép” szó kerülése és a „nemzet” szó hangoztatása. A két szó egymáshoz való viszonyát Orbán Viktor beszédeinek 25 évet felölelő korpuszán vizsgáltuk. A korpusz 1381 darab szöveget tartalmaz, amelyek különböző események, ünnepi alkalmak, rendezvények során hangzottak el. A szöveggyűjtemény egy az 1989. március 15-i ünnepség alkalmával mondott beszédtől kezdve 2014. szeptemberig tartalmazza Orbán Viktor beszédeit, melyek több helyen is elérhetőek online (pl. kormany.hu, 2007-2010.orbanviktor.hu).

Hipotézisek

A „nép” és a „nemzet” szó szétválasztása azonban egy újabb keletű kommunikációs stratégia, ezért azt feltételeztük, hogy a 25 évet átölelő korpuszban még nem lesz tetten érhető a két szó tudatos elválasztása és a „nép” szó használatának kerülése, azaz a két szó gyakori együttes előfordulására számítottunk. Ebből kifolyólag azt vizsgáltuk, hogy ha a „nép” szó megjelenik Orbán Viktor egy beszédében, akkor a „nemzet” szó megjelenésének esélye nőni fog-e ahhoz képest, ha a „nép” szó nem jelenik meg. Illetve ha a „nemzet” szó megjelenik egy beszédében, akkor a „nép” szó megjelenésének esélye nőni fog-e ahhoz képest, ha a „nemzet” szó nem jelenik meg. Emellett azt is vizsgáltuk, hogy ha baloldali párt van kormányon, akkor Orbán Viktor beszédeiben nagyobb eséllyel jelenik-e meg a „nemzet” és a „nép” szó is, ahhoz képest, amikor jobboldali párt vagy a FIDESZ van kormányon. Ezt azért feltételeztük, ugyanis mindkét kifejezés alkalmas hívószó a közösségi érzelmek mozgósítására, amelyre leginkább ellenzéki pozícióból lehet szükség.

Módszertan

A korpusz alapján három kategoriális változót képeztünk. A nép bináris változó azt tartalmazta, hogy adott beszédben megjelent-e a „nép” szó vagy sem, a nemzet bináris változó pedig azt tartalmazta, hogy adott beszédben megjelent-e a „nemzet” szó vagy sem. A korm három értékű változó azt fejezte ki, hogy a beszéd elhangzásakor baloldali párt volt-e kormányon, vagy jobboldali párt, de nem a FIDESZ avagy a FIDESZ. A fenti hipotézisek alátámasztásához, valamint a változók mérési szintjéhez igazodva Poisson regressziókat illesztettünk.

Elemzés

A Poisson regressziós modelleket úgy illesztettük, hogy a változókat és a köztük lévő interakciókat különböző, egymást követő lépésekben vontuk be. Az általánosított lineáris modellek, és így a Poisson regressziós modellek illeszkedésének jóságát a deviancia mérőszám alapján hasonlíthatjuk össze, amely a telített modell és a definiált modell log-likelihoodjai közötti különbség kétszerese. Egymásba ágyazott modellek esetében a devianciák különbsége khí-négyzet eloszlású, amelynek szabadságfoka a paraméterek számában elért csökkenés. Épp ezért khí-négyzet próbával tudjuk ellenőrizni, hogy a modellbe bevont újabb paraméterek szignifikánsan jobb illeszkedést mutatnak-e. Az ezzel az eljárással kiválasztott modell együtthatói a következő táblázatban olvashatók:

Poisson regresszió – nép + korm + nemzet + nemzet * korm + nemzet * nép + korm * nép

 

 

Együtthatók

Együtthatók standard hibája

z-érték

Pr(>|z|)    

Intercept

3.1773    

0.1776

17.893

< 2e-16 ***

nemzet1

0.8121

0.1975

4.112

3.93e-05 ***

nép1

-0.6108    

0.1907

-3.203

0.001359 **

korm2

0.7749    

0. 2209  

3.508

0.000452 ***

korm3

2.2650

0.1838

12.322

< 2e-16 ***

nemzet1:korm2

-2.5723    

0.3331

-7.723

1.14e-14 ***

nemzet1:korm3

-0.4108    

0.2029

-2.024  

0.042999 *

nemzet1:nép1

1.7689    

0.1533

11.539

< 2e-16 ***

nép1:korm2

-0.9478    

0.3114  

-3.043

0.002339 **

nép1:korm3

-0.9807    

0.1568

-6.254  

4e-10 ***

Nulldeviancia: 1741.6107 11 szabadságfok mellett

Reziduális deviancia: 2.6646 2 szabadságfok mellett

AIC: 91.742

 

A modell érzékenységét a modell együtthatóinak bootstrappelésével ellenőriztük. 10000-es ismétlésszám mellett a modell együtthatói nem bizonyultak érzékenynek, mindegyik a bootstrap mintákra illesztett modellek együtthatói által kirajzolt konfidenciaintervallumokon belül helyezkedett el.

Eredmények

Az együtthatók alapján számolt esélyhányadosok szerint Orbán Viktor az elmúlt 25 évben előszeretettel beszélt a nemzetről, ha ellenzéki pozíciót foglalt el. Kb. 20-szor nagyobb volt az esélye, hogy a nemzetről beszéljen, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. Ezzel párhuzamban kb. 8,4-szer volt nagyobb az esélye, hogy a népről tartott beszédet, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. A feltételezésünk, miszerint ellenzéki pozícióban szívesebben használja a „nemzet” és a „nép” hívószavakat, az illesztett modell alapján tehát beigazolódott. Ezt azzal magyarázhatjuk, hogy a „nemzet” és a „nép” kifejezések alkalmas hívószavak a közösségi érzelmek mozgósítására, és erre egy politikusnak leginkább ellenzéki pozícióban lehet szüksége.

A „nemzet” és a „nép” szavak különválasztásával kapcsolatban pedig azzal a feltételezéssel éltünk, hogy mivel a szópáros szemantikailag nagyon közel áll egymáshoz, valamint szétválasztásuk egy újabb keletű, politikai célú kommunikációs stratégia, amely az egész korpuszban nem érhető tetten, az egész korpuszon vizsgálva az egyik szó előfordulása növeli az esélyét a másik szó előfordulásának. Az illesztett modell alapján számolt esélyhányadosok ezt a hipotézist is javarészt alátámasztják, ugyanis kb. 5,9-szer volt nagyobb az esélye az elmúlt 25 évben, hogy Orbán Viktor a „nemzet” szót használta, ha a „nép” szó is megjelent egy beszédében. Emellett kb. 2,3-szor volt nagyobb az esélye, hogy a népről is beszéljen, ha a nemzetről is szót ejtett.

Ez utóbbi esélyhányados azonban mutatja, hogy van némi eltolódás a „nemzet” szó preferálása felé, azonban a „nép” szó esélyét így is növeli a nemzetről való beszéd. Az illesztett modell tehát alátámasztja, hogy a vizsgált szavak mesterséges különválasztása és a „nép” szó használatának kerülése a korpuszra általánosságban nem volt jellemző, az egyik fogalom megjelenése ugyanis növeli a másik fogalom megjelenésének esélyét, amely a szemantikai hasonlóságuknak köszönhető. Azonban eltolódás tapasztalható a „nemzet” szó használatának javára, amely azt mutatja, hogy a korpuszban valamennyire mégis tetten érhető a „nemzet” szó preferálása a „nép” szóval szemben, amelyet érdemes lenne időben is megvizsgálnunk.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre