Chris Anderson The End of Theory cikke szerint a big data önmagában szükségtelenné teszi az elméleteket. Mark Graham a Guardian hasábjain remekül érvelt amellett, hogy nem spórolható meg a rendes tudományos munka még a nagy adatokkal sem. Az adatokat valahogy elemezni kell, az elemzés eredményét pedig értelmezni szoktuk. A nyelvtechnológiában még inkább szükségünk van elméletekre ehhez, hiszen gyakran a nyelvi adatokból szeretnénk következtetni valami másra, pl. a felhasználó preferenciáira, várható viselkedésére, az általa közölt információ megbízhatóságára stb. Most röviden áttekintjük a nyelvtechnológiára alapozott vizsgálatok értelmezése terén legnagyobb hatást gyakorló három elméletet, melyek közös pontja, a kognitív tudomány (vagy megismeréstudomány).
James W. Pennebaker szociálpszichológus The Secret Life of Pronouns című könyve ma az egyik legnépszerűbb mű a szentimentelemzéssel foglalkozók körében. Pennebaker kutatásainak középpontjában az ún. funkciószavak állnak, melyek a nyelvtani, szerkezeti viszonyok jelölésére szolgálnak (pl. névmások, névelők, kötőszavak stb.) szemben a tartalomszavakkal (pl. főnevek, igék stb.) A nyelvtechnológiában alkalmazott szózsák modellben a funkciószavakat szeretjük stopszó listára tenni és kiszűrni, mivel túl sok "zajt" keltenek. Ellenben ezek használata sokat elárul a beszélő személyiségéről, vagy éppen arról, hogy igazat mond-e. Pennebaker elméletét sokan próbálják átültetni a gyakorlatba. Randioldalakon a profilok őszinteségét rangsorolják vele, egészségügyben a diagnosztikát segítik és terápiás céllal is bevetik. A SmogFarm startup pedig általános szentimentelemzésre és felhasználói bázis szegmentálására (a demográfiai adatok személyiségjegyekkel történő kiegészítésére) használja Pennebaker elméletét, aki nem mellesleg a cég tanácsadója is. Állandó időhiánnyal küzdő olvasóinknak ajánljuk Pennebaker Scientific American Mind&Brian Magazine interjúját és az alábbi TED előadását.
Geoffrey Miller evolúciós pszichológus szakterületét a manapság divatos viselkedés közgazdaságtanra alkalmazta. Spent: Sex, Evolution, and Consumer Behavior című könyve a konzumerizmus és a kapitalizmus ötletes bírálatát adja egy pszichológus szemszögéből. Miller szerint habár a marketing pszichológiai tankönyvek elavult elméletekre hivatkoznak (pl. Maslow piramisára) a gyakorlat azt mutatja, a reklámok az evolúció során kialakult öt nagy személyiségvonást (Big Five) veszik célba. Ennek oka egyszerűen az, hogy a szakemberek ösztönösen érzik ezen személyiségvonásokat, hiszen az evolúció során agyunk arra rendezkedett be, hogy nagy pontossággal azonosítsuk ezeket.
Kísérletek igazolták, hogy az emberek viszonylag nagy pontossággal képesek valakit besorolni az öt nagy jegy egyikébe. Viszonylag egyszerű és olcsó pszichológiai teszttel bárkit be lehet sorolni az egyik személyiségvonásba. Az egyes kategóriák - emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség - sokkal jobban korrelálnak a fogyasztási szokásokkal, mint a demográfiai jellemzők (kor, nem, lakóhely, státusz) s ezért jó kiegészítő adatai lehetnek egy marketingkampánynak. Ahogyan arról már a Tweet a lélek tükre(?) című posztunkban beszámoltunk, a nyelvi viselkedést és azon belül is a közösségi média nyelvhasználatát elemezve is elvégezhető a vonások elemzése. Az ún. szegmentálással, azaz a célcsoportok különböző kritériumok szerinti osztályozásával foglalkozó cégek körében egyre népszerűbb ez az elmélet. Érdemes elolvasni Miller könyvét, kedvcsinálónak pedig TED előadását ajánljuk.
A metaforák átszövik nyelvünket, nem csak az irodalmi nyelvhasználatban vagy az ünnepi beszédekben használunk metaforákat vagy metaforikus alakzatokat. George Lakoff és Mark Johnson Metaphors We Live By című könyvükben fektették le a kognitív nyelvészet alapjait. Központi tézisük szerint a metafora segít egy elvontabb dolgot megérteni azzal, hogy leképezi azt egy konkrétabb esetre. Pl. a SZERELEM UTAZÁS, vagy a VITA HARC esetében a forrástartomány egy konkrét dolog, amit egy elvont, szellemi, lelki tevékenységgel állítunk párhuzamba. Pl. "kapcsolatunk új irányt vett", vagy "érveivel megsemmisítette ellenfelét". A metafora megértése nélkül lehetetlen a teljesen automatikus nyelvtechnológia. A DARPA Metaphor projektje megpróbálja listázni a forrás és céltartományokat, valamint feltérképezni a közöttük lévő szisztematikus viszonyokat. Ettől várják azt, hogy a szövegek automatikus elemzése során detektálni tudják a bűnözők és terroristák titkos kódjait (pl. az elnök nagy ember, a merénylet pedig ajándék néven szerepelhet összeesküvők levélváltásában). A metafora és a kognitív nyelvészet egyik legjelentősebb kutatója Kövecses Zoltán, az ELTE professzora, írta A metafora című lebilincselő bevezető tankönyvet (ami eredetileg angolul jelent meg az Oxford University Press gondozásában).
Az ipar számára a metafora megértése elsősorban a szarkazmus és a képletes beszéd felismerése miatt fontos. A szentimentelemzés területén gyakran okoz kellemetlen meglepetéseket, hogy egy szarkasztikus megjegyzést - pl. "Na ezt jól megcsinálta a cég!" - pozitívan értékelnek az algoritmusok, pusztán a bennük előforduló szavak miatt. A hírelemzés során is sokszor okoznak gondot a metaforák és a politikai PR áldozatául esett kifejezések értelmezése (pl. szárnyal a tőzsde, kemény landolás, megszorítás, reform, kiigazítás).
A Nyelv és Tudomány Jó a karosszériád! - avagy hol terem a metafora? című cikke röviden, de ugyanakkor alaposan összefoglalja a kognitív metafora elmélet alapjait. Az alábbi videóban maga az "iskola alapító", Lakoff meséli el, hogyan indult el kutatási programja.
Fontos megjegyezni, hogy a nyelvi adatok sem önmagukban, sem más adatokkal kiegészítve nem lennének képesek a fenti elméletek kiváltására. További érdekesség, hogy mindegyik kutatási irányzat harminc-negyven éve indult mint haszontalan bölcsészet és csak az utóbbi két-három évben vetették be őket alkalmazott és ipari kutatásokban. Ezen területek hazai művelői ténylegesen ott vannak a világ élvonalában, neves szaklapokban publikálnak, nagy tudományos kiadók adják ki könyveiket és nemzetközi kutatásokban vesznek részt. A magyar innovációs potenciált veszélyezteti, aki nem ismeri fel hasznosságukat és kiaknázatlanul hagyja képességeiket.