HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kisvilágunk, a nyelv 2. - szemantikai és szóasszociációs hálózatok

2015.09.01. 09:31 Szerző: zoltanvarju Címkék: nyelvészet gráf kisvilág asszociációk hálózatelemzés WordNet

Korábbi posztunkban a magyar Wikipedia korpuszán szemléltettük, hogy a nyelvi gráfok kisvilág tulajdonságot mutatnak. Most magyar példákon keresztül szemléltetjük, hogy a szemantikai és az asszociációs nyelvi hálózatok is skálafüggetlen kisvilágok. 

Magyar WordNet

wn_d2.png

A Magyar WordNet az első magyar lexikális szemantikai adatbázis mely alapegységei az ún. synset-ek, melyekhez szinonimák, használati példák stb. tartoznak, továbbá az adott synset más elemekkel kapcsolatos szemantikai relációit sorolja fel. Hálózatunkat ebből készítettük, a fenti képen pirossal jelöltük a synset-eket, kékkel pedig a bennük felsorolt szinonimákat. Hálózatunkban 42359 csomópont található, ezek között 38335 él van. Az átlagos utak hossza 2.35, a gráf átmérője 13, klaszterezési együtthatója 0.0032. A fokszámok gyakorisága így alakul:

 

degree_freq_1.png

Ha a fokszámok eloszlását log-skálán nézzük, akkor a klasszikus skálafüggetlen gráfokra jellemző ábrát kapunk.

degree_distr.png

A WordNet esetében is érvényesül, hogy a népszerű csomópontok egyaránt vonzzák az alacsony és magas fokszámú elemeket, habár itt a klasszikus ábráktól kicsit eltérő képet láthatunk.

neighbors.png

Mivel gráfunk nagy, úgy döntöttünk hogy a három vagy annál nagyobb fokszámú csomópontokat mutatjuk csak meg az alábbi ábrán. Továbbra is piros színnel jelöljük a synset-eket, kékkel pedig a szinonimákat. A csomópontok nagysága PageRank értéküket tükrözi. Érdemes megjegyezni, hogy a PageRank érték nem mutat akkora szórást mint más skálafüggetlen gráfok esetében.

wn_d3.png

Agykapocs

agykapocs_d5.png

Kovács László Agykapocs adatbázisa egy online gyűjtött, többnyelvű szóasszociációs adatbázis. Sajnos az Agykapocs jelenleg nem érhető el online, de ebből a tanulmányból megismerhető. Akiknek ennyi nem elég, azoknak ajánljuk az adatbázis készítőjének doktori értekezéséből készült kötetet.

 

Mivel az Agykapocs többnyelvű, első körben leszűrtük a magyar kapcsolatokat. Irányított gráfunkba csak azok az elemek kerültek be, melyeket egynél több az erőssége, azaz egynél több felhasználó válaszaiban szerepelt. Az így kapott gráfban 8049 csomópont és 13635 él található. Az átlagos utak hossza 4.36, a gráf átmérője 353, klaszterezési együtthatója pedig 0.0438. A fokszám gyakoriságok alakulását  az alábbi ábra szemlélteti: 

degree_freq_2.png

A fokszámok eloszlása is klasszikusan alakul.

degree_distr_1.png

Nagyon szépen kijön a preferenciális kapcsolódás, azaz a népszerű csomópontokat mindenki szereti.

neighbors_1.png

Az asszociációs hálózat megjelenítésével még nagyobb bajban voltunk, ugyanis ennek élei súlyozottak. Úgy döntöttünk, hogy a kilenc, vagy annál nagyobb fokszámú csomópontokat fogjuk megmutatni csupán.

agykapocs_d9.png

Szépnek szép, de mi értelme?

A nyelvi gráfok nagyon szexin mutatnak, de ennél sokkal többről van szó. Habár technológiai szempontból teljesen mindegy, hogy egy-egy nyelvtechnológiai megoldás hasonlít-e az emberi elmében lezajló folyamatokhoz, sok jel arra utal, hogy a gráf alapú megközelítés egyszerre hatékony mint technológiai eszköz és mint kognitív modell is. Hamarosan arról is írunk, miért gondoljuk ezt így!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A gépek elveszik a munkádat? - A kiterjesztett elme esete a mesterséges intelligenciával

2015.08.24. 08:46 Szerző: zoltanvarju Címkék: mesterséges intelligencia deep learning embodied cognition extended mind kiterjesztett elme testbe ágyazott gondolkodás

A mesterséges intelligencia és a robotika fejlődése kapcsán egyre többször vetődik fel a kérdés; át tudják-e venni a csodás új gépek a munkánkat? Kit érinthet az automatizálás új hulláma, vannak-e határai a technológiának? Ludditák legyünk, vagy tanuljunk meg alkalmazkodni?

lede_art_luddites.jpg

Kiket érint az automatizálási hullám?

Gill A. Pratt szerint az automatizálás kambriumi robbanás előtt áll, köszönhetően a deep learning és a felhő alapú robotika megjelenésének. Hogy az új technológiák milyen hatással lehetnek életünkre, azt nehéz megmondani, de az ötvenes évek óta tartó információs forradalom eddig fejleményei jó alapot nyújtanak a tippeléshez. Daniel H. Autor Polanyi’s Paradox and the Shape of Employment Growth című tanulmányában arra hívja fel a figyelmet, hogy  a közepes képzettségi szintet igénylő állások tűntek el nagyobb számban, ahogy az alábbi ábra is szemlélteti ezt.

 autor01.PNG

A középszintű foglalkozások eltűnése egyben azt is jelenti, hogy a közepesen fizető állások szűnnek meg folyamatosan, ami egyben a társadalmi egyenlőtlenségek növekedésével is jár.

autor02.PNG

Fontos megjegyezni, hogy a növekvő automatizálás ellenére maga a foglalkoztatottság nem csökkent az évek során. Mondhatjuk, a schumpeteri teremtő rombolással járó innováció működik, az új technológia nem csak állásokat szüntet meg, hanem új szektorokat is teremet egyben.

Kik vannak veszélyben?

A mesterséges intelligencia célja nem az emberi intelligencia lemásolása (erre a kognitív tudományok törekednek), hanem hogy olyan problémákat oldjanak meg a gépek, melyek nem jól definiálhatóak. A könyvelés bonyolult feladat, sok szabálya van és évekig tart még megtanulja valaki. Ellenben a szabályai explicitek, ezért nagyon jól leírhatók formálisan, ezért ma már a könyvelési feladatok jelentős része gépesített. Az emberi arcok felismerése számunkra nagyon könnyű, ám kitalálni azt, miképp lehet egy gépet erre megtanítani, már nem annyira egyszerű. Szabályok helyett példákat és a példákra alapozott absztrakciós módszerek jelentik ennek a problémának az algoritmikus megoldását. Az arcfelismerés a legtöbb érdekes problémához hasonlóan nagyon nehezen írható le.

Autor Polányi Mihály hallgatólagos tudás fogalmához fordul, amikor megpróbálja megjósolni, mely szakmák lehetnek ellenállóbbak az automatizálásnak. Nagyon leegyszerűsítve Polányi gondolatait, a hallgatólagos tudás a gestalpszichológia "az egész több mint a részek összessége" elvére épül. Tudni valamit több, mint képesnek lenni annak leírására. Elmondhatjuk, milyen biciklizni, ezt nevezik a filozófusok úgy, hogy "tudni hogy mit". A biciklizésnek csak az egyik része ez a leírás, van egy praktikus oldala, a "tudni hogyan", ami aktív részvételt követel meg a biciklizni tanulótól. Az aktív részvétel nagyon személyes, hiszen függ a tanuló egyéni képességeitől, élettörténetétől, és attól hogy az új tudást hogyan illeszti már meglévő ismereteihez. A hallgatólagos tudás így a "tudni hogyan" fogalmánál tágabb fogalom. Korunk nagy kérdése az, hogy ez a hallgatólagos tudás átadható-e a gépeknek. 

 

Sokáig úgy gondoltuk, hogy a hallgatólagos tudás nem "emészthető" a gépek számára. Polányi az autóvezetést hozta fel egy helyen példának:

We can know more than we can tell… The skill of a driver cannot be replaced by a thorough schooling in the theory of the motorcar; the knowledge I have of my own body differs altogether from the knowledge of its physiology. (Polányi: The Tacit Dimenson)

Habár még nem kaphatunk autonóm autókat, több gyártó is közúti forgalomban teszteli már ilyen irányú fejlesztéseit. Lehetséges, hogy egy napon túl tudunk lépni a Polányi-paradoxonon és minden emberi tevékenység automatizálhatóvá fog válni?

A kiterjesztett elme és az automatizálás határai

multiple-brains-1.jpg

A mesterséges intelligencia 1955-ös programadó konferenciáján nagyon ambiciózus fiatalemberek arra gondoltak, hogy egy-egy nagyobb probléma megoldható pár hónap alatt (persze ha a megfelelő emberek dolgoznak az adott problémán).

We propose that a 2 month, 10 man study of artificial intelligence be carried out during the summer of 1956 at Dartmouth College in Hanover, New Hampshire. The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it. An attempt will be made to find how to make machines use language, form abstractions and concepts, solve kinds of problems now reserved for humans, and improve themselves. We think that a significant advance can be made in one or more of these problems if a carefully selected group of scientists work on it together for a summer. (A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence)

A kezdeti lelkesedés ellenére nem sikerült 1956-ban megoldani egyik felvetett problémát sem. Sőt, az elmúlt hatvan évben legalább kilenc ún. AI winter, azaz a mesterséges intelligencia kutatásából történő kiábrándulást tartunk számon. A napjainkban tapasztalható hype-ot azonban sokan másnak tartják.

Amit ma deep learning-nek nevezünk, azt a nyolcvanas években konnekcionizmusnak hívták a kognitív tudományban. A kilencvenes évek utolsó mesterséges intelligencia tele pont azért következett be, mert a konnekcionista modelleket az iparban még nem tudták hasznosítani. A közmegegyezés az, hogy a konnekcionizmus nem azért merült feledésbe, mert elméletileg nem volt megalapozott, hanem a kor technológiai színvonala miatt nem tudott kilépni a laboratóriumokból. Habár az ipar gyorsan elfordult a neurális hálóktól egészen a kétezres évek közepéig, szerencsére a kutatási alapok csapjait nem zárták el. A deep learning atyja Hinton nyugodtan dolgozhatott és 2006-ban megjelent tanulmányával elindult a deep learning hódító útjára.

cyborg.jpg

A konnekcionizmus hatására jelent meg az ún. kiterjesztett elme és a testbe ágyazott (embodied) gondolkodás elmélete a kognitív tudomány, a filozófia és a pszichológia területén. A testbe ágyazott gondolkodás elmélete szerint az elme nem választható el hordozójától, az agytól, sőt az egész szervezettől ami ellátja érzetekkel és amelyet cselekvésekre sarkallhat. A kiterjesztett elme elméletének klasszikus programadó tanulmánya így kezdődik:

Where does the mind stop and the rest of the world begin? The question invites two standard replies. Some accept the demarcations of skin and skull, and say that what is outside the body is outside the mind. Others are impressed by arguments suggesting that the meaning of our words "just ain't in the head", and hold that this externalism about meaning carries over into an externalism about mind. We propose to pursue a third position. We advocate a very different sort of externalism: an active externalism, based on the active role of the environment in driving cognitive processes. (Clark & Chalmers: The Extended Mind)

A kognitív tudományok az emberi megismerés folyamatát próbálják feltárni, a testbe ágyazott és a kiterjesztett elme elméletei a megismerés hallgatólagos folyamatainak feltárásának kereteit adják meg! Felhívják a figyelmet arra, hogy nem elég a "tudni mit" szintű leírás. A "tudni hogyan", az aktív megvalósítás elválaszthatatlan testi adottságainktól. De az elme és a környezet közé sem húzható éles határ. Kezünkön számolunk mikor gyerekek vagyunk (sőt, néha felnőttként is), jellegzetes tereptárgyakhoz társítjuk tájékozódásunkat, jegyzetfüzetet vezetünk, vagy éppen mobilunkat használjuk mint külső memória.

Úgy tűnik az intelligens viselkedéshez szükséges a megtestesüléssel számolni és a nehezen definiálható feladatok megoldásához szükséges a környezet használata az elme kiterjesztéséhez. Ezen megoldásoknak nem kell lemásolniuk az emberi elme működését, de valódi, működőképes rendszereknek kell lenniük.

 

Féljünk-e a gépektől?

Ha félnünk kell valamitől, az az, hogy nem tudunk alkalmazkodni a gépek jelentette kihívásokhoz. Az ipari forradalom óta a technológia egyre gyorsabban fejlődik, s ezzel az emberek produktivitása is jelentősen megnőtt. Ellenben a nyolcvanas évek óta a növekvő produktivitást nem követik a bérek. Brynjolfsson és McAfee The Second Machine Age című könyvében megdöbbentő grafikont találunk erről.

productivity-vs-income-houseofdebtblog.png

Ez annak köszönhető, hogy már nem csak a kékgallérosok állásait veszélyezteti a technológia. De egyben azt is jelenti, hogy az új technológiák kitalálói és kezelői egyre hatékonyabbak is! Nem a gépek győzik le az embereket, hanem gépek és emberek teremtenek soha nem látott hatékonyságot! Brynolfsson kedvenc példája Kasparov sakkbajnoksága, minek keretében nem emberek és gépek csapnak össze, hanem vegyes, gépek és emberek alkotta csapatok. Az új technológiáknak hála amatőr sakkozók és számítógépeik sokkal hatékonyabban tudnak együttműködni mint a csak gépekből vagy profi nagymesterekből álló csapatok! A jövőben azok lesznek hatékonyak, akik a technológia segítségével hatékonyan képesek kiterjeszteni elméjüket és ezzel jelentősen növelni tudják hatékonyságukat.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Automatikus szövegelemző API végre magyar nyelven is

2015.08.13. 09:26 Szerző: zoltanvarju Címkék: tartalomelemzés véleményelemzés Neticel Semantic API szenitmentelemzés

A Neticle Technologies által készített szövegelemző függvények most már bárki számára elérhetőek idén júliustól. A Neticle Semantic API képes automatikusan, emberi pontossággal vélemény- és tartalomelemezni a magyar nyelvű szövegeket.

A csapat saját termékeinek fejlesztési munkáját megkönnyítve döntött úgy, hogy webes API-ba szervezi a több mint 4 éve finomhangolt legfontosabb nyelvi függvényeit, majd rájött, hogy másoknak is hasznos lehet a magyar nyelvre írt eszköztár, ezért cégen kívülre is elérhetővé tette.

neticle01.png

A Neticle Semantic API 1.0 a következő nyelvi függvényekre képes:

  • szöveg szintű és entitás alapú szentimentelemzés: egy kérésnél megadhatjuk a véleményelemzés tárgyát egy kulcsszó szinonimának felsorolásával (például: Samsung;samsung;SAMSUNG;samsung;Szamszung;SZAMSZUNG), ekkor csak a Samsungra vonatkozó véleményt számszerűsíti az eszköz vagy mondhatjuk, hogy a teljes szöveget véleményelemezzük.
  • érzelmek felismerése: a Neticle 7-féle érzelem előfordulásainak számát vizsgálja
  • címkézés: kulcs témák és tulajdonságok felismerésével a szövegekben rá lehet világítani a leggyakoribb üzleti témákra és a kapcsolódó véleményekre automatikusan, például: ügyfélszolgálat és ügyintézés előfordulása és értékelése ügyfélvisszajelzésekben.
  • NER (named entity recognition):
    • helyek felismerése: városok és országok azonosítása
    • márkák felismerése: márkanevek felismerése
    • személyek felismerése
    • szervezetek felismerése
  • szerzők nemének felismerése: a keresztnév alapján a nem megjóslása
  • entitás kapcsolatok felismerése: a különböző entitások és címkék között kapcsolatok és azok erősségének azonosítása hálózatos megjelenítésekhez, mely kifejezetten előnyös és informatív tartalomelemzési feladatoknál (lásd lent)

neticle02.png

Az API segíthet kérdőívek nyílt kérdéseire érkező válaszok automatikus elemzésében, ügyfélvisszajelzések vagy CRM adatbázis feldolgozásában, bármilyen tartalomelemzési feladatban, de akár e-mail kategorizációban és automatikus válaszkialakításban is.

 

Az alábbi felületen kipróbálható 1-1 kisebb méretű szövegre: https://api.neticle.hu/demo.html

 

neticle03.png

Néhány kódsorral egyszerűen beilleszthető az API bármilyen szoftverbe, csupán egy érvényes tokenre van szükség: http://wiki.neticle.hu/semantic_api_v1.0

Próba token valamennyi kereses.blog olvasó számára a peter.szekeres@neticle.hu címen kérhető. A készítők bármilyen visszajelzésnek nagyon örülnek, és már gőzerővel dolgoznak, hogy angolul, németül és bolgárul is tudjanak a függvények valamint, hogy különféle kivonatoló funkciókat vezessenek be.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

QWERTY - ahogy mi látjuk

2015.08.10. 16:40 Szerző: Anna Regeni Címkék: szentimentelemzés emócióelemzés Precognox Labs QWERTY-hatás QWERTY billentyűzet

Az előző a QWERTY-hatással foglalkozó posztunkban ígértük, hogy ez a poszt a mi vizsgálatunk eredményeit fogja röviden összefoglalni. (Hogyan befolyásolja a gondolkodásunkat a mindennapi számítógép-használat? A QWERTY-hatás)typing-speed.jpg

A QWERTY-hatás

A QWERTY-hatás Casasanto és Jasmin által megalkotott kifejezés, melyet saját vizsgálatukban sikerült többször és több nyelven is kimutatniuk. (The QWERTY Effect: How typing shapes the meanings of words.” By Kyle Jasmin and Daniel Casasanto Psychonomic Bulletin & Review Psychon Bull Rev 19.3 (2012): 499-504. Web.)

Mások is tettek kísérleteket e hatás kimutatására, azonban idáig nem sikerült reprodukálni C&J eredményeit(QWERTY: Failure to replicate, The QWERTY effect).

Ezen felbuzdulva úgy döntöttünk, hogy mi is készítünk egy, ha nem is mindenben a tudományos normák szerinti felmérést, hogy vajon magyarban kimutatható-e a hatás. Mint már a korábbi posztban említettük, a magyar billentyűzet azért is érdekes ebben a dologban, mert nálunk éppen megfordulnak az arányok és több betűt bitorol a jobb oldal, mint a bal. Ez azért fontos, mert Casasantóék egyik, a QWERTY-hatást magyarázó elképzelése azon az alapon nyugszik, hogy azért részesítjük előnyben az inkább “jobb oldali” (több, a jobb oldalról származó betűt tartalmazó) szavakat, mert azon az oldalon kevesebb lehetőség közül kell választanunk, így gyorsabban és folyamatosabban tudjuk gépelni a szavakat, ez a fizikai sikerélmény pedig jó érzést vált ki bennünk. (Ping, R. M., S. Dhillon, and S. L. Beilock. "Reach For What You Like: The Body's Role in Shaping Preferences." Emotion Review 1.2 (2009): 140-50. Web.)

Az az állítás, hogy a könnyű dolgok pozitív érzetet keltenek, egyes kutatócsoportok szerint nem minden esetben állja meg a helyét. Casasantóék említenek egy olyan kutatást, ahol ezt a könnyű - pozitív társítást sikerül módosítani azáltal, hogy előzetesen megmondják, ha könnyűnek érzik a feladatot, az alacsonyabb IQ-ra utal. (Brinol, P., R. E. Petty, and Z. L. Tormala. "The Malleable Meaning of Subjective Ease." Psychological Science 17.3 (2006): 200-06. Web.)

Mindenesetre szerintem azt elhihetjük, hogy a gépelés esetében alapvetően akkor vagyunk boldogok, ha gyorsan megy. Ezen kívül C&J végeztek olyan RT (reaction time, vagy reakcióidő) kísérleteket, ahol kimutatták, hogy a jobb oldalról több betűt tartalmazó szavakat átlagosan gyorsabban tudják begépelni a kísérleti személyek.(A jobb oldal a kísérletvégzés nyelvén a kevesebb betűt tartalmazó volt, ezen kívül pedig az emberek nagy többsége jobb kezes, vagyis ezzel a kezükkel általában ügyesebbek is.)

 

Casasantóéknak kijött egy enyhe pozitív hatás, ami az ő összes kutatásukban szignifikáns lett. Az enyhe pozitív hatás annyit jelent, hogy a több jobb oldalról származó betűt tartalmazó szavakat pozitívabbnak értékeljük, mint a bal oldalról többet tartalmazó szavakat.

Casasantóék egy későbbi kutatása szerint ez még a balkezeseknél is így van, erre pedig úgy jöttek rá, hogy közben a hipotézisük megdőlt, legalább is német nyelven, mivel ott a jobb és a bal oldalon is ugyanannyi betű található. Erre azt a magyarázatot találták, hogy akkor a domináns oldali preferencia az, ami a qwerty-hatást magyarázza. Ugyanakkor a balkezeseknél is kimutatható a RSA, így aztán elveszítettük a fonalat, hogy tulajdonképpen mi az állítás és miért hívják QWERTY-hatásnak.

Saját kutatás eredményei

Ami a mi kutatásunkat illeti, a menetrend a következő volt:

A már meglévő emóció- és szentiment szótárainkból, ezentúl a wiki szótárunkból (ami a SZTAKI magyar wikipedia dumpjából általunk generált szógyakorisági tábla) válogattuk össze a szavakat, miután az eredeti (jobb - pozitív, bal - negatív) kezességi értékeket egyenként kiszámítottuk hozzájuk. Ezután kerestünk néhány, a 60-as évek után keletkezett szót is, mivel C&J cikkében az áll, hogy ezeknél a szavaknál erősebb a hatás. Ezeket a szavakat az Édes Anyanyelvünk c. folyóirat “Új szavak, kifejezések” rovatából gyűjtöttük. Ezeket a szavakat összesítve összesen 53 szóval folyt a vizsgálat.

Az olyan szavaknál, ahol volt valencia vagy szentiment érték, kíváncsiak voltunk, hogy mi történik akkor, ha a kezesség a valencia ellenében van, vagy hogyha azzal megegyezik. Bővebben ez annyit jelent, hogy ha például volt egy pozitív valenciájú szó, (pl.: humor) ami több betűt tartalmazott a jobb, mint a bal oldalról, akkor ezt neveztük kongruensnek, mivel a valencia és a kezesség is “jó” volt. Ugyanígy, inkongruens szóról akkor beszélünk, ha a valencia és a kezesség ellentétes értékűek, vagyis egy pozitív jelentésű szó például több betűt tartalmaz a bal oldalról, mint a jobbról. A kérdőívben ezeket a szavakat kellett értékelniük a kitöltőknek egy 10-es skálán, kellemesség alapján. A kérdés - amennyire csak lehetett - általánosan volt megfogalmazva, hogy például ne fordítsanak különös figyelmet arra, hogy kifejezetten gépelni szeretik-e ezeket a szavakat, hiszen C&J munkája szerint ez a hatás olvasáskor is kimutatható, ugyanis gyakorlatilag egy enyhe jelentésmódosulásról van szó.

 

A kérdőívet végül 501-en töltötték ki, ebből az adathalmazból készítettük el a statisztikai elemzéseket. Az adatokra illesztett lineáris modellek illetve általánosított lineáris modellek nem támasztották alá, hogy létezne QWERTY-hatás magyar nyelven. Ahogy az alábbi ábrán is látható, nem találtunk kapcsolatot az RSA (right side advantage) és a valencia között.  Emiatt nem sikerült kimutatnunk azt sem, hogy a magyarban megfordulna a hatás.

rsa_vs_valence.png

 

A szavaknak azonban ismertük a szentiment- és emócióértékeit és sikerült kimutatnunk, hogy ezeknek szignifikáns hatása van a szavak kellemességére.

Az alábbi két ábrán látható, hogy a negatív és a pozitív jelentésű szavak szépen kettéválnak, ugyanakkor az RSA-val nincs összefüggés. Ugyanis a feltételezett kapcsolat természete szerint azt várnánk, hogy inkongruens esetben az RSA hatása gyengítse a szentiment illetve az emóció hatását (vagy a fordított hatás jegyében erősítse). Ezzel szemben az RSA-nek nincs hatása a szó kellemességének megítélésére, csak az emóciónak és a szentimentnek.

rsa_vs_valence_congruent_words.png

rsa_vs_valence_incongruent_words.png

Tehát az aszimmetrikus elrendezés kutatásunkban nem befolyásolta a szavak kellemességét. Erre azonban Casasanto & Jasmin is ráébredtek, ahogy azt fentebb már említettük.

Számukra ez azt bizonyítja, hogy másik hipotézisük - miszerint a legtöbb ember jobbkezes és emiatt erre a kezére ügyesebb is, így ezen az oldalon gyorsabban és folyamatosabban gépel, ami pozitív jelentésárnyalatot adhat a szavaknak - megállja a helyét.

Mi nem egészen gondoljuk így, de mint mondtuk, a mi kutatásunk kisebb kaliberű volt, mint az övék, ugyanakkor a hatás robosztusságáról nem tudunk beszámolni, csak arról, hogy mi nem találtuk meg.



Problémák

Egyéb kérdések is felmerülnek, mint a LanguageLogon több hozzászóló által is említett probléma: nagyon kevesen vannak olyanok, akik képzettek vakonírásban, vagyis kevesen használják “ideálisan” a qwerty billentyűzetet . Ez maga után vonja, hogy van, aki egy ujjal nyomogatja a klaviatúrát, hozzásegít a másik kezével az egyik oldal nyomogatásához és így tovább. Egyszóval nem biztos, hogy a valóságban létezik, vagy legalább is éles határ lenne a Casasantóék által említett TGB vonal. Márpedig ez a határvonal-kérdés eléggé fontos, hiszen az aszimmetria ettől a TGB vonaltól függ, ha az első elkepzelésüket is számításba akarjuk venni, hiszen valójában az eredeti hipotézisük csak a német nyelvre dőlt meg. Mindazonáltal a határvonal a német esetében is fontos, mert jobb kézzel a konvenció szerint a TGB vonaltól jobbra elhelyezkedő betűket gépeljük,ha viszont ez a valóságban nincs így, akkor tulajdonképpen mi alapján is soroljuk be a szavakat jobbkezes illetve balkezes csoportokba?

Babanevek

Ezektől az eredményekről egy pillanatra elvonatkoztatva Casasantóék egy további kutatásában kimutatott babanév-eltolódási tendenciát mi is felfedezni vélünk.

kepernyofoto_2015-08-10_16_01_04.png

(A fenti ábra Casasantóék cikkéből származik: Casasanto, D., Jasmin, K., Brookshire, G. & Gijssels, T. "The QWERTY Effect: How typing shapes word meanings and baby names". In P. Bello, M. Guarini, M. McShane, & B. Scassellati (Eds.), Proceedings of the 36th Annual Conference of the Cognitive Science Society. Austin, TX: Cognitive Science Society, 2014.)

A jelenség egy kicsit részletezve annyiból áll, hogy a névadási szokások az elmúlt 50 év alatt az olyan nevek felé tolódtak el, melyek több, a jobb oldalról származó betűt tartalmaznak. Ez ugyanakkor lehet, hogy nem a számítógép (értsd: billentyűzet) elterjedésének, hanem egy ciklikus tendencia egyik tipikus szakaszának tudható be. Ezt az elképzelést a Language Logon szépen végig is vezették, akit érdekel olvassa el: QWERTY again. Túl az ebben a posztban említett aggályokon, azért sem túl meggyőző ez az elképzelés a névadásról, mert az aszimmetria nem vonatkozik minden nyelvre, így aztán nem is adhatják azt a magyarázatot, hogy ez az egész jelenség a QWERTY-billentyűzetnek tudható be, hiszen jobbkezes emberek a QWERTY előtt is léteztek. Akkor viszont sokkal logikusabb magyarázatnak tűnik a ciklikusság.

 

Az alábbi ábrán látható a mi eredményünk, ez csupán a 2000-2014 közötti időszakról szól. Fontos megjegyeznünk, hogy mi is összevontunk a fiú és lányneveket az ábránkon. A grafikon alapjául a Keresztnevek Tára utónév statisztikája szolgált.

Igazából itt is látszik egy lefelé ívelő tendencia kezdete 2013 körültől 2015 felé közeledve, ami esetleg utalhat a ciklikusságra.

rplot.png

Van egy olyan enyhe utóíze az egész Casasanto-féle kutatásnak számunkra, hogy nem állítottak semmit, de azt bebizonyították. A kiinduló hipotézist a kutatás közben megváltoztatni alapból nem túl szép dolog és ezek után valami olyan eredményre jutni, aminek semmi köze a billentyűzethez, kissé furcsa.

 

Bármi is legyen az igazság, a QWERTY-leosztást sok szempontból megnézték már és ha ez a végeredmény nem is adott megerősítő eredményt a QWERTY-hatás létezésére vonatkozóan, ez is egy eredmény, amit hasznos lehet prezentálni.

 

Ha valaki biztosra akar menni, hogy a gépelési szokása miatt, vagy csupán azért, mert jobbkezes, nehogy pozitívabbnak érzékelje például a ‘killing’ szót, annak itt egy új alternatíva: BeeRaider(ezt még nem teszteltük :))

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Neked is mindenről a vaj jut az eszedbe?

2015.08.05. 10:31 Szerző: zoltanvarju Címkék: gráf szóasszociációk

Mielőtt a kedves olvasó azt hinné, megőrültünk a nyári melegben, gyorsan szögezzük le; az adatok alapján nagyon valószínű hogy ha szóasszociációs vizsgálat alá vetnénk, akkor előbb-utóbb eljutnánk a vajhoz - vagy nem....

gephi_vis.png

Szóasszociációs gráfunk két táblára épül, melyek itt találhatóak. Az oldalon rögtön kiderül, hogy az adatokat 1983-ban és 1985-ben vették fel, 10-14 és 18-24 évesek körében, azaz mára mára negyvenes, ötvenes éveikben járnak az adatközlők. Azóta már vajat sem használunk annyira, az asszociációk pedig érzékenyek az ilyen változásokra, de szerencsére az ilyen kapcsolatok száma nem túl magas a táblázatokban.Maga a gráf minden hívószót és választ tartalmaz mint csomópont, nagyságukat az ábrán PageRank értékük adja. Az élek egy hívószó-válasz relációt jelenítenek meg, vastagságuk a kapcsolat gyakoriságának súlyán (az hány válaszadó adta meg az asszociációt) alapul. 

 

A szóasszociációs vizsgálatok nem öncélúak. Egyrészt betekintést nyújtanak abba, hogyan tárolja az elme a szótári elemeket, másrészt akár iparban is lehet alkalmazni egy ilyen adathalmazt, pl. a keresés során kiterjeszteni a query-t az asszociációkkal (esetleg valamilyen megkötést alkalmazni egy szemantikus adatbázis segítségével) vagy faceteket képezhetünk a további kereséshez. Akit mélyebben érdekel a téma, az olvassa el ezt a tanulmányt.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre