HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Oroszosaim sikerei a III. Találkozások konferencián, avagy az élénkülő ruszisztika

2015.07.01. 09:00 Szerző: Szabó Martina Katalin Címkék: konferencia orosz nyelvészet számítógépes nyelvészet

E rendhagyó posztban egy olyan sikerről számolunk be, amely igazán reménykeltő lehet mindannyiunk számára a hazai orosz nyelvi kutatások - nem mellesleg a hazai orosz számítógépes (!) nyelvészeti kutatások - fellendülését illetően.

A múlt hónapban, május 8-án került megrendezésre a III. Találkozások Konferencia a Szegedi Tudományegyetem Juhász Gyula Pedagógusképző Karának Magyar és Alkalmazott Nyelvészeti Tanszékén (a konferencia honlapja itt érhető el). A szervezők, Klippel Rita és Tóth Eszter, valamint a házigazdák, Marsi István dékán, valamint Tóth Szergej tanár úr, a tanszék vezetője gondoskodtak a kiváló rendezésről és a kellemes légkörről. 

konf_talalkiii.jpg

A konferencián olyan BA, MA, valamint PhD-hallgatók mutathatták be tudományos eredményeiket, akik az alkalmazott nyelvészet területén kutatnak. Az előadásokat az erre felkért zsűri értékelte, amelynek tagjai Bácsi János, Kiss Gábor, Lengyel Zsolt, valamint Szőllősy-Sebestyén András voltak.

Az előadók között szerepelt Danics Szabina és Rasztik Zita is, akik a Szegedi Tudományegyetem Bölcsészettudományi Karán az Orosz nyelv és irodalom szak MA-s hallgatói, és a konferencián bemutatott kutatásaiknak volt szerencsém a témavezetője, illetve társtémavezetője lenni. A hallgatókkal a szakon tartott számítógépes nyelvészeti szemináriumon kezdtük el a közös gondolkodást, amely gyorsan kiforrta magát, és a konferencián már be is mutathatták a hallgatók az eredményeiket. A lányok a nyelvtechnológia eszközeit kiaknázva igyekeztek új megállapításokat tenni az orosz nyelv vonatkozásában.

Legnagyobb örömünkre a hallgatók munkáját a zsűri is jutalmazta: Szabina „A legmélyebb összehasonlító elemzésért”, Zita pedig „A ruszisztika megújításáért” különdíjat kapott, és könyvjutalomban részesült.

Nagy megtiszteltetésünkre Tóth Szergej tanár úr külön köszöntötte az ifjú kutatókat, és kifejezte örömét arra vonatkozóan, hogy az orosz nyelvi kutatások újabb lendületet véve ismét nagyobb számban képviseltetik magukat a konferencia programjában.

Az alábbiakban a két hallgató prezentációját közöljük, valamint mutatunk néhány, a konferencián készült fotót is.

 

 


 

Remélem, hamarosan ismét Találkozunk!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A „nemzet” és a „nép” szavak Orbán Viktor beszédeiben

2015.06.29. 13:29 Szerző: Kitti Balogh Címkék: tartalomelemzés Orbán Viktor R Precognox Labs Poisson regresszió

Noha mindenki tisztában van azzal, hogy a politikai kommunikáció tervezett és a politikusok tudatosan használnak bizonyos kifejezéseket, érveket beszédeikben, mégis megdöbbentő, mikor a kommunikáció mesterséges szabályozásának olyan kézzelfogható bizonyítékaival szembesülünk, mint például az EMMI ágazati kommunikációnak ajánlott és nem használható elemeit tartalmazó szótára. Ezen kívül persze nap mint nap találkozunk a Nemzeti Dohányboltok logójával, és azon sem lepődünk meg túlságosan, mikor a postaládánkból egy Nemzeti Konzultációs kérdőívet veszünk ki. Többek között ezek a jelenségek irányították a figyelmünket a „nemzet” és a „nép” szavak tudatos elválasztására a kormány kommunikációjában, melyet Orbán Viktor beszédeiben vizsgáltunk meg.

Az említett EMMI szótár többek között olyan szópárokat tartalmaz, mint a „nép” és a „nemzet”, a „közösség” és a „társadalom”, a „segély” és a „támogatás”, amelyek közül a dokumentum előbbieket nem ajánlott szavaknak minősíti, és helyettük utóbbiak használatát javasolja. A hétköznapi beszédben azonban ezeknek a fogalmaknak nem igazán érezzük a szemantikai különbségét, olyannyira nem, hogy egymás szinonimáiként használjuk őket. A „nemzet” és a „nép”, valamint a szótárban olvasható többi fogalompáros szétválasztását tehát politikai és társadalmi céloknak tulajdoníthatjuk, amelyek szétválasztása egy külön eszmetörténeti feltárást igényelnének. Mi erre itt nem vállalkozunk, azonban van pár sejtésünk a „nemzet” és a „nép” elkülönítésével kapcsolatban. A „nemzet” fogalomban egyrészt ott érezzük a habermasi értelemben vett kulturális és etnikai homogenitás illúziójának megteremtését, és ezzel egyidejűleg a más „nemzethez” tartozók kirekesztését. Ennek szép példája a 2015. május 19-i straßbourgi parlamenti vita, ahol Orbán Viktor kijelentette a bevándorláspolitikával kapcsolatban, hogy meg akarja őrizni „Magyarországot magyar országnak”. Másrészt a „nép” szóra rárakódik a magyar történelem hordaléka is, ezáltal érezhetjük a baloldalisághoz való kötődését. Emellett a jelenből is hozzáadódik egy jelentésréteg, amely a népi kultúrát, hagyományokat kisajátító radikális jobboldalisághoz kapcsolódik. Ezt támaszthatja alá Orbán Viktor 2015. április 12-i tapolcai időközi választáson elhangzott beszéde, amelyben a népről egy olyan entitásként beszélt, amelyre a Fidesznek és a kormánynak nincs befolyása, és amiért nem tudnak felelősséget vállalni. Ezzel kvázi a nem-FIDESZ szavazókat azonosította a néppel.

Adatok

Ezeket megfontolva logikusnak tűnik a „nép” szó kerülése és a „nemzet” szó hangoztatása. A két szó egymáshoz való viszonyát Orbán Viktor beszédeinek 25 évet felölelő korpuszán vizsgáltuk. A korpusz 1381 darab szöveget tartalmaz, amelyek különböző események, ünnepi alkalmak, rendezvények során hangzottak el. A szöveggyűjtemény egy az 1989. március 15-i ünnepség alkalmával mondott beszédtől kezdve 2014. szeptemberig tartalmazza Orbán Viktor beszédeit, melyek több helyen is elérhetőek online (pl. kormany.hu, 2007-2010.orbanviktor.hu).

Hipotézisek

A „nép” és a „nemzet” szó szétválasztása azonban egy újabb keletű kommunikációs stratégia, ezért azt feltételeztük, hogy a 25 évet átölelő korpuszban még nem lesz tetten érhető a két szó tudatos elválasztása és a „nép” szó használatának kerülése, azaz a két szó gyakori együttes előfordulására számítottunk. Ebből kifolyólag azt vizsgáltuk, hogy ha a „nép” szó megjelenik Orbán Viktor egy beszédében, akkor a „nemzet” szó megjelenésének esélye nőni fog-e ahhoz képest, ha a „nép” szó nem jelenik meg. Illetve ha a „nemzet” szó megjelenik egy beszédében, akkor a „nép” szó megjelenésének esélye nőni fog-e ahhoz képest, ha a „nemzet” szó nem jelenik meg. Emellett azt is vizsgáltuk, hogy ha baloldali párt van kormányon, akkor Orbán Viktor beszédeiben nagyobb eséllyel jelenik-e meg a „nemzet” és a „nép” szó is, ahhoz képest, amikor jobboldali párt vagy a FIDESZ van kormányon. Ezt azért feltételeztük, ugyanis mindkét kifejezés alkalmas hívószó a közösségi érzelmek mozgósítására, amelyre leginkább ellenzéki pozícióból lehet szükség.

Módszertan

A korpusz alapján három kategoriális változót képeztünk. A nép bináris változó azt tartalmazta, hogy adott beszédben megjelent-e a „nép” szó vagy sem, a nemzet bináris változó pedig azt tartalmazta, hogy adott beszédben megjelent-e a „nemzet” szó vagy sem. A korm három értékű változó azt fejezte ki, hogy a beszéd elhangzásakor baloldali párt volt-e kormányon, vagy jobboldali párt, de nem a FIDESZ avagy a FIDESZ. A fenti hipotézisek alátámasztásához, valamint a változók mérési szintjéhez igazodva Poisson regressziókat illesztettünk.

Elemzés

A Poisson regressziós modelleket úgy illesztettük, hogy a változókat és a köztük lévő interakciókat különböző, egymást követő lépésekben vontuk be. Az általánosított lineáris modellek, és így a Poisson regressziós modellek illeszkedésének jóságát a deviancia mérőszám alapján hasonlíthatjuk össze, amely a telített modell és a definiált modell log-likelihoodjai közötti különbség kétszerese. Egymásba ágyazott modellek esetében a devianciák különbsége khí-négyzet eloszlású, amelynek szabadságfoka a paraméterek számában elért csökkenés. Épp ezért khí-négyzet próbával tudjuk ellenőrizni, hogy a modellbe bevont újabb paraméterek szignifikánsan jobb illeszkedést mutatnak-e. Az ezzel az eljárással kiválasztott modell együtthatói a következő táblázatban olvashatók:

Poisson regresszió – nép + korm + nemzet + nemzet * korm + nemzet * nép + korm * nép

 

 

Együtthatók

Együtthatók standard hibája

z-érték

Pr(>|z|)    

Intercept

3.1773    

0.1776

17.893

< 2e-16 ***

nemzet1

0.8121

0.1975

4.112

3.93e-05 ***

nép1

-0.6108    

0.1907

-3.203

0.001359 **

korm2

0.7749    

0. 2209  

3.508

0.000452 ***

korm3

2.2650

0.1838

12.322

< 2e-16 ***

nemzet1:korm2

-2.5723    

0.3331

-7.723

1.14e-14 ***

nemzet1:korm3

-0.4108    

0.2029

-2.024  

0.042999 *

nemzet1:nép1

1.7689    

0.1533

11.539

< 2e-16 ***

nép1:korm2

-0.9478    

0.3114  

-3.043

0.002339 **

nép1:korm3

-0.9807    

0.1568

-6.254  

4e-10 ***

Nulldeviancia: 1741.6107 11 szabadságfok mellett

Reziduális deviancia: 2.6646 2 szabadságfok mellett

AIC: 91.742

 

A modell érzékenységét a modell együtthatóinak bootstrappelésével ellenőriztük. 10000-es ismétlésszám mellett a modell együtthatói nem bizonyultak érzékenynek, mindegyik a bootstrap mintákra illesztett modellek együtthatói által kirajzolt konfidenciaintervallumokon belül helyezkedett el.

Eredmények

Az együtthatók alapján számolt esélyhányadosok szerint Orbán Viktor az elmúlt 25 évben előszeretettel beszélt a nemzetről, ha ellenzéki pozíciót foglalt el. Kb. 20-szor nagyobb volt az esélye, hogy a nemzetről beszéljen, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. Ezzel párhuzamban kb. 8,4-szer volt nagyobb az esélye, hogy a népről tartott beszédet, ha baloldali párt volt kormányon ahhoz képest, ha a FIDESZ. A feltételezésünk, miszerint ellenzéki pozícióban szívesebben használja a „nemzet” és a „nép” hívószavakat, az illesztett modell alapján tehát beigazolódott. Ezt azzal magyarázhatjuk, hogy a „nemzet” és a „nép” kifejezések alkalmas hívószavak a közösségi érzelmek mozgósítására, és erre egy politikusnak leginkább ellenzéki pozícióban lehet szüksége.

A „nemzet” és a „nép” szavak különválasztásával kapcsolatban pedig azzal a feltételezéssel éltünk, hogy mivel a szópáros szemantikailag nagyon közel áll egymáshoz, valamint szétválasztásuk egy újabb keletű, politikai célú kommunikációs stratégia, amely az egész korpuszban nem érhető tetten, az egész korpuszon vizsgálva az egyik szó előfordulása növeli az esélyét a másik szó előfordulásának. Az illesztett modell alapján számolt esélyhányadosok ezt a hipotézist is javarészt alátámasztják, ugyanis kb. 5,9-szer volt nagyobb az esélye az elmúlt 25 évben, hogy Orbán Viktor a „nemzet” szót használta, ha a „nép” szó is megjelent egy beszédében. Emellett kb. 2,3-szor volt nagyobb az esélye, hogy a népről is beszéljen, ha a nemzetről is szót ejtett.

Ez utóbbi esélyhányados azonban mutatja, hogy van némi eltolódás a „nemzet” szó preferálása felé, azonban a „nép” szó esélyét így is növeli a nemzetről való beszéd. Az illesztett modell tehát alátámasztja, hogy a vizsgált szavak mesterséges különválasztása és a „nép” szó használatának kerülése a korpuszra általánosságban nem volt jellemző, az egyik fogalom megjelenése ugyanis növeli a másik fogalom megjelenésének esélyét, amely a szemantikai hasonlóságuknak köszönhető. Azonban eltolódás tapasztalható a „nemzet” szó használatának javára, amely azt mutatja, hogy a korpuszban valamennyire mégis tetten érhető a „nemzet” szó preferálása a „nép” szóval szemben, amelyet érdemes lenne időben is megvizsgálnunk.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Múlt idő és kognitív technológia

2015.06.17. 13:37 Szerző: Zoltán Varjú Címkék: keresés nyelvészet szemantikus keresés Google deep learning Pinker PDP Google Knowledge Graph

Az ezredforduló tájékán a szexi IT világától távoli lapokban éppen lezárult a nyelvészek és kognitív tudósok között két évtizede zajló "múlt idő vita". Több mint tíz évvel később új formában előjött minden, de most a technika köntösébe bújva; a neurális hálók és a klasszikus, szabályalapú rendszerek hívei között. 

A repülő nem madár, mégis repül

Da Vinci repülő szerkezetét a madarak ihlették. Nagyon ötletes szerkezet, kifejezetten zöld megoldás és még működőképesnek is tűnnek modern megvalósításai.

 

Amikor a Wright testvérek megtervezték gépüket, vitathatatlanul a madarak inspirálták őket. Ellenben egy modern utasszállító- vagy egy vadászgép nagyon nem madárszerű, egy helikopter pedig végképpen nem az. Egyes repülőgép-alkatrészek és madárszervek között találhatunk funkcionális hasonlóságokat, de eleve más alapanyagból készülnek és másképp működnek, gondoljunk pl. a madarak és a repülők szárnyaira!


Porphüriosz fája és a Google

A Google 2010-ben felvásárolta a Freebase-t, amivel az egyik legnagyobb szemantikus adatbázist szerezte meg. A Freebase magját alkotó tudáshalmazt felhasználók ezrei gyűjtögették össze aprólékos munkával. Persze azóta a linked data mozgalom is beindult és egyre több szemantikus adathalmaz válik elérhetővé. Ezek jelentős részét már gépek bányásszák elő. A népszerű DBpedia például a Wikipedia struktúráját kihasználva állít elő tudásbázist. A Google Knowledge Graph is egyre inkább automatikusan bővül, gyakran a nyilvános, szabadon elérhető linked data adatbázisokat használva.

 

Habár jelentős lépések történtek a linked data automatikus generálása terén, az emberi tudás jelentőseb része még nincs adatbázisokban tárolva. Nyilván ennek egy jelentős részét nem is lehet tárolni. A „tudni hogy” és „tudni mit” distinkció nagyon fontos ezen a téren. A biciklizést el lehet magyarázni, de igazából csak a gyakorlatban lehet tanítani és megtanulni. Viszont nagyon sokszor használjuk a józan eszünket, hiszen vannak dolgok amiket nem kell elmagyarázni, ilyen összefüggések gyűjtését célozta meg a ConceptNet projekt. De mit is értünk józan ész alatt? Ha Nóri a vonaton van, a vonat pedig az állomáson, akkor tudjuk hogy Nóri is az állomáson van. Ha Nóri okos akar lenni, akkor tanulnia kell. Azaz nem csak ontológiából áll tudásunk, hanem abból is hogyan kapcsolódnak annak egyes elemei egymáshoz, sőt ezeket a viszonyokat is szeretjük megnevezni, ami valljuk be igazán kuszává teszi a helyzetet.

Habár Arisztotelész az első, akiről tudjuk, hogy szerette volna formálisan rendszerezni az emberi tudást, gyanítható hogy olyan vágynak adott hangot, amely egyidős az emberiséggel. A klasszikus arisztotelianizmus Porphüriosz fájában jelenítette meg a kor linked datáját, ami tulajdonképpen kategóriákat és létezőket ábrázol gráf struktúrában. Azóta a fa sokkal terebélyesebb lett, de úgy tűnik a feladat az emberek számára túl nagy falat, a gépeknek pedig túl bonyolult. Ezért a Knowledge Graph gyarapítására a Google deep learninget vetett be, s ebben sok követőre akadt.

 

A vita

A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processingtanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak.

Setven Pinker a "hagyományos" iskola talajáról emelte fel a szavát a megosztott feldolgozás modellje ellen. A szavak és szabályok (WR, vagy Words and Rules) elmélet (legfrissebb formája) nem tagadja, hogy a pl. a múlt idő elsajátítása során egyszerű pattern asszociációkon keresztül sajátítják el a gyermekek mind a szabályos, mind pedig a rendhagyó alakokat. A WR a tárolásról szól, arról, hogy hatékonyan gráf adatstruktúrában érdemes tárolni a lexikon, a rendhagyó alakokat pedig érdemes a hierarchikus gráfba helyezni, minden más elem transzformációját pedig szabályokkal megoldani. (Itt lehet olvasni a múltidő vita összefoglalását Pinker szemszögéből.)

McCellend és Rogers The Parallel Distributed Processing Approach to Semantic Cognition című tanulmányukban Porhüriosz fájának modern reinkarnációját, Quillian szemantikus memóriáját vizsgálják a neurális hálók szemszögéből. Nagyon meggyőzően érvelnek amellett, hogy a szemantikus relációk is asszociatív úton sajátíthatóak el, sőt, ezt még empirikus nyelvfejlődési adatokkal is alá tudják támasztani. Ami problematikus számunkra, az a kinyert adatok tárolása és gyors előhívása. Ebben nem sikerül Quillian eredményeit túlszárnyalniuk, sőt, ezt a modellt is alá lehet támasztani sok empirikus adattal is.

A modellek csak modellek

Technikai értelemben Pinker álláspontja a gazdaságos, hiszen nem feltételezi, hogy a relációk kinyerése, vagy éppen a szemantikai viszonyok elsajátítása egyben tárolásuk problémáját is meg kell hogy oldja. Porphüriosz fáját emberek helyett deep learning algoritmusok szerkeszthetik meg, az adatokat pedig továbbra is gráfadatbázisokban érdemes tárolni. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Bababeszéd és gráfok 2.

2015.06.08. 13:04 Szerző: Zoltán Varjú Címkék: nyelvészet nyelv kisvilág korpusznyelvészet

Előző posztunk kapcsán többen jelezték, hogy nem látszik túl jól, miképp növekszik a gyermekek szótára a hónapok során. A megoldást továbbra sem tudjuk, de most két gráfot közlünk, ami talán segít jobban bemutatni a jelenséget. A gráfban minden kapcsolat megtalálható a 17-36 hónapos beszélőktől származó szövegekből. Mindkét gráfon 140 csomópont látható, fokszámuk 84 és 2469 között van. A két gráf megegyezik, azaz ugyanaz az egyes elemek helye, nagysága és színe a két képen. A különbség a címkékben van, az elsőn a számok azt jelentik, hogy az adott lexikai elem hány hónapos beszélőnél jelent meg először a korpuszban, a második képen pedig a csomópontokhoz tartozó szavak láthatóak.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Bababeszéd és gráfok

2015.06.05. 20:08 Szerző: Zoltán Varjú Címkék: nyelvészet nyelv kisvilág korpusznyelvészet

Korábbi posztunkban a nyelv kisvilág tulajdonságaival foglalkoztunk, s elméláztunk azon hogy vajon a nyelvelsajátítás során hogyan alakulnak a szavak hálózatai. Most CHILDES adatbázis magyar korpuszain keresztül bele is tekinthetünk ebbe. 

...

 

A fenti képek 17-36 hónapos gyermekek megnyilatkozásait tartalmazó korpuszokból készült teljes szógráfok.

Sajnos a korpuszt nem sikerült jól megtisztítani, ezért a szótövezés eredménye sem tökéletes. Egyes elemeket át tudtunk írni (pl. "ajutó" -> "autó"), de továbbra is rengeteg igazi gyereknyelvi forma maradt a szövegekbe. Ezért az alábbi táblázatban a korpusz nagyságát az egyedi "lexikai elemek" számával érzékeltetjük, mert szónak nem hívnánk minden elemét. Az adatot szolgáltató gyermekek korát hónapban adjuk meg. Fontos megjegyezni, hogy az adott korosztályokban eltérő számú beszélőtől származnak az adatok.

Kor (hónapban) Lexikai elemek Kapcsolatok
17 12 20
19 20 42
20 936 4153
21 943 4181
22 1244 6620
23 1456 7590
24 1846 10343
25 2136 12306
26 2707 16877
27 3044 19288
28 3672 23496
29 3882 24957
30 3999 25654
31 4340 28420
32 4584 30058
33 5029 33213
34 5593 38550
35 6165 43975
36 6274 44842

 

Látható, hogy a lexikai elemek száma szépen egyenletesen nő, a kapcsolatok száma viszont gyorsabban, habár egy kicsit hullámozva. Az alábbi négy gráf a száz legmagasabb fokszámú csomópontot tartalmazza a 20, 25, 30 és 36 hónapos beszélők szövegeiből.

...

Érdekes, hogy a gráfok központi magjának alakulása. Kezdetben névmások és főnevek uralják a központi magot, s csak a 30-36 hónapos korban kezdenek megerősödni a funkciószavak.Ahogy a hálózat növekszik, azt tapasztaltuk, hogy egy-egy elem kitüntetett szerepet kap, az új elemek hozzájuk kapcsolódnak először. Ilyenek a funkciószavak és egyes főnevek.

 

Sajnos a CHILDES korpusz nem dúskál magyar adatokban, ami van, az sem a leghasználhatóbb. Az adatokkal játszani viszont nagyon jó volt!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása