HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Bababeszéd és gráfok

2015.06.05. 20:08 Szerző: zoltanvarju Címkék: nyelvészet nyelv kisvilág korpusznyelvészet

Korábbi posztunkban a nyelv kisvilág tulajdonságaival foglalkoztunk, s elméláztunk azon hogy vajon a nyelvelsajátítás során hogyan alakulnak a szavak hálózatai. Most CHILDES adatbázis magyar korpuszain keresztül bele is tekinthetünk ebbe. 

...

 

A fenti képek 17-36 hónapos gyermekek megnyilatkozásait tartalmazó korpuszokból készült teljes szógráfok.

Sajnos a korpuszt nem sikerült jól megtisztítani, ezért a szótövezés eredménye sem tökéletes. Egyes elemeket át tudtunk írni (pl. "ajutó" -> "autó"), de továbbra is rengeteg igazi gyereknyelvi forma maradt a szövegekbe. Ezért az alábbi táblázatban a korpusz nagyságát az egyedi "lexikai elemek" számával érzékeltetjük, mert szónak nem hívnánk minden elemét. Az adatot szolgáltató gyermekek korát hónapban adjuk meg. Fontos megjegyezni, hogy az adott korosztályokban eltérő számú beszélőtől származnak az adatok.

Kor (hónapban) Lexikai elemek Kapcsolatok
17 12 20
19 20 42
20 936 4153
21 943 4181
22 1244 6620
23 1456 7590
24 1846 10343
25 2136 12306
26 2707 16877
27 3044 19288
28 3672 23496
29 3882 24957
30 3999 25654
31 4340 28420
32 4584 30058
33 5029 33213
34 5593 38550
35 6165 43975
36 6274 44842

 

Látható, hogy a lexikai elemek száma szépen egyenletesen nő, a kapcsolatok száma viszont gyorsabban, habár egy kicsit hullámozva. Az alábbi négy gráf a száz legmagasabb fokszámú csomópontot tartalmazza a 20, 25, 30 és 36 hónapos beszélők szövegeiből.

...

Érdekes, hogy a gráfok központi magjának alakulása. Kezdetben névmások és főnevek uralják a központi magot, s csak a 30-36 hónapos korban kezdenek megerősödni a funkciószavak.Ahogy a hálózat növekszik, azt tapasztaltuk, hogy egy-egy elem kitüntetett szerepet kap, az új elemek hozzájuk kapcsolódnak először. Ilyenek a funkciószavak és egyes főnevek.

 

Sajnos a CHILDES korpusz nem dúskál magyar adatokban, ami van, az sem a leghasználhatóbb. Az adatokkal játszani viszont nagyon jó volt!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hálózattudomány és nyelv - magyar könyvek

2015.06.01. 10:32 Szerző: zoltanvarju Címkék: nyelvészet nyelv könyvajánló hálózatkutatás

A hálózatok napjainkban megkerülhetetlenek, még a nyelvészetbe is beszivárogtak. Szerencsére magyar nyelven is elmélyedhetünk a témában, posztunkban az elérhető kötetekből ajánlnunk most párat.

 img_2bl3nh.jpg

Andrásfai Béla: Gráfelmélet

Habár a hálózatkutatás nem egyenlő a gráfelmélettel, azért nem árt tudni pár dolgot a gráfokról. Ebben Andrásfai kis könyve nagyon nagy segítségünkre lehet! Klasszikusan definíció, tétel, bizonyítás felosztás szerint dolgozik a szerző, ami sokaknak kicsit száraz lehet, de nagyon lényegre törően tálalja az alapokat.

Mark Buchanan: Nexus, avagy kicsi a világ

Az első ismeretterjesztő kötet ami nagyon alaposan mutatja be a hálózattudomány kialakulását, központi problémáit. Az eredeti mű 2002-ben jelent meg s 2003-ban már le is lett fordítva!  Olvasása közben el lehet mélázni azon, hogy jóslatai mennyire jöttek be. Legnagyobb előnye, hogy minden alapvető tanulmányt bemutat röviden, segítségével fel lehet térképezni mit érdemes elolvasni. Érdekes módon ebben a kötetben is találkoztam a hálózatkutatók Popper-ellenességével

Christakis - Fowler: Kapcsolatok hálójában

Mivel a könyvet egy orvos-szociológus és egy politológus jegyzi, nem meglepő hogy a hálózattudomány társadalomtudományi alkalmazásaival találkozhatunk benne főleg. Az ismeretterjesztő művek közül ez inkább a sztorizós fajta, komolyabb kifejtésre ne számítsunk tőle! Ellenben szórakoztató és a hetedik fejezetben a nyelvvel is megpróbál foglalkozni egy kicsit.

Barabási Albert-László: Behálózva

A KÖNYV a témában. Mivel Barabási nevéhez kötődik a skálafüggetlen hálózatok leírása, ezért ez a könyv amolyan személyes élménybeszámoló is a terület egyik megalapítójának tollából. Buchanan-hez hasonlóan igen alaposan járja körül az alapkérdéseket, sok időt megspórolva az irodalomkutatástól. 

Barabási Albert-László: Villanások

Ez a kötet már művészibb, inkább elgondolkodtatni és kérdezni szeretne vele a szerző (szerintem). Alapvetése szerint Popper tételét szeretné megcáfolni és az emberi viselkedés előrejelzésének alapjait lefektető program eddigi lépéseit bemutatva vázolná fel a jövő új tudományát.

Blaskó - Balázs - Kovács: Hálózatkutatás, Hálózatok a társadalomban és a nyelvben

Egy klasszikus konferenciakötet, amiben a hálózattudomány bölcsészet- és társadalomtudományi alkalmazásairól olvashatunk. A nyelvészeti dolgozatok java kifejezetten érdekes, a többiről nem tudunk nyilatkozni.

Kovács László: Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban

Kovács László könyve nagyon egyedi. Habár a hálózattudomány eszközeit sokan megpróbálták a nyelvre alkalmazni, jelentős részük fizikus, vagy hálózatkutató (akik általában eredetileg fizikusok). Ennek eredménye gyakran az hogy érdekes kérdést tálalnak abszolút baromságokkal körítve, mint pl. a Popper-re való állandó hivatkozás a társadalmi kérdések esetében. Kovács mint nyelvész nem esik ilyen hibába és nagyon egyedi módon sikerül új technikákat alkalmaznia nyelvészeti kérdésekre. Ritka, de nemzetközi viszonylatban is új, egyedi kutatást ismerhetünk meg ezt a könyvet olvasva!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Miről ír a Kuruc.info Cigánybűnözés rovata?

2015.05.29. 09:31 Szerző: zoltanvarju Címkék: roma gyűlöletbeszéd tartalomelemzés Precognox Labs lda

A Kuruc.info 2006 óta a magyar internetes valóság része, s vitathatatlan érdemeket szerzett a magyar nyelvű gyűlöletbeszéd megőrzésében, terjesztésében és továbbfejlesztésében. A portál indulása óta annyi írás jelent meg, hogy elképzelni is nehéz milyen sok téma kapcsán ragadtak klaviatúrát a "nemzeti radikálisok". Gyakornokunk az LDA társadalomtudományi alkalmazhatóságát járta körül szakdolgozatában és megpróbálta legalább egy töredékét elemezni a szövegáradatnak. Ehhez a Kuruc.info Cigánybűnözés rovatának 10,304 cikkét gyűjtötte be, majd fantasztikus technikai és statisztikai bravúrokkal kiügyeskedte, hogy az LDA elemzés során 27 topik használatával lehet a legjobban leírni az ezekben megjelenő témákat. 

 

Az egyes topikokhoz tartozó top harminc szót az alábbi táblázatban lehet megtalálni.

Az alábbi ábrákban a topikok időbeli eloszlását szemléltetjük. Az egyes topikok leíró címeket kaptak, négyesével lettek csoportosítva és a táblázatban található sorrendben követik egymást.

topic_in_time_1_4.png

 

topic_in_time_5_8.png

 

topic_in_time_9_12.png

 

topic_in_time_13_16.png

 

topic_in_time_17_20.png

 

topic_in_time_21_24.png

 

topic_in_time_25_27.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Orbán Viktor országértékelő beszédei képekben

2015.05.28. 09:48 Szerző: zoltanvarju Címkék: tartalomelemzés vizualizáció korpusznyelvészet lda

Pénteken Orbán Viktor az elmúlt öt év kormányzati munkáját fogja értékelni. A hírről a hagyományos országértékelő beszédek jutnak eszünkbe óhatatlanul. Ezekből már van tizenhét, melyeket a Nyelv és Tudománnyal közös projektünk keretében begyűjtöttünk és megvizsgáltunk.
Leggyakoribb szavak
...
Kulcsszavak
...
Szógráfok
...
Topikok
topikok.png
Szavak
circle.png
Hogy készült?
A szövegeket kitisztítottuk (minden írásjeltől, számtól és nem betűnek számító karaktertől), csupa kisbetűsre hoztuk, majd szótöveztük és végül a stopszavakat (kötőszavak, névelők, stb.) kiszűrtük. Az így kapott korpuszon számoltunk szógyakoriságot. Az egész korpuszt használva az egyes évek beszédeinek kulcsszavait khí-négyzetes módszerrel kerestük meg. A szógráfokat TextRank eljárással generáltuk. A topikokat látens Dirichet allokációval állítottuk elő. A szavakat Ward-módszerrel rendeztük hierarchikus klaszterekbe.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A gépek (még) nem fordulnak ellenünk!

2015.05.27. 11:46 Szerző: zoltanvarju Címkék: mesterséges intelligencia fenomenológia Dreyfus

A mesterséges intelligenciáról szóló filmek reneszánszukat élik, Elon Musk és társai egyre jobban aggódnak amiatt, hogy a modern technológia végül maga alá fogja gyűrni megalkotóit és még a legnépszerűbb AI tankönyv társszerzője Stuart Russel is nyílt levélben szólította fel a terület kutatóit hogy olyan rendszereken dolgozzanak, melyek működésében biztosak lehetünk és céljaik jók. Tényleg félnünk kell a mesterséges intelligenciától?

De mitől félünk?

ai-image.jpg

Alapvetően két dologtól félnek azok akik szeretnek félni a mesterséges intelligenciától

  • az algoritmusok vak működése során valahogy az ember válik a leggyengébb láncszemmé egy folyamatban, s ezért szenvtelenül úgy fog dönteni egy gép, hogy ki kell iktatni minket
  • a gépek öntudatra kelnek és megalkotóik ellen fordulnak

Russel tkp. az első lehetőségre figyelmeztet minket (na jó, inkább kollégáit). A jó hír az, hogy kellő odafigyeléssel ez meg megoldható. De miért is kell erre odafigyelni? Manapság a legtöbb mesterséges intelligencia címkével ellátott rendszer a gépi tanulás paradigmájába tartozik. Lényegüket tekintve nem az emberi problémamegoldást próbálják utánozni, hanem előre nem definiált, nem "leprogramozható" feladatokat oldanak meg, olyanokat amelyek számunkra gyakran megoldhatatlanok. A legismertebb az időjárás előrejelzés, de ilyen lehet a jelenbecslés, vagy az orvosi diagnosztikában használt klasszifikációs eljárások. Az ilyen eljárásokon akár életek múlhatnak, de komplett lakóközösségek sorsát is meghatározhatja a manapság egyre divatosabb "predictive policing". Szerencsére ezen a téren egy rendes kutatásnak át kell mennie egy etikai szűrőn, továbbá a szoftverfejlesztésben bevett minőségellenőrzési praktikákra alapozott módszertannal figyelhetjük a kódokat és a statisztika felvértez minket az eredmények kiértékelésének lehetőségével. Ezért az első lehetőséget kipipálhatjuk azzal, hogy résen vagyunk, ha nem is tökéletes minden.

 

Mi a helyzet a második lehetőséggel? Ez egy általános, nem feladatspecifikus gépet feltételez, olyat, ami képes magának célokat kitűzni. Ma a piacon az általános problémamegoldásra a Google Deep Mind projektje pályázik, ami az Atari játékokkal már egész jól el tud lenni.

 

Vajon innen már csak egy lépés a Blade Runner Nexus 6 csoportja, ami öntudatra ébred s saját programozott halálát megpróbálja elkerülni s miközben alkotójára tör a Tears in Rain monológhoz hasonló szép költői képeket alkot?

 

A kétezer éve megoldatlan probléma

Nem csak a valóságot kell megértenünk, hogy a valóságot tapasztalni tudjuk, hanem a valóság megértésének már előzőleg is megvilágítottnak kell lennie. A lét megértése már eleve egy általában vett fényt adó, megvilágított horizonton mozog. (Heidegger: A metafizika alapproblémái, 351.o.)

A legtöbb AI tankönyvben, valahol a bevezetésben, találhatunk egy részt a mesterséges intelligencia határairól. Érdekes módon nem a klasszikus analitikus filozófia nagyágyúit veszik sorra általában, hanem egy teljesen más területen, a kontinentális, fenomenológiai hagyományban dolgozó Hubert Dreyfus-t. Ennek oka az, hogy 1965-ben megjelent Alchemy and Artificial Intelligence című tanulmánya, majd What Computers Can't Do és What Computers Still Can't Do című könyvei kiállták az idő próbáját és remekül megjósolták a mesterséges intelligencia kutatásának határait és buktatóit!

 

Dreyfus a klasszikus mesterséges intelligenciát vizsgálva arra jutott, hogy az négy előfeltevésre épül:

  1. biológiai előfeltevés - azaz, hogy az elme egy olyan eszközön, az agyon, valósul meg ami diszkrét információfeldolgozást hajt végre.
  2. pszichológiai előfeltevés - mely szerint az elme működése formális szabályokban leírható, ezek pedig megvalósíthatóak egy diszkrét információfeldolgozó egységen
  3. episztemológiai előfeltevés - a tudás formalizálható, azaz leírható véges számú atomi elem és azok kombinálást lehetővé tevő szabályok által
  4. ontológiai előfeltevés - maga a világ is leírható véges számú atomi elem és azok kombinációit leíró szabályok által

Ez nem más, mint a nyugati filozófia és tudomány kétezer éve elkezdett programja! A klasszikus AI (vagy GOFAI, azaz good old fashioned AI) még hitt abban, hogy a mesterséges intelligencia megalkotása segít megérteni a természetes, emberi intelligenciát. A pszichológiai előfeltevés erről szól, azonban független a másik háromtól, nagyon hamar el is vetették és a kognitív tudományhoz utalták mint kérdést. A másik három azonban a modern mesterséges intelligenciában is megjelenik.

 

Dreyfus nem vonja kétségbe a mesterséges intelligencia hasznosságát, sőt azt sem hogy fejlődik. Ellenben felhívja a figyelmet arra, hogy az AI előfeltevéseit használva a nyugati szellemi élet kétezer évig gyúrta az agy és elme problémáját mire rájött, hogy a klasszikus keretben nem megoldható.

 

Dreyfus abból indul ki, hogy az emberi intelligenciának csak egy része épül fel a tudományos megközelítésnek kedvező módon. Vannak problémamegoldási alapelvek, vannak mintaillesztési műveletek, melyek megközelíthetőek szabály alapon, vagy valószínűségi módon. De az emberi tapasztalat és intelligencia beépült a környezetbe. Legalább annyira vagyunk környezetünk termékei, mint annak szemlélői és alakítói. Quine-hoz hasonlóan Dreyfus is holista. Ahhoz, hogy meglássuk a világ, vagy éppen tudásunk atomi részeit, rendelkeznünk kell egy előzetes átfogó képpel magáról a világról! Vegyünk egy példát, egy korábbi írásunkból:

A híres gavagai-példa szerint: ha elvetődünk egy eddig elszigetelt törzshöz, és szeretnénk leírni nyelvüket, megfigyeléseket végzünk, nyelvi adatokat gyűjtünk, és megpróbáljuk a nyelv szabályait a beszélők viselkedéséből, reakcióiból „lepárolni”. Ha elkísérjük a törzs egyik tagját útján és meglát egy nyulat, majd felkiált, hogy „gavagai”, lejegyezzük, és megpróbáljuk értelmezni ezt a viselkedés. De hogyan fordítsuk le ezt magyarra?

„Nyúl”, de lehet hogy „ott egy nyúl” vagy „az ott egy nyúl”, de akár lehet „az lesz a mai vacsora” is. Nyilván praktikus eszközökkel le tudjuk szűkíteni a lehetséges interpretációkat (pl. ha este, amikor a tányérunkra kerül egy darab hús, és ismét azt halljuk hogy „gavagai”, akkor szűkül a kör, de még mindig lehet egyszerre vacsora és nyúl is a lehetséges fordítás). Quine szerint mindez azért van, mert az értelmezésekhez az egész nyelvet „egyszerre” kellene tudnunk előre, mivel nem szimplán mondatokat tanulunk, hanem azok összefüggéseit és a hozzájuk kapcsolt empirikus tapasztalatot is, így a nyelv mondatai absztrakciók csupán, jelentésüket a nyelv egészétől kapják, nem pedig az egyes mondatok adják össze a nyelv egészét.

 

És ez nem csak a nyelvre igaz, hanem magára az intelligenciára! Nem lehet elválasztani attól, hogy mi emberek a minket körülvevő világba vagyunk beágyazva. A világ legjobb reprezentációja saját maga, úgy ahogy számunkra adva van, s ezt nap mint nap használjuk öntudatlanul! Egy adott objektumot, pl. a templom tornyát, használjuk irányjelzőnek, hogy tudjunk tájékozódni, azaz kiterjesztjük elménket. Ugyanakkor elménk nem egyenlő az agyunkkal! Észlelésünk, a világban való jártasságunk testünk által meghatározott, hiszen a világot érzékszerveinken keresztül tapasztaljuk, testünkkel alakítjuk. Ezzel a gondolattal Dreyfus testesült (embodied) kogníció előfutára is egyben!

Jönnek a robotok!

Mielőtt valaki azt gondolná, ez csak filozófia, ismerkedjünk meg Moravec paradoxonjávalMoravec és Brooks a modern robotika úttörői részben Dreyfus hatására fordultak a testesült kogníció felé. A klasszikus megközelítés korlátait szeretnék feloldani azzal, hogy testet adnak intelligens rendszereiknek. A program során azzal a paradox helyzettel találkoztak, hogy a szimbolikus feldolgozás kevés, a  szenzomotoros feldolgozás viszont hihetetlenül sok számítási kapacitást igényel. Az pedig csak hab a tortán, hogy a szimbolikus feldolgozás az alacsonyabb szintekre épül.

Tegyük fel, képesek vagyunk megépíteni egy robotot, ami testesült kognícióra képes. Tegyük fel, hogy van öntudata, bármit is jelentsen ez. Ez azt jelenti, hogy felépítésében nagyon hasonló kell legyen egy emberhez. Talán annyira hasonlónak, hogy a Blade Runner Voight-Kampff tesztjére szorulnánk annak eldöntésére hogy androiddal vagy emberrel van dolgunk.

 

Jelentős előrelépések történtek a mesterséges intelligencia területén napjainkban, s Google Deep Mind projektje épp az általános fogalmakat szeretné megtanulni éppen. Dreyfus arra figyelmeztet minket, hogy ez csak egy részét fedi le az elme tényleges működésének, hiszen a az egyedi elemek felismeréséhez szükséges egy átfogó szemlélet, azaz az alacsonyabb és magasabb rendű fogalmakat egyszerre, egymáshoz való viszonyaikkal tanuljuk meg. Ezeket a viszonyokat pedig testesülve érzékeljük, egy világba beágyazva, test és a környező világ nélkül csak részsikereket tudunk elérni. 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre