HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Álmodnak-e az androidok elektronikus bárányokkal?

2015.03.24. 07:25 Szerző: Zoltán Varjú Címkék: nyelv mesterséges intelligencia tudatosság pragmatika Dennett dinamikus episztemikus logika beszédaktusok intencionalitás

Philip K. Dick kérdését tovább is gondolhatjuk; vajon egy android, vagy egy mesterséges intelligencia érezhet-e fájdalmat? Lehet-e a közeli jövőben egy gép a barátunk? Elkalandozunk az elmefilozófia, a pragmatika és a dinamikus episztemikus logika világába a válaszért!

gis.jpg

Intenciók

Habár napjainkban rengeteg kritika éri, máig a legismertebb teszt az emberi intelligencia vizsgálatára a Turing-teszt. Az ún. imitációs játék végén akkor tekinthetünk egy programot intelligensnek, ha sikerül meggyőzni a humán zsűri egy jelentős részét arról, hogy emberrel beszélgetett. A kritikák helyett inkább két dolgot emelnénk ki ebből

  • a teszt során beszélni kell, akár szóban, akár egy szöveges interfészen keresztül
  • embereket kell meggyőzni arról, hogy egy emberrel beszélgetnek

Daniel Dennett szavaival élve, intencionális alapállás felvételére kell "kényszeríteni" a zsűrit. Dennett Az intencionális rendszerek című esszéjében sorra veszi milyen alapállásból próbálja meg az ember értelmezni a vele szembekerülő dolgokat, azaz a világot, s három ilyet talál.

  • tervezet-alapállás: "Ha pontosan tudom, hogyan tervezték meg a komputert (beleértve a tervezet nem állandó részét, a programot is), akkor a program komputációs utasításait követve bejósolható a komputer bármely lépésre betervezett válasza. Jóslatunk be fog igazolódni, amennyiben a komputer a tervezetnek megfelelően működik, vagyis nem romlik el. A tervezet-alapálláson alapuló bejóslásoknak különböző változataik vannak, mindegyik hasonlatos azonban a tekintetben, hogy a funkció fogalmára támaszkodnak, mely célfüggő vagy ideologikus."
  • fizikai hozzáállás: "Erről az alapállásról nézve predikcióink az adott tárgy tényleges fizikai állapotain alapulnak, s a természeti törvények ismeretéből kiindulva alkotjuk meg őket. Ez a hozzáállás szükséges a rendszerek rosszul működésének bejóslására.
  • intencionális nézőpont: "Ilyen esetben a viselkedést úgy jósoljuk be, hogy a rendszerhez bizonyos információ birtoklását rendeljük hozzá, s feltételezzük, hogy bizonyos célok irányítják, s azután e hozzárendelések és feltevések alapján kidolgozzuk a legésszerűbb s a legmegfelelőbb cselekvést."

Fontos megjegyezni, hogy az intencionális nézőpont egy stratégia, nem kell feltétlenül intelligens ágensnek lennie annak amit ebből szemlélünk, ahogy Dennett mondja:

Így nincs helye itt azon sopánkodni, hogy vajon a sakkozókomputernek tényleg vannak-e vélekedései és vágyai; az intencionális rendszerekről adott meghatározásunk ugyanis nem állítja azt, hogy az intencionális rendszereknek tényleg vannak vélekedéseik és vágyaik, csak annyit mond, hogy viselkedésüket meg lehet magyarázni és be lehet jósolni úgy, hogy vélekedéseket és vágyakat rendelünk hozzájuk. Annak pedig, hogy amit a számítógéphez rendelünk, vélekedésnek nevezzük, vagy a vélekedés analógjának, vagy információs komplexumoknak, vagy intencionális micsodáknak, nincs következménye azokra a számításokra nézve, melyeket a hozzárendelés alapján végzünk. Ugyanazokra a predikciókra jutunk akkor is, ha nyíltan a számítógép vélekedéseiről és vágyairól gondolkozunk, mint amikor a számítógép információs tárára és célmeghatározásaira gondolunk. Az elkerülhetetlen s érdekes tény az, hogy a mai legjobb sakkozó számítógépeknél a viselkedés intencionális magyarázata és bejóslása nemcsak bevett, hanem akkor is működik, ha viselkedésük predikciójára nincs más használható eljárás. Elég sikeresen tudjuk e komputereket intencionális rendszerekként kezelni, s ez független azoktól a megfontolásoktól, hogy milyen anyagból épültek, mi az eredetük, mi a helyük az erkölcsi ágensek közösségében (vagy éppen nincs is helyük ott), van-e tudatuk vagy öntudatuk, s hogy műveleteik determináltak vagy determinálatlanok-e. A stratégia alkalmazása mellett szóló döntés pragmatikus, s nem eredendően jó vagy rossz. 

Darwin veszélyes ideája

viva-la-evolution.jpg

Valamit észreveszek, és okot keresek hozzá: ez eredetileg a következőt jelenti: szándékot keresek benne és mindenekelőtt valakit, akinek valami szándéka van, egy szubjektumot, egy cselekvőt: minden történés cselekvés – valaha minden történésben szándékot láttak, ez a mi legrégebbi szokásunk. Vajon az állatoknak is van ilyen szokásuk?  (Nietzsche: A hatalom akarása)

Az, hogy intencionális alapállást veszünk fel az evolúció terméke Dennett szerint. A komplexitás egy bizonyos foka felett a reprodukcióra képes önfenntartó rendszerek elkezdtek ilyen-olyan stratégiákat kialakítani, hogy megmaradjanak. Ezeket kedvenc elmefilozófusunk Micsoda elmék című könyvében így rendszerezi:

  • Darwini teremtmények, melyek tkp. élesben tesztelődnak, hiszen vagy életben tudnak maradni tulajdonságaik által, vagy elpusztulnak
  • Skinneri teremtmények, melyek a környezet ingereire reagálva adnak választ. Bizonyos inger-válasz párok megerősödnek a környezeti hatásokra, növelve ezzel a teremtmény túlélésének esélyeit, tehát itt már nem csak a készen kapott tulajdonságok számítanak, hanem az alkalmazkodás képessége is.
  • Popperi teremtmények azok, melyek képesek mentális modelleket létrehozni, cselekvéseiket el tudják gondolni. Ez a darwini és skinneri sémánál sokkal kényelmesebb megoldás, hiszen a popperi teremtmények fejben is hibázhatnak, tökéletesíthetik terveiket, mielőtt cselekedniük kellene.
  • Gregoryi teremtmények azok, melyek elméjüket képesek kiterjeszteni, környezetüket manipulálni tudják "elméleteik" kidolgozása és megvalósítása során. Nem kell nagy dologra gondolni, ilyen lehet pl. egy az elrejtett zsákmány helyét jelölő kereszt, vagy egy gyümölcs leverésére használt ág.

Az emlősök nagy része popperi teremtmény, a főemlősök pedig pályázhatnak a gregoryi teremtmény címre, ami a homályos leírás ellenére annyit tesz, intencionális ágens. Mit is jelent az intencionalitás? Alapvetően ami intencionális, az valami másra irányul. Az intencionális alapállásból úgy kezelünk egy entitást, mintha az racionális lenne smegamonalisa_recursion.jpg lennének szándékai, vágyai, törekvései egy adott cselekvés során. S való igaz, házi kedvenceink viselkedését is gyakran így magyarázzuk, tehát az intencionális alapállásból nem csak az emberekre tekintünk.

 

Dennett azonban csavar egyet az intencionalitás fogalmán, s bevezeti annak első- és magasabb rendű változatait.  Az elsőrendű intencionális rendszereknek vannak elképzeléseik, törekvéseik, vágyaik és minden rendes jellemzőjük, ellenben ennek nincsenek tudatában. A másod- és magasabb rendű intencionális rendszerek viszont amolyan meta-rendszerek s tisztában vannak saját vágyaiknak, elképzeléseiknek, sőt másoknak is hasonlókat tulajdonítanak.

 Attitűdök, nyelv, szimbólumok

A másod- és magasabb rendű intencionalitás menthetetlenül összekapcsolódik a nyelvvel, hiszen az intencionális stratégiát nem tudjuk nélküle elkészíteni. Annyi azonban bizonyos, hogy a gregoryi teremtmények számára, mindegy hogy az intencionalitás mely fokán állnak, szimbólumokat kell használniuk, azaz, valami olyat, ami más helyett áll. Clark és Karmiloff-Smith The Cognizer's Innards című tanulmánya 1993-ban, a konnekcionizmus kellős közepén, hívta fel a figyelmet a szimbólumhasználat fontosságára és a skinneri teremtményekre igazított inger-válasz hálózatokat alkalmazó modellek korlátaira.

Hogyan is néz ki egy ilyen intencionális alapállás? Óhatatlanul olyan mondatokban fogalmazunk mint az alábbi (Denettől lopott) példák

  • x azt hiszi, hogy p
  • y arra törekszik, hogy q
  • z azon töpreng, vajon r

A fentiekhez hasonló mondatokat a filozófusok propozícionális attitűdöknek nevezik. Vigyük ezt tovább!

  • Nóri tudja, hogy Zoli szereti a krumplilángost.
  • Zoli tudja, hogy Nóri tudja, hogy szereti a krumplilángost.
  • Nóri tudja, hogy Zoli tudja, hogy Nóri tudja, szereti a krumplilángost.

Az "én tudom, hogy ő tudja" gondolatsorok persze általában véget szoktak érni, ha másért nem, hát időhiány miatt. De látható, hogy egyedül memóriánk és véges időnk szab határt az ilyen elmélkedéseknek. Fontos megjegyezni, hogy a fenti példákban egy-egy sémát használunk, az "X tudja, hogy Q" stb. propozíciók egy-egy mentális állapotra tekintenek úgy, mint egy objektumra! 

Beszédaktusok, pragmatika, egyéb nagy szavak

Láthatjuk, ahhoz, hogy intelligensnek nevezhessünk valamit, intencionális álláspontra kell helyezkednünk, amikor interakcióba lépünk vele. Ahhoz, hogy igazán emberinek tekintsük, magasabb rendű intencionalitást kell tanúsítania. Ez nem csak azt jelenti, hogy mi propozícionális attitűdök formájában gondolkodunk róla, hanem a kommunikáció során is felmerül egymással szemben az intencionalitás feltételezése. Az olyan mondatok elhangzása során mint pl:

  • Hozd nekem ide azt a szendvicset.
  • Megbüntetlek, nem mehetsz el ma sehova.
  • Értem a feladatot.
  • Elnevezlek Padlinak!
  • Megígérem, elviszlek moziba.

nem csupán a propozíciók jelentését kell megértenie egy intelligens ágensnek, hanem a velük kifejezett cselekvést is. Ez ilyen típusú állítások ún. az beszédaktusok, amik feltételezik hogy a bennük résztvevő ágensek intencionálisak.

De akkor most mi van a gépekkel?

Láthattuk, a manapság divatos megközelítéseknél nem érdemes magasabb rendű intencionalitás után kutakodni - már amennyiben Dennett meggyőző számunkra. A dinamikus episztemikus logika "ezoterikus" tudománya  pontosan azzal foglalkozik, hogyan lehet formálisan modellezni azt, hogy ágensek egymásnak hiteket, vágyakat, törekvéseket stb. tulajdonítanak. Hogyan lehet egy ilyen helyzetet modellezni? Vegyük a korábbi példánkban szereplő Nórit és a krumplilángost szerető Zolit. Egy zajos csatornán keresztül próbálják megbeszélni, hogy elmennek és keresnek egy éttermet ahol ehetnek. A csatorna zajos, de annyit tudunk róla, hogy kellő n számban ismételve előbb-utóbb átjut rajta egy üzenet. Formalizáljuk a helyzetet, Nórit és Zolit nevezzük át, egyikük legyen S (mint sender, azaz küldö vagy feladó), a másik pedig R (mint receiver, azaz fogadó vagy címzett). Vezessünk be egy modális operátort, K-t. Ks(a) és Kr(a) intuitív értelmezése csupán annyi, hogy s ágens tudja hogy a. Legyen X = [x1, ... xn] egy diszkrét üzenetekből álló sorozat amit S küld K-nak. Ditmarsch, van der Hoek és Kooi (p. 25) nyomán ekkor az alábbi protokollok határozzák meg a sikeres megállapodást.

S protokoll
S1 i :=0
S2 while true do
S3      begin read xi ;
S4      send xi until KsKr(xi);
S5      send “KsKr(xi)” until Ks Kr Ks Kr(xi)
S6      i := i + 1
S7 end

R protokoll
R2 when Kr(x0) set i :=0
R2 while true do
R3     begin write xi ;
R4     send “Kr(xi)” until KrKsKr(xi);
R5     send “KrKsKr(xi)” until Kr(xi+1)
R6     i := i + 1
R7 end

Látható, harmadrendű intencionalitás szükséges ahhoz, hogy mindkét fél tudja, megbeszélték a dolgot s biztosak legyenek abban, mindketten tudják miben állapodtak meg. Mielőtt azt hinnénk, erre csak az ember képes, lelombozzuk a kedélyeket! A fenti kis protokoll ún. alternáló bit protokoll működését írta le eredetileg! Persze akadnak ennél komolyabb szituációkra alkalmazható eszközök is a dinamikus episztemikus logika tárában!

 

Hogy lesz-e olyan android, akiről csak nehezen deríthető ki, hogy gép-e vagy ember, azt ma nem lehet megmondani. A kutatások gyerekcipőben járnak és rendkívül sok terület összekapcsolását kívánják meg. A Szárnyas fejvadász Tears in Rain monológjának szintjét elérő mesterséges intelligenciára még sokat kell várni, ha egyáltalán elérhető.

I've seen things you people wouldn't believe. Attack ships on fire off the shoulder of Orion. I watched C-beams glitter in the dark near the Tannhäuser Gate. All those moments will be lost in time, like tears in rain. … Time to die. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

European Commission study of big data and other data-driven approaches for policy-making (data4policy)

2015.03.18. 15:03 Szerző: Zoltán Varjú Címkék: felhívás big data EU policy making data driven

The European Commission has commissioned Technopolis Group, Oxford Internet Institute (OII) and the Centre for European Policy Studies (CEPS) to conduct an international study on innovative data-driven approaches to inform policymaking, cutting across all policy areas and societal challenges. For more information about the study, please visit the study website. Currently, the study team is preparing an inventory of big data for policy and other innovative data-driven approaches/initiatives for evidence-informed policymaking.Our inventory of relevant initiatives will focus on:

a) operational pilots, demonstrators and implementations,

b) that are supported, on a structural basis, by policymakers,

c) that are at the national level

d) at the international level, initiated or supported by EC, OECD, WHO, WTO, Worldbank, UN, etc.
flag_of_europe_svg.png
As such, the inventory does not cover research projects that do not prepare for implementation  or initiatives at sub-national level (e.g. smart cities). Open data initiatives are within the scope of the study if there are clear elements of data analytics and use of the data in one or several steps of the policy cycle of agenda and priority setting, policy options generation, policy design, ex ante impact assessment, monitoring and ex post evaluation and impact assessment.

Does your organisation undertake initiatives in the scope of this study or knows of relevant initiatives in Hungary and/or abroad? The study team welcomes your suggestions and/or contributions! You can also reach out to us via Twitter @data4policyEU

Should you have any questions, feel free to contact Jérôme Treperman at jerome.treperman(at)technopolis-group­.com

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szavak, városok, politikai blogok

2015.03.16. 10:31 Szerző: Zoltán Varjú Címkék: statisztika politikai blogok korpusznyelvészet Zipf Pareto

Az emberalkotta jelenségeket áthatják a hatványtörvények, melyekre először egy szavakat számolgató nyelvész figyelt fel, de a szógyakoriságon túl azóta a népesség eloszláson át a webes hálózatok topológiájáig sok mindenre alkalmaznak manapság.  Politikai blogokról indított crawler-ünk eredményeinek értelmezése során sem mehetünk el ezek mellett.

A blogok világában nincs egyenlőség 

Korábbi posztunkban már ismertetett crawler-ünk erről a seed listáról indult el. Az egyes doménekről begyűjtött egyedi url-ek száma az alábbiak szerint alakult:

domains.png

Láthatjuk, csupán az első három domén esetében került be több mint 1000 egyedi oldal, ezek közül csupán a Mandiner szerepelt a kiindulási pontok között. Ahogy haladunk a top ötvenes listán lefelé, láthatjuk, nagyságrendi különbségek vannak a helyezettek között. A negyedik és ötödik helyezettről már csak ötszáz és ezer közötti oldalt,  a hatodik és tizenegyedik helyezett esetében már csak két-háromszáz, a tizenhatodik helyezésig már csak száz, a tizenhetediktől az ötvenedikig kb. ötven oldallal képviselteti magát egy domén a gyűjtésben.Ha tovább haladnánk, akkor még drámaibb esést láthatnánk, a következő ötven oldal már csak tíz, majd öt, végül kettő-három és a jelentős többség csak egy-egy egyedi url-lel került a korpuszba. Hogy lehetséges ez?

degreefreq.png

A fenti ábrán látható, az oldalak jelentős része egy linket kap csupán. Szinte ugyanezt a képet mutatja a kimenő linkek eloszlása is (már ha tartalmaz egyáltalán linket egy adott oldal, ne feledjük, mi csak a tartalomban lévő hivatkozásokat követtük!). 

degreedistr.png

Log-log skálán ábrázolva a ki- és bemenő linkek eloszlása jobban szemlélteti, hogy a legtöbb oldal egy linket indít vagy kap, de akadnak olyan oldalak, melyekre az átlagosnál jóval többen linkelnek, illetve melyek szeretnek egy-egy írásban sokat linkelni (ez utóbbiak általában listák).

neighbors.png

Ha megnézzük a fenti ábrán, hogy egy-egy oldalnak milyenek a szomszédai (azaz a melyekre linkel, vagy melyektől kap linket), akkor érdekes dologra figyelhetünk fel. Ahogy látható, a "kicsik" azaz az alacsony fokszámúak heterogén közegben vannak, szomszédaik között megtalálhatóak alacsony, közepes és magas fokszámú oldalak is. Láthatjuk azt is, hogy minél magasabb egy oldal fokszáma, annál válogatósabb szomszédai tekintetében. A fenti adatok azt támasztják alá, hogy az általunk vizsgált hálózat is ún. skálafüggetlen, s hatványfüggvényekkel (ezért a sok logartimus a plotokon) írható le. De mit is jelent ez?

 Normális?????

A legtöbb dolog a valószínűleg jól ismert normális eloszlással írható le. Ilyen pl. a testmagasság. Ha sok férfi és nő magasságát megmérjük, akkor ilyesmi ábrát kapunk:

 gender_separated.png

A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni.

Szavak

Azonban valahogy az ember alkotta dolgok esetében nem mindig működik a normális eloszlás. George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során a róla elnevezett törvényt, mely kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás.

800px-zipf_distribution_pmf.png

Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá. 

webcorpus.png

Városok

A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik.PopulationData.net oldal adatait használva Brazília, Kína, Németország, India, Indonézia, Nigéria, Oroszország és az Egyesült államok nagyobb városainak összesített népesség szerinti listáját mutatjuk:

acrosscountries.png

Az alábbi ábra mutatja, hogy a hatványeloszlás nem csak összesítve, hanem adott országokon belül is megjelenik.

withincountries.png

Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük, reméljük látható, hazánk sem kivétel hatványtörvények alól.

hucities.png

80/20 szabály

A Zipf-eloszlást szokás diszkrét Pareto-eloszlásnak is nevezni. Vilfredo Pareto neve általában a 80/20 szabály kapcsán ismert, melyre néhány példa rá a vonatkozó Wikipedia szócikkből:

  • A profit 80%-a az ügyfelek 20%-tól származik.
  • A reklamációk 80%-a az ügyfelek 20%-tól érkezik.
  • A profit 80%-a a munkára fordított idő 20%-ból keletkezik.
  • Az eladások 80%-a a termékportfólió 20%-ból keletkezik.
  • Az eladások 80%-át a sales csapat 20%-a hozza.

A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is:

  • A hibák 80%-a a kód 20%-ában rejlik.
  • A követelmények 20%-a adja a funkcionalitás 80%-át.

A társadalmi egyenlőtlenségek terén is jelentkezik a Pareto-elv, mely szerint a javak 80%-ával a népesség 20%-a bír. A leghíresebb azonban az e-kereskedelemben bevett ún. hosszú farok, ami arra int minket, hogy a görbe elvékonyodó részén is van mit keresni. Az élet olyan, hogy a hatványeloszlást követi, a modern technika pedig elérhetővé teszi az elvékonyodó részt! Nem kell kétségbe esni ha nem kerülünk a top ötven oldal közé, vagy ha alacsony a PageRank értékünk, egy jó kereső segítségével és a keresőmarketing alkalmazásával megtalál minket az, aki kíváncsi ránk. Ahogy azokat a szavakat is használjuk a megfelelő helyen, melyek gyakorisága elenyésző, vagy ellátogatunk abba a városba is, ahol kevesen élnek.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Március 27-28 BOK meetup és K-monitor Hackathon

2015.03.14. 08:59 Szerző: Zoltán Varjú Címkék: önkéntes meetup opendata.hu hackathon Open Knowledge BOK meetup K-monitor

Máriuc 28-án a Google Groundon kerül megrendezésre a K-monitor Hackathon, melyre még mindig lehet jelentkezni! Aki szeretne a jó ügy érdekében adatot elemezni, kódolgatni és vizualizálni és ezzel civil szervezeteknek segíteni, az további részleteket és jelentkezési lapot itt talál (a csapatoknak érdemes sietni, a jelentkezési határidő nekik március 15). 27-én este a Budapest Open Knowledge Meetupon mutatkoznak be a csapatok, erre is miden érdeklődőt szeretettel várunk - a részvétel ingyenes, de az előzetes regisztráció ajánlott itt.

adatozz.jpg

Előzetes program:

Az est első előadója Gönczi Péter lesz, a Hashtag Charity CTO-ja
http://hashtagcharity.org/

 

A meetup második felében a K-Monitor március 28-i hackathonjának résztvevői adják elő 2 perces bemutatkozásukat.

Babies Born Better, adatok a várandósgondozásról - Születésház Egyesület 


Önkormányzati dokumentumok felszabadítása - Civil Kapocs Egyesület 


15 éve kellett volna kijelölni a türelmi zónákat, de mit is jelent ez? - Szexmunkások Érdekvédelmi Egyesülete 


Állami reklámköltések bemutatása infografikán - Mérték Médiaelemző

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Agyas gépek

2015.03.09. 07:17 Szerző: Zoltán Varjú Címkék: mesterséges intelligencia neurális hálók Kant deep learning coritical learning Numenta

A mesterséges intelligencia programadó konferenciája 1956-ban nagyon optimista volt, akkor még úgy gondolták, pár évtized elegendő lesz az emberi intelligenciát elérő, vagy akár meg is haladó megoldások elkészítése. Ma, amikor már szoftver segített megoldani a négyszín-sejtést, a Watson megnyerte a Jeopardy! vetélkedőt és autonóm, vezető nélküli autókat tesztel több gyártó, azt hihetnénk, az álom szinte megvalósult. Ellenben autonóm robotokat továbbra sem vagyunk képesek készíteni, egy rendes arcfelismerő betanításához minimum a Facebook adatbázisával kell rendelkeznünk, a nyelvfeldolgozás terén pedig még egy óvodás képességeit sem tudja elérni egy-egy alkalmazás. Egyre többen gondolják úgy, hogy a továbblépéshez alaposan át kell gondolnunk azt, ahogyan eddig közelítettük a problémához, mindeközben egyre gyakrabban merül fel egy 18. századi filozófus, a jó öreg Kant neve.

consciousness.jpg

Kezdeti optimizmus

Turing és Church munkájának gyümölcse az általános számítógép a második világháború alatt valósággá vált, ennek alapelveit a következő évtizedben Neumann tökéletesített és mind a tudományos, mind az üzleti életben megjelentek a komputerek. A mesterséges intelligenciát máig átható optimista paradigmát Churchland fogalmazta meg a legjobban:

The question that confronts the research program of AI, therefore, is not whether suitably programmed computers can simulate the continuing behavior produced by the computational procedures found in natural animals, including those found in humans. That question is generally regarded as settled. In principle, at least, they can. The important question is whether the activities that constitute conscious intelligence are all computational procedures of some kind or other. The guiding assumption of AI is that they are, and its aim is to contstruct actual programs that will simulate them. That is why the vast majority of AI workers have been concerned with writing programs rather than with building ever more novel forms of computing hardware. (Paul M. Churchland: Matter and Consciousness, p. 105)

Hideg napok

A mesterséges intelligencia története során eddig kilenc (!) "jégkorszak" (AI winter) volt, ami a kutatási pénzek befagyasztásával és az ipar elfordulásával járt. Részben ennek is köszönhető, hogy folyamatosan új név alatt jelenik meg ez a tudományterület. Az "artificial intelligence" a kilencvenes években "intelligent systems" néven éledt újjá, de a manapság divatos "machine learning" vagy az IBM Watson kapcsán felmelegített "cognitive computing" is ide sorolható, egyes kutatók pedig inkább besorolták magukat a "(computational) cognitive science" kategóriába (megúszva evvel az ipari alkalmazhatóság számonkérését).

dl.jpg 

Figyeljünk az agyra!

A neurális háló elmélete egyidős a számítógéppel. A első idealizált neuron modell McCulloch és Pitts írta le A logical calculus of the ideas immanent in nervous activity című dolgozatukban. Neumann eképpen foglalja össze ennek jelentőségét Az automaták általános és logikai elméletében:

McCulloch és Pitts elméletének fontos eredménye, hogy a fenti értelemben vett bármely olyan működés, amelyet véges számú "szó" segítségével logikailag szigorúan és egyértelműen egyáltalán definiálhatunk, ilyen formális neurális hálózattal meg is valósítható. [...] A McCulloch-Pitts-féle eredmény [...] bebizonyítja, hogy minden, amit kimerítően és egyértelműen szavakba lehet foglalni - alkalmas véges neuronhálózattal ipso facto realizálható is. Minthogy az állítás megfordítása nyilvánvaló, állíthatjuk, hogy bármely reális vagy elképzelt, teljesen és egyértelműen szavakba foglalható viselkedési mód leírásának a lehetőse és ugyanennek a véges formális neuronhálózattal való megvalósításának a lehetősége között nincs különbség. A két fogalom terjedelme egyenlő.

 

Neumann A számológép és az agy című írásában veti részletesebben össze a természetes és mesterséges automatákat, azaz az emberi agyat és a számítógépeket. A természetes automatákkal kapcsolatban külön kiemeli, hogy a mai szakzsargonnal élve meglepő módon jó hibatűrők, nem akasztja meg őket egy-egy "alkatrész" hiánya vagy a zavaros input. Megállapítja továbbá, hogy

[...] az adatok arra mutatnak, hogy természetes alkatelemekből felépített berendezések esetében nagyobb számú, bár lassúbb szerv alkalmazása részesíthető előnyben, míg mesterséges alkatelemekből felépített berendezések esetében előnyösebb, ha kevesebb, de gyorsabb szervet alkalmaznak. Így tehát azt várhatjuk, hogy egy hatékonyan megszervezett természetes automata (mint az emberi idegrendszer) minél több logikai (vagy információs) adat egyidejű felvételére és feldolgozására lesz berendezve, míg egy hatékonyan megszervezett nagy mesterséges automata (például egy nagy modern számológép) inkább egymás után látja majd el teendőit - egyszerre csak egy dologgal vagy legalábbis nem olyan sok dologgal foglalkozik. Röviden: a nagy és hatékony természetes automaták valószínűleg nagy mértékben párhuzamos működésűek, míg a nagy és hatékony mesterséges automaták inkább soros működésre rendezhetők be.

A sorozatos jégkorszakok közül külön figyelmet érdemel a hatvanas évek végén kezdődő periódus. Ekkor meszelik el a mai neurális hálók elődjének tartott Rosenblatt féle perceptron modellt használó kutatásokat. Azok egyszerű, a kezdetleges modellek hiába voltak ígéretesek, hardveresen nehéz volt megvalósítani azokat. Húsz évre ki is szorult a mainstreamből a neurális hálók elmélete. 

nn.jpg

A nyolcvanas években Paul Smolensky (nyelvész olvasóinknak az optimalitáselméletből lehet ismerős a neve) köré kezdtek szerveződni a konnekcionisták, akik a kor színvonalához képest már nagyon jó számítógépes modellekkel dolgoztak. A kétrészes Parallel Distributed Processingtanulmánykötetben összegezték munkáikat 1987-ben, melyet még ma is szívesen hivatkoznak a terület kutatói. A PDP csoport alapvetően Neumann gondolatát vitte tovább a párhuzamos feldolgozást illetően. A gyakorlatban egy-egy ún. szubszimbolikus kognitív folyamatot modelleztek (pl. számjegyek felismerése, szófelismerés, a legbonyolultabb és egyben legismertebb magasabb szintű folyamatot modellező kísérlet a Rumelhart és McCelland On the learning of past tenses of English verbs tanulmányban leírt modell).  Habár nagyon sikeres volt a csoport és figyelemre méltó eredményeket értek el, a kutatási irányzat a kilencvenes években kiesett az ipar látóköréből és megmaradt akadémiai hobbinak.

 

2005-ben Hinton és Salakhutdinov Reducing the Dimensionality of Data with Neural Networks című tanulmánya után jelent meg a deep learning elnevezés (habár a paper még a deep autoencoder network kifejezést használja) a neurális háló egy új fajtájára. A deep learning arra utal, hogy a mesterséges neuronok több rétegbe szerveződve tanulnak. A hatvanas években még csak két, egy be- és egy kimeneti réteget használtak, a nyolcvanas években ezek közé iktattak be egy ún. hidden layert, de egészen a kétezres évek elejéig kellett várni arra, hogy algoritmikusan kezelhető legyen több réteg beiktatása. A deep learning szerencsés pillanatban lépet színre, hiszen vele együtt fejlődött ki a big data, azaz a hatalmas adatmennyiségek gyűjtésének, tárolásának és hatékony feldolgozásának területe is. Az igazi sikert az algoritmikus megoldások mellett a hardver és a rendelkezésre álló adatok mennyisége hozta meg. A Facebook arcfelismerő algoritmusa több milliárd felhasználó megtagelt fotóin tanulhatja az arcfelismerést, a Google alkalmazása a macska fogalmát tkp. a netre feltöltött összes cicás képet felhasználva tanulta meg. Fontos különbség még a hagyományos neurális hálók és a deep learning között, hogy a modern irányzat egyre inkább a nem-felügyelt (azaz a felcímkézett tréningadatok használata nélküli) megközelítés felé mozdult el. 

 images.png

Figyelemre méltó, hogy az agy egy nagyon leegyszerűsített modelljével mi mindenre képesek a kutatók. Ugyanakkor felmerül a kérdés, mennyire gazdaságos, mennyire életszerű pl. több évtizedig gyűjteni fotók milliárdjait egy arcfelismerő létrehozásához? Tényleg csak egy Google vagy Facebook nagyságú, hihetetlen adatmennyiségen ülő cég képes ilyen dolgokra? Az arcfelismerést, az autóvezetést és a többi intelligenciát igénylő feladatot észrevétlenül végezzük, annyira könnyedén, hogy bele sem gondolunk milyen nehéz ezt replikálni. Hogy lehetséges ez?

Kant és a neocortex

kant.jpg

Amikor hazamegyünk, kinyitjuk a lakás ajtaját, levesszük a kabátunkat, felakasztjuk, levesszük a cipőnket, belebújunk kedvenc papucsunkba, becsoszogunk a nappaliba, lehuppanunk a kanapéra és feltesszük lábunkat a dohányzóasztalra, odanyúlunk az újságunkért és a táviránytóval bekapcsoljuk a hifit csupa rutincselekvést végzünk. Ha valamelyik kreatív családtagunk odébb tette például a fogast, akkor lehet hogy kabátunk a földre fog hullani, mert megszokásból, oda sem nézve akartuk felakasztani. Bosszankodunk egy kicsit, de folytatjuk rutinunkat. Igen ám, de a kanapéra ülve észrevesszük, lábunk nem éri el a dohányzóasztalt! Azon már meg sem lepődünk hogy újságunk helyett prospektusok között turkálunk a hifi meg már nincs a szobában.

41-3.jpg

Jeff Hawkins, a Numenta alapítója szerint a fenti szituáció remekül példázza hogy agyunk tulajdonképpen egy prediktív rendszer. A rutinunk belénk ültette a lakásunkról kialakított képet. Agyunk megtanulta hogy hol van a fogas, a távkapcsoló, az újságunk stb. Amikor valami váratlan történik, pl. leesik a kabátunk akkor egy eltérő mintázatot tapasztalunk. A fenti szituációban ekkor körbenézünk, de azt találjuk hogy minden más változatlan, ezért agyunk visszaáll a megszokott dolgok előrejelzésére. Amikor azonban nem tudjuk lábunkat kényelmes pozícióba helyezni, hirtelen elkezdünk figyelni jobban a különbségekre és agyunk szinte várja a következő anomáliát. A intelligencia Hawkins szerint nem más, mint az, hogy agyunk egyfajta rendet vetít a világra, elrendezi és megjósolja hogyan fog alakul és reagál a nem várt helyzetekre. Ez nagyon úgy hangzik, mint Kant gondolatai a Prolegomenában:

Tehát egyedül az érzéki szemlélet formája révén vagyunk képesek arra, hogy a dolgokat a priori szemléljük, ámde ekként csak úgy ismerjük meg az objektumokat, ahogyan azok nekünk (érzékeinkben) megjelenhetnek, nem pedig úgy, ahogyan magukban vannak.

Hawkins On Intelligence című könyvében amellett érvel, hogy a mesterséges intelligencia eddig tulajdonképpen tévúton járt a Churchland által megfogalmazott paradigmát követve. Az agy hatékonyan oldja meg a gépi tanulás által nagyon nehezen megközelített problémákat, ezért érdemes tanulmányozni működését. Hawkins az agy általános működése helyett a neocortex modelljét célozza meg, mivel ez felel a magasabb, emberi intelligenciáért. A modell neve Hierarchical Temportal Memory, vagy újabban Cortical Learning Algorithm. Ez a modell is tkp. egy deep learning modell, hiszen mesterséges neuronok szerveződnek benne szintekbe. Azonban jelentősen el is tér a neurális hálók elméletétől, ugyanis nagyon nagy szerepet kap a modellben az idő és az ún. online learning (azaz valós időben történő tanulás és előrejelzés - igazi előfutára a Sparse Distributed Memory elmélete). Ahhoz, hogy hatékonyan tudjuk modellezni a neocortex működését, el kell szakadnunk a hagyományos számítási modellektől! A neocortex ugyanis a PDP iskola által is hangoztatott párhuzamos, megosztott feldolgozás szerint működik. Sajnos a Numenta még nem kezdett hardvert gyártani, de hagyományos Neumann architektúrára elérhető algoritmusuk open source formája NuPIC néven itt.

Hardver vs szoftver

Hawkins nagyon várja a hagyományos architektúráktól eltérő számítógépek megjelenését, habár jelenlegi termékei simán elfutnak az öreg paradigma vasain is. Nincs ezen mit csodálkozni, hiszen pl. a Bluebrain projekt, ami az emberi agy (illetve a neocortex) teljes komputációs modelljének megalkotását tűzte ki céljának, is "hagyományos" szuperszámítógépek segítségével dolgozik. 

Nagyon régóta izgatja a szakembereket egy, az agy felépítéséhez hasonló számítógép megalkotása, ám valahogy ideáig nem sikerült az elmélet keretein túljutni. Carver Mead, a VLSI áramkörök tervezésének egyik forradalmi megújítója már a nyolcvanas évektől intenzíven foglalkozott a ma neuromorphic computing néven emlegetett irányzattal, mely célja a neuronokhoz hasonló számítási egységek fizikai megvalósítása. Ennek ellenére az egyetlen igazán jelentős hardver a 2009-ben megjelent Neurogrid, ami fizikailag modellezi a neocortex egy részét, ami egymillió neuront és egy hatmilliárd szinapszist jelent, mindezt a Bluebrain energiaigényének egymilliomod részéből lehet üzemeltetni.

 

Jelenleg sokkal egyszerűbb a hagyományos hardvereket használni. Az általános számítógép szépségét az adja, hogy programozással egyedivé tehetjük, más rendszereket modellezhetünk rajta. Ellenben, ha meg akarjuk érteni azt, miképp képes agyunk intelligens viselkedést produkálni, szükségünk van fizikai modellekre is, hiszen ezek megépítése egyben az agy felépítésére vonatkozó elméleteink tesztelését is jelenti. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása