HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Romaellenes gyűlöletbeszéd képekben

2015.03.31. 18:51 Szerző: zoltanvarju Címkék: gyűlöletbeszéd politikai blogok tartalomelemzés LDA

Politikai blogokat vizsgáló projektünk keretében a kuruc.info Cigánybűnözés rovatának 10302 cikkét elemeztük és rendeztük topikokba  az LDA módszer segítségével. Célunk, hogy az egyes topikok segítségével szótárakat hozzuk létre s ezek segítségével nyomon tudjuk követni hogy az egyes politikai blogokon és híroldalakon miképp jelenik meg a romaellenes gyűlöletbeszéd. Posztunkban a számunkra legérdekesebb topikokból csemegéztünk!

 

Az egyes topikokhoz tartozó kulcsszavakat a mallet produkálta, a témákat mi határoztuk meg a topikokhoz tartozó dokumentumok megvizsgálása után. Az öt topikhoz tartozó dokumentumokra lefuttatunk egy szógyakorisági, egy kulcsszókinyerő és egy TextRank eljárást és az eredményeket használva hoztuk létre szófelhőinket.

 

1. topik: Magyar Gárda, Szebb Jövőért Polgárőr Egyesület rendezvényei, demonstrációi, kiemelt esemény Gyöngyöspata, jellemzően vidéki helyszíneken, ahol interetnikus problémák léptek fel a roma-nem roma csoportok között

kulcsszavak: cigány roma magyar gárda polgármester rendőrség gárdista polgárőr falu család jobbik képviselő önkormányzat szervezet rendőr gyöngyöspata ház rendezvény demonstráció elnök lakos békés egyesület lakosság fórum kisebbségi probléma helyszín félelem

freq-1.png

 

kw-1.png

hp01.png

2. topik: a cigányság-magyarság, kisebbségi-többségi társadalom általános problémái, a kulturális devianciák felülreprezentáltak, mint a bűnözés, szegénység, munkapiaci, oktatási problémák, politikai-szociális síkra helyezett probléma, amely megoldást kíván, pl. integrációt

kulcsszavak: cigány roma cigányság társadalom magyar probléma társadalmi többség kisebbség százalék csoport kultúra magyarország közösség többségi arány munka politikai etnikai eredmény megoldás fiatal szegény integráció bűnözés európai iskola tapasztalat család szociális

 freq-2.png

 

kw-2.png

 

hp02.png

3. topik: szociálpolitikai intézkedések, főleg a szociális segélyek, támogatások, közmunka program, a munkanélküliség kulturális deviancia összefüggésében, kiemelt esemény Szepessy Zsolt monoki polgármester esete, aki valamilyen közhasznú munka ellenében folyósította az ingyenes segélyt a roma származású lakosoknak (a kuruc.infón ezt nagyon helyeselték)

kulcsszavak: munka segély szociális pénz támogatás polgármester önkormányzat forint program család gyerek lehetőség rendszer monok összeg közmunka állami százalék szepessy pótlék családi állam dolgozó törvény munkahely monoki rendszeres juttatás munkanélküli havi

 freq-3.png

 

kw-3.png

 

hp03.png

4. topik: fém- és fatolvajlás, olyan szent helyekről, mint a templom vagy a temető, vagy olyan kulturális emlékművek rongálása, mint köztéri szobrok (ez az egyik lopáskategória, pl. van kábel és vezetéklopás is, amivel közlekedési károkat okoznak és akadályozzák a közlekedést)

kulcsszavak: tolvaj kár forint lopás ismeretlen tettes érték temető elkövető biztonsági őr rendőrség rendőr víz fém rongálás forintos templom értékű fémtolvaj ellopott szolnoki telephely okozott darab szobor épület vas ft fatolvaj

 freq-4.png

 

kw-4.png

 

hp04.png

5. topik: a Cozma-gyilkosság (de pl. a másik nagy felhördülést kiváltó esemény, az olaszliszkai lincselés is kijött egy külön topikban hasonló módon)

kulcsszavak: cozma veszprém sztojka veszprémi román szórakozóhely enyingi sportoló rendőrség gyilkosság verekedés tanú patrióta kézilabdázó lokál siófoki gyanúsított bár szerb vallomás játékos banda enying diszkó szív kés siófok cigány támadó kézilabdás

freq-5.png

kw-5.png

 

hp05.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Álmodnak-e az androidok elektronikus bárányokkal?

2015.03.24. 07:25 Szerző: zoltanvarju Címkék: nyelv mesterséges intelligencia tudatosság pragmatika Dennett dinamikus episztemikus logika beszédaktusok intencionalitás

Philip K. Dick kérdését tovább is gondolhatjuk; vajon egy android, vagy egy mesterséges intelligencia érezhet-e fájdalmat? Lehet-e a közeli jövőben egy gép a barátunk? Elkalandozunk az elmefilozófia, a pragmatika és a dinamikus episztemikus logika világába a válaszért!

gis.jpg

Intenciók

Habár napjainkban rengeteg kritika éri, máig a legismertebb teszt az emberi intelligencia vizsgálatára a Turing-teszt. Az ún. imitációs játék végén akkor tekinthetünk egy programot intelligensnek, ha sikerül meggyőzni a humán zsűri egy jelentős részét arról, hogy emberrel beszélgetett. A kritikák helyett inkább két dolgot emelnénk ki ebből

  • a teszt során beszélni kell, akár szóban, akár egy szöveges interfészen keresztül
  • embereket kell meggyőzni arról, hogy egy emberrel beszélgetnek

Daniel Dennett szavaival élve, intencionális alapállás felvételére kell "kényszeríteni" a zsűrit. Dennett Az intencionális rendszerek című esszéjében sorra veszi milyen alapállásból próbálja meg az ember értelmezni a vele szembekerülő dolgokat, azaz a világot, s három ilyet talál.

  • tervezet-alapállás: "Ha pontosan tudom, hogyan tervezték meg a komputert (beleértve a tervezet nem állandó részét, a programot is), akkor a program komputációs utasításait követve bejósolható a komputer bármely lépésre betervezett válasza. Jóslatunk be fog igazolódni, amennyiben a komputer a tervezetnek megfelelően működik, vagyis nem romlik el. A tervezet-alapálláson alapuló bejóslásoknak különböző változataik vannak, mindegyik hasonlatos azonban a tekintetben, hogy a funkció fogalmára támaszkodnak, mely célfüggő vagy ideologikus."
  • fizikai hozzáállás: "Erről az alapállásról nézve predikcióink az adott tárgy tényleges fizikai állapotain alapulnak, s a természeti törvények ismeretéből kiindulva alkotjuk meg őket. Ez a hozzáállás szükséges a rendszerek rosszul működésének bejóslására.
  • intencionális nézőpont: "Ilyen esetben a viselkedést úgy jósoljuk be, hogy a rendszerhez bizonyos információ birtoklását rendeljük hozzá, s feltételezzük, hogy bizonyos célok irányítják, s azután e hozzárendelések és feltevések alapján kidolgozzuk a legésszerűbb s a legmegfelelőbb cselekvést."

Fontos megjegyezni, hogy az intencionális nézőpont egy stratégia, nem kell feltétlenül intelligens ágensnek lennie annak amit ebből szemlélünk, ahogy Dennett mondja:

Így nincs helye itt azon sopánkodni, hogy vajon a sakkozókomputernek tényleg vannak-e vélekedései és vágyai; az intencionális rendszerekről adott meghatározásunk ugyanis nem állítja azt, hogy az intencionális rendszereknek tényleg vannak vélekedéseik és vágyaik, csak annyit mond, hogy viselkedésüket meg lehet magyarázni és be lehet jósolni úgy, hogy vélekedéseket és vágyakat rendelünk hozzájuk. Annak pedig, hogy amit a számítógéphez rendelünk, vélekedésnek nevezzük, vagy a vélekedés analógjának, vagy információs komplexumoknak, vagy intencionális micsodáknak, nincs következménye azokra a számításokra nézve, melyeket a hozzárendelés alapján végzünk. Ugyanazokra a predikciókra jutunk akkor is, ha nyíltan a számítógép vélekedéseiről és vágyairól gondolkozunk, mint amikor a számítógép információs tárára és célmeghatározásaira gondolunk. Az elkerülhetetlen s érdekes tény az, hogy a mai legjobb sakkozó számítógépeknél a viselkedés intencionális magyarázata és bejóslása nemcsak bevett, hanem akkor is működik, ha viselkedésük predikciójára nincs más használható eljárás. Elég sikeresen tudjuk e komputereket intencionális rendszerekként kezelni, s ez független azoktól a megfontolásoktól, hogy milyen anyagból épültek, mi az eredetük, mi a helyük az erkölcsi ágensek közösségében (vagy éppen nincs is helyük ott), van-e tudatuk vagy öntudatuk, s hogy műveleteik determináltak vagy determinálatlanok-e. A stratégia alkalmazása mellett szóló döntés pragmatikus, s nem eredendően jó vagy rossz. 

Darwin veszélyes ideája

viva-la-evolution.jpg

Valamit észreveszek, és okot keresek hozzá: ez eredetileg a következőt jelenti: szándékot keresek benne és mindenekelőtt valakit, akinek valami szándéka van, egy szubjektumot, egy cselekvőt: minden történés cselekvés – valaha minden történésben szándékot láttak, ez a mi legrégebbi szokásunk. Vajon az állatoknak is van ilyen szokásuk?  (Nietzsche: A hatalom akarása)

Az, hogy intencionális alapállást veszünk fel az evolúció terméke Dennett szerint. A komplexitás egy bizonyos foka felett a reprodukcióra képes önfenntartó rendszerek elkezdtek ilyen-olyan stratégiákat kialakítani, hogy megmaradjanak. Ezeket kedvenc elmefilozófusunk Micsoda elmék című könyvében így rendszerezi:

  • Darwini teremtmények, melyek tkp. élesben tesztelődnak, hiszen vagy életben tudnak maradni tulajdonságaik által, vagy elpusztulnak
  • Skinneri teremtmények, melyek a környezet ingereire reagálva adnak választ. Bizonyos inger-válasz párok megerősödnek a környezeti hatásokra, növelve ezzel a teremtmény túlélésének esélyeit, tehát itt már nem csak a készen kapott tulajdonságok számítanak, hanem az alkalmazkodás képessége is.
  • Popperi teremtmények azok, melyek képesek mentális modelleket létrehozni, cselekvéseiket el tudják gondolni. Ez a darwini és skinneri sémánál sokkal kényelmesebb megoldás, hiszen a popperi teremtmények fejben is hibázhatnak, tökéletesíthetik terveiket, mielőtt cselekedniük kellene.
  • Gregoryi teremtmények azok, melyek elméjüket képesek kiterjeszteni, környezetüket manipulálni tudják "elméleteik" kidolgozása és megvalósítása során. Nem kell nagy dologra gondolni, ilyen lehet pl. egy az elrejtett zsákmány helyét jelölő kereszt, vagy egy gyümölcs leverésére használt ág.

Az emlősök nagy része popperi teremtmény, a főemlősök pedig pályázhatnak a gregoryi teremtmény címre, ami a homályos leírás ellenére annyit tesz, intencionális ágens. Mit is jelent az intencionalitás? Alapvetően ami intencionális, az valami másra irányul. Az intencionális alapállásból úgy kezelünk egy entitást, mintha az racionális lenne smegamonalisa_recursion.jpg lennének szándékai, vágyai, törekvései egy adott cselekvés során. S való igaz, házi kedvenceink viselkedését is gyakran így magyarázzuk, tehát az intencionális alapállásból nem csak az emberekre tekintünk.

 

Dennett azonban csavar egyet az intencionalitás fogalmán, s bevezeti annak első- és magasabb rendű változatait.  Az elsőrendű intencionális rendszereknek vannak elképzeléseik, törekvéseik, vágyaik és minden rendes jellemzőjük, ellenben ennek nincsenek tudatában. A másod- és magasabb rendű intencionális rendszerek viszont amolyan meta-rendszerek s tisztában vannak saját vágyaiknak, elképzeléseiknek, sőt másoknak is hasonlókat tulajdonítanak.

 Attitűdök, nyelv, szimbólumok

A másod- és magasabb rendű intencionalitás menthetetlenül összekapcsolódik a nyelvvel, hiszen az intencionális stratégiát nem tudjuk nélküle elkészíteni. Annyi azonban bizonyos, hogy a gregoryi teremtmények számára, mindegy hogy az intencionalitás mely fokán állnak, szimbólumokat kell használniuk, azaz, valami olyat, ami más helyett áll. Clark és Karmiloff-Smith The Cognizer's Innards című tanulmánya 1993-ban, a konnekcionizmus kellős közepén, hívta fel a figyelmet a szimbólumhasználat fontosságára és a skinneri teremtményekre igazított inger-válasz hálózatokat alkalmazó modellek korlátaira.

Hogyan is néz ki egy ilyen intencionális alapállás? Óhatatlanul olyan mondatokban fogalmazunk mint az alábbi (Denettől lopott) példák

  • x azt hiszi, hogy p
  • y arra törekszik, hogy q
  • z azon töpreng, vajon r

A fentiekhez hasonló mondatokat a filozófusok propozícionális attitűdöknek nevezik. Vigyük ezt tovább!

  • Nóri tudja, hogy Zoli szereti a krumplilángost.
  • Zoli tudja, hogy Nóri tudja, hogy szereti a krumplilángost.
  • Nóri tudja, hogy Zoli tudja, hogy Nóri tudja, szereti a krumplilángost.

Az "én tudom, hogy ő tudja" gondolatsorok persze általában véget szoktak érni, ha másért nem, hát időhiány miatt. De látható, hogy egyedül memóriánk és véges időnk szab határt az ilyen elmélkedéseknek. Fontos megjegyezni, hogy a fenti példákban egy-egy sémát használunk, az "X tudja, hogy Q" stb. propozíciók egy-egy mentális állapotra tekintenek úgy, mint egy objektumra! 

Beszédaktusok, pragmatika, egyéb nagy szavak

Láthatjuk, ahhoz, hogy intelligensnek nevezhessünk valamit, intencionális álláspontra kell helyezkednünk, amikor interakcióba lépünk vele. Ahhoz, hogy igazán emberinek tekintsük, magasabb rendű intencionalitást kell tanúsítania. Ez nem csak azt jelenti, hogy mi propozícionális attitűdök formájában gondolkodunk róla, hanem a kommunikáció során is felmerül egymással szemben az intencionalitás feltételezése. Az olyan mondatok elhangzása során mint pl:

  • Hozd nekem ide azt a szendvicset.
  • Megbüntetlek, nem mehetsz el ma sehova.
  • Értem a feladatot.
  • Elnevezlek Padlinak!
  • Megígérem, elviszlek moziba.

nem csupán a propozíciók jelentését kell megértenie egy intelligens ágensnek, hanem a velük kifejezett cselekvést is. Ez ilyen típusú állítások ún. az beszédaktusok, amik feltételezik hogy a bennük résztvevő ágensek intencionálisak.

De akkor most mi van a gépekkel?

Láthattuk, a manapság divatos megközelítéseknél nem érdemes magasabb rendű intencionalitás után kutakodni - már amennyiben Dennett meggyőző számunkra. A dinamikus episztemikus logika "ezoterikus" tudománya  pontosan azzal foglalkozik, hogyan lehet formálisan modellezni azt, hogy ágensek egymásnak hiteket, vágyakat, törekvéseket stb. tulajdonítanak. Hogyan lehet egy ilyen helyzetet modellezni? Vegyük a korábbi példánkban szereplő Nórit és a krumplilángost szerető Zolit. Egy zajos csatornán keresztül próbálják megbeszélni, hogy elmennek és keresnek egy éttermet ahol ehetnek. A csatorna zajos, de annyit tudunk róla, hogy kellő n számban ismételve előbb-utóbb átjut rajta egy üzenet. Formalizáljuk a helyzetet, Nórit és Zolit nevezzük át, egyikük legyen S (mint sender, azaz küldö vagy feladó), a másik pedig R (mint receiver, azaz fogadó vagy címzett). Vezessünk be egy modális operátort, K-t. Ks(a) és Kr(a) intuitív értelmezése csupán annyi, hogy s ágens tudja hogy a. Legyen X = [x1, ... xn] egy diszkrét üzenetekből álló sorozat amit S küld K-nak. Ditmarsch, van der Hoek és Kooi (p. 25) nyomán ekkor az alábbi protokollok határozzák meg a sikeres megállapodást.

S protokoll
S1 i :=0
S2 while true do
S3      begin read xi ;
S4      send xi until KsKr(xi);
S5      send “KsKr(xi)” until Ks Kr Ks Kr(xi)
S6      i := i + 1
S7 end

R protokoll
R2 when Kr(x0) set i :=0
R2 while true do
R3     begin write xi ;
R4     send “Kr(xi)” until KrKsKr(xi);
R5     send “KrKsKr(xi)” until Kr(xi+1)
R6     i := i + 1
R7 end

Látható, harmadrendű intencionalitás szükséges ahhoz, hogy mindkét fél tudja, megbeszélték a dolgot s biztosak legyenek abban, mindketten tudják miben állapodtak meg. Mielőtt azt hinnénk, erre csak az ember képes, lelombozzuk a kedélyeket! A fenti kis protokoll ún. alternáló bit protokoll működését írta le eredetileg! Persze akadnak ennél komolyabb szituációkra alkalmazható eszközök is a dinamikus episztemikus logika tárában!

 

Hogy lesz-e olyan android, akiről csak nehezen deríthető ki, hogy gép-e vagy ember, azt ma nem lehet megmondani. A kutatások gyerekcipőben járnak és rendkívül sok terület összekapcsolását kívánják meg. A Szárnyas fejvadász Tears in Rain monológjának szintjét elérő mesterséges intelligenciára még sokat kell várni, ha egyáltalán elérhető.

I've seen things you people wouldn't believe. Attack ships on fire off the shoulder of Orion. I watched C-beams glitter in the dark near the Tannhäuser Gate. All those moments will be lost in time, like tears in rain. … Time to die. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

European Commission study of big data and other data-driven approaches for policy-making (data4policy)

2015.03.18. 15:03 Szerző: zoltanvarju Címkék: felhívás big data EU policy making data driven

The European Commission has commissioned Technopolis Group, Oxford Internet Institute (OII) and the Centre for European Policy Studies (CEPS) to conduct an international study on innovative data-driven approaches to inform policymaking, cutting across all policy areas and societal challenges. For more information about the study, please visit the study website. Currently, the study team is preparing an inventory of big data for policy and other innovative data-driven approaches/initiatives for evidence-informed policymaking.Our inventory of relevant initiatives will focus on:

a) operational pilots, demonstrators and implementations,

b) that are supported, on a structural basis, by policymakers,

c) that are at the national level

d) at the international level, initiated or supported by EC, OECD, WHO, WTO, Worldbank, UN, etc.
flag_of_europe_svg.png
As such, the inventory does not cover research projects that do not prepare for implementation  or initiatives at sub-national level (e.g. smart cities). Open data initiatives are within the scope of the study if there are clear elements of data analytics and use of the data in one or several steps of the policy cycle of agenda and priority setting, policy options generation, policy design, ex ante impact assessment, monitoring and ex post evaluation and impact assessment.

Does your organisation undertake initiatives in the scope of this study or knows of relevant initiatives in Hungary and/or abroad? The study team welcomes your suggestions and/or contributions! You can also reach out to us via Twitter @data4policyEU

Should you have any questions, feel free to contact Jérôme Treperman at jerome.treperman(at)technopolis-group­.com

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szavak, városok, politikai blogok

2015.03.16. 10:31 Szerző: zoltanvarju Címkék: statisztika politikai blogok korpusznyelvészet Zipf Pareto

Az emberalkotta jelenségeket áthatják a hatványtörvények, melyekre először egy szavakat számolgató nyelvész figyelt fel, de a szógyakoriságon túl azóta a népesség eloszláson át a webes hálózatok topológiájáig sok mindenre alkalmaznak manapság.  Politikai blogokról indított crawler-ünk eredményeinek értelmezése során sem mehetünk el ezek mellett.

A blogok világában nincs egyenlőség 

Korábbi posztunkban már ismertetett crawler-ünk erről a seed listáról indult el. Az egyes doménekről begyűjtött egyedi url-ek száma az alábbiak szerint alakult:

domains.png

Láthatjuk, csupán az első három domén esetében került be több mint 1000 egyedi oldal, ezek közül csupán a Mandiner szerepelt a kiindulási pontok között. Ahogy haladunk a top ötvenes listán lefelé, láthatjuk, nagyságrendi különbségek vannak a helyezettek között. A negyedik és ötödik helyezettről már csak ötszáz és ezer közötti oldalt,  a hatodik és tizenegyedik helyezett esetében már csak két-háromszáz, a tizenhatodik helyezésig már csak száz, a tizenhetediktől az ötvenedikig kb. ötven oldallal képviselteti magát egy domén a gyűjtésben.Ha tovább haladnánk, akkor még drámaibb esést láthatnánk, a következő ötven oldal már csak tíz, majd öt, végül kettő-három és a jelentős többség csak egy-egy egyedi url-lel került a korpuszba. Hogy lehetséges ez?

degreefreq.png

A fenti ábrán látható, az oldalak jelentős része egy linket kap csupán. Szinte ugyanezt a képet mutatja a kimenő linkek eloszlása is (már ha tartalmaz egyáltalán linket egy adott oldal, ne feledjük, mi csak a tartalomban lévő hivatkozásokat követtük!). 

degreedistr.png

Log-log skálán ábrázolva a ki- és bemenő linkek eloszlása jobban szemlélteti, hogy a legtöbb oldal egy linket indít vagy kap, de akadnak olyan oldalak, melyekre az átlagosnál jóval többen linkelnek, illetve melyek szeretnek egy-egy írásban sokat linkelni (ez utóbbiak általában listák).

neighbors.png

Ha megnézzük a fenti ábrán, hogy egy-egy oldalnak milyenek a szomszédai (azaz a melyekre linkel, vagy melyektől kap linket), akkor érdekes dologra figyelhetünk fel. Ahogy látható, a "kicsik" azaz az alacsony fokszámúak heterogén közegben vannak, szomszédaik között megtalálhatóak alacsony, közepes és magas fokszámú oldalak is. Láthatjuk azt is, hogy minél magasabb egy oldal fokszáma, annál válogatósabb szomszédai tekintetében. A fenti adatok azt támasztják alá, hogy az általunk vizsgált hálózat is ún. skálafüggetlen, s hatványfüggvényekkel (ezért a sok logartimus a plotokon) írható le. De mit is jelent ez?

 Normális?????

A legtöbb dolog a valószínűleg jól ismert normális eloszlással írható le. Ilyen pl. a testmagasság. Ha sok férfi és nő magasságát megmérjük, akkor ilyesmi ábrát kapunk:

 gender_separated.png

A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni.

Szavak

Azonban valahogy az ember alkotta dolgok esetében nem mindig működik a normális eloszlás. George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során a róla elnevezett törvényt, mely kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás.

800px-zipf_distribution_pmf.png

Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá. 

webcorpus.png

Városok

A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik.PopulationData.net oldal adatait használva Brazília, Kína, Németország, India, Indonézia, Nigéria, Oroszország és az Egyesült államok nagyobb városainak összesített népesség szerinti listáját mutatjuk:

acrosscountries.png

Az alábbi ábra mutatja, hogy a hatványeloszlás nem csak összesítve, hanem adott országokon belül is megjelenik.

withincountries.png

Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük, reméljük látható, hazánk sem kivétel hatványtörvények alól.

hucities.png

80/20 szabály

A Zipf-eloszlást szokás diszkrét Pareto-eloszlásnak is nevezni. Vilfredo Pareto neve általában a 80/20 szabály kapcsán ismert, melyre néhány példa rá a vonatkozó Wikipedia szócikkből:

  • A profit 80%-a az ügyfelek 20%-tól származik.
  • A reklamációk 80%-a az ügyfelek 20%-tól érkezik.
  • A profit 80%-a a munkára fordított idő 20%-ból keletkezik.
  • Az eladások 80%-a a termékportfólió 20%-ból keletkezik.
  • Az eladások 80%-át a sales csapat 20%-a hozza.

A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is:

  • A hibák 80%-a a kód 20%-ában rejlik.
  • A követelmények 20%-a adja a funkcionalitás 80%-át.

A társadalmi egyenlőtlenségek terén is jelentkezik a Pareto-elv, mely szerint a javak 80%-ával a népesség 20%-a bír. A leghíresebb azonban az e-kereskedelemben bevett ún. hosszú farok, ami arra int minket, hogy a görbe elvékonyodó részén is van mit keresni. Az élet olyan, hogy a hatványeloszlást követi, a modern technika pedig elérhetővé teszi az elvékonyodó részt! Nem kell kétségbe esni ha nem kerülünk a top ötven oldal közé, vagy ha alacsony a PageRank értékünk, egy jó kereső segítségével és a keresőmarketing alkalmazásával megtalál minket az, aki kíváncsi ránk. Ahogy azokat a szavakat is használjuk a megfelelő helyen, melyek gyakorisága elenyésző, vagy ellátogatunk abba a városba is, ahol kevesen élnek.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Március 27-28 BOK meetup és K-monitor Hackathon

2015.03.14. 08:59 Szerző: zoltanvarju Címkék: önkéntes meetup opendata.hu hackathon Open Knowledge BOK meetup K-monitor

Máriuc 28-án a Google Groundon kerül megrendezésre a K-monitor Hackathon, melyre még mindig lehet jelentkezni! Aki szeretne a jó ügy érdekében adatot elemezni, kódolgatni és vizualizálni és ezzel civil szervezeteknek segíteni, az további részleteket és jelentkezési lapot itt talál (a csapatoknak érdemes sietni, a jelentkezési határidő nekik március 15). 27-én este a Budapest Open Knowledge Meetupon mutatkoznak be a csapatok, erre is miden érdeklődőt szeretettel várunk - a részvétel ingyenes, de az előzetes regisztráció ajánlott itt.

adatozz.jpg

Előzetes program:

Az est első előadója Gönczi Péter lesz, a Hashtag Charity CTO-ja
http://hashtagcharity.org/

 

A meetup második felében a K-Monitor március 28-i hackathonjának résztvevői adják elő 2 perces bemutatkozásukat.

Babies Born Better, adatok a várandósgondozásról - Születésház Egyesület 


Önkormányzati dokumentumok felszabadítása - Civil Kapocs Egyesület 


15 éve kellett volna kijelölni a türelmi zónákat, de mit is jelent ez? - Szexmunkások Érdekvédelmi Egyesülete 


Állami reklámköltések bemutatása infografikán - Mérték Médiaelemző

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre