HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szavak, városok, politikai blogok

2015.03.16. 10:31 Szerző: Zoltán Varjú Címkék: statisztika politikai blogok korpusznyelvészet Zipf Pareto

Az emberalkotta jelenségeket áthatják a hatványtörvények, melyekre először egy szavakat számolgató nyelvész figyelt fel, de a szógyakoriságon túl azóta a népesség eloszláson át a webes hálózatok topológiájáig sok mindenre alkalmaznak manapság.  Politikai blogokról indított crawler-ünk eredményeinek értelmezése során sem mehetünk el ezek mellett.

A blogok világában nincs egyenlőség 

Korábbi posztunkban már ismertetett crawler-ünk erről a seed listáról indult el. Az egyes doménekről begyűjtött egyedi url-ek száma az alábbiak szerint alakult:

domains.png

Láthatjuk, csupán az első három domén esetében került be több mint 1000 egyedi oldal, ezek közül csupán a Mandiner szerepelt a kiindulási pontok között. Ahogy haladunk a top ötvenes listán lefelé, láthatjuk, nagyságrendi különbségek vannak a helyezettek között. A negyedik és ötödik helyezettről már csak ötszáz és ezer közötti oldalt,  a hatodik és tizenegyedik helyezett esetében már csak két-háromszáz, a tizenhatodik helyezésig már csak száz, a tizenhetediktől az ötvenedikig kb. ötven oldallal képviselteti magát egy domén a gyűjtésben.Ha tovább haladnánk, akkor még drámaibb esést láthatnánk, a következő ötven oldal már csak tíz, majd öt, végül kettő-három és a jelentős többség csak egy-egy egyedi url-lel került a korpuszba. Hogy lehetséges ez?

degreefreq.png

A fenti ábrán látható, az oldalak jelentős része egy linket kap csupán. Szinte ugyanezt a képet mutatja a kimenő linkek eloszlása is (már ha tartalmaz egyáltalán linket egy adott oldal, ne feledjük, mi csak a tartalomban lévő hivatkozásokat követtük!). 

degreedistr.png

Log-log skálán ábrázolva a ki- és bemenő linkek eloszlása jobban szemlélteti, hogy a legtöbb oldal egy linket indít vagy kap, de akadnak olyan oldalak, melyekre az átlagosnál jóval többen linkelnek, illetve melyek szeretnek egy-egy írásban sokat linkelni (ez utóbbiak általában listák).

neighbors.png

Ha megnézzük a fenti ábrán, hogy egy-egy oldalnak milyenek a szomszédai (azaz a melyekre linkel, vagy melyektől kap linket), akkor érdekes dologra figyelhetünk fel. Ahogy látható, a "kicsik" azaz az alacsony fokszámúak heterogén közegben vannak, szomszédaik között megtalálhatóak alacsony, közepes és magas fokszámú oldalak is. Láthatjuk azt is, hogy minél magasabb egy oldal fokszáma, annál válogatósabb szomszédai tekintetében. A fenti adatok azt támasztják alá, hogy az általunk vizsgált hálózat is ún. skálafüggetlen, s hatványfüggvényekkel (ezért a sok logartimus a plotokon) írható le. De mit is jelent ez?

 Normális?????

A legtöbb dolog a valószínűleg jól ismert normális eloszlással írható le. Ilyen pl. a testmagasság. Ha sok férfi és nő magasságát megmérjük, akkor ilyesmi ábrát kapunk:

 gender_separated.png

A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni.

Szavak

Azonban valahogy az ember alkotta dolgok esetében nem mindig működik a normális eloszlás. George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során a róla elnevezett törvényt, mely kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás.

800px-zipf_distribution_pmf.png

Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá. 

webcorpus.png

Városok

A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik.PopulationData.net oldal adatait használva Brazília, Kína, Németország, India, Indonézia, Nigéria, Oroszország és az Egyesült államok nagyobb városainak összesített népesség szerinti listáját mutatjuk:

acrosscountries.png

Az alábbi ábra mutatja, hogy a hatványeloszlás nem csak összesítve, hanem adott országokon belül is megjelenik.

withincountries.png

Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük, reméljük látható, hazánk sem kivétel hatványtörvények alól.

hucities.png

80/20 szabály

A Zipf-eloszlást szokás diszkrét Pareto-eloszlásnak is nevezni. Vilfredo Pareto neve általában a 80/20 szabály kapcsán ismert, melyre néhány példa rá a vonatkozó Wikipedia szócikkből:

  • A profit 80%-a az ügyfelek 20%-tól származik.
  • A reklamációk 80%-a az ügyfelek 20%-tól érkezik.
  • A profit 80%-a a munkára fordított idő 20%-ból keletkezik.
  • Az eladások 80%-a a termékportfólió 20%-ból keletkezik.
  • Az eladások 80%-át a sales csapat 20%-a hozza.

A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is:

  • A hibák 80%-a a kód 20%-ában rejlik.
  • A követelmények 20%-a adja a funkcionalitás 80%-át.

A társadalmi egyenlőtlenségek terén is jelentkezik a Pareto-elv, mely szerint a javak 80%-ával a népesség 20%-a bír. A leghíresebb azonban az e-kereskedelemben bevett ún. hosszú farok, ami arra int minket, hogy a görbe elvékonyodó részén is van mit keresni. Az élet olyan, hogy a hatványeloszlást követi, a modern technika pedig elérhetővé teszi az elvékonyodó részt! Nem kell kétségbe esni ha nem kerülünk a top ötven oldal közé, vagy ha alacsony a PageRank értékünk, egy jó kereső segítségével és a keresőmarketing alkalmazásával megtalál minket az, aki kíváncsi ránk. Ahogy azokat a szavakat is használjuk a megfelelő helyen, melyek gyakorisága elenyésző, vagy ellátogatunk abba a városba is, ahol kevesen élnek.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr237274233

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása