HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szavak, városok, long tail és a 80/20 szabály

2013.08.05. 08:00 Szerző: Zoltán Varjú Címkék: statisztika nyelvtechnológia korpusznyelvészet Zipf Zipf törvény Pareto

Egy szavakat számolgató nyelvész felfedezett egyszer egy különleges statisztikai-eloszlást. A szavak eloszlásához hasonló mintázatokat láthatunk azonban az üzleti életben, a szoftverfejlesztésben, a városok lélekszámát vizsgálva is. Maradjon velünk az olvasó, a matematika helyett grafikonokkal eredünk a különös jelenség nyomába!

Pareto és a 80/20 szabály

A Pareto-elvet, vagy más néven 80/20 szabályt sokan ismerik, íme néhány példa rá a vonatkozó Wikipedia szócikkből:

  • A profit 80%-a az ügyfelek 20%-tól származik.
  • A reklamációk 80%-a az ügyfelek 20%-tól érkezik.
  • A profit 80%-a a munkára fordított idő 20%-ból keletkezik.
  • Az eladások 80%-a a termékportfólió 20%-ból keletkezik.
  • Az eladások 80%-át a sales csapat 20%-a hozza.

A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is:

  • A hibák 80%-a a kód 20%-ában rejlik.
  • A követelmények 20%-a adja a funkcionalitás 80%-át.

Vilfredo_Pareto.jpg

Tehát általában elmondhatjuk, hogy az esetek 20%-a eredményezi az okozatok 80%-át. Ezt az elvet általánosan Vilfredo Pareto fogalmazta meg először és matematikai szabatossággal kidolgozott hatványtörvényét  ma Pareto-eloszlásnak hívjuk.

Long tail - sok kicsi, sokra megy

800px-Long_tail.svg.png

A legismertebb 80/20 szabály a long tail vagy hosszú farok, melyet Chris Anderson azonos című (magyarul is olvasható) könyve vezetett be a köztudatba. A fenti görbét megfigyelve láthatjuk, hogy az első 20% alatti terület kb. megegyezik a maradék 80% alattival. Anderson szerint a modern technológiák lehetővé teszik, hogy a kis mennyiségben árusított termékek is elérjenek a potenciális vásárlókhoz, ami kb. ugyanakkora piacot jelent, mint a nagy volumenben értékesített, könnyen eladható áruké.

Normál eloszlás

Ha egy mintázatot sokszor megfigyelhetünk a világban, akkor az segíthet minket szisztematikus összefüggések feltárásában. Az egyik legismertebb mintázat az ún. normál eloszlás. A statisztikai adatgyűjtés kezdetétől fogva megfigyelték, hogy az emberek magassága, testsúlya, halálozása stb. nagyjából egyforma képet mutat. Az alábbi ábrán 10.000 ember magasságát ábrázoljuk (amerikai adatokat használtunk a Machine Learning for Hackers c. könyvhöz kapcsolódó kódtárból, az értékek inchben vannak).

whole_1.jpgLátható, hogy a legtöbben 65-70 inch (165-178 cm) közötti tartományba tartoznak és az ettől magasabb vagy alacsonyabb (jobbra és balra) emberek száma fokozatosan csökken a szélső értékek felé közelítve. Ha szétválasztjuk a férfiakat és a nőket, akkor sokkal szimmetrikusabb grafikonokat kapunk.

gender_separated.png

A fenti ábrát összevetve láthatjuk, hogy mind a férfiak, mind a nők magassága majdnem tökéletesen haranggörbe alakú.

normal.png

A fenti ábrán egy "hipotetikus" normál eloszlás látható. A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni.

Zipf törvénye

Pareto-elve, a hosszú farok és a sok megfigyelés támasztja alá, hogy a 80/20 szabály mögött valami általánosabb rejlik. Ezt először George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során. A róla elnevezett törvény kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás.

800px-Zipf_distribution_PMF.png

A Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá. 

webcorpus.png

Zipf törvénye világvárosokra alkalmazva

A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik. Az alábbi ábra a nagyobb világvárosok Zipf-eloszlását szemlélteti. (A PopulationData.net oldal adatait használtuk a grafikonok elkészítéséhez.)

cities.png

Érdekes, hogy országokon belül is láthatjuk ezt az eloszlást (ha nem is olyan tökéletesen).

countryranks.png

A fenti nyolc ország adatait összesítve az alábbi grafikont kapjuk.

acrosscountries.png

Egy grafikonon szemléltetve jobban látszik, hogy országokon belül is megismétlődik a Zipf-eloszlás.

withincountries.png

Zipf törvénye a magyar települések esetében is működik


Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük.

hucities.png

A fenti ábrán látható, hazánk sem kivétel a globális trendek alól. Az összes magyar települést vizsgálva látható, hogy Budapest kilóg a sorból és a vízszintes tengely végéhez közeledve nagyon sok apró település eltéríti a görbét az "ideális iránytól".

Hol használható Zipf-törvénye

A Zipf-törvény a keresésben és információkinyerésben arra a felismerésre vezetett, hogy a leggyakoribb szavak túl sok zajt okoznak. Az ún. funkciószavakat (névelők, kötőszók stb.) általában stoplistába gyűjtve kiszűrik a feldolgozás során. Előszeretettel alkalmazzák az ún. inverz frekvenciatáblákat, mivel az alacsony gyakoriságú szavak különböztetik meg általában az egyes dokumentumokat.

Az internetes áruházak életében a Zipf-törvény (és változatai) nagyon nagy szerepet játszanak. Egyrészt a készlettervezésben  érvényesül a 80/20 szabály, de a kiszállításban is megjelenik a Zipf-eloszlás.

Az internetes biztonsági alkalmazások is előszeretettel vizsgálják a felhasználói logok hosszú farkát. Az ún. anomáliadetekció abból indul ki, hogy legtöbb felhasználó a 80/20 szabály szerint viselkedik és a logok 80%-a az ismétlődő viselkedési formák 20%-át tartalmazza (pl. böngészés, chatelés, e-mailezés stb.) a gyanús és potenciálisan veszélyes dolgok a log 20%-ban találhatóak (melyek viszont az észlelt tevékenységek 80%-át tartalmazzák).

Amikor Zipf becsap minket

words.png

A nyelvtechnológiában egyre elterjedtebb emócióelemzésben és a törvényszéki nyelvészetben is egyre nagyobb figyelmet szentelnek a funkciószavaknak és a gyakorisági tábla első 20%-ába eső elemeknek. Habár egy beszélő számára lehetetlen észrevennie, hogy mely ismerőse használ több névelőt, egyre több kutató talál erős korrelációt pszichológiai faktorok és a funkciószavak gyakorisága között (l. Mit árul el rólad a Twitter fiókod és Nekünk elmélet kell című korábbi írásainkat). A szerzőség megállapításakor (legutóbb pl. J.K. Rowling esetében) is a gyakori szavak használati arányában meglévő apró különbségek vizsgálata kezd előtérbe kerülni. 

Az anomáliadetekció területén is egyre nagyobb figyelmet szentelnek a megszokott viselkedés vizsgálatára. Ennek oka elsősorban az ún. nem szándékos károkozás megakadályozása volt (pl. amikor egy fájl helyett egy egész könyvtárat töröl valaki, vagy egyszerre több programot futtat, ami lassítja más, fontos programok működését stb.). Több teljesen normális esemény láncolata rossz dolgokhoz vezethet. Ilyen láncolatok kialakulhatnak véletlenül is, de akár szándékosan is.

Úgy tűnik a Zipf-eloszlás szorosan kapcsolódik az ember alkotta dolgokhoz, legyenek azok szavak, városok vagy e-kereskedelmi oldalak. Az elsőre pofonegyszerű összefüggés felbukkanhat mindenhol, nem árt számolni vele!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr925439446

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása