HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Így hivatkoznak egymásra a magyar politikai blogok és híroldalak

2015.03.04. 16:01 Szerző: zoltanvarju Címkék: politikai blogok gráfok

Politikai blogokat vizsgáló projektünk adatait kibővítettük és megvizsgáltuk hogyan hivatkoznak egymásra a magyar politikai blogok és híroldalak.

Ezzel főztünk

Crawlerünk egy nyolcvan magyar politkai blogot tartalmazó listán indult el és tízes mélységben vizsgálta a link struktúrát (az megnézte a kiindulási listán blogbejegyzéseiben található linkeket, majd az azokon találhatókat és így tovább tíz lépésben). A crawler kizárólag a tartalomban szereplő linkeket kereste, ezért amennyiben azok közösségi média oldalra, nem szöveges tartalomra, vagy nem magyar nyelvű tartalomra mutattak, nem haladt tovább.

Gyűjtésünk eredménye 12121 darab egyedi url, melyek között 22542 él (azaz link) található. Az egyedi url-eket összevontuk az ún. pay-level domain alá. Pl. legutóbbi posztunk egyedi url azonosítójához "http://kereses.blog.hu/2015/03/02/kiszamithatoak_vagyunk" a "kereses" pay-level tartozik. A pay-levelre átkódolt url-ek segítségével egy új, egyszerűbb gráfot készítettünk melyben 1441 csomópont (pay-level url) és 2472 él (link) található. A csomópontok közötti átlagos utak hossza 3.341833, a gráf átmérője 9. 

Az alábbi gráfokon a legalább négy be- vagy kimenő éllel rendelkező csomópontok láthatók, ez adataink 9.02 százaléka, az éleknek pedig 50.81 százaléka látható. A csomópontok nagysága minden ábrán eltér, mert más-más ranking eljárással állapítottuk meg. A csomópontok színét modularitásuk alapján alapítottuk meg, ami nagyon leegyszerűsítve annyit tesz, hogy a gráfban leírt tulajdonságaik alapján egy csoportba tartoznak.

PageRank

A Google által kifejlesztett PageRank algoritmus mind a be-, mind a kimenő éleket figyelembe veszi, ezért nagyon jó képet ad egy-egy csomópont autoritásáról. Az alábbi ábrán a csomópontok nagysága PageRank értékük alapján lett megállapítva.

blog_pr.png

In-degree

A bemenő élek száma alapján rangsoroltuk a csomópontokat az alábbi ábrán, azaz minél nagyobb egy csomópont, annál több hivatkozást kapott.

blog_id.png

Out-degree

Az ábrán a kimenő élek száma alapján rangsoroltuk a csomópontokat, azaz minél nagyobb egy csomópont, annál több hivatkozás indul róla más oldalak irányába.

blog_od.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

18 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

http://kereses.blog.hu/api/trackback/id/tr607240559

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Tyson925 · http://economy.blog.hu/ 2015.03.04. 18:39:36

Es tudunk-e ezekbol barmilyen kovetkeztetest levonni?

zoltanvarju · http://szamitogepesnyelveszet.blogspot.com/ 2015.03.04. 18:53:49

@Tyson925: A többes szám nem tudom kikre vonatkozik :D

A csomópontok rank értékei azért árulkodóak. Komolyabb elemzésre még várni kell, de nem marad el.

fülesboci 2015.03.04. 20:09:06

az Index katasztrófa.

Vittore. 2015.03.04. 23:49:04

A Pagerank értéket a Google már nem is támogatja, a legutóbbi frissítés sem volt tervezett, csak véletlenül történt a Google szerint. Tehát azon oldalak, amik még a Pagerank értékülre hivatkoznak, lehet, hogy már rég elveszítették azt, illetve új oldalak kaptak magasabb értéket, csak a PageRank már nincs befrissítve, igy megmaradt minden a legutolsó értéknél.

Fertulioni 2015.03.05. 01:17:39

Az Origo tényleg nincs közte?

Meister · https://www.facebook.com/Meister1977 2015.03.05. 02:01:02

Ha a kurucinfót is beleveszitek, akkor mennyiben változik a kép?

igazi Ténytár 2015.03.05. 03:45:56

@Fertulioni: Ez mondjuk nagyon érdekes. MÁSODIK leglátogatottabb honlap és nincs benne, vagy egy varanus blogot többen hivatkoznak???

De elnézve a Tényékkel teli tár hivatkozásait ez pontos felmérés tanúsíthatom ;-)))))

vernon 2015.03.05. 05:42:46

Full kamu. Ez valami belterjes elemzés lehet, a kapitalizmus blogról pl nem is hallottam.

nyünyüge 2015.03.05. 05:55:43

@Fertulioni:

a második ábrán az Átlátszó ó betüjénél ott van, nem is apróban, a harmadikon a magyarinfo alatt.

Amúgy az internetes újságírás szokásait-illemtanát nem mindenki használja. Még ha korrekten hivatkozik is a másikra, de nem feltétlenül ad linket hozzá - még az is lehet, hogy tudatosan nem akarja tudatosan a másik oldalra irányítani az olvasóját.

szoja122 2015.03.05. 06:03:22

A gráfokat elég nehéz áttekinteni egy kívülállónak, aki most látja először. Ezért néhány mondatot kellett volna írni a lényegről. Az kapott eredményeket értékelni kellett volna, így elég nehézkes egy kívülállónak következtetéseket levonni.
Egy kutatás nemcsak az eredmények közlését tartalmazza, hanem az értékelést és a következtetések levonását is. Így az amúgy nagyon érdekesnek tűnő projekt félkarú óriásnak tűnik.

Fertulioni 2015.03.05. 07:10:59

@nyünyüge: Jogos. Tényleg ott van, hogy is nem vettem észre. Elnézést!

Szakadás 2015.03.05. 08:31:45

Ennek akkor lenne bármi haszna, ha az élek súlyozva lennének a hivatkozó oldal olvasottságával.
Most csak az olvasható le, kik szeretnek egymásra hivatkozni.

Hammer · http://car-pencil-etc.blog.hu/ 2015.03.05. 09:14:52

@Fertulioni: Dehogy nincs. Az első képen az átlászó ó-betűje alatt

gigabursch 2015.03.05. 10:40:43

@nyünyüge: @Szakadás:
Az egy dolgo, hogy sokan nem hivatkoznak másikra, viszont legyünk őszinték. Attól, hogy valaki keresztül kasul hivatkoztatja magát még nem biztos, hogy olvasott is.

gigabursch 2015.03.05. 10:42:35

@Meister:
jajaja... :-)
Kimaradt egy bekezdés, ami arról szól, hogy hogyan szűrtek előtte.

Fertulioni 2015.03.05. 12:34:11

@Hammer:

" Fertulioni 2015.03.05. 07:10:59
@nyünyüge: Jogos. Tényleg ott van, hogy is nem vettem észre. Elnézést! "

PMirko 2015.03.05. 16:06:55

@Vittore.: Nem az oldal Google szerint használt PageRank-jét használták itt, hanem ebben a hálózatban létrejövő PageRank-et. Bármilyen hálózatra létre lehet hozni PageRank-et a csomópontokra. Ez csupán egy centralitás mutató, amely valóban elég jól mutatja meg az adott hálózatban egy csomópont befolyásosságát.

Vittore. 2015.03.05. 18:54:42

@PMirko: Tudtommal a PageRank a Google védjegye, ráadásul nem is az "oldal" miatt "page", hanem Larry Page miatt. De értem, mire gondolsz, ettől függetlenül ezt el kellett volna magyarázni.

Tetszett a bejegyzés? Kövesd a blogot!

blog.hu