Ha már van egy szép gráfunk, szeretnénk megtudni, hogy annak szereplői milyen közösségeket alkotnak. Első lépésben tovább egyszerűsítettük a képet és csak a magyar (politikai) blogokat, híroldalakat, politikus blogokat és pártok oldalait és a közöttük lévő kapcsolatokat tartottuk meg gráfunkban. Ennek eredménye 266 egyedi oldal, melyek között 663 él van. Gráfunk most így néz ki:
A csomópontok nagyságát PageRank értékük határozza meg, színüket pedig modularitásuk. Azért választottuk a modularitást, mert az egyik legegyszerűbb közösség kereső (community detection) eljárás (akit érdekel, hogyan működik, annak a linket ajánljuk, itt most nagyon informálisan mondjuk el mi is ez). Képzeljünk el egy random gráfot, melyben az éleket véletlenszerűen rajzoltuk meg. Ilyen pl. ez a gráf
Ehhez képest a mi gráfunkban szemmel láthatóan egyes csomópontok sokkal több be- és kimenő linkkel rendelkeznek. A modularitás azt mér, hogy a random gráftól mennyire tér ez el, s azt mondhatjuk egy-egy csoportot alkotnak azok a csomópontok, melyek között a véletlenszerű kapcsolódáson túl is vannak összeköttetések.
Lássunk pár példát ilyen csoportokra!
Habár a modularitás és a különféle közösség kereső eljárások egész jó eredményeket adnak, vizsgálatunk következő lépésében azt szeretnénk megnézni, hogy begyűjtött szövegek klaszterezése és a community detection eredményei között mekkora az átfedés.