Az ingatlanhirdetések szövegei sokat elárulnak arról, hogyan látják környezetüket a hirdető tulajok. Korábban összegyűjtött közel 200.000 hirdetés szövegét elemeztük most, hogy lássuk, milyen területi különbségek jelennek meg az eladók szóhasználatában. A kapcsolódó vizualizáció itt érhető el.
Az adatgyűjtésről már írtunk a négyzetméterárakat bemutató posztunkban. Most kiegészítettük a járási/kerületi szinten aggregált adatokat a hirdetések szövegeivel is. A szövegeket magyarlánc segítségével szótöveztük és szófajilag szűrtük (melléknevek, főnevek maradtak meg), a kulcsszavakat khi-négyzet módszerrel határoztuk meg a scikit-learn segítségével. Az adatokat ezután QGIS-be töltöttük és a program qgis2web bővítményének segítségével generáltuk az online vizut.