Régóta dolgozunk azon, hogy adatelemzési projektjeink végén ügyfeleink számára nem csak szakmailag pontos és használható, hanem vizuálisan is elfogadható riportokat tudjunk szállítani. Először az interaktív vizualizációkat használó riport formáját dolgoztuk ki, erre példa a Migráció arcai projektünk. Ennek során alapelvünk volt, hogy kizárólag open source eszközökkel dolgozzunk és amikor csak lehetséges, ne közvetlenül JavaScript könyvtárakkal, hanem Python-ból elérhető csomagok használatával generáljunk vizualizációkat. Ehhez a statikus riportok készítésénél is tartjuk magunkat, amire példa az alább látható infografika, ennek elkészítéséről szól ez a kis poszt.
A nyers adatoktól a megmutatni kívánt információig
Az adatok begyűjtésére, előfeldolgozására és a feature-ök kinyerésére Pythonban írtunk egy pipeline-t. Köszi Luigi!
A nyers adatokon először a hagyományos EDA (Exploratory Data Analysis) fázist végeztük el, pl. ilyen szép Jupyter Notebook-ban néztük meg hogy mi van az egyes feature-ökkel.
Majd megnéztük a Google Facets segítségével is hogy mi a helyzet.
Az EDA során kiválasztottuk mit szeretnénk megmutatni az adathalmazból. Ezután legeneráltuk az aggregált adatokat kerületenként és jöhetett maga a vizualizáció.
Mivel dolgoztunk?
A szógyakorisági adathoz Nodebox-ban készítettünk linkes digarammot. A Nodebox egy Python alapú vizuális programozási környezet, amivel viszonylag könnyen és gyorsan lehet szép ábrákat generálni.
A térképek elkészítéséhez az általunk imádott QGIS-t használtuk.
Az egyes ábrákat végül Inkscape segítségével szerkesztettük egy infografikába.
Ha prezentálni is szeretnénk
A Sozi segítségével az elkészült svg alapból pedig prezentációt is lehet készíteni, ami egy egyszerű kis html oldalt jelent. Az infografikánkból generált prezi itt érhető el, vagy egy kicsit lentebb beágyazva a posztba.
Régi álmunk vált valóra azzal, hogy kidolgoztuk a statikus riportok elkészítésének folyamatát. Tudjuk, még messze vagyunk a tökéletes végeredménytől, de örülünk annak, hogy megtettük az első lépést.