HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

The Revolution Will Not Be Televised

2013.04.18. 07:12 Szerző: Zoltán Varjú Címkék: társadalomtudomány tartalomelemzés közösségi média szövegbányászat nyelvtechnológia big data

"The revolution will not be televised, will not be televised,

will not be televised, will not be televised.

The revolution will be no re-run brothers;

The revolution will be live."

(Gil Scott Heron: The Revolution Will Not Be Televised)

 

Az arab tavasz, az M5S választási sikere, a szír felkelés eseményeiről tudósító Syria Deeply arra utal, hogy a közösségi média a változások katalizátora lehet. Nem véletlen, hogy kialakult egy új tudományág, a számítógépes társadalomtudomány (computational social science) ami az internet nyújtotta lehetőségeket kihasználva próbálja feltérképezni a társadalmat mozgató erőket. 

 

Szkeptikus hangok

 

Jevgenyi Morozov Belorussziában született és nőtt fel, volt alkalma megismerni Lukasenka, Európa utolsó diktátorának  elnyomó rendszerét. Morozov szerint az internet nem hozza el a korlátlan szabadságot, hiszen egyszerre nyújtja a globális kommunikáció lehetőségét a felhasználóknak és totális megfigyelés elérhetőségét az államoknak (és cégeknek stb.) A közösségi média szerepét is kétségbe vonja a társadalmi változásokban. A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek.  Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét:

“You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street,” Mr Han said. “But once you open the window, you realise that there’s nothing there at all.” Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress”. (forrás)

Szürke tények

ArabSpring.jpg

A társadalomtudományokban a nyolcvanas években jelent meg a statisztikai tartalomelemzés, ami tkp. egyes szövegek statisztikai vizsgálatát jelentette sokáig (szógyakoriság szövegen belül ill. eltérések egyes szövegek között). A kilencvenes és kétezres évekre a  technológia és a számítógépes nyelvészet fejlődése lehetővé tette sokkal szofisztikáltabb eljárások alkalmazását is. Ilyenek például az ún. topik modellek vagy LDA (egy adott dokumentumhalmaz csoportosítása témák szerint) és az entitáskinyerő-eszközök (named entity recognition - névvel rendelkező entitások automatikus felismerése). Ezzel párhuzamosan az internet elterjedésével hatalmas mennyiségű szöveges információ keletkezett.

 

A tartalomelemzés egyik úttörője Gray King (Harvard, Department of Government). King és társai kimutatták, hogy a kínai mikroblogokról a kollektív cselekvésre buzdító bejegyzéseket törlik a hatóságok. Így az internet egy amolyan szelep, ahol a polgárok kiereszthetik dühüket, de a cenzorok kényesen ügyelnek arra, hogy ezt ne kövesse tényleges cselekvés a való világban.

 

Rich Nielsen a Harvard Department of Goverment PhD hallgatója azt vizsgálja miért válnak radikálissá egyes muszlim vallás- és jogtudósok (ulema). Még nem publikált, de már elérhető tanulmánya a Jihadi Radicalization of Muslim Clerics remek példa arra, hogyan alkalmazható a számítógépes nyelvészet a társadalomtudományi tartalomelemzésben. Az interneten elérhető, ulemák által írt szövegek tartalomelemzésével állapította meg, hogy mely írások radikálisak és melyek nem. Majd megvizsgálta a szerzők társadalmi beágyazottságát és azt találta, hogy azok radikalizálódnak leginkább, akik kevésbé beágyazottak a vallási vezetők közösségébe. (Bővebben a kutatásról a The Economiston)

 

Trey Causey a University of Washington PhD hallgatója az autoriter államok médiáit vizsgálja empirikus alapon. Disszertációjában a 2010 és 2011 közötti arab médiában megjelent híreket elemzi és arra kíváncsi, hogy a hírekkel miképp próbáltak hatni a forradalmi eseményeket szemlélőkre. Talán nem meglepő, hogy az eredmények szerint az állami médiák inkább a "felforgató" tevékenységre hívták fel a figyelmet, míg a civil és független médiák foglalkoztak inkább az elnyomó rendszerek viselt dolgaival. Annál érdekesebb, hogy arra a következtetésre jut, hogy az autokraták célja egy olyan egyensúlyi állapot megtalálása, ami még kellő információval látja el a lakosságot, ahhoz hogy ne bénuljon le az élet, de nem éri el azt a kritikus tömeget, hogy tényleges akciót idézzen elő. Han Han biztosan egyetért Causey-val. 

Optimista kívülállók

Az új technológia lehetőségei a számítástudomány és egyéb "kemény", matematizált tudományok művelőt is megihlették. Egyre több cég (köztük olyan nagyok mint a Microsoft, Facebook, Yahoo!) nyit külön "computational social science" részleget és fog bele társadalmi kérdések vizsgálatába. Oboler, Welsh és Cruz felhívta a figyelmet arra, hogy a közösségi oldalak vagy akár egy jó indikátor (pl. mobiltelefonok) vizsgálata önmagában semmit sem ér. Minden elemzéshez ismerni kell azt a kontextust, amiben a megfigyelt jelenségek történnek - ehhez pedig jó társadalomtudományi háttér szükségeltetik. A Nature egyik cikke is óvatosságra int. Az adatok sok dologra megtaníthatnak minket,de nem helyettesíthetik az elméleteket. Granovetter a hetvenes években egyszerűen kiokoskodta az ún. "gyenge kapcsolatok" elméletét, amit felhasználva közvetlenül tudott adatokat gyűjteni. Ezt a régóta közismert elméletet az utóbbi években sok "tudós" újra felfedezte a közösségi hálózatok elemzése során...

 

Bővebben

What Facebook Knows

Manifesto of computational social science (PDF)

Adatújságírás - vissza a gyökerekhez

Társadalmi kísérletek és big data

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Társadalmi kísérletek és big data

2013.04.16. 12:00 Szerző: Zoltán Varjú Címkék: politika politológia adatbányászat társadalomtudományok big data data science

A közösségi médiának nagy jelentőséget tulajdonítanak mind a 2008-as, mind a 2012-es Obama kampányban. Számtalanszor megírták, hogy külön adatcsapat dolgozott a választási hadjárat során, de hogyan jutottak el az adatok elemzésétől a választók megszólításáig és hogyan vették rá őket a szavazásra? A győzelem bejelentése után készült tweet - ami lakonikusan jelentette be, hogy "Four more years" (azaz még négy év) egy képpel, melyen Obama nejét öleli át - lett minden idők legtöbbet megosztott közösségi média státusz frissítése, amiben az új eszközök diadalát látják sokan. Azonban ha mélyebbre nézünk, láthatjuk sokkal összetettebb dologról van szó, ami a társadalom- és viselkedéstudományok kísérleti módszereit ötvözi a nagy adatok (big data) elemzésével és az evidencia alapú politikacsinálással (evidence-based policy).

A kísérleti módszer

A természettudományokban bevett módszer megismételhető kísérletekre alapozni egy elméletet. Galilei híres kísérleteit többször is elvégezte, s ezzel bizonyította, hogy a lehulló testek sebessége független súlyuktól. A mai napig iskolások ezrei végzik ezt el és tanulják meg az összefüggést. A viselkedéstudományokban (pl. pszichológia, kognitív tudomány, szociálpszichológia, nyelvészet stb.) nem ilyen egyszerű kísérleteket végezni. A legenda szerint I. Pszammetikosz fáraó tudni szerette volna, melyik a legősibb nyelv, ezért arra utasította szolgáit, hogy két gyermeket minden emberi érintkezéstől elzárva neveljenek fel és figyeljék, milyen nyelven szólalnak először meg, ami állítólag a fríg volt végül (bővebben). Hasonló kísérleteket etikai megfontolások miatt nem végezhetünk, amikor az emberi viselkedést kutatjuk. Ezek helyett olyan módszerekkel élnek a kutatók, melyek megbízhatóan utalnak egy inger viselkedésre gyakorolt hatására, mint pl. a habituáció, azaz a megszokás. Pl. a gyermekek beszédhang megkülönböztető képességét szokták így vizsgálni. Ha egy adott hang meg van a gyermek nyelvében, azt folyamatosan lejátszva habituálódik hozzá. Ha egy idő után egy másik nagyon hasonló hangot játszunk le neki, akkor vagy nem veszi észre ezt a gyermek és nem változtat viselkedésén, vagy felfigyel erre és másképp viselkedik, így közvetett bizonyítékot tudunk szerezni.

Psammetique_Ier_TPabasa.jpg

A társadalomtudományokban még nehezebb a helyzet. Hogyan lehetne eldönteni, hogy X gazdaságpolitika jobb-e, mint Y? Vegyünk két ugyanolyan társadalmat és egyikben X, másikban Y politikát vezessük be. Az a gazdaságpolitika jobb, amelyik nagyobb jóléthez vezet ötven év múltán. Persze sokan úgy érzik, mindannyian egy-egy ilyen kísérlet részesei vagyunk, de belátható, a gyakorlatban kivitelezhetetlenek az ilyen kísérletek. Ehelyett a társadalomtudósok matematikai modelleket használnak és a múltbeli adatokból próbálnak következtetéseket levonni, vagy a jelenben felvett adatokból tippelik meg a jövőt. Ilyenkor a megfigyelésekre támaszkodnak és nagyon nehéz oksági kapcsolatokat feltételezni, mivel nem kontrollálhatják a vizsgálat körülményeit.

Get Out the Vote

Wermer András, a magyar politikai marketing egyik atyja, híres mondása szerint a politika is olyan, mint a mosópor; el kell adni. Nem meglepő, hogy demokratikus államokban nagyon hamar elkezdték alkalmazni a modern marketing eszközeit a választók meggyőzésére és mozgósítására. A mondás szerint a marketing költségek fele kidobott pénz, csak nem tudjuk, hogy melyik fele. De talán ez nem teljesen igaz.

A legegyszerűbb politikai marketing eszköz a direkt megkeresés (levél, e-mail, telefonhívás stb.) Ennek hatékonysága rendszerint nagyon alacsony, viszont alkalmazásával olcsón, sok embert elérhetnek hirdetők. Továbbá lehetőséget biztosítanak arra, hogy ún. A/B tesztelés keretében vizsgáljuk meg, milyen formátum a leghatékonyabb. Az eljárás lényege az online marketing szótár szerint "Klasszikus megoldás: készítünk kétféle kreatív anyagot és fogunk két random mintát, és egyiknek az egyik üzenetet, másiknak a másik üzenetet küldjük ki. Megnézzük melyik hatékonyabb, majd ezt követően a teljes listára már a hatékonyabb verziót küldjük ki."

A politikai döntés azonban nem csak egy márka kiválasztása, hanem sok esetben egy döntési aktus is (gondoljunk pl. a különböző helyi, vagy hazánk NATO csatlakozásról tartott népszavazására). Hogyan lehet mozgósítani a szavazókat? Hogyan lehet rávenni őket arra, hogy végiggondolják magukban a döntést és leadják voksukat? Hogyan lehet elérni, hogy egy ügydöntő népszavazás előtt a polgárok meghallgassák a pro és kontra érveket?

Harold Foote Gosnell a múlt század húszas éveiben Chicagoban kezdte meg empirikus kísérleteit. Alaposan tanulmányozta a város demográfiai adatait és többé-kevésbé hasonló körzeteket sikerült azonosítania. Így lehetősége nyílt arra, hogy ezek között végezhessen összehasonlító vizsgálatokat. Az A/B teszteléshez hasonlóan a demográfiailag hasonló kerületekben különböző csoportokat (nők, kisebbségek, bevándorlók stb.) más-más módszerrel szólított meg, hogy politikai cselekvésre (pl. szavazói regisztráció, részvétel politikai gyűlésen stb.)  bírja tagjaikat. 

get_out_the_vote.jpg

Donald P. Green és Alan S. Gerber vitte tökélyre Gosnell empirikus kutatásait. Módszerük lényege, hogy ún. randomizált, kontrollált terepkísérletezést (randomized controlled field experiment) bevezették a politikatudományba. Az ilyen kísérletekben hús-vér hétköznapi emberek valós viselkedését vizsgálják. Egyik kísérletükben engedélyt kaptak New Haven városától, hogy a területrendezési tervek megszavazása előtt tartott összejöveteleket használják fel adatgyűjtésre. Green és Gerber számára az volt a fő kérdés, hogy miképp vehetőek rá a passzív polgárok arra, hogy elmenjenek szavazni.  Mi bír nagyobb mozgósítóerővel, ha felszólítjuk őket éljenek állampolgári kötelességükkel, vagy ha tudomásukra adjuk, hogy szomszédjuk már élt jogaival? A választói jegyzéket használva véletlenszerűen rendelték az egyes embereket csoportokba, akiket aztán más-más módszerrel próbáltak aktivitásra bírni. Érdekes módon azt találták, hogy a legjobb módszer az enyhe nyomásgyakorlás, mint pl. felhívni a választó figyelmét arra, hogy szomszédja jó polgár volt és élt jogaival. Green, Gerber és tanítványaik rengeteg hasonló kísérletet végeztek azóta. Az úttörők a Get Out the Vote-ban összegezték eredményeiket a nagyközönség számára.

A győzelem laboratóriuma

A nyolcvanas évektől a politikai marketingbe is betört a számítástechnika és a számítógépes adatelemzés. Mivel egy demokráciában szinte folyamatosan vannak választások (pl. hazánkban az EP választások általában a parlamenti ciklus közepére esnek, az önkormányzati és az országgyűlési választások között pár hónap szokott eltelni, továbbá lemondások, halálozások stb. miatt rendszeresek az időközi referendumok) sok alkalom adódik a kísérletezésre. A marketing anyagok A/B tesztelését nagyon gyorsan tökéletesítették a szakemberek, de valahogy elégedetlenek voltak azzal, hogy minden kiküldött száz levél eredménye csak egy-két mozgósított ember lett. A politikai hirdetések hatékonyságának mérése, az aktivisták agitálásának eredményessége sokáig nyitott kérdés maradt.

A kilencvenes években a mobilkommunikáció, az internet és a kábeltelevíziós hálózatok fejlődése azonban fordulópontot jelentett. Az aktivisták folyamatosan jelenthették mobiltelefonon tevékenységüket a kampányközpontoknak ahonnét aztán az adatok fényében a legmegfelelőbb helyre irányíthatták őket. Az internet megjelenése egyben az online marketing elterjedését is magával hozta és egyet jelentett a valós idejű analitika megszületésével. Az online és televíziós hirdetések körében megjelent a lokalizálhatóság. Így pl. egy adott város nyugdíjasok által preferált kerületében más reklámot vethetnek be, mint a fiatal egyedülállók által lakott részeken.

victory_lab.JPG

A közösségi média tkp. nem a bevett módszert változtatta meg, hanem lehetőséget adott arra, hogy még jobban beleláthassanak az elemzők a kampányba. A választói névjegyzéket összekapcsolhatták Facebook profilokkal, ezzel láthatóvá vált  kiket érnek el az elkötelezett támogatók.  Lehetőség nyílt a reklámokkal kapcsolatos lakossági vélemények monitorozására (pl. a blogunkon már bemutatott Bluefin Labs-hez hasonló megoldásokkal) megvizsgálhatták kik az internetes véleményvezérek, kiket érnek el az aktivisták stb. A kezdeti egyszerű névjegyzékek és demográfiai adatok hirtelen kiegészültek sok-sok más adattal és megjelent a big data a politikában. Sasha Issenberg The Victory Lab: The Secret Science of Winnig Campaigns könyve olvasmányosan foglalja össze ezt a folyamatot.

Evidencia alapú, racionális politika

Az olyan mozgalmak mint az olasz M5S, vagy a racionálisak lázadása az Egyesült Államokban azt mutatják, hogy a hagyományos pártpolitikáról egyre inkább egyes ügyekre helyeződik át a hangsúly. Itt nagy szerepe van az ún. evidencia alapú politikacsinálásnak, azaz az empirikus felméréseken alapuló, hatástanulmányokkal alátámasztott döntéseknek. Ezek kapcsán egyre gyakrabban halljuk a pilot project, azaz a próba, vagy kísérleti projekt terminust. Ez annyit tesz, hogy egy-egy megoldást kicsiben tesztelnek először. Például csak bizonyos iskolákban vezetnek be egy új pedagógiai módszert, majd folyamatosan gyűjtik az adatokat és összevetik a "hagyományos" és az új eljárás eredményeit. A pilot végén jó esetben kellő mennyiségű és minőségű adat áll rendelkezésre a döntéshez.

Napjainkban a polgároknak egyre több dologban kell dönteniük, amibe - legalábbis jelenleg - egyre nehezebb bevonni őket. A választók informálásában és aktivizálásában egyre nagyobb szerepe van az információtechnológiának. A kísérleti módszer lehet a befolyásolás és a politikai marketing eszköze, de az aktív állampolgárság és a részvételi demokrácia egyik pillére is.

Bővebben:

A More Perfect Union: How President Obama’s campaign used big data to rally individual voters, Part I.

A More Perfect Union: How President Obama’s campaign used big data to rally individual voters Part II.

A More Perfect Union: How President Obama’s campaign used big data to rally individual voters Part III.

 Adatújságírás - vissza a gyökerekhez

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A Precognox csatlakozott a LinguaPark Klaszterhez

2013.04.10. 08:00 Szerző: Zoltán Varjú Címkék: Precognox LinguaPark

linguapark.pngA Precognox csatlakozott a LinguaPark Klaszterhez, mely fordítással, nyelv- és fordítástechnológiával, valamint kommunikációval foglalkozó vállalkozásokat és intézményeket fog össze. Cégünk nagyon büszke, hogy egy az Európai Unió által kiemelt szakterület prominens kutatóhelyeivel és cégeivel működhet együtt a jövőben.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Adatújságírás – csináld magad

2013.04.09. 12:00 Szerző: Zoltán Varjú Címkék: adatok vizualizáció adatelemzés adatújságírás

Adatújságírásról szóló sorozatunk és az inkLink után sokakban merült fel, hogy miképp is vághatnának bele az adatújságírásba és/vagy adatelemzésbe. A legtöbb érdeklődőt az rettenti el, hogy azt hiszik, egyszerre kell programozóvá és statisztikussá válniuk. Ez azonban nem igaz! Az adatújságírás műveléséhez nincs szükség statisztikai képzettséghez és/vagy programozói diplomára. Simon Rogers, a The Guardian Datablog főszerkesztője szerint az adatújságírás az új punk mozgalom; mindenki művelheti. Alapvetően két fő összetevője van egy jó projektnek, adatok és egy eszköz ami segít az adatok mögé látni.

School of Data

Az Open Knowledge Foundation nemrég indította útjára a School of Data portált, ami rövid és mindenki számára érthető leckékben foglalja össze az alapokat, kezdve az adatok begyűjtésével és kitisztításával az összetettebb elemzésekig. Egy kis angoltudáson és egy elfogadható számítógépen és internetkapcsolaton kívül más nem is kell az alapok elsajátításához.

schooldata.png

Adatelemző eszközök

Olyan ingyenesen használható eszközöket sorolunk fel, melyek általános digitális írástudáson kívül nem igényelnek más háttértudást.

  • Google Fusion Tables - A Fusion Tables erőssége, hogy a Google Maps-en is könnyen megjeleníthetjük adatainkat segítségével.
  • Tableau Public - A Fusion Tables-hez hasonló, de talán szebb megoldásokat produkáló eszköz. Az ingyenes változata is remekül használható, de lehetőség van előfizetni a szolgáltatásra ami sok bónusz eszközzel jár.
  • Google Spreadsheets - A megszokott táblázatkezelőkhöz hasonló eszköz, használatával egyszerű grafikonokat készíthetünk.
  • DataMarket - Sok adatot érhetünk el a DataMarket-en, ezek jelentős része ingyenes. Az adatokat rögtön meg is jeleníti a beépített ábrázoló eszköz.
  • ManyEyes - Az első ingyenesen elérhető vizualizációs eszköz előnye, hogy sok felhasználó adatait és vizualizációit is böngészhetjük.

 

Hol az adat?

Nehéz felsorolni az összes adatforrást, de az alábbi helyek jó indulópontok.

  • KSH - A Központi Statisztikai Hivatal oldalain rengeteg magyar vonatkozású adatot érhetünk el.
  • Eurostat - Az EU szervezetei és a tagállamok statisztikai hivatalai egyaránt jelentenek a Eurostat-nak, így érdemes itt kezdeni a keresést, ha európai viszonylatban vagyunk kíváncsiak valamire.
  • IMF - a Valutaalap nagyon jó pénzügyi és gazdasági statisztikákkal rendelkezik.
  • ENSZ adatbank - Az ENSZ szervezeteinek adatait tartalmazó adatbank.
  • DataMarket - részben ingyenes adatok is találhatók az oldalon. Nagy előnye, hogy egy helyen gyűjt össze különböző forrásokat.

Adat piac sorozatunkban bemutattuk a (részben) fizetős adatforrásokat is.

További olvasnivalók:

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

inkLink 2013 - részletes program

2013.04.04. 09:27 Szerző: Zoltán Varjú Címkék: meetup adatújságírás inkLink NLPmeetup Open Knowledge Foundation OKFN

Április 6-án (most szombaton) kerül megrendezésre az inkLink 2013, az első magyar adatújságírás-nap és hackday. Regisztrálni az eventbrite-on lehet - aki nem engedheti meg magának hogy támogatói jegyet vegyen, az kérjük jelezze részvételi szándékát a szervezőknek (a zoltan.varju(kukac)gmail.com címen) és értesítjük, ha felszabadul egy hely. A program:

Szombaton rendhagyó NLP Meetup-ot is tartunk, mely keretében megismerkedhetnek az érdeklődők az Open Knowledge Foundation-nel. A meetupra külön is lehet regisztrálni az esemény oldalán.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása