HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Megjósolhatóak a forradalmak?

2013.09.17. 08:00 Szerző: Zoltán Varjú Címkék: tartalomelemzés forradalmak big data szentimentelemzés Twitter forradalom small data

Kalev H. Leetrau a tartalomelemzés igazi fenegyereke. Még 2011-ben egy Nature hír kapcsán lett igazán közismert, amiben beszámoltak arról, hogy a kutató online híreken végzett szentimentelemzései az arab tavaszt jól előre jelezték, de még Oszama tartózkodási helyét is sikerült kb. belőnie.

 

Big data és tartalomelemzés

Leetrau elemzései figyelemreméltóak, de felmerül a kérdés, hogy a hírek mozgatják-e a világot, vagy a hírek a világ történéseit képezik le. Predikcióra pedig végképp alkalmatlanok a hírfigyelésre alapozott vizsgálatok, nincs elfogadott "forradalmi hangulatot jelző negatív szentimenthatár". A tartalomelemzés remek eszköz és a big data rengeteg lehetőséget rejt magában, de még többet is jelenthet, ha több adatot tudunk kombinálni! Marco Lagi, Karla Z. Bertrand és Yaneer Bar-Yan a New England Complex Systems Institute kutatói The Food Crises and Political Instability in North Africa and the Middle East című tanulmányukban klasszikus módon közelítették meg a témát és szétnéztek a jó öreg elméletek között, s azok alapján keresetek megfelelő adatokat, melyek előrejelezhetnek egy politikai eseményt.

Small data és a jó öreg elméletek

Amartya_Sen_NIH.jpg

Amartya Sen közgazdász-filozófus munkásságának egyik központi eleme a "képesség/lehetőség" (capabilitiy) melynek egy alapvető része az alapvető javakhoz való hozzáférés. Sen maga is megélte az 1943-as bengáli éhinséget mint gyermek, s az élmény hatására kezdett foglalkozni a fejlődéselméletekkel. Az éhínségek kapcsán kimutatta, hogy nem az árú hiánya jelenti a legnagyobb problémát, hanem az, hogy bizonyos társadalmi csoportok képtelenek hozzájutni az alapvető élelmiszerekhez. Ebben az értelmezésben a szegénység a lehetőségek (capabilities) hiányát jelenti. A fejlődés mint szabadság című magyarul is hozzáférhető kötetében Sen remekül érvel amellett, hogy a demokráciákban az általános választójognak hála a legalapvetőbb javakhoz való hozzáférést igyekeznek biztosítani, s így az éhséglázadások és forradalmak igen ritkák ezekben az országokban. Ellenben ott, ahol a hatalmi elitet nem korlátozza a rendszeres választás, nem jelenik meg a szegények igényeinek kielégítése és az élelmiszerellátásban adódó problémák éhínségekhez, lázongásokhoz és forradalmakhoz vezethetnek.

2013-08-09 14.37.06.png

Lagi és tsai az ENSZ Food and Agriculture Organization Food Price Index-ét elemezve jutottak arra, hogy a régen feltételezett  összefüggés  kimutatható az élelmiszerárak emelkedése és a társadalmi elégtelenség között.

2013-08-09 14.43.03.png

A tanulmány legérdekesebb pontja, hogy egy küszöbértéket határoz meg, melyet elérve számítani lehet valamilyen elégedetlenségi mozgalom elindulására. Érdemes megjegyezni, hogy ez a küszöbérték, amellett, hogy remek prediktor, "nincs benne az adatokban", hanem a Granovetter által lefektetett kollektív viselkedési modellek hagyományára épül (bővebben erről l. Twitter forradalmak című posztunkat).

A közösségi média mítoszai

revolution.jpg

Az arab tavasz, a törökországi és a brazil tüntetések kapcsán egyre inkább előtérbe került a közösségi média elemzése és használata predikcióra. Persze nem haszontalan elemezni ezen forrásokat, de tisztában kell lennünk a big data buktatóival és az online tartalomelemzés határaival is. Nem árt tudni, hogy Brazília és Törökország alapvetően demokratikus országok (lehet azon vitatkozni, hogy mennyire persze) és habár felmerült a hatóságokban az internet korlátozása a zavargások alatt (ahogy a londoni zavargások alatt is felmerült a mobilhálózatok ideiglenes lekapcsolása) nem éltek ezzel az eszközzel.

raid-on-occupy-taksim-park-in-istambul-turkey-e.gif

A többé-kevésbé elnyomó rendszerekben a közösségi média szerepe minden társadalmi szerveződésnél a propaganda, s nem a koordináció. Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). Az egyiptomi forradalom során érdekes módon a közösségi médiát használó középosztály fiataljai csak a hálózat lekapcsolása után váltak aktívakká:

[...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. (Jászberényi Sándor: Budapest-Kairó)

golden-shield-project.jpg

A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek.  Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét:

“You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street,” Mr Han said. “But once you open the window, you realise that there’s nothing there at all.” Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress”. (forrás)

 

Don't panic!

don-t-panic-2568311.jpg

A big data minden hibájától eltekintve jó dolog, de önmagában attól, hogy van egy hatalmas adatbázisunk még nem oldottunk meg minden problémát. A legtöbb esetben nem áll rendelkezésünkre megfelelő mennyiségű adat, mivel vagy anyagi korlátai vannak a begyűjtésüknek (bizony, nem mindenki a Google költségvetésével gazdálkodik) vagy nem is férhetünk hozzá minden adathoz (minden közösségi médiás API-nak vannak korlátai!) Azonban egy jó elemző tudja merre érdemes keresni releváns adatokat, melyek legtöbbször a "small data" kategóriájába esnek, ellenben jó minőségűek és nyilvános protokoll szerint dolgozták fel őket.

Az ipari felhasználás terén is érdemesebb saját adatainkat nyilvánosan elérhető "small data" adatsorokkal kiegészítve elemezni. Habár az adattudományokban népszerű kétségbe vonni a területspecifikus szakértelem fontosságát, szerencsére még tartja magát az az elképzelés, hogy érteni kell valamennyire a vizsgált területet mielőtt elemzésekbe fogunk.

Bővebben a témáról

Twitter forradalmak

Twitter forradalom?

The Revolution Will Not Be Televised

Társadalmi kísérletek és big data

Adatújságírás - vissza a gyökerekhez

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr95453921

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása