A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.
Az alábbi keresődobozsegítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.
Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.
Precognox Blogkereső
Document
opendata.hu
Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.
A long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...
A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft.Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.
Nemzeti Közszolgálati Egyetem Díszterem; Budapest, Hungária körút 9-11.
08.30 – Érkezés, regisztráció
09.00 – Megnyitó
(Mikulás Gábor, elnök, MIBE, Prof. Dr. Kovács László ezredes, egyetemi tanár, NKE)
09.10 – Javaslat teljesen új OSINT felderítő ciklusra a legfontosabb OSINT-trendek alapján (A proposal for a totally new OSINT Intelligence Cycle based on the the most significant issues in the changing OSINT landscape)
13.20 Ariadné fonala a bírósági és hatósági döntések labirintusában
(Dr. Hegedűs András, jogi szaktanácsadó)
13.40 –Egészségügyi adatok feldolgozása a köz érdekében
(Dr. Görög György, kandidátus)
14.00 – 15.00 – Kerekasztal a nap előadóival
(moderál: Vadász Pál)
Részvételi díj: 16.000 Ft, egy szervezettől 2 fő: 28.000 Ft, MIBE-tagoknak és közalkalmazottaknak 6.000 Ft, nappali tagozatos hallgatóknak 4.000 Ft; szept. 30-ig utalva. Helyben fizetve +2.000 Ft. Az összeg „konferencia” és a résztvevő nevének megjelölésével a 11991102-06312392-10000001 MIBE számlára utalandó. Részvételi szándékát emellett szept. 28-ig a titkarsag@montana.hu név, telefonszám és munkahely megnevezésével is jelezze. A részvételi díj tartalmazza az ebédet és a frissítőket. Vegetáriánus vagy speciális étkezési igényét kérjük, előre jelezze.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Kalev H. Leetrau a tartalomelemzés igazi fenegyereke. Még 2011-ben egy Nature hír kapcsán lett igazán közismert, amiben beszámoltak arról, hogy a kutató online híreken végzett szentimentelemzései az arab tavaszt jól előre jelezték, de még Oszama tartózkodási helyét is sikerült kb. belőnie.
Big data és tartalomelemzés
Leetrau elemzései figyelemreméltóak, de felmerül a kérdés, hogy a hírek mozgatják-e a világot, vagy a hírek a világ történéseit képezik le. Predikcióra pedig végképp alkalmatlanok a hírfigyelésre alapozott vizsgálatok, nincs elfogadott "forradalmi hangulatot jelző negatív szentimenthatár". A tartalomelemzés remek eszköz és a big data rengeteg lehetőséget rejt magában, de még többet is jelenthet, ha több adatot tudunk kombinálni! Marco Lagi, Karla Z. Bertrand és Yaneer Bar-Yan a New England Complex Systems Institute kutatói The Food Crises and Political Instability in North Africa and the Middle East című tanulmányukban klasszikus módon közelítették meg a témát és szétnéztek a jó öreg elméletek között, s azok alapján keresetek megfelelő adatokat, melyek előrejelezhetnek egy politikai eseményt.
Small data és a jó öreg elméletek
Amartya Sen közgazdász-filozófus munkásságának egyik központi eleme a "képesség/lehetőség" (capabilitiy) melynek egy alapvető része az alapvető javakhoz való hozzáférés. Sen maga is megélte az 1943-as bengáli éhinséget mint gyermek, s az élmény hatására kezdett foglalkozni a fejlődéselméletekkel. Az éhínségek kapcsán kimutatta, hogy nem az árú hiánya jelenti a legnagyobb problémát, hanem az, hogy bizonyos társadalmi csoportok képtelenek hozzájutni az alapvető élelmiszerekhez. Ebben az értelmezésben a szegénység a lehetőségek (capabilities) hiányát jelenti. A fejlődés mint szabadság című magyarul is hozzáférhető kötetében Sen remekül érvel amellett, hogy a demokráciákban az általános választójognak hála a legalapvetőbb javakhoz való hozzáférést igyekeznek biztosítani, s így az éhséglázadások és forradalmak igen ritkák ezekben az országokban. Ellenben ott, ahol a hatalmi elitet nem korlátozza a rendszeres választás, nem jelenik meg a szegények igényeinek kielégítése és az élelmiszerellátásban adódó problémák éhínségekhez, lázongásokhoz és forradalmakhoz vezethetnek.
Lagi és tsai az ENSZ Food and Agriculture Organization Food Price Index-ét elemezve jutottak arra, hogy a régen feltételezett összefüggés kimutatható az élelmiszerárak emelkedése és a társadalmi elégtelenség között.
A tanulmány legérdekesebb pontja, hogy egy küszöbértéket határoz meg, melyet elérve számítani lehet valamilyen elégedetlenségi mozgalom elindulására. Érdemes megjegyezni, hogy ez a küszöbérték, amellett, hogy remek prediktor, "nincs benne az adatokban", hanem a Granovetter által lefektetett kollektív viselkedési modellek hagyományára épül (bővebben erről l. Twitter forradalmak című posztunkat).
A közösségi média mítoszai
Az arab tavasz, a törökországi és a brazil tüntetések kapcsán egyre inkább előtérbe került a közösségi média elemzése és használata predikcióra. Persze nem haszontalan elemezni ezen forrásokat, de tisztában kell lennünk a big data buktatóival és az online tartalomelemzés határaival is. Nem árt tudni, hogy Brazília és Törökország alapvetően demokratikus országok (lehet azon vitatkozni, hogy mennyire persze) és habár felmerült a hatóságokban az internet korlátozása a zavargások alatt (ahogy a londoni zavargások alatt is felmerült a mobilhálózatok ideiglenes lekapcsolása) nem éltek ezzel az eszközzel.
A többé-kevésbé elnyomó rendszerekben a közösségi média szerepe minden társadalmi szerveződésnél a propaganda, s nem a koordináció. Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). Az egyiptomi forradalom során érdekes módon a közösségi médiát használó középosztály fiataljai csak a hálózat lekapcsolása után váltak aktívakká:
[...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. (Jászberényi Sándor: Budapest-Kairó)
A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek. Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét:
“You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street,” Mr Han said. “But once you open the window, you realise that there’s nothing there at all.” Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress”. (forrás)
Don't panic!
A big data minden hibájától eltekintve jó dolog, de önmagában attól, hogy van egy hatalmas adatbázisunk még nem oldottunk meg minden problémát. A legtöbb esetben nem áll rendelkezésünkre megfelelő mennyiségű adat, mivel vagy anyagi korlátai vannak a begyűjtésüknek (bizony, nem mindenki a Google költségvetésével gazdálkodik) vagy nem is férhetünk hozzá minden adathoz (minden közösségi médiás API-nak vannak korlátai!) Azonban egy jó elemző tudja merre érdemes keresni releváns adatokat, melyek legtöbbször a "small data" kategóriájába esnek, ellenben jó minőségűek és nyilvános protokoll szerint dolgozták fel őket.
Az ipari felhasználás terén is érdemesebb saját adatainkat nyilvánosan elérhető "small data" adatsorokkal kiegészítve elemezni. Habár az adattudományokban népszerű kétségbe vonni a területspecifikus szakértelem fontosságát, szerencsére még tartja magát az az elképzelés, hogy érteni kell valamennyire a vizsgált területet mielőtt elemzésekbe fogunk.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A szentimentelemzés nagyon jó dolog, hiszen segítségével megtudhatjuk hogyan beszélnek egy termékről vagy márkáról a közösségi média felhasználói. Milyen jó lenne megtudni, hogy kik alakítják a pozitív, semleges és negatív véleményeket. Marosi Máté és Fodor Mánuel erre a kérdésre adott választ a Twitter Sentiment Analyzer alkalmazásával, ami angol és magyar csiripeket elemez polaritásuk szerint és a szerzők közösségi médiában gyakorolt befolyását is figyelembe veszi.
A Twitter Sentiment Analyzer angol ága az AlchemyAPI szentimentelemzőjét használja, a magyar szentimentelemző saját fejlesztésünk. Mindkét nyelv esetében először az egyes tweeteket polaritásuk szerint szétválogatjuk, majd a PeerIndex API-t használva a felhasználókat "influence index" értékük alapján rangsoroljuk.
A Twitter Sentiment Analyzer kezelőfelülete egyszerű mint egy faék, kiválaszthatjuk a nyelvet és megadhatjuk a keresési kifejezést. Fontos megjegyezni, hogy a rendszer márka- és terméknevekre van optimalizálva, személyekre, általános fogalmakra stb. nem érdemes keresni vele.
Az eredményeket három oszlopban láthatjuk, pozitív, semleges, negatív (balról jobbra) a tweetek sorrendjét szerzőjük PeerIndex értéke határozza meg.
A Twitter Sentiment Analyzer nem érhető el szabadon, de kérésre szívesen biztosítunk hozzáférést.
Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Szentimentelemzők célja elsősorban az volt, hogy gyakornokaink megismerkedjenek a gépi tanulás gyakorlati aspektusaival, mint például a tréning adatok használata, gépi tanulási algoritmusok tesztelése stb. Ezt egy bayesiánus klasszifikáció elvén működő szentimentelemző építésével kötöttük össze, melyen Marosi Máté és Fodor Mánuel dolgozott.
Hogy kíméljük az erőforrásokat, maximum 1000 karakteres szöveget vizsgál a szentimentelemző.
Most csak egy mondatot adunk meg, de több mondatot is képes kezelni a rendszer.
Többmondatos input esetén minden egyes mondatra megkapjuk a szentimentértékeket, majd a szoftver ezeket összesítve állapítja meg az egész szöveg polaritását.
A demo nem érhető el szabadon, de nagyon szívesen biztosítunk hozzáférést igény esetén.
Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
A szövegek automatikus címkézése a nyelvtechnológia egyik klasszikus területe és cégünk már több ügyfélnek is nyújtja ezt a szolgáltatást. A nyáron Kulcsár Ádám gyakornokunk "leporolta" már meglévő kulcsszavazó alkalmazásunkat.
A demo alkalmazásnak meg kell adni a tagelni kívánt szöveg url címét.
A megadott url alapján Text Extractor alkalmazásunk kinyeri az oldalon található lényeges szöveget (pl. egy hír esetében a hír szövegét).
Az elemzés eredménye sok-sok kulcsszó. A kulcsszavak abban az értelemben deskriptívek, hogy pl. automatikus klasszifikációra kiválóan alkalmasak, de a humán felhasználó számára egy részük értelmetlen lehet. A további fejlesztés célja, hogy megtaláljuk a helyes arányt és csak a humán felhasználók számára is értelmezhető kulcsszavakat jelenítsük meg.
A News Tagger jelenleg nem érhető el szabadon, de kérésre nagyon szívesen megmutatjuk!
Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.