HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Open Source Intelligence Konferencia, 2013. október 3.

2013.09.20. 08:00 Szerző: Zoltán Varjú Címkék: konferencia open source intelligence

2013. október 3-án, csütörtökön kerül megrendezésre az Open Source Intelligence konferencia, melyet a Magyar Információbrókerek Egyesülete és a Nemzeti Közszolgálati Egyetem szervezett. A program igazi csemege az adatok szerelmeseinek!

Nemzeti Közszolgálati Egyetem Díszterem; Budapest, Hungária körút 9-11.

08.30 – Érkezés, regisztráció

09.00 – Megnyitó

(Mikulás Gábor, elnök, MIBE, Prof. Dr. Kovács László ezredes, egyetemi tanár, NKE)

09.10 – Javaslat teljesen új OSINT felderítő ciklusra a legfontosabb OSINT-trendek alapján (A proposal for a totally new OSINT Intelligence Cycle based on the the most significant issues in the changing OSINT landscape)

(Arno Reuser, Reuser's Information Services)

09.40 – Az információszolgáltatás tudomány 2.0-ás paradigmája (Science2.0-enabled paradigms for information delivery)

(Prof. Dr. Klaus Tochtermann, igazgató, ZBW - Leibniz-Informationszentrum Wirtschaft)

10.10 Az OSINT új arca: Cyber intelligence
(Zala Mihály, vezérőrnagy, elnök, Nemzeti Biztonsági Felügyelet)

10.30 – Kávé

11.00 – Az OSINT szerepe/fontossága a titkosszolgálatok világában
(Dr. Unicsovics György ezredes, Alkotmányvédelmi Hivatal, informatikai igazgató)

11.20 – Egy legyet két csapásra: a metakeresés egy alkalmazása
(Vadász Pál, ügyvezető, Montana Tudásmenedzsment Kft.)

11.40 Hogyan gyűjtsünk adatot, hogy ne rólunk gyűjtsenek adatot?
(Papp Pál, NETI)

12.00 Ebéd

13.00 Túlélőkészlet adatáradat esetére
(Varjú Zoltán, Precognox Informatikai Kft.)

13.20 Ariadné fonala a bírósági és hatósági döntések labirintusában

(Dr. Hegedűs András, jogi szaktanácsadó)

13.40 – Egészségügyi adatok feldolgozása a köz érdekében

(Dr. Görög György, kandidátus)

14.00 – 15.00 – Kerekasztal a nap előadóival

(moderál: Vadász Pál)

Részvételi díj: 16.000 Ft, egy szervezettől 2 fő: 28.000 Ft, MIBE-tagoknak és közalkalmazottaknak 6.000 Ft, nappali tagozatos hallgatóknak 4.000 Ft; szept. 30-ig utalva. Helyben fizetve +2.000 Ft. Az összeg „konferencia” és a résztvevő nevének megjelölésével a 11991102-06312392-10000001 MIBE számlára utalandó. Részvételi szándékát emellett szept. 28-ig a titkarsag@montana.hu név, telefonszám és munkahely megnevezésével is jelezze. A részvételi díj tartalmazza az ebédet és a frissítőket. Vegetáriánus vagy speciális étkezési igényét kérjük, előre jelezze.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Megjósolhatóak a forradalmak?

2013.09.17. 08:00 Szerző: Zoltán Varjú Címkék: tartalomelemzés forradalmak big data szentimentelemzés Twitter forradalom small data

Kalev H. Leetrau a tartalomelemzés igazi fenegyereke. Még 2011-ben egy Nature hír kapcsán lett igazán közismert, amiben beszámoltak arról, hogy a kutató online híreken végzett szentimentelemzései az arab tavaszt jól előre jelezték, de még Oszama tartózkodási helyét is sikerült kb. belőnie.

 

Big data és tartalomelemzés

Leetrau elemzései figyelemreméltóak, de felmerül a kérdés, hogy a hírek mozgatják-e a világot, vagy a hírek a világ történéseit képezik le. Predikcióra pedig végképp alkalmatlanok a hírfigyelésre alapozott vizsgálatok, nincs elfogadott "forradalmi hangulatot jelző negatív szentimenthatár". A tartalomelemzés remek eszköz és a big data rengeteg lehetőséget rejt magában, de még többet is jelenthet, ha több adatot tudunk kombinálni! Marco Lagi, Karla Z. Bertrand és Yaneer Bar-Yan a New England Complex Systems Institute kutatói The Food Crises and Political Instability in North Africa and the Middle East című tanulmányukban klasszikus módon közelítették meg a témát és szétnéztek a jó öreg elméletek között, s azok alapján keresetek megfelelő adatokat, melyek előrejelezhetnek egy politikai eseményt.

Small data és a jó öreg elméletek

Amartya_Sen_NIH.jpg

Amartya Sen közgazdász-filozófus munkásságának egyik központi eleme a "képesség/lehetőség" (capabilitiy) melynek egy alapvető része az alapvető javakhoz való hozzáférés. Sen maga is megélte az 1943-as bengáli éhinséget mint gyermek, s az élmény hatására kezdett foglalkozni a fejlődéselméletekkel. Az éhínségek kapcsán kimutatta, hogy nem az árú hiánya jelenti a legnagyobb problémát, hanem az, hogy bizonyos társadalmi csoportok képtelenek hozzájutni az alapvető élelmiszerekhez. Ebben az értelmezésben a szegénység a lehetőségek (capabilities) hiányát jelenti. A fejlődés mint szabadság című magyarul is hozzáférhető kötetében Sen remekül érvel amellett, hogy a demokráciákban az általános választójognak hála a legalapvetőbb javakhoz való hozzáférést igyekeznek biztosítani, s így az éhséglázadások és forradalmak igen ritkák ezekben az országokban. Ellenben ott, ahol a hatalmi elitet nem korlátozza a rendszeres választás, nem jelenik meg a szegények igényeinek kielégítése és az élelmiszerellátásban adódó problémák éhínségekhez, lázongásokhoz és forradalmakhoz vezethetnek.

2013-08-09 14.37.06.png

Lagi és tsai az ENSZ Food and Agriculture Organization Food Price Index-ét elemezve jutottak arra, hogy a régen feltételezett  összefüggés  kimutatható az élelmiszerárak emelkedése és a társadalmi elégtelenség között.

2013-08-09 14.43.03.png

A tanulmány legérdekesebb pontja, hogy egy küszöbértéket határoz meg, melyet elérve számítani lehet valamilyen elégedetlenségi mozgalom elindulására. Érdemes megjegyezni, hogy ez a küszöbérték, amellett, hogy remek prediktor, "nincs benne az adatokban", hanem a Granovetter által lefektetett kollektív viselkedési modellek hagyományára épül (bővebben erről l. Twitter forradalmak című posztunkat).

A közösségi média mítoszai

revolution.jpg

Az arab tavasz, a törökországi és a brazil tüntetések kapcsán egyre inkább előtérbe került a közösségi média elemzése és használata predikcióra. Persze nem haszontalan elemezni ezen forrásokat, de tisztában kell lennünk a big data buktatóival és az online tartalomelemzés határaival is. Nem árt tudni, hogy Brazília és Törökország alapvetően demokratikus országok (lehet azon vitatkozni, hogy mennyire persze) és habár felmerült a hatóságokban az internet korlátozása a zavargások alatt (ahogy a londoni zavargások alatt is felmerült a mobilhálózatok ideiglenes lekapcsolása) nem éltek ezzel az eszközzel.

raid-on-occupy-taksim-park-in-istambul-turkey-e.gif

A többé-kevésbé elnyomó rendszerekben a közösségi média szerepe minden társadalmi szerveződésnél a propaganda, s nem a koordináció. Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). Az egyiptomi forradalom során érdekes módon a közösségi médiát használó középosztály fiataljai csak a hálózat lekapcsolása után váltak aktívakká:

[...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. (Jászberényi Sándor: Budapest-Kairó)

golden-shield-project.jpg

A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek.  Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét:

“You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street,” Mr Han said. “But once you open the window, you realise that there’s nothing there at all.” Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress”. (forrás)

 

Don't panic!

don-t-panic-2568311.jpg

A big data minden hibájától eltekintve jó dolog, de önmagában attól, hogy van egy hatalmas adatbázisunk még nem oldottunk meg minden problémát. A legtöbb esetben nem áll rendelkezésünkre megfelelő mennyiségű adat, mivel vagy anyagi korlátai vannak a begyűjtésüknek (bizony, nem mindenki a Google költségvetésével gazdálkodik) vagy nem is férhetünk hozzá minden adathoz (minden közösségi médiás API-nak vannak korlátai!) Azonban egy jó elemző tudja merre érdemes keresni releváns adatokat, melyek legtöbbször a "small data" kategóriájába esnek, ellenben jó minőségűek és nyilvános protokoll szerint dolgozták fel őket.

Az ipari felhasználás terén is érdemesebb saját adatainkat nyilvánosan elérhető "small data" adatsorokkal kiegészítve elemezni. Habár az adattudományokban népszerű kétségbe vonni a területspecifikus szakértelem fontosságát, szerencsére még tartja magát az az elképzelés, hogy érteni kell valamennyire a vizsgált területet mielőtt elemzésekbe fogunk.

Bővebben a témáról

Twitter forradalmak

Twitter forradalom?

The Revolution Will Not Be Televised

Társadalmi kísérletek és big data

Adatújságírás - vissza a gyökerekhez

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Precognox Labs - Twitter Sentiment Analyzer

2013.09.13. 08:00 Szerző: Zoltán Varjú Címkék: Twitter szentimentelemzés Precognox Labs szentimentelemző Twitter Sentiment Analyzer

A szentimentelemzés nagyon jó dolog, hiszen segítségével megtudhatjuk hogyan beszélnek egy termékről vagy márkáról a közösségi média felhasználói. Milyen jó lenne megtudni, hogy kik alakítják a pozitív, semleges és negatív véleményeket. Marosi Máté és Fodor Mánuel erre a kérdésre adott választ a Twitter Sentiment Analyzer alkalmazásával, ami angol és magyar csiripeket elemez polaritásuk szerint és a szerzők közösségi médiában gyakorolt befolyását is figyelembe veszi.

A Twitter Sentiment Analyzer angol ága az AlchemyAPI szentimentelemzőjét használja, a magyar szentimentelemző saját fejlesztésünk. Mindkét nyelv esetében először az egyes tweeteket polaritásuk szerint szétválogatjuk, majd a PeerIndex API-t használva a felhasználókat "influence index" értékük alapján rangsoroljuk.

A Twitter Sentiment Analyzer kezelőfelülete egyszerű mint egy faék, kiválaszthatjuk a nyelvet és megadhatjuk a keresési kifejezést. Fontos megjegyezni, hogy a rendszer márka- és terméknevekre van optimalizálva, személyekre, általános fogalmakra stb. nem érdemes keresni vele.

TwitterSentiment00.PNG

Az eredményeket három oszlopban láthatjuk, pozitív, semleges, negatív (balról jobbra) a tweetek sorrendjét szerzőjük PeerIndex értéke határozza meg. 

TwitterSentiment01.png

A Twitter Sentiment Analyzer nem érhető el szabadon, de kérésre szívesen biztosítunk hozzáférést.

Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Precognox Labs - szentimentelemző

2013.09.12. 08:00 Szerző: Zoltán Varjú Címkék: szentimentelemzés Precognox Labs szentimentelemző

Szentimentelemzők célja elsősorban az volt, hogy gyakornokaink megismerkedjenek a gépi tanulás gyakorlati aspektusaival, mint például a tréning adatok használata, gépi tanulási algoritmusok tesztelése stb. Ezt egy bayesiánus klasszifikáció elvén működő szentimentelemző építésével kötöttük össze, melyen Marosi Máté és Fodor Mánuel dolgozott.

Hogy kíméljük az erőforrásokat, maximum 1000 karakteres szöveget vizsgál a szentimentelemző.

sentiment00_2.PNG

Most csak egy mondatot adunk meg, de több mondatot is képes kezelni a rendszer.

sentiment01.PNG

Többmondatos input esetén minden egyes mondatra megkapjuk a szentimentértékeket, majd a szoftver ezeket összesítve állapítja meg az egész szöveg polaritását.

sentiment02_1.PNG

A demo nem érhető el szabadon, de nagyon szívesen biztosítunk hozzáférést igény esetén.

Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Precognox Labs - News Tagger

2013.09.11. 08:00 Szerző: Zoltán Varjú Címkék: tagging Precognox Labs News Tagger kulcsszavazás

A szövegek automatikus címkézése a nyelvtechnológia egyik klasszikus területe és cégünk már több ügyfélnek is nyújtja ezt a szolgáltatást. A nyáron Kulcsár Ádám gyakornokunk "leporolta" már meglévő kulcsszavazó alkalmazásunkat.

A demo alkalmazásnak meg kell adni a tagelni kívánt szöveg url címét.

nt01.PNG

A megadott url alapján Text Extractor alkalmazásunk kinyeri az oldalon található lényeges szöveget (pl. egy hír esetében a hír szövegét).

nt02.PNG

Az elemzés eredménye sok-sok kulcsszó. A kulcsszavak abban az értelemben deskriptívek, hogy pl. automatikus klasszifikációra kiválóan alkalmasak, de a humán felhasználó számára egy részük értelmetlen lehet. A további fejlesztés célja, hogy megtaláljuk a helyes arányt és csak a humán felhasználók számára is értelmezhető kulcsszavakat jelenítsük meg.

nt03.png

A News Tagger jelenleg nem érhető el szabadon, de kérésre nagyon szívesen megmutatjuk!

Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása