HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Ráfázhatsz a big data elemzésével!

2015.01.05. 14:19 Szerző: Zoltán Varjú Címkék: statisztika reflexivitás big data Google Precognox Google Flu

A big data korában egyre gyakrabban halljuk, az adatok majd mindent megoldanak. A Google a cambridge-i egyetemmel összefogva elindította az Automatic Statistician projektet, ami azt célozza, hogy a hihetetlen adatmennyiségeket automatikusan feldolgozva találhassunk összefüggéseket. Úgy tűnik semmi dolgunk nem maradt, a technológiai megoldások átveszik a tudományos kutatás szerepét is, Chris Anderson jóslata az elméletek végéről hamarosan igazzá fog válni. Tényleg automatizálható a tudományos munka? Van technológiai megoldás a tudomány és az ipar területén keletkező adatok egyszerű és olcsó elemzésére? Gary King és társai  a Google FluTrends adatait vizsgálva arra hívják fel a big data híveinek figyelmét, hogy a szép új világ bizony nagyon messze van még és a technológiai szolucionizmus helyett a jó öreg viselkedés - és társadalomtudományok módszertanához kell fordulnunk. 

cell-phones-cancer.png

A Google Flu Trends a hype ellenére mellélő

A Google 2009-ben a Nature hasábjain megjelent tanulmányában mutatta be, hogy a keresési statisztikák influenza járvány előrejelzésében nagyon hasznosak lehetnek. A kutatás eredménye a Google Flu Trends , amely alapjaira épült a Google Correlate, a napjainkban divatos jelenbecslés (nowcasting) módszerek elindítója lett.

flutrends_hu.PNG

2014 legfontosabb tanulmánya a big data területén vitathatatlanul a Gary King és tsai nevéhez fűződő The Parable of Google Flu: Traps in Big Data Analysis. A rövid írás tkp. összefoglalható a benne közölt ábrával:

 img_1524.jpg

A fenti ábrán is láthatjuk, a Google Flu jelentősen túlbecsüli az influenza trendet, a hagyományos egészségügyi adatok sokkal jobbak (még akkor is, ha sokkal lassabb a beszerzésük). A legjobb azonban az, ha kombináljuk a keresési és a hagyományos adatokat! Hogy mi lehet ennek hátterében? A szerzők a big data felhasználásával kapcsolatban az alábbi problémákat említik:

  • A Google algoritmusai változnak, az hogy mi számít releváns keresésnek, változik időben
  • A találatok megjelenítése is változik, a Google egyre inkább elmozdul a question answering irányába, a betegségekkel kapcsolatos keresések, gyakran a Knowledge Graph által "kibányászott" tényeket tartalmazó dobozt adják első találatnak (l. a lentebbi képet).
  • További problémát jelent az, hogy az algoritmus változása hat a felhasználó viselkedésére. Ezt nevezik manapság a "name it they'll game it" elvnek.
  • Automatikusan szimpla korrelációkat keresni érdekes feladat, nagyon hasznos eredményeket is adhat ez, de nem lehetünk biztosak abban, hogy a feltárt összefüggés mögött oksági kapcsolat van s a jövőben is fent fog állni ez.
  • Először fordul elő a történelemben, hogy a privát szektorban több adat áll rendelkezésre mint a kormányzati és kutatóiban összesen. A privát szektor az adatokra mint erőforrásra tekint, nem áll érdekében (és gyakran jogilag sincs lehetősége) megosztani hogyan és milyen adatokat gyűjt.

google_answer08.PNG

Fontos megjegyezni, hogy King és tsai nem fikázzák le a Google Flu-t! Arra hívják fel a figyelmet, hogy annak alapvetően számítástudományi beállítottságú megalkotói elsiklottak metodológiai kérdések felett. Továbbá rávilágítanak arra, hogy a big data mellett az ún. small data és az adathalmazok összekapcsolása jelenti az igazán forradalmi lehetőséget.

Minden összefügg mindennel

 A keresők, de az egész internet világa alapvetően ember alkotta dolgok. Pontosan ezért alkalmasak, ha csak behatároltan is, a társadalmi jelenségek vizsgálatára. Azonban ha emberekkel van dolgunk, akkor egy különös világba csöppenünk, amit Soros reflexivitás fogalma jellemez a legjobban.

 

 

The concept of reflexivity needs a little more explication. It applies exclusively to situations that have thinking participants. The participants’ thinking serves two functions. One is to understand the world in which we live; I call this the cognitive function. The other is to change the situation to our advantage. I call this the participating or manipulative function. The two functions connect thinking and reality in opposite directions. In the cognitive function, reality is supposed to determine the participants’ views; the direction of causation is from the world to the mind. By contrast, in the manipulative function, the direction of causation is from the mind to the world, that is to say, the intentions of the participants have an effect on the world. When both functions operate at the same time they can interfere with each other.

How? By depriving each function of the independent variable that would be needed to determine the value of the dependent variable. Because, when the independent variable of one function is the dependent variable of the other, neither function has a genuinely independent variable. This means that the cognitive function can’t produce enough knowledge to serve as the basis of the participants’ decisions. Similarly, the manipulative function can have an effect on the outcome, but can’t determine it. In other words, the outcome is liable to diverge from the participants’ intentions. There is bound to be some slippage between intentions and actions and further slippage between actions and outcomes. As a result, there is an element of uncertainty both in our understanding of reality and in the actual course of events. (George Soros: The General Theory of Reflexivity)

Az internet világában folyamatos változásban vagyunk! Adatokat gyűjtünk, hogy jobbá tegyük meglévő rendszerünket. A megváltozott rendszer nyilván visszahat a felhasználókra is, ahogy Kingék is kimutatták a Google Flu esetében. A reflexivitás világában élünk! 

Mind társadalomtudósok vagyunk!

Justin Grimmer We're All Social Scientists Now: How Big Data, Machine Learning and Causal Inference Work Together című tanulmányában amellett érvel, hogy a a big data fantasztikus technikai lehetőségeket teremtette, de a technológiával elemezhető kérdések értelmes vizsgálatához a társadalomtudományok eszköztárára van szükség. Nem is annyira meglepő ez, hiszen az iparban általában felhasználókról és ügyfelekről, azaz emberekről szóló adatokkal foglalkozunk. Nem arról van szó, hogy ki kell rúgni minden programozót! Sokkal inkább arról, hogy a technológia nyújtotta lehetőségek kiaknázásához sokszínű csapatra van szükség. 

Hogy állunk ezzel mi?

precognoxlogo.png

King és társai tanulmányát olvasva alapvetően megnyugodtam. A Jobmonitor keresési adataira alapozott jelenbecsléses vizsgálataink során mi is a kevert modelleket (a hivatalos statisztikák, a GoogleTrends és a Jobmonitor logok adatainak mixelése ez esetünkben) találtuk a legjobbnak (erről a májusi meetupon számolt be kollégánk). De nem önmagában az eredmény nyugtatott meg, hanem az, hogy kis csapatunkban pont a megfelelő mixben vannak szakemberek. Egy IT cégnél nem meglepő, hogy vannak szép számmal programozóink, de az sem annyira egzotikus, hogy akadnak nálunk alkalmazott fizikusok. A kutatóink viszont legalább két területen vannak otthon a nyelvészet, filozófia (nem kell meglepődni, a logika nagyon jól jön a szemantikus technológiáknál!) a szociológia és a statisztika tudományaiban. Nem mellesleg kutató kollégáink az informatikában sem elveszettek!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr537043497

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása