Mivel sokan kértétek, itt közzé is teszem az előadásomhoz kapcsolódó prezentációt. Szeretném felhívni a figyelmet arra, hogy a twitteR csomag interaktív autentikációja nem működik RStudio alatt! A szervezőknek pedig ezúton is köszönöm a remek találkozót, élmény volt sok lelkes R fan között tölteni az estét!
Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox
R meetup prezentáció
2013.11.28. 00:07 Szerző: meetup szövegbányászat R
Címkék:A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
1 komment • Kövess Facebookon • Iratkozz fel értesítőre
Telenor Okostelefon Akadémia 2013. november 27.
2013.11.25. 10:17 Szerző: mobil keresés konferencia okostelefon Telenor
Címkék:2013. november 27-én tartja a Telenor Okostelefon Akadémia idei utolsó összejövetelét, melyet a kontextus alapú keresésről szóló előadásom nyit. További információk a rendezvény Facebook oldalán.
Hogyan változtatták meg az okos eszközök a keresés fogalmát? Hogyan keresünk? Mit keresünk? Hol keresünk? MENNYIT keresünk? Milyen technológiák, algoritmusok segítik a legjobb találatok elérését? Ha ma az okos eszközök megpróbálják kitalálni következő kérdéseinket, mit tartogat a jövő?
18.00-tól várunk benneteket, a programot 18.30-kor kezdjük.
A fenti témákat meghívott szakértőinkkel, többek között
Jóföldi Endrével a Precognox ügyvezetőjével, és a kereses.blog.hu szerzőjével járjuk körül, aki a kontextus alapú keresésről, a keresés külföldi, és hazai kísérleteiről mesél majd. Jelen lesz Pintér Róbert, az eNET mobil kutatások vezetője is, aki az okostelefonok, és a piackutatás módszereiről beszél majd. Az előadások közül természetesen nem maradhat ki a Google, mint korunk egyik legnépszerűbb keresője Dojcsák Dániel, a HWSW újságírójának ígéretes előadásában, illetve a Firefox OS keresésben nyújtotta előnyeire is fény derül Dencs Gábor előadásában. És ha már keresés… adatokon, eseményeken, és hasznos információkon, célpontokon kívül az utóbbi években már a társkeresés sem tabu téma. Berényi Konrád az onlinemarketing.blog.hu szerzője beszél a társkeresés XXi. századi mobilos megoldásairól. Gyurkó Szilvi az UNICEF applikációjának bemutatásával szembe megy témánknak: nem kell keresni, itt a témában mindent megtalálsz! Az est végéhez közeledve Várnagy Priszcillától megtudhatjátok, hogyan keres egy startup – azaz mit kell tenni, ha van egy jó ötletetek, már csak egy befektető hiányzik. A színpad záróeseményeként egy izgalmas keresőversenyen vehettek részt, illetve izgulhattok az Okostombola sorsoláson! :)
A rendezvény EXPO területére ismét a legmenőbb gyártók hozzák el újdonságaikat, illetve a keresés témájához kapcsolódó hazai fejlesztőcsapatok munkáival ismerkedhettek meg – a legérdekesebb megközelítésben.
A belépés ingyenes, de regisztrációhoz kötött: részvételi szándéktokat jelezzétek az oa@eurolex.hu email címen, OA4 tárggyal! Regisztrációkat 2013. november 26. 17:00-ig dolgozunk fel.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre
Data science kicsit másképp
2013.11.22. 08:00 Szerző: big data computational social science data science compSS
Címkék:A Stanford IRiSS Computational Social Science központja harmadik alkalommal rendezte meg konferenciáját, ami a big data legizgalmasabb felhasználási területeit mutatja be - igaz a társadalomtudományok álruhájába bújtatva. A konferencia összes előadása megtekinthető a YouTube-on, ezért mi itt személyes kedvenceinket emeljük ki.
Susan Athey az internetes hírgazdaságról szóló előadása kifejezetten üdítő és az olyan új aggregátorok megjelenésével mint Prismatic, Zite stb. van benne valami aktualitás is.
Az előadás címe önmagában érdekes; Peer Effects and Social Product Design! Eytan Bakshy egy másik kutatásáról már beszámoltunk korábban, most a Facebook kutatójától azt tudhatjuk meg, mire érdemes a közösségi termékek tervezése során figyelni.
Percy Liang személyes hősünk, mivel a mostanában mellőzött szemantika területén igyekszik új (és használható!) eredményeket elérni.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre
Miért buknak el nemzetek? - és mi köze van ennek a nyílt adatokhoz?
2013.11.21. 08:00 Szerző: open data nyílt adatok
Címkék:
A poszt eredetileg az Open Data blogon jelent meg. Ha érdekelnek a nyílt adatok, akkor az opendata.hu oldalon találhatsz érdekes adatokat, vagy linkelheted/feltöltheted az általad érdekesnek talált adathalmazokat.
Mi köze a nyílt adatoknak és a nyílt kormányzásnak egy nemzet sikeréhez és hogy áll Magyarország ezen a téren? Daron Acemoglu és James A. Robinson magyarul is olvasható Miért buknak el nemzetek? (Why Nations Fail?) című könyvükben arra keresik a választ, miért sikeresek egyes országok, míg mások úgy tűnik menthetetlenül elbuktak. A szerzőpáros könyvével azonos című blogján a nyílt kormányzást (open government) a befogadó intézményrendszer fontos részeként írják le, ami alapvetően befolyásolja az egyes nemzetek sikerességét.
We are delighted to see the Prime Minister emphasize the importance of inclusive political institutions. He even went further and recognized that making political institutions inclusive is not the natural instinct of politicians (stating that “Transparency brings risks”).
In fact, many politicians and elites actively work to maintain extractive institutions in place.
This will not change overnight, but more political and intellectual leaders emphasizing the importance of inclusive institutions and the role of politicians and elites in creating and maintaining the institutions that are at the root of much of the poverty around the world is a very very important first step. [forrás]
A könyv rengeteg példán keresztül támasztja alá a sikeresség főbb tényezőit, melyek a
- schumpeteriánus teremtő rombolás, azaz az új technológiák, eszmék stb. folyamatos megjelenése
- tulajdonjog tisztelete
- jogállamiság (rule of law)
- demokrácia
- jól működő és megbízható intézmények
A kötet legnagyobb érdekessége az, hogy sokkal tágabb perspektívába helyezi a jólét és a sikeresség fogalmát. A legtöbben általában a szabad vállalkozásban látják a jóléthez vezető utat és szeretik a GDP növekedés és a vállalkozás könnyedsége (ease of doing business) közötti összefüggést túlmisztifikálni. A Világbank adatkatalógusából a 2013-as GDP növekedési adatokat a "Doing Business Ranking" rangsorral összevetve azt látjuk, hogy a lista elején álló országok növekedése általában pozitív és a középmezőnytől kezdve egyre nagyobb a negatív eltérés. A trendvonal ellenben jól jelzi, hogy az államok többsége átlag körüli növekedést produkált.
Sokkal érdekesebb képet kapunk, ha a The Economist Democracy Index-ét vetjük össze az üzlet szabadságával. Nagyon egyértelműen látszik, hogy a vállalkozás szabadsága és a demokrácia összetartozik, további meglepetés, hogy a GDP változást megjelenítő ábrához képest nincs nagy különbség az élbolyban (hiszen az x-tengely ugyanaz mindkét esetben).
A World Justice Project jelentésének Open Government indexét vetjük össze az alábbi ábrán a demokrácia indexszel. Látható, hogy az "érett" demokráciákban a nyílt kormányzás már elterjedt, de a jelenség annyira új, hogy az élmezőnyben is akadnak későn ébredők és a demokratikusnak tekinthető középmezőny is még rosszul teljesít.
Mivel a különböző indexek nem listáznak minden államot, ezért 88 országot tudtunk megvizsgálni. Az ábrákon a nagyobb EU tagállamok, a hazánkkal szomszédos országok és pár olyan ország szerepel, melyeket Acemoglu és Robinson könyve tárgyal.
Külön figyelmet érdemel, hogy külföldi, független intézetek által egész szép helyezéseket ért el hazánk mindegyik rangsorban! Reméljük minden évben jobban fogunk teljesíteni és az opendata.hu is hozzájárulhat ehhez. Azonban érdemes megjegyezni, hogy Robinson a HVG-nek adott interjújában felhívja a figyelmet arra, hogy bizony vigyázni kell az eddigi eredményekre és kemény munka árán lehet tovább javítani a jelenlegi viszonyokon.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.
Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre
Adatok, statisztika, üzlet
2013.11.20. 08:00 Szerző: statisztika big data data science
Címkék:Habár napjainkban az újdonság erejével hat az üzleti felhasználók körében az ún. data science vagy adattudomány, az igazság az, hogy az üzleti életben már régóta bevett dolog az adatok módszeres gyűjtése és elemzése. További kérdést vet fel, hogy tudománynak nevezhetjük-e azt a gyakorlatot, amikor csupán mintázatokat keres valaki egy hatalmas adatbázisban.
Statisztika és tudomány
Chris Anderson híres The End of Theory című cikkében egyenesen arra az álláspontra jut, hogy a big data értelmetlenné teszi a tudományos módszert, hiszen a számok immár magukért beszélnek és a mögöttük megbújó mintázatok mindent elmondanak nekünk. Így a minden statisztika órán ismételt a "korreláció nem oksági kapcsolat" mantra helyét felváltja a "nekem elég a korreláció, mivel nagyon sok adatom van" szemlélet. Ezzel szemben George E. P. Box, a modern statisztika egyik atyja úgy gondolja, a statisztikának különös helye van a tudományban, hiszen a módszeresen tervezett kísérletek nyitnak ablakot a világra, teszik lehetővé elméleteink tesztelését, a tesztek pedig alkalmat nyújtanak elméleteink korrigálására.
Box Science and Statistics esszéjében a modern statisztika egy másik megalapozója, Ronald Fisher életútján keresztül szemlélteti a statisztika szerepét a tudományban és az alkalmazott kutatásokban. Fisher a Rothamsted Experimental Station mezőgazdasági kutatóintézetnél kezdte meg pályafutását, ahol olyan nagyon gyakorlati kérdésekkel került szembe, mint pl. az éves termés mennyiségének előrejelzése, az egyes növényfajták termelékenységének összevetése stb. A fiatal tudós annyira komolyan vette munkáját, hogy tkp. megteremtette a modern kutatásmódszertant!
Box rövid írásában Fisher életművéből kiemeli, hogy az alkalmazott statisztika nem csupán matekzsonglőrködés (mathematistry), vagy a módszerek receptszerű követése (cookbookery), hanem együttműködés az adott terület szakértőivel, hogy az adatok megfelelően értelmezhetőek legyenek. Ez pedig egy iteratív munkát követel meg, melyben a modell kidolgozása, a kísérletek megszervezése és az adatok elemzése egy körfolyamat, amiben a statisztika egy eszköz egy probléma jobb megértéséhez.
Box elképzelése tkp. Karl Popper tudománymodelljével egyezik meg, mely szerint minden valamennyire komolyan vehető tudományos elméletnek meg kell adnia cáfolhatóságának feltételeit. A tudományos elméletek lényege így nem csupán bizonyos mintázatok megtalálása és egyes események előrejelzése, hanem valamilyen magyarázattal is kell szolgálniuk, s egyben a téves előrejelzésekre is reagálniuk kell (ilyenkor általában az adatokban, vagy az elemzésben van a hiba, de előfordulhat az is, hogy magát az elméletet kell módosítani, mert falszifikálódott, azaz megcáfolódott). Lehetnek hasznosak az Anderson által is említett mintázatok, és a korrelációk hozhatnak jó előrejelzéseket, de nagyon ingatag lábakon állnak önmagukban, mivel pont a tudomány önkorrekciójára képtelenek!
Tudományos menedzsment
Az adatok gyűjtése és tanulmányozása egyidős a modern vezetéstudomány megszületésével. A tudományos menedzsment, vagy taylorizmus megalapítója Frederick W. Taylor minden munkafolyamat aprólékos tanulmányozásában látta az ipari termelés maximalizálásának kulcsát.
Alfred P. Sloan a General Motors-nál tökélyre fejlesztette a taylorizmust és az autógyártás minden munkafolyamatára kiterjedő aprólékos mérésekre alapozva szervezte át az általa vezetett gyáróriást. A pontos mérések és nyilvántartások statisztikai elemzése a GM-et a világ vezető vállalatává tette több évtizedre.
A nyolcvanas években a Motorola a tudományos menedzsment eredményeire támaszkodva dolgozta ki a Six Sigma módszertanát, mely célja, hogy 99.9999998 % legyen a hibamentes termékek aránya a gyártásban.
A tudományos menedzsment eszközeit lassan minden üzleti szereplő átvette, mind a munkaszervezés, mind a piackutatás területén. A kilencvenes évektől megjelentek az üzleti intelligencia csoportok is, melyek elkezdték összefogni egy adott cégen belül az adatok gyűjtését és elemzését, ami nagyban megnövelte a statisztikákra alapozott döntések hatékonyságát. Immár nem egy-egy különálló részleg hoz adatokra alapozott döntést, hanem lehetőség van a különböző adatok közötti összefüggések feltárására is.
Big data és data science
Technikai értelemben mindenképpen váltásról beszélhetünk a big data kapcsán, hiszen hihetetlen mértékben növekedett meg a begyűjthető és tárolható adatok köre az utóbbi években. Azonban Box arra figyelmeztet minket, hogy az adatelemzés nem merülhet ki előre megírt receptek követésében és számmisztikában! Miképp a jó statisztikus részt vesz az általa segített kutatásban, úgy a rendes adattudósnak is értenie kell hogyan kapcsolódik munkája cégéhez, a "tudós" jelző használata pedig csak akkor indokolt, ha a mintázatokon túl magyarázatokat és előrejelzéseket is képes adni, továbbá képes tanulni kudarcaiból is.
A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.