HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Big data forradalom?

2013.01.15. 12:00 Szerző: Zoltán Varjú Címkék: modellek big data business intelligence

Ma már szinte korlátlanul tárolhatunk adatokat, ill. szerezhetünk be számunkra érdekes adatbázisokat. Ezek elemzése sokak szerint forradalmasítani fogja az üzleti világot. De tényleg ennyire mesés, szép, új világ vár ránk?

A Harvard Business Review-n októberben jelent meg Adrew McAfee és Erik Brynjolfsson Big Data: The Management Revolution című tanulmánya (ingyenes regisztráció után teljes terjedelmében szabadon olvasható). A szerzőpáros remekül összefoglalja milyen szerepe van/lehet a big data-nak egy vállalat működésében és a döntéshozatali mechanizmusokban. Persze önmagában az adatokon alapuló döntésekben nincs semmi újdonság. Steve Lohr cikkében rámutat arra, hogy a legfontosabb különbség a "big data" és az üzleti intelligencia között az alkalmazott elemzési modellek szofisztikáltságában és az automatizáltság nagyobb fokában rejlik.

sn.jpg

Kérdés azonban, mennyire bízhatunk meg modelljeinkben? George E. P. Box híres mondása szerint "Essentially, all models are wrong, but some are useful", azaz alapvetően minden modell rossz, de pár hasznos. Nate Silver (a népszerű Five Thirty Eight New York Times blog szerzője) The Signal and the Noise: Why So Many Predictions Fail - but Some Don't című könyvét tkp. erre a mottóra építette. A statisztikai és valószínűségi modellek természetéhez tartozik, hogy nem egy telejós biztonságával jelentik ki, mi is fog történni a jövőben, hanem valamilyen valószínűséget rendelnek hozzá, sőt az óvatos tudósok szeretnek amolyan apróbetűs záradékban megemlékezni arról, hogy ez a valószínűség rendelkezésre álló adatokra épített modellre értendő. Ez annyit tesz, hogy az előrejelzés az adatok minőségétől és mennyiségétől függ, továbbá a valószínűség annyit jelent, hogy az adott modellben az adott előrejelzés "mellett szól a legtöbb érv". Ilyen megkötésekkel kell dolgoznia az elemzőknek, de ez sokszor jól működik, ill. nem okoz nagy zavart egy-egy hiba. Silver két területet emel ki, ahol a saját bőrünkön érezhetjük azt, amikor a modellek rosszak; a pénzügyek és a egészségügy. A pénzügyi modellek problémáinak következményeit senkinek sem kell ecsetelni és sajnos gyakran megesik, hogy egy gyógyszert visszahívnak a piacról, mert kiderül nem tesztelték elég alaposan. De hol is van ilyenkor a hiba?

Silver könyvét Cathy O'Neil (a big data iránt érdeklődők körében népszerű mathbabe blog szerzője) kritizálta az O'Reilly Radaron (általában az IT és a big data iránt érdeklődők egyik legfontosabb igazodási pontja a világhalón). Az ellenérvek szerint egyrészt a hibák a rossz adatoknak köszönhetőek. A pénzügyi világban rossz statisztikák születtek (meghamisított jelentések pl.) az egészségügyben rossz adatfelvétel és egyéb problémák (szubjektív kérdőívezés, bizonyos páciensek kizárása a mintából stb.) Másrészt O'Neil szerint, ha rossz is egy modell, az csak jó! Ez nagyon nyakatekerten hangzik, de gondoljunk csak a saját kárán tanul mondásra, a hiba egyben visszajelzést is jelent, valami olyan, amiből jó esetben tanulhatunk.

popper.jpg

Karl Popper tudományfilozófus úgy gondolta, hogy minden elmélet arra vár, hogy megcáfolják. Minden tisztességes elmélet megadja megcáfolhatóságának feltételeit és a tudósok általában rendesen tesztelik is. Nagyon sokáig úgy tűnt pl. hogy David X. Li függvénye remekül működik a pénzügyi kockázatok elemzése során. Majd jött a pénzügyi válság és a modellbe vetett hit szertefoszlott. (Bővebben erről Felix Salmon Recepie for Disaster: The Formula That Killed Wall Street című cikkében olvashat a kedves olvasó, ami az American Statistical Society ismeretterjesztő díját is megnyerte anno.)

Marije Meerman Quants: The Alchemists of Wall Street című dokumentumfilmje mutatja be a pénzügyi szakma vergődését a modellek bukása után. Hogy mit hoz a jövő azt még senki sem tudja pontosan. Két dolog biztos; új modellekre van szükségünk és sokkal szkeptikusabban kell minden modellhez viszonyulnunk.

Rugaszkodjunk el a pénzügyektől és vizsgáljuk meg mit is szeretnének mérni a modern kor menedzserei! Egyrészt a hagyományos vállalatirányítási mérőszámokat, továbbá a cég életére hatással lévő külső tényezőket és a vásárlók releváns viselkedését. Hol húzzuk meg a határt? Minden cég egy adott régióban, országban működik, de egyben hat rá a globalizáció. Az ügyfelek viselkedéséből mi releváns? Földrajzi helyzet, nem, kor, böngészési előzmények, netán politikai beállítottság, szexuális irányultság, más márkák iránti hűség? A gyakorlat kiköveteli, hogy jelöljük ki a felhasználásra kerülő adatok körét. További megkötést jelent, hogy nem minden adatot használhatunk fel (szerencsére a jog ebben megköti a cégek kezét) és nem biztos, hogy az ami szabad, egyben etikus is (pl. kikövetkeztetni a felhasználók nemét, korát stb. kifejezett engedélyük nélkül). Ettől persze a big data még forradalmi eszköz, de érdemes fél szemmel a kudarcokra is figyelni és nem árt tisztában lenni határaival sem.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ray Kurzweil a Google-nél

2013.01.14. 11:47 Szerző: Zoltán Varjú Címkék: keresés nyelvtechnológia Google Ray Kurzweill

A mesterséges intelligencia és a nyelvtechnológia iránt érdeklődők körében nagyon jól ismert Ray Kurzweil neve, aki immár a Google-t erősíti mint director of engineering. Kurzweil kutatásai középontjában az optikai karakterfelismerés és a beszédtechnológia áll, továbbá híres futurológus és transzhumanista is (többször is kifejtette, nagy álma egy mesterséges agy, amire akár saját tudatunkat is átmenthetjük az örökkévalóságnak). Peter Norvig kutatási igazgató mellé is egy igazi nagyágyú került, ez mindenképpen jelzi a Google elköteleződését a nyelvtechnológia iránt, mi pedig izgatottan várjuk a laborból kikerülő újdonságokat. Addig is ajánljuk olvasóink figyelmébe az alábbi interjút, ami sejtetni enged ezt-azt a jövőből.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kereső Világ 2012

2012.12.18. 12:00 Szerző: Zoltán Varjú Címkék: blog keresés 2012

Lassan véget ér az év, ilyenkor nem tudunk ellenállni az összegző és a Top 10 poszt összeállításoknak és mi is elkészítettük sajátunkat. A lista előtt azonban egy kicsit összegezzük, mi is történt velünk idén! Kiléptünk az on-line világból és elindítottuk a Hungarian Natural Language Processing Meetup-ot, ami hat rendezvényen van túl, ebből három angolul, három pedig magyarul zajlott.

600_142542812.jpeg

A hazai szakma legjava mellett külföldi előadókkal is büszkélkedhetünk és jövőre sem lesz ez másképp. Szerzőink lelkesen járták a hazai és nemzetközi konferenciákat, sőt még előadásokra is vetemedtek (pl. előadtunk a Keresőmarketing napon, a Magyarországi Web Konferencián és ott voltunk a Big Data Congress-en). Ellátogattunk a print média világába is, a HVG Jövő 2.0 kiadványában jelent meg Gondolatolvasás - keresés helyett című cikkünk. Reméljük sok olvasónak feltűnt, hogy a Nyelv és Tudomány portállal is együttműködünk immár egy éve. A népszerű nyest.hu szerkesztősége és a Kereső Világ között az utóbbi időkben elmélyült a kapcsolat és jövőre tartogatunk meglepetéseket olvasóinknak.

A mozgalmas év nyomot hagyott a blogon is. Az utóbbi időben a keresés mellett megjelentek olyan témák, mint a big data, a gépi tanulás és a nyelvtechnológia. Ennek prózai oka, hogy a Kereső Világ a WebLib Kft. szakmai blogja és a cég életében is jelentős változások történtek, amiről hamarosan külön posztban számolunk be. Reméljük a témakörök bővülése olvasóinkat is pozitívan érinti. Szeretnénk, hogy minél több érdeklődőhöz jusson el a keresés és a nyelvtechnológia világa, s ezen fogunk dolgozni 2013-ban is. Ebben továbbra is számítunk a blog írásában és a meetup szervezésében segítő kollégákra, - Molnár Tünde (WebLib), Recski Gábor (SZTAKI), Kádár Ákos (ELTE) - akiknek ezúton is köszönjük kitartó munkájukat.

2012 legolvasottabb posztjai

1. 10 tanács konferencia előadóknak

2. Linkeskedésből jeles - bitly

3. Neticle - bemutatkozás

4. Dióhéjban a szemantikus webről

5. Dragon go, a bűvös sárkány

6. A kacsa

7. Google Now, a gondolatolvasó

8. Keresés és big data

9. Kereső olvasók

10. Google Knowledge Graph

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Wolfram - másképp

2012.12.11. 12:00 Szerző: Zoltán Varjú Címkék: big data Wolfram Stephen Wolfram Wolfram Alpha Mathematica Computable Document Format CDF

A három nagy (Google, Yahoo! és Bing) mellett manapság Siri sikerének köszönhetően a legismertebb alternatív kereső a Wolfram Alpha. A Wolfram Research nemes egyszerűséggel alapítója, Stephen Wolfram, nevét viseli. Mivel a híres keresővel már többször is foglalkoztunk (pl. itt, itt és itt) most a Wolfram kevésbé ismert termékeit mutatjuk be.

wolfram01.png

A Wolfram Research alapítója a ködös Albionban született és igazi zseni gyerekként a híres Eton College-ban töltötte középiskolás éveit, ahol annyira unatkozott, hogy 17 évesen inkább az Oxfordi Egyetemre ment fizikát tanulni. Még nincs húsz éves, amikor elhagyja Angliát és a Caltech doktorandusza lesz, húsz évesen pedig le is doktorál. 1987-ben alapította meg a Wolfram Research vállalatot, mivel úgy gondolta, hogy tudományos számításokhoz írt szoftverei nem jól hasznosulnak. A cég első terméke tehát egy programozási és fejlesztői környezet, a Mathematica, ami immár a kilences verziónál tart.

A Mathematica nagy előnye, hogy az ún. numerikus és szimbolikus matematikai módszerekkel is remekül elboldogul. A fejlesztés során a kezdetektől fogva nagy hangsúlyt fektettek az adatok vizuális megjelenítésére is, ami a nyílt forráskódú programcsomagoknál csak mostanában került előtérbe. Az utóbbi években a párhuzamos feldolgozás is jelentősen fejlődött, a legegyszerűbb verzióban is elérhető 4 számítási szál (kernel) amit a modern többmagos számítógépek remekül ki tudnak használni. Ennek megfelelően a szoftver ára igen borsos, 815 dollártól kezdődik de találkozhatunk több mint ötezer dolláros verzióval is. Létezik külön webszerver megoldás és a big data terén alkalmazható grid verzió is. A Wolfram Alpha megjelenése tkp. ezen termékek főpróbája volt, ami egész jól sikerült, hiszen folyamatosan fejlesztik azóta is a rendszert.

wolfram03.PNG

Wolfram nem távolodott el teljesen a tudománytól a cégalapítás után sem. Idén ünnepelte A New Kind of Science című könyve megjelenésének tizedik évfordulóját. A könyv alaptézise szerint nem csupán a legalapvetőbb matematikai fogalmakat kell eleminek tekintenünk, hanem a komputációs (számításelméleti) folyamatokat is. Ezek egy része lefedi a matematikai műveleteket persze, de Wolfram szerint ide tartoznak pl. az egyszerű önreprodukcióra képes automaták, vagy pl. a véletlenszerűséget generáló automaták. A könyv nagy vihart kavart tudományos körökben. Részben azért, mert nem tartalmaz nagy újdonságot, inkább alaposan összeszedte a téma releváns elméleteit a szerző. Másrészt a könyv tudományos igénnyel lépett fel, miközben elfelejtette betartani a hivatkozás szabályait (minden előzményre hivatkozik, csak pongyolán és a szokásoktól eltérő formában). Minden vita ellenére, Wolfram a könyv írása során nagyon hiányolt egy ún. literate programming rendszert. Donald Knuth alapötlete szerint egy számítógépes program kódja és az ahhoz kapcsolódó kommentek (a működést leíró megjegyzések) szerves egységet alkotnak. Egy igazi kézikönyv egyszerre tartalmazza a forráskódot és a hozzá kapcsolódó leírásokat, az olyan rendszert, ami képes ezt egyben tartani és mind a kódot, mint a szöveget külön formázni nevezzük literate programming rendszernek.

Wolfram problémájára a megoldást a Wolfram Computable Document Format, röviden CDF, jelentette. A CDF tkp. a Mathematica jegyzetfüzeteit általánosítja. Egy Mathematica jegyzetfüzetben eltárolhatjuk programunkat, a hozzá tartozó adatfájlokat, jegyzeteinket és a generált vizualizációkat. Különösen egyetemi oktatók körében vált ez a megoldás népszerűvé. Innét már csak egy lépés volt a CDF megalkotása. A Mathematica jegyzettömbök lehetővé teszik immár, hogy interaktív demonstrációkat készítsünk. Ezekből generálhatunk CDF fájlokat, melyeket akár egy honlapba is beágyazhatunk. A dolog egyetlen hátránya, hogy a CDF fájlok megtekintéséhez a felhasználónak rendelkeznie kell egy CDF olvasó bővítménnyel, ami habár ingyenes, nem mindig telepíthető a böngészőbe kényelmesen.

Jelenleg a cég igyekszik növelni a Wolfram Alpha-t használó alkalmazások számát. Hétpecsétes titok, hogy ez mennyire sikeres. A big data hullám viszont biztos bevételt generál a cégnek, mivel a legtöbb nagyvállalat inkább megveszi az elemzői által már ismert szoftver "feljavított" változatát és nem kísérletezik más megoldásokkal. Érdekes, hogy amíg más vállalatok igyekeznek a nyílt forráskódú adatelemző eszközöket integrálni termékeikhez, addig a Wolfram egyszercsak elemében találta magát minden különösebb erőfeszítés nélkül. Meglátjuk mire mennek most, hogy minden adott a sikerhez.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Keress ma

2012.11.27. 10:03 Szerző: Kereso75 Címkék: keresés big data keresőmarketing nap

A Mobile Hungary - Keresőmarketing Nap előadásának slide-jai és a kapcsolódó háttéranyagok.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása