HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Alan Turing Institute - brit tudósok és a big data

2014.03.21. 09:55 Szerző: Zoltán Varjú Címkék: big data

A brit parlamentben nem rég jelentették be az Alan Turing Institute megalapítását.  Az intézet célja, hogy az Egyesült Királyság a big data és az gépi tanulási algoritmusok területén vezető szerepét megerősítse. Alan Turing a múlt század egyik legnagyobb logikusa volt, aki a modern számítástudomány mellett a számítógépes statisztika úttörője is egyben. A második világháború során sikeresen törte fel csapatával a németek Enigma kódját, de érdemei ellenére is bíróságon hurcolták meg homoszexualitása miatt. Turing 2013-ban kapott csak kegyelmet, ez tette lehetővé, hogy nevét állami intézmények is felvehessék immár. De mi köze van Turing-nak a big data-hoz?

 

Turing neve leginkább az ún. Turing-gép kapcsán ugrik be a legtöbb embernek. Ez még nem egy valódi gép, hanem egy elméleti konstruktum, mely segítségével az ún. eldöntés probléma megoldása vázolható. A probléma nagyon slendriánul fogalmazva arról szól, hogy adható-e egyszerű igen vagy nem válasz egy matematikai állítás érvényességére nézve. Az amerikai Alonzo Church is hasonló problémákon dolgozott Princetonban, az ő megoldása az ún. lambda kalkulus lett. A két megközelítés ekvivalens, ezért ma Church-Turing tézis néven hivatkoznak a függvények kiszámíthatóságáról szóló tételre.

templeton-codemachine.jpeg

A világháborúban vált az elméleti gép valóságos számítógéppé, mivel a németek Enigma kódját emberi erőforrásokkal nem lehetett feltörni. A logikai alapokon nyugvó gép célja bayesiánus statisztikai elemzés lett! Az Y Service által rögzített német rádióforgalmazást naponta többször is elküldték a kódfejtők központjába, ezzel a kor mércéje szerint igazi big data keletkezett. A kommunikáció sajátosságait vizsgálva arra jutottak, hogy az üzenetek bizonyos elemei ismétlődnek (pl. a rejtjelezők először közlik, hogy adásban vannak, azonosítják magukat a másik félnek stb.) ezt kihasználva, mint előfeltevés a számítógépek sikeresen tudták feltörni a rejtjeleket (no meg persze pár készüléket is sikerült megszereznie a hírszerzésnek). Akit bővebben érdekel a módszer, annak Larranaga és Bielza rövid és érthető tanulmányát ajánljuk.

 

A történet érdekessége, hogy napjainkban ismét kezd egymásra találni a lambda kalkulus ihlette funkcionális programozás és az adatok elemzése (gondoljunk pl. az R statisztikai programozási nyelvre, vagy a Clojure népszerűségére a gépi tanulás területén). A britek hagyományosan jók mind a számítástudomány, mind a statisztika területén, ezért az Alan Turing Institute biztosan remek szakemberekkel lesz feltöltve. Érdemes lenne elgondolkodni azon, hogy hazánkban sem állunk rosszul - a Rényi Intézet és a SZTAKI Adatbányászat és Keresés Csoportja világviszonylatban is megállja a helyét - és viszonylag kis anyagi ráfordítást igényel ez a terület, más tudományágakkal összevetve.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Infografika az európai nyelvtechnológia piac jelenéről és jövőjéről

2014.03.19. 17:15 Szerző: Kereso75 Címkék: európa nyelvtechnológia

2306-lt-innovate_infographic_lt2013_vdef_1395245624.jpg_600x8413

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Könyvajánló: Taming Text

2014.03.17. 09:21 Szerző: Zoltán Varjú Címkék: keresés könyvajánló szövegbányászat Java

Szerencsére a nyelvtechnológia és a keresés iránt érdeklődők számára ma már klasszikusnak mondható könyvek érhetők el, mint pl. a túlárazott Manning & Schütze, Jurafsky & Martin és az ingyenesen is letölthető Manning, Raghavan & Schütze. Azonban a gyakorlatiasabb megközelítés, érthető okokból, ezen kötetekből hiányzik. A Python kedvelők elméleti olvasmányaikat a szabad hozzáférésű NLTK könyvvel egészíthetik ki, illetve az NLTK Cookbook segítségével mélyíthetik el tudásukat, sajnos azonban a keresésről ezen forrásokból csak keveset tudhat meg az olvasó. Grant S. Ingersoll, Thomas S. Morton és Andrew L. Farris Taming Text című könyve unikális több tekintetben is, mivel a keresés és a nyelvtechnológia problémáit együttesen tárgyalja és nyílt forráskódú Java eszközökön keresztül, gyakorlati példákkal illusztrálja hogyan lehet ma szoftveres megoldást találni rájuk.

taming_text.jpg

Habár a Manning marketingesei szeretnék, ha mindenki, aki ismeri a Java alapjait megvenné a könyvet, nem árt tudni, hogy az Apache Solr, az OpenNLP és az Apache Mahout könyvtárakat használják a szerzők példáikban és nem igazán szöszölnek azzal, hogy mélyebben bemutassák ezen eszközöket. Persze egy kellőképpen motivált olvasót ez nem rettent vissza, de nem árt egy kicsit megismerkedni a tárgyalt eszközökkel, a keresés és a nyelvtechnológia alapjaival mielőtt valaki beruház a könyv megvásárlásába!

 

Az első három fejezet tkp. bevezetés, úgy általában a kötet témáiba, a nyelvfeldolgozásba és a keresésbe. A negyedik fejezettől a nyolcadikig a fuzzy string matching, a named entity extraction, a klaszterezés és a klasszifikáció kérdéseit járják körül a szerzők. A nyolcadik fejezetben egy konkrét question answering alkalmazás elkészítésén keresztül láthatja az olvasó, miképp függnek össze az egyes területek. Az utolsó fejezet pedig ízelítőt ad a nyelvtechnológia további alkalmazási területeiből. Mindehhez pedig nagyon jó példakódok tartoznak, már azzal sokat lehet tanulni, ha az ember veszi a fáradtságot és egy kicsit jobban megismerkedik a példákkal.

 

Összegezve; a Taming Text az általunk ismert könyvek közül a legátfogóbb és leggyakorlatiasabb. Nem váltja meg a világot, hiszen kb. az industry standard megoldásokat tárgyalja, de azokat alaposan.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Precognox @ CeBIT

2014.03.11. 21:14 Szerző: Zoltán Varjú Címkék: cebit Precognox

A héten cégünk, a Precognox a CeBIT-en állít ki, több magyar céggel az ötös hallban, a HITA támogatásának köszönhetően.

 precognox_cebit_2014.jpg

WP_20140310_09_35_48_Pro.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

De mihez kezdjünk a big data-val?

2014.03.04. 09:00 Szerző: Zoltán Varjú Címkék: metodológia big data

A technikának hála ma már szinte korlátlan mennyiségben tudunk adatokat gyűjteni, tárolni és elemezni. Azonban a big data kapcsán kevesen veszik maguknak a fáradtságot arra, hogy metodológiai kérdéseken mélázzanak el,  a kevés kivétel is általában Anderson The End of Theory: The Data Deluge Makes the Scientific Method Obsolete című írásához hasonló álláspontra jutva amellett érvel, hogy a hatalmas adatmennyiség feleslegessé teszi az elméleteket. A helyzet ennél sokkal bonyolultabb, mivel a big data általában a viselkedés- és társadalomtudományok területére téved, hiszen emberekről (felhasználókról, fogyasztókról) próbál megtudni minél többet.

batman-on-big-data.jpg

Abban mindenki egyet szokott érteni, hogy a big data minőségi változást hozott a tudományba, a Hey és tsai által szerkesztett The Fourth Paradigm: Data-Intensive Scientific Discovery című kötet kapcsán egyenesen egy új paradigmáról beszélnek egyesek. Hal R. Varian Big Data: New Tricks for Econometrics című összegző tanulmánya ellenben rávilágít arra, hogy a big data alkalmazása nem ér fel egy tudományos forradalommal.

2014-03-04 06.53.19.png

Miképp az írásból is kitűnik, a számítógépek alkalmazása az ökonometriától sem áll távol s a big data eszköztárát a szerző "hagyományos" szoftverekkel veti össze. További érdekesség, hogy a nagy adathalmazok elemzéséhez a bevett regressziós modellekhez hasonlókat ajánl (regression like methods). Úgy tűnik, a gyakorló társadalomtudós az új adatgyűjtési és -elemzési módszereket a már meglévő eljárások kiterjesztésének tekinti, s a minőségi ugrást nem a technológiától, hanem annak használatától várja.

xkcd.png

De akkor mégis, milyen hatása van a big data megjelenésének a tudományos módszerre? A kérdésre Wolfgang Pietsch Big Data - A New Science of Complexity című tanulmányában próbált válaszokat találni. A 19. században kialakult és máig bevett ún. tudományos módszertől Pietsch szerint a big data négy alapvető kérdésben tér el:

  • a gyűjtött adatok sok paraméterét vizsgálja
  • egyszerű funkcionális összefüggéseket keres
  • alkalmazása minden esetben behatárolt
  • nem alkot összefüggő, univerzális elméleteket

Behatároltsága ellenére ugyanakkor sokkal sikeresebb lehet, mint egyes szofisztikált elméletek. A beszédfelismerésben Jelinek mondása, "Every time I fire a linguist, the performance of the speech recognizer goes up", példázza legjobban ezt. A nyelvészetben gyönyörű elméleteket lehet alkotni, akár csak egy karosszékben ülve, vagy egy beszédlabort használva. Ezek az elméletek nagyon hasznosak, csak sajnos a beszédfelismerésben nem használhatóak. Ellenben viszonylag primitív matematikai módszerek kellően nagy adatmennyiségen alkalmazva sokkal eredményesebbnek bizonyultak a nyelv feldolgozásának különféle területein. (Peter Norvig és tsai The Unreasonable Effectiveness of Data című írásukban több olyan területről is hoznak példát, ahol az adat intenzív megközelítés az elméletépítésnél sokkal gyümölcsözőbbnek bizonyult.)

Quotation-Paul-Karl-Feyerabend-progress-Meetville-Quotes-50708.jpg

Kicsit úgy tűnik, a big data meghozta az igazi posztmodern tudomány korát! Vége a nagy elméleteknek, és Feyerabend anything goes megközelítése győzedelmeskedik - akinek ez az értelmezés nem tetszik, az fogadja el, hogy a big data nem hozott új paradigmát, lokális területeken győzött, de még várnunk kell az áttörésre (ha egyáltalán lesz). Érdemes még a társadalomtudományok felé fordulni, akik rég letetettek a mindent megmagyarázó egységes elmélet megtalálásáról és a statisztika mellett olyan szavakkal operálnak mint verstehen, azaz a vizsgált alanyok (emberek, fogyasztók, felhasználók) megértése.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása