HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hungarian Natural Language Processing Meetup - előadás videók

2012.08.03. 10:03 Szerző: Zoltán Varjú Címkék: szövegbányászat nyelvtechnológia Twitter nlpmeetup

Július 24-én tartottuk második meetupunkat, a videók elérhetőek Vimeo csatornánkon.

Ingo Feinerer (TU Vienna): Distributed Text Mining in R

Ingo Feinerer (TU Vienna): Distributed Text Mining in R from Szamitogepes nyelveszet on Vimeo.

Tyler Schnoebelen (Stanford): Gender and Style in American English Tweets

Tyler Schnoebelen : Gender and style in American English tweets from Szamitogepes nyelveszet on Vimeo.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

rt.ly - most mi van?

2012.07.31. 12:00 Szerző: Zoltán Varjú Címkék: keresés bitly rt.ly reali time keresés

A bitly múlt héten indította el valós idejű keresőjét, az rt.ly-t. Egy korábbi posztunkban már bemutattuk a bitly-t, most kifejezetten az rt.ly-t járjuk körül.

rtly00.png

Július 27-én jelentette be a bitly realtime keresőjének nyilvánossá tételét. Aki szeretné kipróbálni a szolgáltatást, nyisson gyorsan egy bitly fiókot, mert csak korlátozott ideig lehet csatlakozni a béta tesztelők táborához.

rtly01.png

Az rt.ly oldala momentán még egy lakonikus üzenettel köszönt minket. Érdemes azonban eszünkbe vésni, hogy a "realtime" (ezt rövidíti az rt) egy bitly labs kísérlet. Kattintsunk a "click here to authorize using your bitly account" linkre.

rtly02.png

Fogadjuk el, hogy bitly fiókunkat használhatja az rt. Érdemes a fiókot legalább Twitter accountunkkal összekötni, hogy közösségi hálónk alapján több lehetséges találatot tudjon összeszedni a rendszer.

rtly03.png

Ha már bent vagyunk az rt.ly-ban, akkor először egy kicsit várni kell, de a későbbi bejelentkezéseknél már sokkal gyorsabban megy a dolog.

rtly04.png

A nyitóoldal az éppen aktuális (trending) linkeket mutatja. Keresés nélkül láthatjuk, hogy hálózatunkban mely oldalak népszerűek éppen. De lássuk, hogyan is működik a kereső élesben!

rtly05.png

Egyszerű kulcsszavas keresésre általában híreket kapunk. Először a sörre "beer" kerestünk, mint általános téma.

rtly06.png

Ezután a "Google Handwrite" keresés következett, mint új technológiai hír. Érdekes, hogy hiába állítottuk be a jobb oldali mezőbe a topic-ot, az eredményeknél ez eltűnt.

A kezdeti ismerkedés után gondoltuk, hogy a bitly vezető kutatójának saját példáján keresztül teszteljük az rt.ly-t. Az alábbi videón Hilary Mason az rt.ly privát béta verzióját mutatja be úgy a 32. perctől.

Hoz egy remek példát is. Mindenki szereti a pizzát, keressünk rá. OK! Első körben hírek meg receptek jönnek fel, de ha hozzá tesszük, hogy New Yorkra szűkítsük le a keresést, szépen előjönnek helyi pizzériák. Ezt ugye a Google is tudja, de jelen esetben az eredmények valós idejűek, valaki éppen egy jót evett az egyik helyen, vagy összejött egy nagyobb társaság valahol, vagy éppen egy akció híre terjed a közösségi hálókon. Milyen jó is lenne, ha éppen sörözni, pizzázni támad kedvünk láthatnánk melyik helyen ihatunk és/vagy ehetünk jót, ahol akár ismerősökbe is botolhatunk. Persze akár ki is írhatjuk Facebook oldalunkra, hogy "ki jön velem enni/inni?", de ez azzal a veszéllyel jár, hogy meghívásnak veszik kedves és kevésbé kedves ismerőseink.

rtly07.png

Nagyon, de nagyon próbáltuk reprodukálni Mason példáját, de sehogy se sikerült. A pizza keresést kizárólag az Egyesült Államokra tudtuk szűkíteni, ami valljuk be egész nagy terület. Hazánkban sem jártunk több sikerrel, nem tudtunk településekre szűkíteni egy keresést sem.

Verdiktet nem mondunk most az rt.ly-ről, hiszen még csak éppen elhagyta a privát béta státuszt. Reméljük sikerül sok korai felhasználót szerezniük, hiszen a további fejlesztéseknek ez elengedhetetlen feltétele. Ugyanis az rt.ly indexe az elmúlt 48 órában a bitly segítségével rövidített linkeken alapul, a lehetséges találatok rangsorolásához, pedig figyelembe veszi az eltelt időt és hogy mennyire népszerű egy link az egész rendszeren belül és az adott felhasználó közösségi hálóiban. Sok sikert rt.ly!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Google Handwrite - keress kézírással mobileszközön

2012.07.30. 14:20 Szerző: Zoltán Varjú Címkék: keresés interfész Google Google Handwrite kézírásfelismerés

A Google Inside Search bejelentette, hogy a Handwrite mindenki számára elérhető immár. A szolgáltatás lehetővé teszi, hogy az érintőképernyőre "írva" vigyük be a keresés kulcsszavait.

A hivatalos videón nagyon flottul működik a Handwrite, de nem árt tudni, hogy a Google Android operációs rendszert és saját böngészőjét ajánlja az optimális működéshez. Saját tapasztalatunk szerint azonban még nem megy mindig zökkenőmentesen a rendszer. Az Android mellett kipróbáltuk iOS eszközökkel és Safari ill. Opera böngészőből is a kézírás-felismerést és tapasztalatunk szerint az angol ábécé karaktereivel remekül boldogul, ellenben a magyar ékezetes betűk zavarba tudják hozni. A katakanákkal (japán szótagírás) elboldogul, de a kandzsival (kép- és fogalomjegyeken alapuló japán írás) nem minden esetben gyürkőzik meg, részben azért, mert ha nem elég gyorsan viszi be a jelet az ember akkor megakad, más jelnek ismeri fel, vagy kezdhetjük előröl a bevitelt (de gyakorlottabbak, anyanyelvi szinten beszélők talán gyorsabbak a tesztelőnél).

handwrite.png

A szolgáltatást a "Search Settings" (Keresési beállítások) oldalon tudjuk aktiválni, ezért használatához szükségünk van egy Google fiókra.

A kézírás-felismerés (röviden HWR, a handwriting recognition angol kifejezés rövidítéséből) alapvetően adatvezérelt folyamat, így várhatóan a felismerés pontossága a használat során tovább fog növekedni. Kérdés, hogy ki mennyire szeretne ebben adatokat szolgáltatni a Google-nek...

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A big data nagy, de miről szól?

2012.07.24. 12:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia big data computational social science

Egy kedves olvasónk klaviatúrát ragadott és nekünk szegezte a kérdést: "OK, a big data azt jelenti hogy tudunk adatokat gyűjteni és tárolni, mégpedig sokat, ezért big. De milyen adatok ezek? Minek tároljuk azt a sok adatot?" Felvesszük az elénk vetett kesztyűt és megpróbálunk válaszolni ebben a posztban!

462722a-i1.0.jpg

Először szűkítsük egy kicsit a big data körét. Az utóbbi hetekben csak az nem hallott a Higgs-bozon megtalálásáról, aki elzárja magát a hírektől és embertársaitól. A CERN részecskegyorsítójában rengeteg adat keletkezik egy-egy mérés során, évente úgy 80 petabájt azaz 83886080 gigabájt, vagy 85899345920 megabájt. Ezt elemezve, leredukálva és különféle csodás módszereket alkalmazva leltek az isteni részecske nyomára a kutatók.

sequencing.jpg

A Human Genom Project 1990 és 2003 között nagy erőfeszítések árán térképezte fel az emberi genomot. Ma már jóval olcsóbban, szinte nagyüzemben végzik a DNS-szekvenálást céges és állami kutatóhelyek. Ennek eredménye irdatlan nagy mennyiségű adat, mely jelentős része tkp. szöveges adat (az adenin, guanin, citozin és a timin nukleotid bázisok sorrendjének felsorolása). Ma már egyre több cég használ felhőalapú big data megoldásokat ezen a területen is.

Social_Red.jpg

Az alapvetően elméleti és alkalmazott tudományos problémákon túl azonban a big data sokkal inkább szól a hétköznapokról, rólunk, emberekről. Még 2009-ben jelent meg a Nature hasábjain a többek között David Lazer és Barabási Albert-László által jegyzett Computational Social Science című tanulmány, mely felhívja a figyelmet arra, hogy a kormányzati hivataloknál, internetes és telekommunikációs cégeknél hatalmas adatmennyiség gyűlt össze, mely a társadalomtudományok számára valóságos aranybánya lenne. Vásárlási, költözési, munkábajárási és egyéb szokásainkról szinte korlátlanul gyűjtenek adatokat a különféle szervezetek, ezek összessége pedig betekintést nyújt az emberi viselkedés egyedi és társadalmi szintjeibe is.

Drew Conway a big data "mozgalom" egyik központi figurája jegyezte meg, hogy a rendelkezésre álló adatokkal tkp. társadalomtudományi vizsgálatokat végeznek a legtöbben. A vásárlói viselkedés megértése, Facebook és Twitter kapcsolataink elemzése, vagy az amerikai elnökválasztás során alkalmazott új módszerek mind-mind klasszikus szociológiai, pszichológiai és közgazdasági kérdéseket válaszolnak meg.

lda.png

A nyelvtechnológiában a kilencvenes évektől egyre inkább előtérbe kerültek a statisztikai módszerek, melyekben a nyelvi adatok jelentős szerepet játszanak. A híres The Unreasonable Effectiveness of Data című tanulmány hívta fel a figyelmet arra, hogy a viszonylag egyszerűbb algoritmusok meglepően jó eredményeket produkálnak, ha kellően nagy mennyiségű adat áll rendelkezésükre. Így külön piac nyílt, egyre több cég gyűjt össze kellően nagy mennyiségű nyelvi adatot a webről és épít rá nyelvi modelleket, melyeket aztán értékesíteni lehet. Ilyen pl. a Wordnik vagy a múlt heti posztunkban bemutatott cégek.

A big data a legtöbb cég számára egy lehetőség, hogy jobban megértse az emberi tényezőket, nem csak az ügyfeleket, hanem saját maga működését is.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mennyire érett a nyelvtechnológia ma?

2012.07.17. 12:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia SaaS Neticle DiscoverText AlchemiAPI ConveyAPI

A nyelvtechnológiával szemben két szélsőséges nézettel találkozhatunk a leggyakrabban; az egyik szerint túl bonyolult feladat a nyelv megértése, a másik szerint hamarosan itt az áttörés és beszélgethetünk számítógépeinkkel. Az igazság valahol a két szélsőség között van. A nyolcvanas években a kezdeti lelkesedés alább hagyott és beköszöntött a mesterséges intelligencia tele, majd a Siri és a DragonGo megjelenése felfűtötte a várakozásokat. De mennyire érett ipar ma a nyelvtechnológia? Mit várhatunk tőle?

Cloud_computing_layers.png

Egy terület érettségének jó mértéke, hogy mennyire lehet termékesíteni a segítségével létrehozott alkalmazásokat. Ennek több szintje lehetséges. A mai trendeknek megfelelően egyre kevesebben jönnek ki "dobozos" szoftverrel, hiszen egy böngészőből elérhető alkalmazás egyszerre veszi le az előfizető válláról az infrastruktúra fenntartásának költségeit és teszi lehetetlenné az illegális szoftverterjesztést. Ezt a filozófiát nevezzük Software as a service, röviden SaaS megoldásoknak. A SaaS megoldások olyan komplett szoftveres szolgáltatások, melyek funkcionalitásukban megegyeznek a megszokott számítógépes alkalmazásokkal. Ilyenek pl. a Google Gmail, Drive, és Docs termékei. Hasonló filozófiát követnek az ún. Platform as a service, röviden PaaS és az Infrastructure as a service, röviden IaaS szolgáltatási modellek, a különbség közöttük a szolgáltatás kidolgozottsági szintjében rejlik. A PaaS modellben egy felhőalapú fejlesztési környezetet kínálnak, az IaaS pedig "csupán" a fejlesztéshez szükséges infrastruktúrát nyújtja. Közös vonásuk ezeknek a szolgáltatásoknak, hogy leveszik az infrastruktúra kezelésének és kiépítésének terhét a felhasználó válláról. A SaaS egy átlagos internetkapcsolattal rendelkező gépből "varázsol" a felhőalapú megoldásokkal egy hatékony eszközt, mellyel bárhonnét dolgozhatunk. A PaaS segítségével a fejlesztőknek nem kell a hardverrel bajlódniuk, sőt, egyre több szoftveres megoldást "készen", API-kon keresztül használhatnak fel. Az IaaS megkönnyíti a szükséges infrastruktúra kialakítását, nem kell törődni annak karbantartásával, és sok esetben csupán a használati idő alapján kell fizetni érte. Ilyen környezetben csak érett, bizonyított technológia jelenhet meg, a nyelvtechnológiának pedig sikerült ez.

A DiscoverText a közösségi média monitorozásában már bizonyított. Minden különösebb nyelvtechnológiai háttér nélkül alkalmazható a közösségi média monitorozására, véleményelemzésre és más egyéb érdekességre. A magyar piacon is megjelent már olyan szolgáltatás - a nemrég blogunkon is bemutatkozott Neticle - amely közel valós időben elemzi a magyar webet.

alchemy.png

Megjelentek a szövegelemzést API-n keresztül nyújtó szolgáltatások is. Az AlchemyAPI alapvető szövegelemzési feladatokat (nyelvfelismerés, kulcsszókinyerés, véleményelemzés, stb.) és szemantikus elemzést (relációk és fogalmak kinyerése) is kínál. Hatékonyságát bizonyítja, hogy egyre többen fizetnek elő az API-ra az ingyenes verzió kipróbálása után.

conveyapi.png

A ConveyAPI a napokban indul és arra vállalkozik, hogy a teljes szövegelemzési feladatsort (nlp pipeline) is elvégzi mint szolgáltatás, az adatok begyűjtésétől az elemzésig. Így az előfizetőnek egyáltalán nem kell törődnie a nyelvtechnológiai feladatokkal, csupán az adatok forrását kell meghatároznia, ezután az API elvégzi a dolgát és egy részletes jelentést nyújt át. A napjainkban divatos véleményelemzés mellett ez tartalmaz érzelmi elemzést,  intenzitás mérést, és relevancia szerinti rendezést.

A nyelvtechnológia még nem tört be látványosan a hétköznapjainkba. Persze ott van a szövegszerkesztők helyesírás-ellenőrzőiben, a mobiltelefonok prediktív billentyűzeteiben és a nagy keresőkben, de ezt már annyira megszoktuk, hogy észre se vesszük. A Siri és társai nagyon jó marketing eszközök, de használhatóságuk (és elérhetőségük) korlátozott. Azonban a döntéselőkészítésben, legyen szó marketingről, közvéleménykutatásról, vagy gazdasági elemzésekről, már nap mint nap szerepet kap a nyelvtechnológia.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása