HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (11) big data (42) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (8) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (14) Facebook (7) facebook (8) fintech (5) firefox (4) gépi tanulás (5) goldenblog (5) google (57) Google (22) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírelemzés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (52) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (8) konferencia (11) könyvajánló (10) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (17) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (31) mobil keresés (15) Neticle (8) NLPmeetup (4) NLP meetup (5) nlp meetup (5) Nuance (8) nyelvészet (10) nyelvtechnológia (56) open data (7) Pennebaker (5) pénzügy (6) politika (4) pollyanna (4) Precognox (16) Precognox Labs (12) R (7) seo (5) smartmobil (4) sna (4) spam (6) statisztika (7) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (24) szövegbányászat (11) társadalomtudomány (4) tartalomelemzés (20) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) Twitter (23) twitter (13) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Quixey - kereső a mobil-kornak

2014.06.23. 08:00 Szerző: zoltanvarju Címkék: mobil keresés Quixey

Lassan három éve, hogy beszámoltunk a Quixey appkeresőjéről, azóta a cég terméke szépen kiforrott és úgy tűnik új utakat keres magának a lelkes csapat. A Technology Reiew cikke szerint a cél immáron a mobilok uralta net kereshetővé tétele. Ja, hogy erre ott a Google? Nem feltétlenül! Van mit keresni még ezen a piacon!

 

Ma már mindenre van app, a Quixey pont egy olyan app ami a több között segít keresni. A mobil net apposodásának köszönhetően azonban az információ silósodik, egyedi alkalmazásokban tárolódnak el információk és amikor keresni akarunk, lehet hogy ezek egyvelege jelentené a megoldást. Mi van ha keresünk egy kellemes könyvesboltot, jó kávézóval a közelben? A GoogleMaps biztos tud ajánlani egyet (ha kellően nagy városban vagyunk), de milyen jó lenne tudni, hogy barátaink mit gondolnak az adott helyről! Böngésszük végig a Twitter-t és a Facebook-ot egyaránt érte? Elmentettünk egy cikket a helyi könyvesboltokról kedvenc lapunk appjában, ez rémlik, de azóta még ezer meg egy cikket megjelöltünk, hogyan hívjuk elő? Az appkeresésben szerzett tapasztalatára építve itt szeretne a Quixey belépni a képbe.

quixey.2x299.png

Sajnos nem olyan egyszerű hozzáférni az appokban tárolt információkhoz, ezért a Quixey fejlesztői szeretnék, ha az appok írói ún. deep linkek segítségével elérhetővé tennék számukra ezeket. Ehhez innét kívánunk sok szerencsét, látva, hogy a szemantikus web fantasztikus ötlete 15 éve nem terjedt el, pedig az is csak pár kód beszúrását kéri a fejlesztőktől. A nehézségek ellenére annyi biztos, hogy remekül azonosítottak a fejlesztők egy problémát és mindenki (legalábbis a felhasználóknak biztosan) érdeke, hogy a web továbbra is kereshető maradjon - a mobilok korában pedig az apposodás ennek lehet akadálya, de akár támogatója is.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Rapháború II.

2014.06.18. 14:43 Szerző: zoltanvarju Címkék: R rapháború LDA

Miről beszélnek a rapháború hősei? Sorozatunk első részéből kiderült, a lexikai diverzitásnak a népszerűséghez nem sok köze van, az átlagosat szeretik a népek. Egy kis kitérőt tettünk nagy kedvencünk Mr. Busta munkásságának elemzésével a szövegek vizualizációja felé, amikor rájöttünk, valahogy a szövegek tartalmát fel kellene fedezni és eltöprengtünk azon, hogyan haladjon tovább projektünk. Valami ilyesmire jutottunk, részletek a videó után.

 

Vizsgálódásaink során arra jutottunk hogy három irányban érdemes nézelődni:

  • mennyire tér el a hétköznapi nyelvtől (vagy éppen mennyire közelíti) egy előadó szövegvilága
  • milyen emóciók jelennek meg a szövegekben
  • milyen témák népszerűek

Az első kérdést Har politikai beszédeket elemző vizsgálatai nyomán merült fel, melyek kimutatták, hogy a magas ún. commonality tone-t (átlagos, hétköznapi beszédstílus) használó politikusok üzenetei sikeresebben érnek célba. Mi is azt találtuk, hogy az átlagos entrópiájú szövegek népszerűek, ezért érdemes lenne megvizsgálni ezek mennyiben térnek el az átlagos nyelvhasználattól (vagy éppen követik azt).

 

Gyanítjuk, hogy a kedvelt számok általában vidám, bulizós témákkal foglalkoznak. Ezért egyrészt LDA módszerrel vizsgáljuk milyen topikokba tartoznak ezek. A vizsgálatok egy későbbi fázisában szeretnénk megvizsgálni milyen emóciók jelennek meg az egyes szövegekben.

 

Munkának megkönnyítendő R-ben készítettünk egy kis alkalmazás, ami segít felfedezni az egyes topikokat, erről készült a fenti videó. Pár perc alatt elkészítheti mindenki a maga kis alkalmazását a mallet és az LDAtools csomagokkal, érdemes kipróbálni mit tudnak!

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

swirl - interaktív környezet a statisztika és az R elsajátításához

2014.06.16. 08:00 Szerző: zoltanvarju Címkék: statisztika R statisztikai programozás

A John Hopkins University Biostatistics Department kutatói és oktatói nagyon komolyan veszik hivatásukat. Ők indították a Simply Statistics blogot, majd a Coursera keretein belül indítottak R kurzusokat és mostanra egy egész "Specialization track" is elvégezhető a manapság divatos data science néven ezekből. De ez mind nem elég, megalkottak egy olyan csomagot is ami interaktív módon oktatja az R-t és a statisztikát. És igen, a swirl egy R-t oktató csomag az R nyelvhez.

swirl.PNG

A swirl az ún. koan hagyományt követi. A koan eredetileg amolyan kérdezz-felelek a zen hagyományban, a programozóknál meg egy nyelv gyakorláson keresztüli elsajátításához létrehozott strukturált feladatok sorát jelenti. A swirl megalkotó a koanokat tovább is gondolták, hiszen nem mindenki úgy lép be a R és a statisztika világába, hogy már mindent tud a második naptól. Kis 10-20 perc alatt feldolgozható interaktív feladatokkal lehet dolgozni, melyek nem igényelnek különösebb előképzettséget. Ellenben nem árt, ha legalább annyira járatosak vagyunk a számítógépek világába, hogy az R nyelvet és a RStudio IDE-t telepíteni tudjuk gépünkre. Ha ez megvan, akkor indulhat a móka, amit az alábbi videó szemléltet.

 

Nem állítom, hogy valaki R programozó vagy éppen data scientist lesz a swirl feladatainak elvégzésétől. Annyi azonban biztos, hogy megtanulja használni és értékelni a read-eval-print loop nyújtotta előnyöket, nem fog félni a szkriptek megírásától és tudni fogja mi az az IDE . Nem rossz ez azért, ha figyelembe vesszük, a swirl egy open source projekt! Meg kell jegyezni, hogy a swirl csak egy éves a kezdeményezés, nem csodálkozunk azon hogy még nem teljesen kiforrottak a feladatok és témakörök. Szerencsére egyre többen készítenek swirl tananyagokat, ami nagyon fontos a projekt jövőjére nézve. A lényeg: nincs mentség, R-t és statisztikát tanulni ingyen is lehet!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nine Algorithms That Changed the Future - közérthetően elmagyarázva

2014.06.13. 09:07 Szerző: zoltanvarju Címkék: könyvajánló számítástudomány

Mindennapjainkat a számítógépek között éljük; okostelefonon intézzük ügyeinket, laptopon dolgozunk, táblagéppel szórakozunk, ha veszünk egy sört, a pénztárgép rögtön küldi tovább az adatokat a NAV-nak. Teljesen természetesnek vesszük, hogy működnek a dolgok, sokan bele sem gondolnak abba, milyen elméleti és technológiai innováció szükségeltetik a modern hétköznapok működtetéséhez. John MacCormic könyve a legalapvetőbb és ránk legnagyobb hatást gyakorló algoritmusokat mutatja be, mégpedig közérthető formában.  Ideális nyári olvasmány mindenkinek!

algorithms.gif

A kötet címe kicsit félrevezető, nem csak klasszikus értelemben vett algoritmusokról olvashatunk ugyanis a könyvben, főleg nem kilencről. Az internetes keresőkről - pontosabban ez a Google és a híres PageRank működése lenne - két fejezet is szól, a másodikban matching és ranking kérdéseit mutatja be a szerző, a harmadikban pedig a PageRank-et. A negyedik fejezet a publikus kulccsal történő titkosítás rejtelmeibe vezeti be az olvasót és megtudhatjuk miképp fizethetünk biztonságosan online. Az ötödik fejezet a hibajavító kódolást mutatja be, szubjektív véleményünk szerint ez sikerült a leggyengébbre. A hatodik fejezet a mintázatfelismerés, menőbb nevén a gépi tanulás, mégmenőbben a data science három legfontosabb algoritmusát mutatja be, a nearest neighbor, a döntési fák és a neurális hálók alapjait. A hetedik fejezet a tömörítés kérdésével foglalkozik és megtudhatjuk, hogy olyan helyeken is használják, ahol nem is gondoljuk, továbbá kiderül hogy a hatalmas online tárhelyet kínáló alkalmazások előszeretettel élnek ezen algoritmusokkal. A nyolcadik fejezet a modern relációs adatbázisokat mutatja be, az azt követő pedig a digitális aláírással foglalkozik. 

 

A kötetből kilóg két fejezet. Az első tulajdonképpen egy felesleges magyarázkodás a cím miatt és a választott témák megindoklása. Az utolsó, tizedik fejezet kitekintés lenne az algoritmusok és a számítástudomány mélyebb összefüggéseire, de kicsit suta. Mindezek ellenére a könyvet csak ajánlani tudjuk minden érdeklődő laikusnak és szakiknak is!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Pepper, az érzelmes robot

2014.06.09. 15:36 Szerző: zoltanvarju Címkék: robotika beszédtechnológia nyelvtechnológia Pepper affective computing

A szentiment- és emócióelemzés sikere részben annak is köszönhető, hogy egyre inkább belátjuk, az ember nem csak egy racionális lény. A viselkedésökonómia talán a legnépszerűbb terület, ami szereti ezt kihangsúlyozni, de az affective computing irányzat szerint is kulcsfontosságú az ember-gép kommunikációban az érzelmek felismerése és megfelelő kezelése. A francia Aldebaran Robotics Pepper nevű robotja nem más, mint egy "társas robot", ami képes alkalmazkodni a vele interakcióba lépő emberek érzelmi állapotához - tehát nem porszívóz, főz, mos vagy takarít helyettük, csak társalog!  

pepper.png

Pepper 1.2m magas és mindössze 28 kg. Képes gesztikulálni és szemkontaktust is tud tartani beszélgetőpartnerével! Hogy mire való igazából, az nem derül ki - elvileg öregeknek ajánlják magányosság ellen és üzletekbe információs segítőnek. Mivel a cég hamarosan megnyitja a platform API-ját a külső fejlesztők előtt is, várhatóan sok hasznos és teljesen agyatlan alkalmazás is meg fog jelenni rá. 

Pepper 1900 USD árával a Lego Mindstorms vagy a Sony Aibo hobbi robotoknál drágább, de még éppen elérhető, s ezért megjelenése bizonyára segíteni fog a robotika elfogadásában. Azonban kérdéses, hogy tényleg kell-e nekünk egy robot ami csak társalogni képes...

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre