HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hogyan készült? A Szörcs

2010.01.28. 15:52 Szerző: Kereso75

Sajtos Istvánt és Tóth Benedeket, a nemrégiben elindult Szörcs vezető fejlesztőit kérdeztem, olyan témákról amik talán eddig nagyrészt kimaradtak a velük kapcsolatos híradásokból.

A blogotokon írjátok, hogy a szörcs "erősen szemantikus felépítésű". Miben szemantikus?

Sajtos István: Sokat dolgoztunk rajta, hogy felismerje az ismétlődő mintákat és az adott oldalon elvárható elemeket. Automatikusan kategorizáljuk az oldalakat típus szerint. Felismerjük, hogy az adott találat például egy blogposzt, vagy egy linkgyűjtemény. Innen már nekiállhat értékeket keresni: egy cikknél a szerzőt, keletkezés idejét, címét, kapcsolódó képeket, egy webáruháznál az árat, a termék nevét, ha a termék könyv, akkor az ISBN azonosítót is elmenti.

Rengeteg ilyen lehetőség van és nagyon jól működik a találati lista pontosításánál és szeretnénk, ha a jövőben ezek az információk a találatok megjelenítésénél is szerepet kapnának.

Milyen magyar nyelvi eszközöket alkalmaztok? Milyen sajátos nyelvi jelenségek kezelésére vagytok képesek?

SI: A szótövezésben jó a Szörcs, de ez ma már alapfeltétele egy jól működő keresőnek.
Amire büszkék vagyunk, hogy gépileg tudunk mondatot elemezni. Tudjuk egy szóról, hogy milyen szerepet lát el, egy nagyon összetett mondatban is. Alany, tárgy, állítmány és társaik. Ha ezeket vegyítjük kiterjedt értelmező, szinonima és asszociációs szótárakkal, akkor meglepően pontos szövegelemzést tudunk csinálni, ami nagyszerűen felhasználható a találatok rangsorolásánál.

Szintén a blogon olvastam, hogy a keresések során nem csak a magyar oldalakat tekinti eredménynek, hanem azokat a külföldi oldalakat is, amelyeken magyar tartalom van. Ez egyelőre nem igazán működik jól, illetve a fordított irány működik kevésbé. Ha angol szóra keresek, sok külföldi oldal jelenik meg angol tartalommal...

Tóth Benedek: Igen, ez olyan téma, ahol igazából nem a nyelv felismerése a probléma, hanem hogy eldöntsük, hogy mikor érdemes külföldi tartalmat megjeleníteni.

Alapszabály, hogy a magyar tartalmakat preferáljuk. De egy olyan keresésnél például, hogy "twitter" vagy "ford" messze nem annyira egyértelmű, hogy az angol nyelvű hivatalos oldal hova kerüljön. Ez ugyancsak változatos oldaltípusoknál. Egy videónál nem szükséges a youtube oldalt hátrasorolni például csak azért mert nem magyar. De a CNN hátrébb kerül mindenképpen.


Hogy tudjátok megtalálni a nem magyar domainen levő magyar tartalmakat? pl blogok a blogspoton

TB: Sokat keresgélve :) Első sorban a magyar oldalakról linkelt tartalmat követjük. Ha egy oldalt nagyon gyakran linkelnek itthonról, akkor vesszünk a fáradtságot, és az összes oldalt felindexeljünk ami ahhoz a domainhez tartozik. Nagyon kevés magyar oldalra nem lehet így eljutni.

Tetszik a trendek funkció használata során az eredmények előtt megjelenő címke sor. Ezek az eredményekből automatikusan generálódnak? Az általános keresésnél nem kaphatnánk egy ilyet?

SI: Maguk a címkék és az egész trend oldal automatikusan generálódik, de ha az algoritmus nem biztos a dolgában, akkor szól a szerkesztőségnek, aki jóvá hagyja a trend kipublikálását.

Az általános keresésnél az ajánló is hasonlóan működik mint a trend címkesor, csak kicsit más szempontokat veszünk figyelembe, mert inkább a keresés pontosítása és szűkítése a cél. Gondolkozunk rajta, hogy hogyan segíthetnénk címkézéssel a hasonló és szomszédos tartalmak keresését, és eddig egy ilyen asszociációs gráf tűnik a megfelelő fejlesztési iránynak. Lesznek ilyen fejlesztéseink és kísérleteink, mindig is érdekes és megoldandó kihívásként tekintettünk a gépi asszociációt.

Mik voltak technikai oldalról a legnagyobb nehézségeitek a fejlesztésben?

SI: Egyrészt eleinte nagyon sok hardveres problémánk volt, igazából nem voltak meg a megfelelő feltételek ezen a téren és eléggé trükköznünk kellett.

A másik jelentős probléma pedig természetesen az óriási adatmennyiségből fakad. Van néhány művelet, amit ennyi adaton egyszerűen nem lehet megoldani. Nem is maga a keresés okoz problémát, de ha változtatni kell valamit az adatbázisban sokszor rutin dolgok is óriási problémát jelentenek.

Érdekes háttértörténet, hogy egy új paramétert szerettünk volna kiszámoltatni, amely sokat segített később a relevancia megállapításában. De körülbelül 2-3 hét alatt futott volna le az akkor rendelkezésre álló hardveren a számítás. Ekkor az egyik kollégánknak az az ötlete támadt, hogy segítsenek be a laptopjaink és otthoni számítógépeink. Megírtuk a programot, ami futtatta a számítást, és elküldtünk egy tucat ismerősnek is. 13 napot sikerült spórolni ezzel az ötlettel.

Hogyan tovább?

TB: Sok-sok meglepetéssel készülünk, de elsősorban a keresési találatok minőségén szeretnénk nagyon sokat javítani és vannak kissebb hiányosságok, hibák amiket szeretnénk megoldani.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr301710121

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Fransiscó 2010.01.29. 05:59:51

Ha úgy működne mint a Google azonnal eszt használnám mivel hazai termék!

Kereso75 · http://kereses.blog.hu 2010.01.29. 07:29:15

@Fransiscó: Arra biztatnálak, hogy adj visszajelzést a fejlesztőknek arról, hogy milyen hiányosságot látsz egy-egy keresésnél. Biztos vagyok benne, hogy sokat segíthetsz vele a fejlesztésben.

fledgling42 2010.01.31. 10:23:52

Nagyon szimpatikus vállalkozás ez a Szörcs; sok sikert és sok befektetőt kívánok - a tömegek csak akkor fogják használni, ha sebességében és relevenciájában megközelíti a Google-t, és tud plusz szolgáltatásokat nyújtani; amire szerintem van esély, elnézve a jelenlegi fejlesztéseket, és azt, hogy a magyar piacra fókuszál. Ígéretes, bár nem tudom mennyi pénz áll mögöttük, reméljük jó sok, mert az bizony kell, a szerverparkokhoz, a sávszélességhez, az átfogó fejlesztésekhez.
süti beállítások módosítása