HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Nem hivatalos vélemények. Miért érdemes fórumkeresőt használni?

2010.01.20. 08:19 Szerző: Kereso75 Címkék: fórumkereső vertikális kereső johu

Téli Sándort a Fórumkereső egyik fejlesztőjét kérdeztem abból az alkalomból, hogy a Fórumkereső elérhetővé vált az általunk fejlesztett Johu keresőben is.

Miért érdemes egy fórumkeresőn keresni, szemben egy általános keresővel?

Elsősorban azért, mert az általános keresők nem tudják a fórumokat kereshetővé tenni (még megközelítőleg elfogadható mértékig sem). Erre a feladatra specializált crawler-ekre van szükség. Minden egyes fórumra speciálisan készítjük el ezeket. Másodsorban pedig az általános keresők még azt a kevés kis tartalmat sem tudják megfelelően megjeleníteni, amit sikerül kigyűjteniük a fórumokból. Pl.: Nem ismerik a „hozzászólás” fogalmát sem. Ha egy találatra rákattintunk, egy komplett oldalnyi hozzászólás jelenik meg és nem görget oda a böngésző az általunk keresettre, legtöbb esetben pedig olyan találati oldalt jelenít meg, amin már egyáltalán nem szerepel a kérdéses hozzászólás. A forumkereso.hu pedig hozzászólásokat és témákat (topikokat) is ismer, valamint ezekre kattintva mindig pontosan az jelenik meg, amire kerestünk (akár egy több tízezer hozzászólásból álló oldalon is odagörget, ahol az adott hozzászólást találjuk). Ez a technikai/kényelmi oldala.

Milyen jellegűek azok a témák, ahol többet ad egy fórum, mint egy másik weboldal?

Ez talán a legfontosabb kérdés. Nem is igazán többet ad, hanem sokkal őszintébbet és életszerűbbet. Ha pl. rákeresel kétféle típusra ugyanabból a termékcsaládból, akkor egy általános keresővel biztos, hogy több oldalnyi marketing anyagot és webshop-ot találsz, ami azt ecseteli, hogy mindkét termék mennyire tökéletes.

A fórumkeresőn viszont azt fogod olvasni, hogy az egyikkel rengeteg probléma van, a másikkal pedig sokkal kevesebb. Ennek oka egyszerűen az, hogy a fórumokat olyan magánemberek írják, akik már előtted jártak ugyanabban a cipőben, amiben most te jársz. A web pedig tele van marketinggel, ami sok mindent elfed.

Persze nem csak termékekre igaz ez. Társadalmi kérdésekben, egészséggel kapcsolatos kérdésekben és gyakorlatilag minden témában nagyon hasznos magánemberek véleményei között keresgélni. Az adatok mennyisége pedig óriási. Bőven túlvagyunk már a 100millió kereshető hozzászóláson.

Jobban keresitek magukat a fórumokat is, vagy csak egyszerűen szűkebb az oldalak köre és azért pontosabb? 

Ahogy az előzőekben említettem, speciális crawler-t készítünk minden egyes fórumhoz, ami komoly munka. Még emberi erővel is, külön tesztelgetve/kódolva. Ahhoz, hogy egy általános kereső akár csak hasonló pontossággal tudjon téma (topic) és hozzászólás (post) szinten kigyűjteni tetszőlegesen kiválasztott fórumból, ahhoz nagyon komoly algoritmus kellene, amit még egyetlen keresőben sem láthatunk.

Mely fórumokban keres egyébként? Lehet hozzáadni új fórumot is, ha valaki szeretne?

Jelenleg a következő fórumokban keres a fórumkereső: Index, HWSW, Nők Lapja Café, PC WORLD, Terminal, AVX, SG.hu, Párom.hu, HardwareOC, Prohardver.

A fórumok hozzáadása komoly munka. Mivel minden fórumhoz speciális crawler-t készítnünk, ezért a legnépszerűbb fórumokra kell koncentrálnunk. Szeretnénk a jövőben kisebb fórumokat is indexelni (mert a speciális tartalmak nagyon értékesek), de ennek menetét nem könnyű kidolgozni. Ez még előttünk álló feladat. Akárcsak a mostani trendek szerint egyre fontosabbá váló realtime keresés irányába alakítani a Fórumkeresőt is, hiszen a Twitter és a blogok mellett a szélesebb internet felhasználói réteg vélemény nyilvánítása többnyire még mindig a fórumokban zajlik. Célunk, hogy a  jelenlegi napi egyszeri frissítés helyett a Fórumkereső is realtime indexelje a fórumokat.

Mennyire tud a kereső magyarul?

Jelenleg pontosan arra keres, amit beírtunk, de támogatja a * (csillag) jel használatát, amivel a gyakorlatban nagyon jól el lehet boldogulni a speciális nyelvi támogatás hiánya ellenére is. (pl. macska*)

Persze elegáns lenne bevezetni nyelvi támogatást is, ami elképzelhető, hogy a jövőben meg fog történni.

Miért éri meg ez nektek? Kik csináljátok az oldalt? Mivel foglalkoztok egyébként?

Téli SándorAnyagilag nem éri meg. Éppen fenntartja magát az oldal. Azok a tapasztalatok azonban nagyon értékesek, melyeket a forumkereso.hu eddigi 4-5 éve alatt szereztünk (fejlesztés, üzemeltetés, kapcsolatok). Valamint szakmai sikerként éltük meg, hogy a régió legnagyobb fóruma, az Index.hu fórumok beválasztott minket beépített keresőnek szolgáltatásunk minősége és sebessége miatt. 2007 óta minden oldalukon megjelenik a fórumkereső doboz.Juhász Attila

A szolgáltatást ketten csináljuk: Juhász Attila kollégám (elsősorban a sokat emlegetett speciális crawler-eket készíti és az üzemeltetést látja el) és jómagam (Téli Sándor; elsősorban az indexelő-keresőt és a weboldalt készítettem). Persze egy ilyen szolgáltatás sok minden más apróbb dologból is áll, amiket szintén mi készítünk/látunk el ketten.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

11 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr481686774

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

szempontpuska 2010.01.20. 16:11:13

Hát nem tudom...
Találomra tehetnének egy próbát az index fórumon, mely híresen sz@r.
Ha valamit keresek a hozzászólásokban, a google-val hamarabb célt érek, mint az index fórumkeresőjével.

Az Indexen pedig a saját keresővel még olyan hírt is nehéz megtalálni, ami néhán yórája még a címlapon volt.

talán jobb ha tudjátok, milyen híre van ezen a téren az indexnek :-(

Kereso75 · http://kereses.blog.hu 2010.01.20. 16:21:16

A fórumkereső egész biztosan nem keres az indexes cikkekben. Az más cég, más termék :)

Hogyan fogalmaznád meg a Google-ben, hogy pl a nokia 5800-as telefonról szeretnél nem hivatalos véleményeket olvasni különböző fórumokban?

szempontpuska 2010.01.20. 16:23:29

@kereso: "A fórumkereső egész biztosan nem keres az indexes cikkekben. Az más cég, más termék :)"

- értsd félre és semmisítsd meg!
Ismerem ezt a módszert, ne fáradj vele nálam :-D

A fórumkeresésre visszatérve, megpróbálok visszaidézni egy kísérletet....

Kereso75 · http://kereses.blog.hu 2010.01.20. 16:33:43

@szempontpuska: Egyébként nem volt ilyen szándékom. Csak azt jeleztem, hogy az index keresőjét nem szívesen minősíteném. Pláne úgy nem, hogy szívesen csináltunk volna oda egy jobb keresőt...

Merras · http://miyazakijun.hu 2010.01.20. 17:56:57

A kis fórumok crawlerezéséhez... olyat nem lehet, hogy népszerű fórummotorokhoz csináltok crawlert? phpBB, SMF, IPB, vBulletion, stb, csak hogy a népszerűbbeket említsem.

Elkészül egy phpBB crawler, akkor egyből egy tonna fórumban fogtok tudni keresni.

T_S 2010.01.20. 20:05:43

@szempontpuska: Nem volt számomra világos, hogy mi a mondanivalód, de végigveszem az egyes lehetőségeket:

Ha maga az Index fórum kereső nem tetszik neked, az érthető. Mi is ezért csináltunk egy annál jobbat. Ha a mienk sem tetszik, azt is elfogadom természetesen ;)

Azt viszont nyilván nem lehet mondani, hogy >félmillió ember által írt >100millió hozzászólás értéktelen. Jórészt ugyanezek az emberek írják a magyar web tartalmat is.

T_S 2010.01.20. 20:15:03

@Merras: Igen, ez lenne a megfelelő irány szerintünk is. Mégis, vannak is komoly korlátok:
Ezek a fórummotorok annyira konfigurálhatóak, hogy egyszerű telepítéskori customizáció (de szépen írtam..) során annyira különböző formákat öltenek, hogy egy általános algoritmusnak rendesen beletörne a foga. A legegyszerűbb és a legkönnyebben kikerülhető (de szemléletes) példa pl. dátumformátumok kérdése. Lehet "2009.01.01", de akár csak ennyi: "24. Szerda". Namost, ez már eleve nem ugyanannyi információ. Ennél vannak súlyosabb dolgok is, pl. kompletten el lehet rejteni olyan dolgokat, amikre számítana az előzőleg nagyon körültekintően megírt crawler. (akár a dátumokat is, stb...). A sok-sok ilyen kisebb-nagyobb dologból 2-3 beállítása felismerhetetlenül megváltozik és már annyit sem tud megállapítani az általános algoritmus, hogy pl. mely topikokba került be új hozzászólás.
Az már csak hab a tortán, hogy template-eket lehet váltani és ezek nem feltétlenül egy ember által készített, egységes módszerek alapján készülnek. Szóval könnyen káoszba fullad a dolog.
El tudom képzelni, hogy pár nagyon komoly tudású ember összeülve megoldja ezeket a dolgokat egyszer, de bármennyire is szeretném, nem hiszem, hogy benne leszek a csapatban :)

Juhász Attila · http://forumkereso.hu 2010.01.21. 22:56:03

@Merras: A Fórumkereső crawlerének új verziója már úgy készül, hogy a közös crawler magból vannak származtatva az egyes fórummotoroknak megfelelő crawlerek, majd abból származnak az adott fórummotorok különböző verzióihoz tartozó cralwerek és azokat kell hozzáigazítani egy-egy konkrét fórumhoz. Ha kész lesz, lényegesen kisebb munka lesz egy-egy fórumot integrálni a Fórumkeresőbe. Eddig éppen az hátráltatta a dolgot, hogy megpróbáltunk egy olyan közös magot írni, hogy az ráhúzható legyen minél több fórumra.

emerikusz · http://cylex.blog.hu 2010.02.08. 07:49:53

Érdemes lenne talán általánosabb crawlert is írni ami értelmezni tudja a mikroformátumokat. Mivel a Google is támogatja ezeknek a használatát egyre elterjettebbek Magyarországon is. Ha valaki be szeretne kerülni a fórumkeresőbe nincs más dolga mint alkalmazni ezt a standardot. Mi már régóta használunk mikroformátumot a vélemények és a hozzátartozó elemek (cég, termék, véleményíró) megjelölésére.
süti beállítások módosítása