HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adatbányászat (9) adatelemzés (6) adatok (13) adatújságírás (16) adatvizualizáció (18) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (51) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) Google (24) google (57) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (62) kereséselmélet (8) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (7) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (14) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (30) nyelvtechnológia (73) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (53) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (35) szövegbányászat (18) társadalomtudomány (7) tartalomelemzés (55) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (13) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A szöveges keresés 14 problémája

2010.05.26. 10:25 Szerző: siklosib Címkék: kereső szándéka keresés problémái keresési kifejezések keresők viselkedése szöveges keresés

 Minél többet használjuk az internetes keresőket, annál gyakrabban kerülünk olyan helyzetbe, hogy nem tudjuk hogyan fogalmazzuk meg mit is keresünk, hiszen önmagában beírva a kifejezést nem azokat az eredményeket fogjuk kapni, amit szeretnénk. A keresők éppen ezért gyakran jelentkeznek olyan újításokkal, amelyek a természetes nyelvi feldolgozást, szemantikus keresést, mély webes keresést hangsúlyozzák.

Jeffrey Beall, a Colorado Denver-i egyetemről összeállított egy listát arról, hogy mik a jellemző problémák, a szöveges keresés nehézségei:

  1. Szinonímák: rákereshetünk egy kifejezésre, de biztosan nem fogjuk az összes szinonímája mentén is elvégezni a keresést. Így a keresett információnak csak az a része jut el hozzánk, ami pontosan az általunk beírt alakban tartalmazza a kifejezést.
  2. Elavult kifejezések: sokszor nem gondolunk egy-egy kifejezés elavult formájának keresésére. Például a filmek történetéről való keresés során nem gondolunk a mozgókép kifejezésre.
  3. Homonímák: több jelentésű, azonos alakú szavak esetén a kereső nem tudja eldönteni, hogy melyikre gondolunk, ezért az eredmény elég zajos lesz.
  4. Spam-ek: az internet tele van "szeméttel", nem megfelelő minőségű, olykor éppen valótlan információkkal, amelyeket a keresők nem tudnak megkülönböztetni a megbízható forrásoktól.
  5. Az eredmények szűkítésének hiánya: az eredmények csoportosítása, finomítása ritkán jelenik meg a keresőknél.
  6. Az eredmények rendezése: mivel a keresők nem sok adatot tudhatnak a kapott eredményekről, ezért nehéz bármilyen rendezési szempontot megvalósítani (pl keletkezés dátuma).
  7. Tartalmi problémák: attól, hogy egy oldal tartalmazza az általunk beírt kereső kifejezést, még nem biztos, hogy arról a témáról szól.
  8. Képletes leírások: rákereshetünk a repülés szóra és kaphatunk olyan eredményeket, melyek arról szólnak, hogy valaki repül örömében.
  9. A keresett kifejezés nem szerepel egy releváns oldalon: létezhet olyan leírás egy témáról, ami egyáltalán nem említi az adott formában a keresett kifejezést.
  10. Elvont témák: olyan nehezen megfogható témákról, mint egészség, szabad akarat, erkölcs nehezen találhatunk eredményeket. Az ilyeneknek nincs lexikai leírása, illetve ha van, nagy valószínűséggel akkor sem ezeket keressük.
  11. Több téma kapcsolata: ha két kifejezés kapcsolatára keresünk, előfordulhat, hogy olyan eredményeket kapunk, ahol mindkét kifejezés szerepel, de egymástól teljesen függetlenül, a kettő közötti kapcsolatról nem esik szó.
  12. Szó listák: a keresés eredményei származhatnak internetes szótárakból, felsorolásokból, szólistákból, amelyek az esetek nagyon kis százalékában felelnek meg a kereső szándékának.
  13. A mély web: a legtöbb minőségi információ nem a Google és a többi kereső által elérhető felszínen található, hanem az ún mély weben, amiket így nehéz elérni.
  14. Nem szöveges adatok: a megfelelő leírás, meta információk nélküli nem szöveges adatok elérése nagyon nehéz.
Bár a különböző keresők fejlesztői egyre nagyobb hangsúlyt fektetnek ezen problémák megoldására, egyelőre még valóban problémát jelentenek, a gépek emberi intelligenciától való távolságát bizonyítva. Mit tehetünk ha mégis minőségi információkra, esetleg tanulmányokra van szükségünk egy-egy kutatáshoz? Jeffrey Beall szerint érdemes a nagy könyvtárak adatbázisaihoz fordulni, amik bár szintén szöveges információk keresésén alapulnak, számos problémától mégis mentesek.

 

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr572032306

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

MárkaJani · http://www.brandepito.com 2010.05.26. 11:44:16

Ez is rámutat arra, hogy milyen kiaknázatlan lehetőségek vannak még a keresőpiacon. Nagyon izgalmas belegondolni, hogy milyen új dolgok várnak még ránk, ezen a téren is.

$Norbert$ · http://www.marketing112.hu 2010.05.26. 19:50:24

Jó a cikk és ez a lista. Mondjuk amíg vannak alternatívák, addig lehetőségek is, ha optimalizálunk vagy olcsó kulcsszót keresünk.