HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Bölcs keresők

2011.11.08. 12:00 Szerző: Zoltán Varjú Címkék: keresés jövője tematikus kereső alternatív keresőfelület digitális bölcsészet

Sokak fejében élő sztereotípia a tarisznyás bölcsész, aki a könyvtárban (és/vagy a büfében) tölti élete nagy részét, világmegváltó dolgokról elmélkedve, de üres zsebbel, az információ technológia világától távol érthetetlen (haszontalan) dolgokkal foglalkozva. Viszont a közhiedelemmel ellentétben a bölcsészettudományok művelőit sem kerülte el az IT forradalom, mégpedig annyira nem hogy mára kialakult az ún. digitális bölcsészet irányzat, amit angol neve (digital humanities) után gyakran csak DH-nak hívunk. Ez a terület a források digitalizálásával és kereshetővé tételével foglalkozik.

 

A tavaly elindult Google Ngram Viewer talán a legismertebb DH projekt. A Google könyvdigitalizálási projektjének “melléktermékeként” egy olyan többnyelvű szöveghalmaz (más néven korpusz) jött létre ami lehetővé teszi hogy bizonyos trendeket nyomon kövessünk. Maga az adathalmaz úgynevezett bag of words modellen alapul, azaz nem a konkrét műveket hanem a bennük előforduló szavakat (gyakoriságukkal együtt) tartalmazza, így megkerülve a szerzői jog kérdéseit is. Hogy mennyire lehet releváns következtetéseket levonni egy ilyen eszközre alapozva az kérdéses (az eszköz köré szerveződött Culturomics kutatócsoport szerint sok dologra releváns választ kaphatunk), annyi azonban biztos hogy bizonyos trendeket nagyon jól ki lehet venni. Pl. ábránkon jól látható hogy az “austria” és “hungary” szavak gyakorisága a szabadságharc idején nagyon eltérő tendenciát mutat, ahogy a kiegyezés, úgy az első világháború körüli időben is többször említik hazánkat. A két világháború közötti időben ismét összetartanak a trendek, majd az ötvenes években megint hatalmas ugrás következik. Érdekes hogy a rendszerváltás és az azt követő időszak során tulajdonképpen hasonló gyakorisággal fordul elő a két ország neve.

 

googlengram.png

 

A Stanford University The Human Experience – Digital Humanities projektje sok, izgalmas kezdeményezést fog össze a DH területén. A legizgalmasabb a “Mapping the Republic of Letters” kezdeményezés, ami a felvilágosodás korának kiterjedt levelezését mutatja be vizuálisan. Habár eddig is tudtuk hogy ebben a korban kiterjedt levelezést folytattak a tudós elmék, térképre vetítve a közöttük fennálló kapcsolatokat megdöbbentő hogy mennyire nyüzsgő és milyen sok kapcsolatból álló hálók rajzolódnak ki.


 Screenshot.png

 

 

Ahhoz hogy ilyen szép vizualizációkat jelenítsünk meg, szükségünk van a levelek digitalizált változataira és az automatikus feldolgozására (pl. a szerző és a címzett kinyerésére, a keletkezési hely és a dátum megtalálása stb.) amihez elengedhetetlen a modern szövegbányászati és keresési eszközök használata. Ezek az eszközök sokkal inkább szemléltetik azt amit eddig is tudtunk, ez önmagában is eredmény, de mit tud nyújtani a keresés az elmélyültebb kutatói munkának?

 

Aditi Muralidharan a Berkeley PhD hallgatója egy olyan alkalmazást álmodott meg ami lehetővé teszi hogy a szövegekben különböző, a szavak között fennálló viszonyokra kereshessünk. Ez önmagában még nem nagy újdonság, a korpusznyelvészetben régóta bevett dolog, azonban a WordSeer felülete nem igényel különösebb előképzettséget, és az eredmények is rögtön értelmezhetőek. Kérjünk le pl. egy véletlenszerűen kiválasztott mondatot a “Slave Narratives” korpuszból.

wsrandom.png

A bal oldalon a menüből választhatjuk ki hogyan elemezze a rendszer a mondatot, a “done by”, “described as” “neg” stb. opciókra kattintva a megfelelő nyelvi konstrukciók kiemelve jelennek meg. Ha látni akarjuk hogy milyen más szavakkal fordulnak elő az adott viszonyban az egyes szavak, vagy hogy milyen viszonyba állhat egymással két vagy több szó, akkor erre is rákereshetünk.

wsrjandom02.png

A “God” szóra keresve megkapjuk milyen viszonyokban fordul elő, és az ehhez tartozó mondatokat is láthatjuk. Ha szűkítünk pl. a “described as” viszonyra, láthatjuk miképp írják le Istent ezekben az elbeszélésekben.

 

wsgodany.png

A WordSeer nagy figyelmet kapott, hiszen nem csak a kvantitatív (számszerűsíthető, mérhető) munkákhoz használható remekül, hanem a bölcsészettudományokban sokkal gyakoribb és elfogadottabb kvalitatív (értelmező) vizsgálódásokhoz nyújt hasznos adatokat. A rendszer nyílt forráskódú, bárki kipróbáljhatja, módosíthatja és nem csak irodalmi/történelmi szövegekkel működik.

 

 

Ahogy egyre több adatot digitalizálunk kitágul a látóterünk, azonban egyre nehezebb is a megszokott módszerekkel feldolgozni a forrásokat. A keresés ezeken a területeken is segíti a felhasználókat. Kultúránk, múltunk és jelenünk megismerése fontos jövőnk szempontjából, a technológia gazdagítja ezt a folyamatot, de tanulhatunk is a felmerülő problémákból. Szerencsére már hazánkban is művelik a DH-t: Kalcsó Gyula Digitális bölcsészet blogját ajánljuk minden érdeklődő figyelmébe.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kérdezz! Felelek.

2011.11.02. 12:00 Szerző: Zoltán Varjú Címkék: keresés válasz-keresők answer engine WolframAlpha TrueKnowledge Siri

A Siri eléggé meggyőzően bizonyította még az amúgy szkeptikus közönség felé is hogy a személyi asszisztens szerepét átveheti (ha korlátozott formában is) egy mobil. Nézzünk azonban egy kicsit mélyebbre és vizsgáljuk meg hogy mi teszi lehetővé hogy a Siri válaszoljon kérdéseinkre. Ezek pedig a keresőkhöz nagyon hasonló ún. válasz-keresők v. answer engine-ek. A posztban két ilyen keresőt mutatunk be, a WolframAlpha-t és a TrueKnowledge-et, a Siri jelenlegi és korábbi partnereit.

 

Az Apple marketingesei nagyon jó kis videót készítettek, mely szerint természetes beszélt nyelven adhatunk utasításokat új iPhone 4S készülékünknek.



 

Mielőtt az Apple innovációs képességeit dícsérnénk nem árt tudni hogy az almás cég akvizíció során jutott a technológia birtokába (l. az angol Wikipedia vonatkozó szócikkét). A cég tervei között szerepeltek más platformok is, de érhető hogy az új tulaj nem szeretné kiszolgálni a konkurenciát. A rendszer magját a SRI International CALO projektje adta, ezt egészítették ki a Nuance Dragon beszédfelismerőjével ill. a válasz-keresőkkel. Attól függetlenül hogy a Siri beváltja-e a hozzá fűzött reményeket remekül bizonyítja hogy vannak helyzetek amikor a válasz-keresők remekül használhatóak.

 

Mindennapi nethasználatunk során már annyira hozzászoktunk a kereséshez hogy eléggé komoly elvárásaink vannak. A nagy hármas (Google, Yahoo!, Bing) és megannyi konkurensük nagyon hasonló felületet használ. A keresés során az információt kulcsszavakban dekódoljuk és válaszul honlapokat kapunk (valami alapján rangsorolva). Sokáig kísértette a kutatókat a társalgás régi bevett módja és úgy gondolták hogy a legegyszerűbb interakció egy amolyan kérdezz-felelek rendszer lenne, azonban a dokumentumokba lejegyzett információ kinyerése eléggé kemény diónak bizonyult és mire beérett a dolog a mára megszokott keresés már elterjedt. További kérdés hogy mire is használható egy válasz-kereső, mivel adhat többet egy Google-nél. A választ a Siri adta meg sokak számára: olyan interkaciókban amikor a találati lista helyett egy rövid válaszra van szükségünk.

 

Mindkét válasz-kereső letisztult, az általános keresőkhöz hasonló kezdőlappal és kezelőfelülettel indít.

 

wa01.png

 

 

tr01.png

 

A keresés során a WolframAlpha igyekszik a találatokat, vagy inkább nevezzük válaszoknak a kapott eredményeket, keretekbe (frame) rendezni. Itt az interakció formája nagyon hasonlít a megszokott módhoz, kulcsszavakat is beírhatunk, az eredmény pedig valamilyen kapcsolódó ténylesz. A WolframAlpha saját rendszerét “computational knowledge engine” névvel illeti (számításalapú tudásmotor). Azonban akár feltehetünk egy kérdést is a rendszernek! A “president of argentina” helyett használhatjuk a “Who is the president of Argentina?” természetes nyelvi kérdést is, azt a WolframAlpha megpróbálja értelmezni, és az értelmezéshez kapcsolódó információt szolgáltatja eredményekként.

 

wa02.png

 

 

wa03.png

 

 

 

A TrueKnowledge is támogatja mindkét keresési módszert. Akár kulcsszavakat is használhatunk mint pl. "Audrey Tautou".

 

tr04.png

 

Illetve bővíthetjük is a kulcsszavakat amolyan távirati stílusban, pl. “Audrey Tautou's first movie”.

 

tr_tautou.png

 

 

A Google még keresési ajánlatnak is felkínálja hogy “audrey tautou first movie” azonban nem ad választ, a Wikipediához irányít minket az első találat.

 

google01.png

 

Ezzel azonban fontos ponthoz érkeztünk – a TrueKnowledge ugyanis a Wikipeda-n felhalmozott tudást próbálja meg rendszerezni, illetve a lelkes felhasználók tudására alapoz. A WolframAlpha-ról nem tudhatunk meg sokat, de valószínűsíthető hogy hasonló, rendszerezett lexikális tudást tartalmazó forrásokra támaszkodik. Ebben pedig nagyon hasonlítanak a legsikeresbb válasz-keresőhöz a Powerset-hez, ami szintén a Wikipedia-t használta elsősorban, már azonban a Microsoft Bing keresőjét erősíti a rendszer.

 

 


A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A szavak titkos élete

2011.10.25. 12:00 Szerző: Zoltán Varjú Címkék: szótár szemantikus keresés Wordnik

Coixet filmje nagyon szépen érzékelteti hogy a szavakban több van mint gondolnánk. Persze van a szavaknak egy nyilvános élete is amiről a szótárak tájékoztatnak minket, de ki szereti a hatalmas köteteket cipelni, ott vannak hát az online szótárak, de ugye tudjuk hogy a nyilvános dolgokon túl mindenkit azok a titkok érdekelnek... A Wordnik arra vállalkozott hogy forradalmasítja a szótár fogalmát és bebizonyítja hogy a szavak titkos élete kikutatható és a keresésben is alkalmazható.

 

Erin McKean lexikográfus (és több sikerkönyv szerzője, valamint divat blogger) és Mark Wong – van Haren az Excite (1994 óta aktív online szolgáltatás ami a kereséstől kezdve email szolgáltatáson át szinte a teljes vertikumot lefedi) alapítója egyszer összetalálkozott és megszületett a Wordnik szótár. McKean több neves szótárat is szerkesztett és nagyon érdekelte hogy milyennek is kell lennie a 21. század szótárának, van Haren pedig régi motoros a keresésben, nem csoda hogy a találkozásból egy nagyon izgalmas dolog született. A továbbiakban áttekintjük hogy milyen is lett ez az új szótár, majd hogy mire is épül fel ez az egész és végül arra is kitérünk hogy mire lehet felhasználni (és hogyan lehet pénzt keresni ma egy szótárból).

 

Wordnik: All the Words_1318095065746.png

 

 

 

 

A 21. század szótára

 

Addig rendben van hogy az internet korában egy szótárnak elektronikusnak kell lennie és a netes megjelenés is alap – sajnos azonban az ingyenesség már nem annyira magától értetőtőd. McKean nagyon ráérzett arra hogy valami nincs rendben azzal hogy simán tesznek egy keresőt a meglévő adatbázisokra. Egy nyomtatott szótár szerkesztése nagyon körülményes, a használhatóság terjedelmi korlátokat szab, nem lehet csak úgy bővíteni, ezért egy-egy új szó felvétele, vagy éppen törlése nagy vitákat képes kiváltani. De mielőtt ennyire előre szaladnánk, álljunk meg egy percre (vagy egy szóra, ha már a nyelvvel foglalkozunk :D) és gondolkodjunk el azon honnét is „szerzik be” a szótárkészítők az alapanyagot amiből kinyerik a szavakat. A szavak nem magukban állnak, hanem mondatokba szerveződve „élik életüket”, a leggyakrabban pedig nem leírjuk őket, hanem beszéd közben szállnak el. Ahogy minden nyelvészeti bevezetőben áll, a szó és annak jelentése közötti kapcsolat önkényes (semmi sem kötelez miket arra hogy a 'kutya' kutya legyen a magyarban vagy dog az angolban, chien, az angolban, perro a spanyolban vagy inu a japánban). Egy ilyen önkényes jel lenetése nem önmagában adott, hanem a többi jelhez viszonyítva (és persze a nyelvtani szabályoknak engedelmeskedve). Azaz a kutya szó jelentését azok a mondatok és szószerkezetek határozzák meg melyekben előfordul. Így pl.

„Szeretem a kutyákat.”

„Cifra, de aranyos kutya vagy te!”

„A kutya megharapta a postást.”

„A mudi egy magyar kutyafajta.”

A fentiek meghatározzák a kutya szó egy bizonyos jelentését, egyben azt is láthatjuk hogy itt kicserélhetjük minden előfordulását az „eb” szóra. Fontoljuk meg azonban az alábbiakat:

„Kutya rossz idő van.”

„Kutya hideg van.”

„Kutyául állunk.”

„Tito, a láncos kutya.”

Az elő kettőben nem éreznénk elfogadhatónak ha a „kutyát” kicserélnénk „ebre”. A harmadik esetben ezt nyugodtan megtehetjük („Ebül állunk” ha egyre ritkább is, de elfogadható), a negyedik esetben viszont ismét ellenkezik nyelvérzékünkkel a csere. Ezt a jelenséget nevezzük disztribúciónak, vagy eloszlásnak. Minden szó mutat egy eloszlást, az egyes előfordulások hasonlóak, mások jelentősen eltérnek – ezek adják a jelentést.

 

Az elszállt szóra nem építhetjük fel a szótárunkat (legalábbis sokáig nem tehettük ezt meg), ezért a lexikográfia elsődlegesen írott forrásokra támaszkodik. Egy nyelv szótárának elkészítése nem könnyű feladat, ha csak az írott adatokra szorítkozunk is rengeteg kérédés merül fel, kezdve attól hogy milyen időintervallumban vizsgálódunk (bevennénk pl. a magyar nyelv szótárába a 16/17 századi forrásokat, vagy az Ómagyar Mária-siralmat, vagy mondjuk Fluor Tomi dalszövegeit?), de még egy adott intervallumon belül is hatalmas adatmennyiséget kapnánk és nyilván bizonyos változatok felülreprezentáltak lennénke (pl. sokkal több hír és újságcikk keletkezik mint vers vagy tanulmány) ezért meg kell küzdenünk a mintavételezés problémájával is (a közvélemény-kutatások elemzéseiből tudjuk hogy minta legyen reprezentatív, de mit reprezentáljon, a mai magyar nyelvet, de mit értünk ezen, a Magyarországon beszélt magyyar nyelvet, a magyar emberek által beszélt standard nyelvet, a nyelvjárásokat is belevesszük, belevesszük-e az szlenget és egyéb nem-standard változatokat stb). Szembe kell néznünk továbbá azzal a ténnyel hogy a nyelv változik, akár viszonylag rövid időn belül is belső vagy külső hatásokra új szavak jelenhetnek meg, régi szavak jelentése módosulhat stb, Nádasdy Ádám szavait kölcsönvéve a nyelvek „ide-oda változnak, ahogy a tenger ide-oda hullámzik, apad és dagad”. Persze mi magunk részesei, elszenvedői és okai vagyunk ennek a változásnak ezért nem látjuk, de Kumanan Rajamanikkam (Wordnik Lead Engineer) Cloudera vendégposztjában felhívja a figyelmet arra hogy egy elektornikus szótárnak illik feldolgoznia az összes hozzáférhető forrást és egy már eléggé érett, nagy adatbázissal rendelekező eszközzel is megeshet hogy másodpercenként (!) 8.000 szót kell feldolgoznia. Ilyen léptékkel már igen kis eltérések is kimutathatók a nyelvhasználatban, egy buzzword (felkapott hívószó) megjelenése is kimutatható ilyen szinten, ami valljuk be a hagyományos szótárkészítés esetében nem is biztos hogy átmegy a következő kiadásba (amire biztos hogy pár évet várni kell).

 

Ha adva van egy kellően nagy adatbázis (vagy nevezzük nevén és hívjuk korpusznak ahogy a nyelvészek teszik) valahogy lehetővé kell tenni a keresését is az összes elérhető extra információval. A Wordnik ezt egy eléggé hosszúra nyúlt, de azért áttekinthető felülettel oldotta meg.

 

wordnik_definition.png

 

A keresett szó alatt elérhetjük rögtön a Define, Relate, List, Discuss, See, Hear, Share és Love gyorslinkeket. A definíciók általában nyílt forrásból nyert meghatározások, ahol rendelkezésre áll információ ott az etimológiát is megadják (azaz honnét ered a szó). A fent vázolt disztribúción alapuló példa kikeresés is működik, ezt láthatjuk jobb oldalt.


wordnik_relatedwords.png

 

A „Relate” gyorslink vezet minket a „Related words” részhez, ahol szinonimákat, antonómiákat és hiponímiákat találhatunk, valamint a felhasználók által megadott cimkéket (tags) is láthatunk.

 

wordnik_lists.png

 

A felhasználók szerepét nagyon komolyan veszi a Wordnik, bárki regisztrálhat, készíthet magának listákat, kommentálhat szavakat, listákat, sőt részt vehet a Wordnik játékaiban a Twitteren. Egyrészt ez egy nagy buli, másrészt pedig a keletkezett anyag amolyan élőnyelvi korpuszt generál amit ismét lehet bányászni és beépíteni a szótárba...

 

wordnik_commentstweets.png

 

De ha ez nem elég, akad még pár dolog.

 

wordnik_etc.png

 

Minden szavuk aranyat ér?

 

A körítés mellett azonban felmerülhet a kérdés mitől több ez mint pl. a SZTAKI szótárak? Az első legfontosabb különbség hogy a szótár elérhető egy API-n keresztül, az összes funkció beépíthető egy mashup-ba így bárki akinek szótári információra van szüksége alkalmazásához készen kapja meg azt. Az Apple tartalomfogyasztásra kihegyezett termékeihez pedig külön SDK-t adtak ki (software development kit – szoftverfejlesztési eszköztár) ami lehetővé teszi hogy az alkalmazásokból egyszerűen élérhető legyen minden információ. De a Barnes&Noble Nook Color készülékéhez is külön alkalmazást fejlesztettek ki.

 

A tartalomelőállítók és a tartalomfogyasztásra specializálódott eszközök (legyenek azok szoftverek vagy hardverek) gyártóit célozta meg a Wordnik Smartwords kezdeményezése, ami nem más mint egy API szabvány elektronikus szótárakra szabva (maga a készülő dokumentáció is nagyon hasonlít pl. az Open Knowledge Foundation Open Data ajánlásaihoz).

 

 

 

 A Blekko kereső tkp lehetővé teszi hogy különböző feltételek mentén szűrjük és rangsoroljuk a találatokat. A \define slash (így nevezeik Blekko-ul a szűrési feltételeket) eredményét a Wordnik szállítja

 

blekko.png 

 

A korpusz mérete immár lehetővé teszi hogy az egyes szavakat egy olyan strutúrába rendezve kezeljék ami leírja a közöttük lévő kapcsolatokat, erre épül az új WordGraph API. Itt már nem csupán egy szó definíciójának kinyeréséről van szó, hanem a szavak közötti viszonyok leképezéséről is, tehát a szemantikus web tipleteit kapjuk meg (azaz egyfajta alaptudástár, mint a Freebase). A WordGraph első felhasználója a TaskRabbit protál, ami segít összehozni azokat akiknek segítségre van szükségük azokkal akik meg tudják oldani a feladatot (amolyan mindennapi ügyek elintézése olcsón, gyorsan, hatékonyan).

 

tasktabbit.png 

 

A feladat leírása és a potenciális segítő megtalálása során a WordGraph összepárosítja a természetes nyelven leírt elvárásokat és képességeket - kár hogy a Smartwords nevet már ellőtték.

 

A Wordnik sokak kedvence lett 2009-es indulása óta, a korpusznyelvészet berkeiben pedig egyenesen csodálják hiszen az alkalmazott korpusznyelvészet megszületésének vagyunk tanui. Azonban még mindig kérdés hogy képes-e megélni a saját lábán ez a modell, a WordGraph és a különböző szolgáltatások képesek-e annyi profitot termelni hogy fennmaradjon és növekedjen a cég.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mindenre van app... de hol?

2011.10.16. 19:10 Szerző: Zoltán Varjú Címkék: mobil keresés symbian iphone android keresés jövője tematikus kereső alternatív keresőfelület ipad Chomp Quixery app kereső

Lassan biztosak lehetünk abban hogy a legvadabbnak tűnő ötleteket is megvalósította már valaki és létezik applikáció rá, azonban megtalálni ezeket nem olyan egyszerű, különösen ha kíváncsiak vagyunk arra hogy milyen platformokon érhető el az áhított alkalmazás. A feladat megkönnyítésére vállalkoznak az ún. funkcionális (egy adott feladatra koncentráló) app keresők mint a Quixey és a Chomp.

 

Mindkét kereső célja hogy átfogó képet nyújtson az appokról, tehát nem csupán az appstore-okban keresnek, hanem egyéb információkat is igyekeznek összeszedni. Míg a Quixey egy fapadosabb, a Google felületéhez hasonló felület mellett tette le a voksát, a Chomp egy manapság divatos dizájnt választott.

 

quixery.png

 

 

chomp.png

 

A keresés eredményeit hasonlóképpen jelenítik meg.

 

quixery_appsearch.png

 

Azonban a Quixey lehetőséget ad arra hogy szűrjünk a bal oldali menüben milyen platformok érdekelnek benünket (Android, iOS, Mac, Windows, Chrome, Firefox, Facebook, stb.). A Chomp csak iPhone és Android között enged minket választani, de a többi keresőben megszokott oldalsáv helyett a keresődoboz alatti menükben kell korotásznunk.

 

chompresults.png

 

 

Az appok információs oldalai is nagyon hasonlóak.

 

quixery_result.png

 

 

 

 chompresult.png

 

 

Mivel mindkét cég nem rég indult nehéz megmondani mit hoz nekik a jövő. Szubjektív tesztünk során a Quixey felületét sokkal áttekinthetőbbnek és használhatóbbnak találtuk. Szintén a Quixey mellett szól hogy az app fogalmát nem szűkíti le a mobilos applikációk körére, hagyományos operációs rendszerekre is kereshetünk programokat, de a népszerű webböngészők bővítményei között is kutathatunk.

 

Ugyanakkor a Chomp-on látszik hogy komolyan veszik a mobil vonalat (és van Chomp app is!) és sok ex-Powerset-es dolgozik a cégnél akik tapasztalata az app review (kritikák) gépi feldolgozásában és a kereső algoritmus megalkotásában biztos sokat segít a cégnek. A celebekre gerjedőket pedig biztos meggyőzi hogy Ashton Kutcher ott ül a Chomp tanácsadói között.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Keresőpiaci helyzet USA (infografika)

2011.10.12. 14:38 Szerző: Kereso75 Címkék: google yahoo usa bing

Comparison of the Top Three Search Engines: Bing+Yahoo > Google? [INFOGRAPHIC]
Source: Comparison of the Top Three Search Engines: Bing+Yahoo > Google? [INFOGRAPHIC]

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása