Ez a számláló a poszt nézettségét mutatja. Mindenképp olvasd el ezt a posztot a részletekért.

HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (10) big data (39) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (7) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (12) facebook (8) Facebook (7) fintech (5) firefox (4) goldenblog (5) google (57) Google (22) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (50) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (6) konferencia (11) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (16) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (30) mobil keresés (15) Neticle (7) nlp meetup (5) NLP meetup (4) Nuance (8) nyelvészet (7) nyelvtechnológia (48) open data (7) pénzügy (6) politika (4) Precognox (15) Precognox Labs (9) seo (5) smartmobil (4) sna (4) spam (6) statisztika (5) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (20) szövegbányászat (11) társadalomtudomány (4) tartalomelemzés (16) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) Twitter (23) twitter (13) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kereső tanfolyam - 6. Tudományos keresők

2010.12.14. 13:13 Szerző: Vajda Gábor (Gabor_V) Címkék: kereső tanfolyam internetes keresők tudományos keresők google scholar oaister scirus

Az információs szakemberek szempontjából különösen fontosak azok a webes keresőgépek, amelyek a web és a mélyweb értékesebb részére: a szakmai és tudományos tartalomra, publikációkra koncentrálnak. Természetesen keresési pontosságban nem érik el azt a szintet, amit a professzionális, előfizetéses online adatbázisszolgáltatók (pl. Dialog, EBSCO) nyújtanak, de az általános webkeresőknél jóval relevánsabb eredményeket szolgáltatnak szakirodalmi jellegű kereséseknél, és az ingyenes tartalmak mellett adott esetben a fizetős forrásokba mutató mélylinkeket is felkínálnak, amelyeket követve a felhasználó a teljes szövegű dokumentumig is eljuthat - amennyiben a könyvtára előfizető és az illető bejelentkezett a könyvtár információs rendszerébe (vagy könyvtári gépet használ). Fontos az is, hogy mivel ezek a keresők sokféle forrásból (pl. open access folyóiratokból, bibliográfiai adatbázisokból, kiadói katalógusokból, intézményi repozitóriumokból, sőt magukból a publikációk irodalomjegyzékéből is) gyűjtik az adatokat, ezért ezek részletessége nagyon egyenetlen és sokféle írásmód előfordulhat bennük. Ezért például ha szerzőnévre vagy folyóiratcímre keresünk, akkor érdemes többféle módon - pl. különböző rövidítésekkel - is próbálkozni, hogy biztosan megtaláljunk minden publikációt. Hasonló okból a dátumra való szűkítéssel óvatosan kell bánni, mert nem minden esetben van megadva publikálási év, vagy a keresőgép elemzője nem mindig tudja azt megtalálni, így fontos találatokat elveszíthetünk. És viszonylag gyakoriak az egyéb elemzési hibák is - főleg a strukturálatlan HTML oldalakból és PDF fájlokból kigyűjtött adatoknál -, továbbá a hivatkozási számát is kritikával kell kezelnünk, mert az automatikus módszerek nem megbízhatóak a publikációk beazonosításában sem. 

Google Scholar

Az egyik legnagyobb tudományos és jogi kereső a weben, mely 2004 novemberében indult. Saját digitalizálási programjának és a nagy kiadókkal valamint könyvtárakkal való együttműködésének köszönhetően értéknövelt szolgáltatást tud nyújtani más hasonló szolgáltatásokhoz képest. Az egysoros kereső a Google általános keresőjéhez hasonló, de itt az intitle: vagy allintitle: prefix mellett author: előtagot is használhatunk, így szerzőre is tudjuk korlátozni a keresést (a neveket idézőjelek közé érdemes írni, és a keresztnevet csak rövidíteni, pl. author:"p jacso".) A + jellel olyan szavakra és egyéb karakterekre is rá tudunk keresni, amelyeket a rendszer amúgy figyelmen kívül hagy, a - jellel pedig kizárhatunk nem kívánt szavakat/neveket. Az Advanced Scholar Search űrlapon jóval több opció közül választhatunk, különösen ha az angol felületre váltunk, mert a magyarított verzió nem teljesértékű. A legfontosabb lehetőség, hogy a keresést 7 nagy témakörre (egyszerre akár többre) is korlátozhatjuk, ami nagy segítség olyan fogalmaknál, amelyek több tudományterületen is előfordulnak eltérő értelemben (bár ezzel találatokat is veszíthetünk, mert nem minden forrás vagy cikk van témakörbe sorolva).

Érdemes még a Scholar Preferences menüpontot is megnézni, mert itt adhatjuk meg, hogy milyen nyelvű publikációkat keresünk, hogy tagjai vagyunk-e valamelyik könyvtárnak, amely részt vesz a Google Scholar Library Links együttműködésben (ez esetben hozzáférhetünk a fizetős full text tartalmakhoz is - bejelentkezés után), illetve hogy szeretnénk-e a számunkra fontos publikációk adatait valamilyen bibliográfia-kezelő rendszerbe importálni (pl. Endnote, BibTeX, RefWorks), mert ez esetben a találatok alatt megjelenik egy erre szolgáló link. A találatokat a Scholar igyekszik a tudományos szempontokhoz hasonlóan rendezni: az absztrakt és a teljes szöveg (amennyiben elérhető) elemzése mellett előrébb helyezi azokat a publikációkat, amelyeket gyakran idézett szerzők írtak, vagy rangos folyóiratokban jelentek meg, és amelyekre sok hivatkozás történt a szakirodalomban. A Related Articles linkre kattintva a keresőrendszer hasonló tartalmú dokumentumokat mutat, így könnyen tovább bővíthetjük a találatok halmazát, ha sikerült legalább egy igazán releváns tételt találnunk. Ez esetben a sorrendezést - az egyes dokumentumok saját fontossága mellett - az is befolyásolja, hogy mennyire hasonlítanak a kiindulásként használt publikációra. Ha egy publikáció teljes szöveggel nyilvánosan hozzáférhető, akkor a Google Scholar a jobb oldali sávban közvetlen letöltési lehetőséget kínál föl (ezt néha a [CITATION] típusú találatoknál is megteszi, aminek az lehet az oka, hogy ugyan eredetileg csak hivatkozásként találta meg az adott dokumentumot valamilyen irodalomjegyzékben, de azután más forrásból a teljes szöveget is hozzárendelte). Hogy egy publikáció adatait hányféle helyen találta meg a keresőgép, azt az All ... versions linkre kattintva nézhetjük meg. A Cited by... link pedig azokat a dokumentumokat listázza ki, amelyek az illető publikációra hivatkoznak (ezek szintén érdekesek lehetnek a keresgélő felhasználó számára is).  

Scirus

Az Elsevier cég által működtetett szolgáltatás 2001 áprilisában indult és egy dodonai látnokról kapta a nevét. Saját ismertetője szerint a web legnagyobb tudományos keresője, jelenleg több mint 370 millió tételt tartalmaz az indexe (ebben nem csak full text anyagok vannak), és a forrásai közt a tudományos folyóiratok mellett tudományos honlapok, tananyagok, preprint archívumok, repozitóriumok és szabadalmi adattárak is vannak, és átvesz adatokat a Scopus-tól: az Elsevier előfizetős absztrakt- és idézettség-adatbázisából is. Itt is az Advanced search alatt látjuk a rendszer valódi lehetőségeit (bár még itt sem mindet). Sokféle szűrési lehetőségből választhatunk (típus, formátum, forrás, téma, dátum), de sajnos a teljes szöveggel elérhető publikációkra nem korlátozhatjuk a keresést. A gyorskeresőben + és - jeleket használhatjuk egyes szavak kötelező előírására illetve letiltására; kifejezéseket idézőjelek közé írhatunk; továbbá * és ? joker karaktereket is megenged a keresőnyelv. A fontosabb mező-prefixek: au: (szerző), ti: (cím), jo: (folyóirat), ke: (kulcsszó). Az információforrásokat három csoportba sorolja a Scirus: Journal sources (előfizetéses és nyílt tudományos folyóiratok), Preferred web (komolyabb tudományos archívumok, repozitóriumok), Other web (egyetemek és tudósok honlapjai, konferencia-oldalak, céges site-ok, tudományos hírforrások). A találati listák ezen háromféle típus, valamint formátum szerint is tovább szűrhetők.

A keresés pontosításához a rendszer további kulcsszavakat (refine your search) és hasonló találatokat (similar results) kínál fel. A találatok fontosság és dátum szerint rendezhetők - előbbit a Scirus a keresett szavak előfordulási gyakorisága és a dokumentumra mutató linkek számának kombinációjából számítja ki. A metaadatokat nem használják a súlyozáshoz, mert azok manipulálásával befolyásolni lehetne a sorrendet. A kijelölt rekordokat elmenthetjük a Scirus szerverére (max. 25 tételt, melyek ezután a Saved results linkre kattintva nézhetők meg), vagy elküldhetjük e-mailben, továbbá exportálhatjuk a bibliográfia-kezelő szoftverek többsége által támogatott RIS (Research Information Systems) formátumba. A Scirus-nak is van könyvtári partnerprogramja, így ha bekapcsoljuk ezt a funkciót a Preferences alatt, akkor a könyvtári azonosítónkkal hozzáférhetünk az előfizetős cikkadatbázisok rekordjaihoz is. 

OAIster

A Mellon Alapítvány által támogatott projektet 2002-ben indította a University of Michigan Libraries, 2009-től pedig az OCLC-vel (Online Computer Library Center) együttműködve, annak a WorldCat rendszerbe integrálva üzemel tovább ez a szolgáltatás. Ahogy a neve is utal rá, ez a kereső az OAI-PMH szabvány szerint begyűjthető metaadatokra épül, és 2010 tavaszán már több mint 23 millió rekordot tartalmazott az adatbázisa, melyek 1,100-nál is több forrásból, nyílt archívumból (köztük a MEK-ből is) származnak. A dokumentumtípusok közt digitalizált és eleve digitálisan született könyvek, cikkek, disszertációk, kutatási jelentések, képek, hangfelvételek, videók és adatgyűjtemények egyaránt találhatók. Az Advanced Search alatt szerző, cím, kulcsszó mellett kiadó, témakör, típus, formátum, dátum és még néhány egyéb adatmező segítségével állíthatjuk össze a keresőkifejezésünket. A gyorskeresőben a mezőnevekre prefix-ekkel hivatkozhatunk, ezek listája ebben a táblázatban látható. De itt is számításba kell venni azt, hogy mivel az OAIster indexe nagyon sokféle forrásból származik, ezért az adatmezők tartalma és kitöltöttsége erősen szóródik.

A találati lista mellett balra szerzők és évek szerinti szűkítési lehetőségünk van, és a találatok sorrendjét is átállíthatjuk (fontosság, szerző, cím és dátum szerint). A listákból kijelölt tételek, valamint a keresőkérdések elmenthetők (amennyiben van ingyenes WorldCat accountunk), vagy megoszthatók másokkal. A metaadatok ki is exportálhatók különböző szabványos formátumokban. Az OAIster digitális forrásgyűjteménye az OCLC FirstSearch és WorldCat Local szolgáltatásaiból is elérhető, jó példaként a hagyományos könyvtári adatrekordok és az online publikációk metaadatainak együttes kereshetőségére.


Összeállította: Drótos László, Magyar Elektronikus Könyvtár

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben.

Nincsenek hozzászólások.