Ez a számláló a poszt nézettségét mutatja. Mindenképp olvasd el ezt a posztot a részletekért.

HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (11) big data (42) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (8) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (14) Facebook (7) facebook (8) fintech (5) firefox (4) gépi tanulás (5) goldenblog (5) Google (22) google (57) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírelemzés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (52) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (8) konferencia (11) könyvajánló (10) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (17) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (31) mobil keresés (15) Neticle (8) NLPmeetup (4) nlp meetup (5) NLP meetup (5) Nuance (8) nyelvészet (10) nyelvtechnológia (56) open data (7) Pennebaker (5) pénzügy (6) politika (4) pollyanna (4) Precognox (16) Precognox Labs (12) R (7) seo (5) smartmobil (4) sna (4) spam (6) statisztika (7) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (24) szövegbányászat (12) társadalomtudomány (4) tartalomelemzés (20) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) Twitter (23) twitter (13) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Adatújságírás - mérföldkövek

2013.02.26. 12:00 Szerző: zoltanvarju Címkék: nyelvtechnológia adatújságírás Django The Overview Project

Előző posztunkban bemutattuk, miképp hatottak az új IT trendek és társadalomtudományi kutatások az újságírásra és alakult ki az adatvezérelt irányzat. Az internet elterjedésével a nyomtatott sajtónak is számolnia kellett, megjelentek a híroldalak és minden valamire való lap saját oldallal jelentkezett a világhálón. Ekkor jelentek meg az ún. MVC (model-view-controller, model-nézet-kontroller) keretrendszerek, amik nagyon népszerűek lettek a hír- és tartalomiparban. A megoldás lényege, hogy elkülönítik az adatok reprezentálását (modell) és megjelenítését (nézet). Így egy modellhez, akár több nézet is tartozhat, amit a két egység között közvetítő kontroller határoz meg. 2005-ben az Egyesült Államok egy kansasi kisvárosában Lawrence-ben a Lawrence Journal megengedte fejlesztőinek, hogy saját MVC keretrendszert fejlesszenek ki , ezzel született meg a Django webprogramozási keretrendszer, amit a Pinterest és a Mozilla mellett olyan nagy híroldalak is használnak, mint a The Washington Times és a Public Broadcasting Service.

django.png

A Django fejlesztői között akadt egy nagyon érdekes figura, Adrian Holovaty. Alig egy évvel a keretrendszer megalkotása után ő írta A fundamental way newspaper sites need to change (Ahogy a híroldalaknak alapvetően meg kell változniuk) című esszét, amit a modern adatújságírás manifesztumának tartanak. Az esszé lényegében a hírekre is kiterjeszti az MVC alapelvet. Mivel a narráció célja, hogy a tényadatokat (ki[k], mikor, hol és mit csináltak) kontextusba helyezze, érdemes külön is kigyűjteni az adatokat. Így pl. egy helyi lapnál minden egyes betörésről születhet egy cikk, de egyben bővül is az adatbázisa és az olvasók maguk is megnézhetik hol és mikor történtek betörések. Így lehetőség nyílik arra, hogy alaposabban megvizsgáljuk az adatokat és összevessük más tényezőkkel is azokat (pl. van-e rendőrőrs a betörések közelében, mekkora arrafelé a munkanélküliség, milyen más bűncselekmények történnek az adott környéken stb.) Holovaty alapított is egy startup-ot ötletére, az Everyblock-ot, amit sajnos új tulajdonosa hamarosan be fog zárni. Az esszé hatása azonban tovább él és sokakat inspirál (pl. a blogunkon nemrég bemutatott Circa is az esszé alapötletére épül).

WL_Hour_Glass_small.jpg

2006-ban alapították lelkes aktivisták a WikiLeaks alapítványt és portált. A híres kiszivárogtatások nagy kihívás elé állították a szerkesztőségeket, hiszen a WikiLeaks első évében több mint 1.2 millió dokumentum került napvilágra különböző ügyekben. Ezek áttekintése és értelmezése szinte lehetetlen feladat lenne a modern technika vívmányai nélkül. A 2010-ben kiszivárogtatott Iraq War Logs (iraki hadi cselekmények jelentései) összefoglalója egy 92,201 soros táblázat, ami tartalmazza a harci cselekmény helyét, idejét és rövid leírását. Ennek egy része hagyományos módszerekkel is elemezhető, de a leírások áttekintéséhez be kellett vetni a nyelvtechnológiát is.

SIGACTS dec 2006 hi res2.jpg  4793×6228 .png

Jonathan Stray (adatújságíró és programozó) az Associated Press-nél vezette a szöveges megjegyzések feldolgozására irányuló munkát és felismerte, hogy egy általános problémával került szembe. Nem csak a kiszivárogtatások során özönlenek a dokumentumok a szerkesztőségekre. Az ún. FOIA (információs szabadság törvények által biztosított jog) keretében kikért információt a hatóságok gyakran szeretik átadni sok lényegtelen kísérő dokumentummal. A törvényes, ám cseppet sem etikus eljárás célja, hogy minél később akadjon az információt kérő a számára fontos adatokra. Ám maguk a szerkesztőségek is sok adatot halmoztak fel archívumaikban, melyek "cikkekbe" vannak zárva. A nyelvtechnológia segít abban, hogy kinyerhessük a szükséges információt és Holovaty elveinek megfelelően külön eltárolhassuk az adatokat. Stray a Knight Foundation támogatásával elindította az ilyen problémák megoldására alkotott The Overview Project-et (amit egy korábbi írásunkban már bemutattunk).

A technológia és az újságírás sikeresen egymásra talált a közelmúltban és sokan gondolták azt, hogy az adatok korában a társadalomtudományi ihletettségű ún. precíziós újságírás (precision journalism) pepecselős adatgyűjtése helyett, a nyílt és az ilyen-olyan módon megszerezhető adatok leveszik a kutatás terhét az újságírók válláról. A 2011-es angliai zavargások azonban rámutattak arra, hogy nem ilyen egyszerű a helyzet - sorozatunk következő részében erről számolunk be.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben.

Nincsenek hozzászólások.