HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (10) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (17) alternatív (6) alternatív keresőfelület (27) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (16) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (58) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (32) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (81) kereséselmélet (8) keresés jövője (55) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (13) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (8) LDA (10) lda (10) live (13) machine learning (8) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (17) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (31) nyelvtechnológia (75) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (61) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (21) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hogyan cenzúrázd az internetet?

2015.07.03. 09:00 Szerző: Kitti Balogh Címkék: pagerank politikai blogok R fragmentation

Miután felderítettük a politikai blogok hálózatát, elemezgettük és előadtunk róla, épp itt az ideje, hogy szétromboljuk, ahogyan egy rendes LEGO-építményt illik. Na de mennyire ellenálló az építményünk? Szétesik egy jól irányzott csapástól vagy fogainkat és körmeinket segítségül véve kell szétszednünk az elemeket? Mit tegyen egy gonosz manó, ha nem tetszik neki, hogy a különböző nézeteket képviselő oldalak között összeköttetéseket, utakat találhatunk? Posztunkban a hálózat támadásának két stratégiáját vetjük össze.

001.png

Hogy szétbombázzuk az 1195 kapcsolattal összekötött 747 blogból és híroldalból álló hálózatunkat, két stratégiát vetettünk be Albert Réka, Hawoong Jeong és Barabási Albert László cikke alapján. Az első stratégia a random meghibásodások mintáját követi. Mivel egy hiba véletlenszerűen jelentkezik, mi is véletlenszerűen választunk ki egy-egy weboldalt, és töröljük minden kapcsolatával együtt. Majd jön a következő oldal, azt is töröljük, és így tovább. A második stratégiát követve azonban nem bízzuk a véletlenre a rombolást, hanem megkeressük a hálózat igazán fájó pontjait és azokat támadjuk meg. Barabásiék cikkétől eltérően nem a legnagyobb fokszámú (legtöbb kapcsolattal bíró) oldalakat szüntettük meg, hanem a legnagyobb PageRank értékkel rendelkezőket. (Ezt előzetesen kipróbáltuk, és a PageRank támadás nem sokkal, de valamivel hatásosabb tömegpusztítónak bizonyult.) A rombolást addig folytathatjuk, míg el nem fogy az összes oldal, de mivel mi éppen azon vagyunk, hogy kiélhessük a destruktív hajlamunkat, annak örülünk, ha minél kevesebb oldalt megsemmisítve tudjuk szétszedni a hálózatot.

És hogy melyik a nyerő stratégia, a véletlenszerű vagy a PageRank érték szerinti támadás, a következő két videó elárulja:

 

 

 

Mindkét videón 100 oldalt iktattunk ki egyik és másik stratégia szerint. Azt valószínűleg sejthettük, hogy ha a PageRank érték szerinti legfontosabb oldalakat semmisítjük meg, a hálózat súlyos sérüléseket szenved és hamar szétesik. Az azonban meglepő lehet, hogy a random támadások szinte meg sem kottyannak a hálózatnak, és alig történik valami a szerkezetével.

Ahogy Barabásiék cikkében is olvashatjuk, ez annak köszönhető, hogy a vizsgált hálózat - ahogyan a valós hálózatok többsége - skálafüggetlen, tehát nagyon sok olyan weboldal van a hálózatban, amely kevés kapcsolattal rendelkezik, és csak néhány olyan oldal van, amely nagyon sokkal. Ezért van az, hogy ha véletlenszerűen támadunk, jóval nagyobb valószínűséggel fogunk ki olyan oldalt, amelynek csak kevés kapcsolata van, és a hálózat szerkezetére nézve nincs különösebb jelentősége a kiiktatásának. Míg ha a PageRank érték szerint támadunk, akkor pont azokat az oldalakat semmisítjük meg, amelyek központi jelentőségűek a gráf szerkezetében.

Ezt a jelenséget szemlélteti a következő ábra is, csak a hálózat egy másik tulajdonságának szempontjából. Az ábra azt mutatja, hogy hogyan változik a hálózatban az átlagos úthossz a véletlenszerű és a PageRank támadások hatására. Az eredeti hálózatban kb. 3,26-os volt az átlagos úthossz, azaz bármelyik oldaltól egy másik bármelyik oldalig nagyjából három oldalon keresztül jutottunk el átlagosan. A PageRank támadás hatására az egyre fogyatkozó hálózatban az átlagos úthossz szinte azonnal növekedni kezd, ami azt jelzi, hogy fontos összekötő elemeket szüntettünk meg. Az oldalak csupán egytizedének törlésével szét is esik a hálózat, és az átlagos úthossz értéke is leesik. A random támadások azonban nincsenek nagy hatással az átlagos úthosszra, az oldalak ¾-ét is törölnünk kell ahhoz, hogy megérezze a támadást a hálózat és elkezdjen szétesni.

 

avl.png

 

Ha tehát van egy skálamentes hálózatunk, és szét szeretnénk rombolni, a legjobb amit tehetünk, hogy kiiktatjuk a szerkezetileg legfontosabb elemeket. A fontosságot pedig megítélhetjük fokszám, PageRank, köztesség vagy más szimpatikus centralitásmérték alapján. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr477592204

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása