Mi a teljes szöveges keresés?
A teljes szöveges keresés a számítógépen tárolt (kizárólag szöveges) dokumentumok keresésére szolgáló technikák összessége. Az ilyen típusú keresés esetében megpróbálunk megtalálni egy szót vagy kifejezést bárhol is rejtőzzön az az adott adatkészletben. A teljes szöveges keresést megkülönböztetjük a metaadatokon vagy az eredeti szöveg részeit (például címek, kivonatok, vagy bibliográfiai hivatkozások) tartalmazó adatbázisokban történő kereséstől.
Probléma a japán nyelvvel
A legtöbb európai nyelv esetében a szavakat szóközzel választjuk el, ami nagyban megkönnyíti a mondatok szavakra történő bontását. Így a kifejezések visszakereshetősége is meglehetősen egyszerű.
A japán nyelvben azonban az egyes szavakat nem választja el szóköz, amely rendkívüli módon megnehezíti a keresést. Ebben az esetben kizárólag több módszer közös használatával érhetünk el megfelelő eredményt. De mi határozza meg ezt az eredményességet, illetve minőséget?
Pontosság (Precision) és visszahívás (Recall)
A pontosság és a visszahívás a teljes szöveges keresőrendszer minőség mérésének két általános módja. A pontosság azt jelzi, hogy „milyen kicsi a keresési kihagyás”, a visszahívás pedig azt, hogy „mekkora a keresési zaj”.
A pontosság és a visszahívás minősége tekintetében mindig kompromisszumot kell kötni, annak függvényében, hogy mi a keresési folyamatnál az elérendő cél.
Két módszer jobb mint az egy
Visszatérve a japán nyelv sajátosságához, könnyen belátható, hogy pusztán egy keresési technika alkalmazásával nem érhetjük el a kívánt találati minőséget. Tehát mit is kell tennünk? Két módszert kell egyidejűleg bevetnünk a japán szavak elemzésére.
Az egyik, az ún. n-gram elemzés esetében kevesebb a keresési kihagyás, de több a keresési zaj, míg a morfológiai analízis során kisebb keresési zajjal, de több keresési kihagyással kell számolnunk.
A fenti elemzési hiányosságokból következik, hogy a japán teljes szövegű keresésnél mindkét elemzési típus alkalmazása szükséges, az egyik módszer erősségével pótolva a másik gyengeségeit. A két módszer együttműködésével tehát megvalósítható a teljes szöveges keresés a japán nyelv esetén is.
Többet is szeretne tudni a témáról?
A fent leírtak technikai alkalmazásáról többet megtudhat az Elasticsearch* cikkéből, amely jelen blogbejegyzésünk alapjául is szolgált.
* Az Elasticsearch a világ vezető keresőmotorja, melyre olyan megoldások épülnek, mint a Precognox által fejlesztett TAS Enterprise Search.