Minél többet használjuk az internetes keresőket, annál gyakrabban kerülünk olyan helyzetbe, hogy nem tudjuk hogyan fogalmazzuk meg mit is keresünk, hiszen önmagában beírva a kifejezést nem azokat az eredményeket fogjuk kapni, amit szeretnénk. A keresők éppen ezért gyakran jelentkeznek olyan újításokkal, amelyek a természetes nyelvi feldolgozást, szemantikus keresést, mély webes keresést hangsúlyozzák.
Jeffrey Beall, a Colorado Denver-i egyetemről összeállított egy listát arról, hogy mik a jellemző problémák, a szöveges keresés nehézségei:
- Szinonímák: rákereshetünk egy kifejezésre, de biztosan nem fogjuk az összes szinonímája mentén is elvégezni a keresést. Így a keresett információnak csak az a része jut el hozzánk, ami pontosan az általunk beírt alakban tartalmazza a kifejezést.
- Elavult kifejezések: sokszor nem gondolunk egy-egy kifejezés elavult formájának keresésére. Például a filmek történetéről való keresés során nem gondolunk a mozgókép kifejezésre.
- Homonímák: több jelentésű, azonos alakú szavak esetén a kereső nem tudja eldönteni, hogy melyikre gondolunk, ezért az eredmény elég zajos lesz.
- Spam-ek: az internet tele van "szeméttel", nem megfelelő minőségű, olykor éppen valótlan információkkal, amelyeket a keresők nem tudnak megkülönböztetni a megbízható forrásoktól.
- Az eredmények szűkítésének hiánya: az eredmények csoportosítása, finomítása ritkán jelenik meg a keresőknél.
- Az eredmények rendezése: mivel a keresők nem sok adatot tudhatnak a kapott eredményekről, ezért nehéz bármilyen rendezési szempontot megvalósítani (pl keletkezés dátuma).
- Tartalmi problémák: attól, hogy egy oldal tartalmazza az általunk beírt kereső kifejezést, még nem biztos, hogy arról a témáról szól.
- Képletes leírások: rákereshetünk a repülés szóra és kaphatunk olyan eredményeket, melyek arról szólnak, hogy valaki repül örömében.
- A keresett kifejezés nem szerepel egy releváns oldalon: létezhet olyan leírás egy témáról, ami egyáltalán nem említi az adott formában a keresett kifejezést.
- Elvont témák: olyan nehezen megfogható témákról, mint egészség, szabad akarat, erkölcs nehezen találhatunk eredményeket. Az ilyeneknek nincs lexikai leírása, illetve ha van, nagy valószínűséggel akkor sem ezeket keressük.
- Több téma kapcsolata: ha két kifejezés kapcsolatára keresünk, előfordulhat, hogy olyan eredményeket kapunk, ahol mindkét kifejezés szerepel, de egymástól teljesen függetlenül, a kettő közötti kapcsolatról nem esik szó.
- Szó listák: a keresés eredményei származhatnak internetes szótárakból, felsorolásokból, szólistákból, amelyek az esetek nagyon kis százalékában felelnek meg a kereső szándékának.
- A mély web: a legtöbb minőségi információ nem a Google és a többi kereső által elérhető felszínen található, hanem az ún mély weben, amiket így nehéz elérni.
- Nem szöveges adatok: a megfelelő leírás, meta információk nélküli nem szöveges adatok elérése nagyon nehéz.