Természetes nyelvi feldolgozás(NLP) in Elasticsearch
A természetes nyelvi feldolgozás Elasticsearch alapvető lépéseket tartalmaz a bemeneti szöveg átalakítására és megtisztítására a keresésre és lekérdezésre való felkészülés során. Az alábbiakban bemutatunk néhány természetes nyelvi feldolgozási módszert Elasticsearch:
Tokenization
Tokenization az a folyamat, amelynek során a szöveget kisebb egységekre osztják tokens
. Minden token általában egy szó vagy egy kis kifejezés. A szöveg tokenizálása felgyorsítja a keresést és a lekérdezést Elasticsearch.
Példa: A szöveg Elasticsearch egy hatékony kereső- és elemzőeszköz. a következőre lesz tokenizálva: Elasticsearch, is
, a
, powerful
, search
, és analytics
, tool
.
Származás
A tőképző a szavak alap- vagy gyökérformájára való konvertálási folyamat. A cél az azonos szótövekkel rendelkező szavak normalizálása, így segítve a pontosabb keresési eredményeket.
Példa: A running
, runs
, szavak ran
az alapformára lesznek átalakítva run
.
Stop Words Removal
A stop szavak gyakori és gyakran előforduló szavak, például is
, the
, és a
. Elasticsearch eltávolítja a stop szavakat a szövegből az index méretének csökkentése és a keresési teljesítmény javítása érdekében.
Példa: A mondatban a gyors barna róka átugrik a lusta kutyán. a stop szavakat the
és over
eltávolítjuk.
Szinonimák
Szinonimák azonosítása a keresési eredmények kibővítéséhez. Elasticsearch konfigurálható a szinonimák kezelésére és egyenértékű eredmények visszaadására.
Példa: Ha egy felhasználó a következőre keres big
, akkor a és a Elasticsearch tartalommal is szerepelhet. large
huge
Összetett szóelemzés
Összetett szavak vagy összekapcsolt szavak feldolgozása összetett nyelvekben. Elasticsearch az összetett szavakat külön komponensekre elemezheti a könnyebb keresés érdekében.
Példa: A német nyelvben az összetett szó(úszómedence) a és schwimmbad
-be elemezhető. schwimm
bad
Kifejezés keresése Elasticsearch
A kifejezéskeresés egy sajátos keresési mód a nyelvben Elasticsearch, amely a szövegben egymás után és a megfelelő sorrendben megjelenő kifejezések megtalálására összpontosít. Ez pontosabb és megbízhatóbb keresési eredményeket biztosít.
Példa: Ha van egy szöveg, Elasticsearch egy hatékony kereső- és elemzőeszköz. Ha a "keresés és elemzés" kifejezéssel keres kifejezést, akkor Elasticsearch csak az adott kifejezést a megfelelő sorrendben tartalmazó szövegeket adja vissza, például a fent említett szöveget.
phrase
Keresés végrehajtásához Elasticsearch használhatja a Kifejezés egyezése lekérdezést vagy a Match Phrase Prefix
lekérdezést, a keresési követelményektől függően. A Match Phrase
lekérdezés pontos kulcsszót fog keresni phrase
, míg a Match Phrase Prefix
lekérdezés lehetővé teszi az utolsó kulcsszó részleges egyezését.