Natural Language Processing(NLP) i Elasticsearch
Natural Language Processing i Elasticsearch innebär viktiga steg för att omvandla och rensa inmatningstexten som förberedelse för sökning och sökning. Nedan finns några naturliga språkbehandlingsmetoder i Elasticsearch:
Tokenization
Tokenization är processen att dela upp texten i mindre enheter som kallas tokens
. Varje token är vanligtvis ett ord eller en liten fras. Tokenisering av texten hjälper till att påskynda sökning och sökning i Elasticsearch.
Exempel: Texten Elasticsearch är ett kraftfullt sök- och analysverktyg. kommer att tokeniseras till: Elasticsearch, is
, a
, powerful
, search
, och analytics
, tool
.
Stemming
Stemming är processen att omvandla ord till deras bas- eller rotform. Syftet är att normalisera ord med samma ordstam, vilket underlättar mer exakta sökresultat.
Exempel: Orden running
, runs
, ran
kommer att konverteras till basformen run
.
Stoppa borttagning av ord
Stoppord är vanliga och ofta förekommande ord, som, is
, the
och a
. Elasticsearch tar bort stoppord från texten för att minska indexstorleken och förbättra sökprestanda.
Exempel: I meningen hoppar den kvicka bruna räven över den lata hunden. stopporden the
och over
kommer att tas bort.
Synonymer
Identifiera synonymer för att utöka sökresultaten. Elasticsearch kan konfigureras för att hantera synonymer och returnera motsvarande resultat.
Exempel: Om en användare söker efter kan det ge resultat som innehåller både och big
. Elasticsearch large
huge
Sammansatt ordanalys
Bearbeta sammansatta ord eller sammanfogade ord på sammansatta språk. Elasticsearch kan analysera sammansatta ord i separata komponenter för enklare sökning.
Exempel: På tyska kan det sammansatta ordet schwimmbad
(simbassäng) analyseras till schwimm
och bad
.
Frassökning i Elasticsearch
Frassökning är ett specifikt sätt att söka i Elasticsearch, med fokus på att hitta specifika fraser som visas i följd och i rätt ordning i texten. Detta säkerställer mer exakta och tillförlitliga sökresultat.
Exempel: Om det finns en text Elasticsearch är ett kraftfullt sök- och analysverktyg., när du utför en frassökning med frasen "sökning och analys", Elasticsearch returnerar endast texter som innehåller den frasen i rätt ordning, som texten som nämns ovan.
För att utföra en phrase
sökning i Elasticsearch kan du använda antingen sökfrågan Matcha fras eller Match Phrase Prefix
frågan, beroende på dina sökkrav. Frågan Match Phrase
kommer att söka efter en exakt phrase
, medan Match Phrase Prefix
frågan tillåter en partiell matchning av det sista sökordet.