Natural Language Processing(NLP) i Elasticsearch
Naturlig språkbehandling Elasticsearch involverer viktige trinn for å transformere og rense inndatateksten som forberedelse til søk og spørring. Nedenfor er noen naturlige språkbehandlingsmetoder i Elasticsearch:
Tokenization
Tokenization er prosessen med å dele opp teksten i mindre enheter kalt tokens
. Hvert token er vanligvis et ord eller en liten setning. Tokenisering av teksten bidrar til å øke hastigheten på søk og spørringer i Elasticsearch.
Eksempel: Teksten Elasticsearch er et kraftig søke- og analyseverktøy. vil bli tokenisert til: Elasticsearch, is
, a
, powerful
, search
, og analytics
, tool
.
Stemming
Stemming er prosessen med å konvertere ord til deres grunn- eller rotform. Hensikten er å normalisere ord med samme ordstamme, og hjelpe til med mer nøyaktige søkeresultater.
Eksempel: Ordene running
, runs
, ran
vil bli konvertert til grunnformen run
.
Stopp fjerning av ord
Stoppord er vanlige og ofte forekommende ord, for eksempel is
, the
, og a
. Elasticsearch fjerner stoppord fra teksten for å redusere indeksstørrelsen og forbedre søkeytelsen.
Eksempel: I setningen Den raske brunreven hopper over den late hunden. stoppordene the
og over
vil bli fjernet.
Synonymer
Identifisere synonymer for å utvide søkeresultatene. Elasticsearch kan konfigureres til å håndtere synonymer og returnere tilsvarende resultater.
Eksempel: Hvis en bruker søker etter big
, Elasticsearch kan det gi resultater som inneholder både large
og huge
.
Sammensatt ordanalyse
Bearbeide sammensatte ord eller sammensatte ord på sammensatte språk. Elasticsearch kan analysere sammensatte ord i separate komponenter for enklere søk.
Eksempel: På tysk schwimmbad
kan det sammensatte ordet(svømmebasseng) analyseres til schwimm
og bad
.
Frasesøk i Elasticsearch
Frasesøk er en spesifikk måte å søke i Elasticsearch, med fokus på å finne spesifikke fraser som vises fortløpende og i riktig rekkefølge i teksten. Dette sikrer mer nøyaktige og pålitelige søkeresultater.
Eksempel: Hvis det er en tekst Elasticsearch er et kraftig søke- og analyseverktøy., når du utfører et frasesøk med uttrykket "søk og analyser", Elasticsearch vil det bare returnere tekster som inneholder den frasen i riktig rekkefølge, slik som teksten nevnt ovenfor.
For å utføre et phrase
søk i Elasticsearch kan du bruke enten søkeordet Match frase eller søket Match Phrase Prefix
, avhengig av søkekravene dine. Spørringen Match Phrase
vil søke etter en eksakt phrase
, mens Match Phrase Prefix
spørringen tillater en delvis samsvar med det siste søkeordet.