Przetwarzanie języka naturalnego(NLP) w Elasticsearch
Przetwarzanie języka naturalnego w programie Elasticsearch obejmuje podstawowe kroki w celu przekształcenia i oczyszczenia tekstu wejściowego w celu przygotowania do wyszukiwania i wykonywania zapytań. Poniżej przedstawiono niektóre metody przetwarzania języka naturalnego w Elasticsearch:
Tokenization
Tokenization to proces dzielenia tekstu na mniejsze jednostki zwane tokens
. Każdy token to zazwyczaj słowo lub mała fraza. Tokenizacja tekstu pomaga przyspieszyć wyszukiwanie i wykonywanie zapytań w Elasticsearch.
Przykład: Tekst Elasticsearch jest potężnym narzędziem wyszukiwania i analizy. zostanie tokenizowane na: Elasticsearch, is
, a
, powerful
, search
, i analytics
, tool
.
Przybitka
Stemming to proces konwersji słów do ich formy podstawowej lub rdzenia. Celem jest znormalizowanie słów o tym samym rdzeniu, co pomoże uzyskać dokładniejsze wyniki wyszukiwania.
Przykład: Słowa running
, runs
, ran
zostaną zamienione na formę podstawową run
.
Zatrzymaj usuwanie słów
Słowa pomijane to popularne i często występujące słowa, takie jak is
, the
, i a
. Elasticsearch usuwa słowa pomijane z tekstu, aby zmniejszyć rozmiar indeksu i poprawić wydajność wyszukiwania.
Przykład: W zdaniu Szybki brązowy lis przeskakuje nad leniwym psem. słowa stop the
i over
zostaną usunięte.
Synonimy
Identyfikacja synonimów w celu rozszerzenia wyników wyszukiwania. Elasticsearch można skonfigurować do obsługi synonimów i zwracania równoważnych wyników.
Przykład: jeśli użytkownik wyszukuje big
, Elasticsearch może zwrócić wyniki zawierające zarówno, large
jak i huge
.
Analiza słów złożonych
Przetwarzanie słów złożonych lub słów połączonych w językach złożonych. Elasticsearch może analizować słowa złożone na osobne komponenty w celu łatwiejszego wyszukiwania.
Przykład: w języku niemieckim słowo złożone schwimmbad
(basen) można przeanalizować na schwimm
i bad
.
Wyszukiwanie fraz w Elasticsearch
Wyszukiwanie fraz to specyficzny sposób wyszukiwania w Elasticsearch, skupiający się na znalezieniu określonych fraz, które pojawiają się kolejno i we właściwej kolejności w tekście. Zapewnia to dokładniejsze i bardziej wiarygodne wyniki wyszukiwania.
Przykład: jeśli tekst jest Elasticsearch potężnym narzędziem do wyszukiwania i analizy, podczas wyszukiwania frazy „wyszukiwanie i analiza” Elasticsearch zostaną zwrócone tylko teksty zawierające tę frazę we właściwej kolejności, takie jak tekst wspomniany powyżej.
Aby przeprowadzić phrase
wyszukiwanie w Elasticsearch, możesz użyć zapytania Dopasuj wyrażenie lub Match Phrase Prefix
zapytania, w zależności od wymagań wyszukiwania. Zapytanie Match Phrase
wyszukuje dokładnie phrase
, podczas gdy Match Phrase Prefix
zapytanie pozwala na częściowe dopasowanie ostatniego słowa kluczowego.