Natural Language Processing(NLP) ing Elasticsearch
Pangolahan Basa Alami Elasticsearch kalebu langkah-langkah penting kanggo ngowahi lan ngresiki teks input minangka persiapan kanggo telusuran lan pitakon. Ing ngisor iki sawetara cara pangolahan basa alami ing Elasticsearch:
Tokenization
Tokenization yaiku proses mbagi teks dadi unit cilik sing diarani tokens
. Saben token biasane minangka tembung utawa frasa cilik. Tokenisasi teks mbantu nyepetake panelusuran lan pitakon ing Elasticsearch.
Conto: Teks Elasticsearch minangka alat telusuran lan analytics sing kuat. bakal tokenized menyang: Elasticsearch, is
, a
, powerful
, search
, lan analytics
, tool
.
Stemming
Stemming yaiku proses ngowahi tembung dadi dhasar utawa wujud. Tujuane kanggo normalake tembung kanthi stem tembung sing padha, mbantu asil panelusuran sing luwih akurat.
Tuladha: Tembung running
, runs
, ran
bakal diowahi dadi wujud dhasar run
.
Stop Words Aman
Tembung mandeg yaiku tembung sing umum lan asring kedadeyan, kayata is
, the
, lan a
. Elasticsearch mbusak tembung mandeg saka teks kanggo nyuda ukuran indeks lan nambah kinerja panelusuran.
Tuladha: Ing ukara Rubah coklat cepet mlumpat ing asu kesed. tembung mandeg the
lan over
bakal dibusak.
sinonim
Ngenali sinonim kanggo nggedhekake asil panelusuran. Elasticsearch bisa dikonfigurasi kanggo nangani sinonim lan ngasilake asil sing padha.
Conto: Yen pangguna nggoleki big
, Elasticsearch bisa ngasilake asil sing ngemot loro large
lan huge
.
Analisis Tembung Rangkep
Ngolah tembung rangkep utawa tembung rangkep ing basa rangkep. Elasticsearch bisa nganalisis tembung majemuk dadi komponen sing kapisah supaya gampang digoleki.
Conto: Ing basa Jerman, tembung majemuk schwimmbad
(kolam renang) bisa dianalisis dadi schwimm
lan bad
.
Telusuri Frasa ing Elasticsearch
Panelusuran Frasa minangka cara tartamtu kanggo nggoleki ing Elasticsearch, fokus ing nemokake frase tartamtu sing katon consecutively lan ing urutan bener ing teks. Iki njamin asil panelusuran sing luwih akurat lan dipercaya.
Conto: Yen ana teks Elasticsearch minangka alat telusuran lan analitik sing kuat., nalika nindakake panelusuran frase kanthi frasa "search and analytics", Elasticsearch mung bakal ngasilake teks sing ngemot frasa kasebut kanthi urutan sing bener, kayata teks kasebut ing ndhuwur.
Kanggo nindakake phrase
telusuran ing Elasticsearch, sampeyan bisa nggunakake salah siji pitakonan Cocokake Frasa utawa Match Phrase Prefix
pitakonan, gumantung saka syarat panelusuran Panjenengan. Pitakonan Match Phrase
bakal nggoleki sing tepat phrase
, dene Match Phrase Prefix
pitakon kasebut ngidini kanggo cocog parsial saka tembung kunci pungkasan.