Natural Language Processing(NLP) and Phrase Search in Elasticsearch

Natural Language Processing(NLP) ing Elasticsearch

Pangolahan Basa Alami Elasticsearch kalebu langkah-langkah penting kanggo ngowahi lan ngresiki teks input minangka persiapan kanggo telusuran lan pitakon. Ing ngisor iki sawetara cara pangolahan basa alami ing Elasticsearch:

Tokenization

Tokenization yaiku proses mbagi teks dadi unit cilik sing diarani tokens. Saben token biasane minangka tembung utawa frasa cilik. Tokenisasi teks mbantu nyepetake panelusuran lan pitakon ing Elasticsearch.

Conto: Teks Elasticsearch minangka alat telusuran lan analytics sing kuat. bakal tokenized menyang: Elasticsearch, is, a, powerful, search, lan analytics, tool.

Stemming

Stemming yaiku proses ngowahi tembung dadi dhasar utawa wujud. Tujuane kanggo normalake tembung kanthi stem tembung sing padha, mbantu asil panelusuran sing luwih akurat.

Tuladha: Tembung running, runs, ran bakal diowahi dadi wujud dhasar run.

Stop Words Aman

Tembung mandeg yaiku tembung sing umum lan asring kedadeyan, kayata is, the, lan a. Elasticsearch mbusak tembung mandeg saka teks kanggo nyuda ukuran indeks lan nambah kinerja panelusuran.

Tuladha: Ing ukara Rubah coklat cepet mlumpat ing asu kesed. tembung mandeg the lan over bakal dibusak.

sinonim

Ngenali sinonim kanggo nggedhekake asil panelusuran. Elasticsearch bisa dikonfigurasi kanggo nangani sinonim lan ngasilake asil sing padha.

Conto: Yen pangguna nggoleki big, Elasticsearch bisa ngasilake asil sing ngemot loro large lan huge.

Analisis Tembung Rangkep

Ngolah tembung rangkep utawa tembung rangkep ing basa rangkep. Elasticsearch bisa nganalisis tembung majemuk dadi komponen sing kapisah supaya gampang digoleki.

Conto: Ing basa Jerman, tembung majemuk schwimmbad(kolam renang) bisa dianalisis dadi schwimm lan bad.

 

Telusuri Frasa ing Elasticsearch

Panelusuran Frasa minangka cara tartamtu kanggo nggoleki ing Elasticsearch, fokus ing nemokake frase tartamtu sing katon consecutively lan ing urutan bener ing teks. Iki njamin asil panelusuran sing luwih akurat lan dipercaya.

Conto: Yen ana teks Elasticsearch minangka alat telusuran lan analitik sing kuat., nalika nindakake panelusuran frase kanthi frasa "search and analytics", Elasticsearch mung bakal ngasilake teks sing ngemot frasa kasebut kanthi urutan sing bener, kayata teks kasebut ing ndhuwur.

 

Kanggo nindakake phrase telusuran ing Elasticsearch, sampeyan bisa nggunakake salah siji pitakonan Cocokake Frasa utawa Match Phrase Prefix pitakonan, gumantung saka syarat panelusuran Panjenengan. Pitakonan Match Phrase bakal nggoleki sing tepat phrase, dene Match Phrase Prefix pitakon kasebut ngidini kanggo cocog parsial saka tembung kunci pungkasan.