Usindikaji wa Lugha Asilia(NLP) katika Elasticsearch
Usindikaji wa Lugha Asilia ndani Elasticsearch unahusisha hatua muhimu za kubadilisha na kusafisha maandishi ya ingizo katika maandalizi ya utafutaji na kuuliza. Zifuatazo ni baadhi ya mbinu za usindikaji wa lugha asilia katika Elasticsearch:
Tokenization
Tokenization ni mchakato wa kugawanya maandishi katika vitengo vidogo vinavyoitwa tokens
. Kila ishara kawaida ni neno au kifungu kidogo. Kuweka alama kwenye maandishi husaidia kuharakisha utafutaji na kuuliza maswali katika Elasticsearch.
Mfano: Maandishi Elasticsearch ni zana yenye nguvu ya utafutaji na uchanganuzi. itawekwa alama kuwa: Elasticsearch, is
, a
, powerful
, search
na analytics
, tool
.
Shina
Stemming ni mchakato wa kubadilisha maneno kwa msingi au umbo la mzizi. Madhumuni ni kurekebisha maneno kwa shina sawa la neno, kusaidia matokeo sahihi zaidi ya utafutaji.
Mfano: Maneno running
, runs
, ran
yatabadilishwa kuwa fomu ya msingi run
.
Acha Kuondoa Maneno
Maneno ya kusitisha ni maneno ya kawaida na yanayotokea mara kwa mara, kama vile is
, the
, na a
. Elasticsearch huondoa maneno ya kusitisha kutoka kwa maandishi ili kupunguza ukubwa wa faharasa na kuboresha utendaji wa utafutaji.
Mfano: Katika sentensi Mbweha wa kahawia mwepesi anaruka juu ya mbwa mvivu. maneno ya kusitisha the
na over
yataondolewa.
Visawe
Kubainisha visawe ili kupanua matokeo ya utafutaji. Elasticsearch inaweza kusanidiwa kushughulikia visawe na kurudisha matokeo sawa.
Mfano: Mtumiaji akitafuta big
, Elasticsearch anaweza kurudisha matokeo yaliyo na zote mbili large
na huge
.
Uchambuzi wa Neno Mchanganyiko
Kuchakata maneno changamano au maneno yaliyounganishwa katika lugha ambatani. Elasticsearch inaweza kuchanganua maneno ambatani katika vipengele tofauti kwa ajili ya utafutaji rahisi.
Mfano: Katika Kijerumani, neno ambatani schwimmbad
(bwawa la kuogelea) linaweza kuchanganuliwa kuwa schwimm
na bad
.
Tafuta Maneno ndani Elasticsearch
Utafutaji wa Vifungu ni njia mahususi ya kutafuta katika Elasticsearch, ikilenga kutafuta vishazi mahususi vinavyotokea kwa kufuatana na kwa mpangilio sahihi ndani ya maandishi. Hii inahakikisha matokeo sahihi na ya kuaminika zaidi ya utafutaji.
Mfano: Ikiwa kuna maandishi Elasticsearch kuna zana yenye nguvu ya utafutaji na uchanganuzi., unapotafuta maneno kwa maneno "tafuta na uchanganuzi", Elasticsearch itarejesha tu maandishi yaliyo na kifungu hicho kwa mpangilio sahihi, kama vile maandishi yaliyotajwa hapo juu.
Ili kutafuta phrase
katika Elasticsearch, unaweza kutumia hoja ya Maneno ya Kulinganisha au Match Phrase Prefix
hoja, kulingana na mahitaji yako ya utafutaji. Hoja Match Phrase
itatafuta exact phrase
, huku Match Phrase Prefix
hoja ikiruhusu ulinganifu wa nenomsingi la mwisho.