Ipproċessar tal-Lingwa Naturali(NLP) fi Elasticsearch
L-Ipproċessar tal-Lingwa Naturali Elasticsearch jinvolvi passi essenzjali biex jittrasforma u jitnaddaf it-test tal-input bi tħejjija għat-tfittxija u l-mistoqsijiet. Hawn taħt hawn xi metodi ta' pproċessar tal-lingwa naturali fi Elasticsearch:
Tokenization
Tokenization huwa l-proċess tad-diviżjoni tat-test f'unitajiet iżgħar imsejħa tokens
. Kull token huwa tipikament kelma jew frażi żgħira. It-tokenizzazzjoni tat-test tgħin biex tħaffef it-tfittxija u l-mistoqsijiet fi Elasticsearch.
Eżempju: It-test Elasticsearch huwa għodda qawwija ta' tfittxija u analitika. se jiġu tokenizzati fi: Elasticsearch, is
, a
, powerful
, search
, u analytics
, tool
.
Żokk
Stemming huwa l-proċess ta 'konverżjoni tal-kliem għall-forma bażi jew għerq tagħhom. L-iskop huwa li jiġu normalizzati kliem bl-istess zokk tal-kelma, biex tgħin riżultati tat-tfittxija aktar preċiżi.
Eżempju: Il-kliem running
, runs
, ran
se jiġu kkonvertiti għall-forma bażi run
.
Waqqaf it-Tneħħija tal-Kliem
Il-kliem ta' waqfien huma kliem komuni u li jseħħu ta' spiss, bħal is
, the
, u a
. Elasticsearch tneħħi kliem ta' waqfien mit-test biex tnaqqas id-daqs tal-indiċi u ttejjeb il-prestazzjoni tat-tfittxija.
Eżempju: Fis-sentenza Il-volpi kannella malajr taqbeż fuq il-kelb għażżien. il-kliem ta’ waqfien the
u over
se jitneħħew.
Sinonimi
L-identifikazzjoni ta' sinonimi biex tespandi r-riżultati tat-tfittxija. Elasticsearch jistgħu jiġu kkonfigurati biex jimmaniġġjaw sinonimi u jirritorna riżultati ekwivalenti.
Eżempju: Jekk utent ifittex big
, Elasticsearch jista' jirritorna riżultati li fihom it-tnejn large
u huge
.
Analiżi tal-Kelma Kompost
Ipproċessar kliem kompost jew kliem magħqud f'lingwi komposti. Elasticsearch jista' janalizza kliem kompost f'komponenti separati għal tiftix aktar faċli.
Eżempju: Bil-Ġermaniż, il-kelma komposta schwimmbad
(pixxina) tista' tiġi analizzata fi schwimm
u bad
.
Fittex frażi fi Elasticsearch
It-Tiftix tal-frażijiet huwa mod speċifiku ta' tiftix fi Elasticsearch, li jiffoka fuq is-sejba ta' frażijiet speċifiċi li jidhru b'mod konsekuttiv u fl-ordni korrett fit-test. Dan jiżgura riżultati tat-tiftix aktar preċiżi u affidabbli.
Eżempju: Jekk ikun hemm test Elasticsearch huwa għodda qawwija ta 'tfittxija u analitika., meta twettaq tfittxija frażi bil-frażi "tfittxija u analitika", Elasticsearch ser jirritorna biss testi li jkun fihom dik il-frażi fl-ordni korretta, bħat-test imsemmi hawn fuq.
Biex twettaq phrase
tfittxija fi Elasticsearch, tista' tuża jew il-mistoqsija Match Phrase jew il- Match Phrase Prefix
mistoqsija, skont ir-rekwiżiti tat-tfittxija tiegħek. Il- Match Phrase
mistoqsija se tfittex eżatta phrase
, filwaqt li l- Match Phrase Prefix
mistoqsija tippermetti taqbila parzjali tal-aħħar keyword.