Përpunimi i Gjuhës Natyrore(NLP) në Elasticsearch
Përpunimi i gjuhës natyrore Elasticsearch përfshin hapa thelbësorë për të transformuar dhe pastruar tekstin hyrës në përgatitje për kërkim dhe kërkim. Më poshtë janë disa metoda të përpunimit të gjuhës natyrore në Elasticsearch:
Tokenization
Tokenization është procesi i ndarjes së tekstit në njësi më të vogla që quhet tokens
. Çdo shenjë është zakonisht një fjalë ose një frazë e vogël. Tokenizimi i tekstit ndihmon në përshpejtimin e kërkimit dhe kërkimit në Elasticsearch.
Shembull: Teksti Elasticsearch është një mjet i fuqishëm kërkimi dhe analitik. do të shënohet në: Elasticsearch, is
, a
, powerful
, search
, dhe analytics
, tool
.
Rrjedhin
Rrjedhimi është procesi i konvertimit të fjalëve në formën e tyre bazë ose rrënjë. Qëllimi është të normalizohen fjalët me të njëjtin rrjedhë fjalësh, duke ndihmuar në rezultate më të sakta të kërkimit.
Shembull: Fjalët running
, runs
, ran
do të konvertohen në formën bazë run
.
Ndaloni heqjen e fjalëve
Fjalët e ndalimit janë fjalë të zakonshme dhe të shpeshta, të tilla si is
, the
, dhe a
. Elasticsearch heq fjalët ndaluese nga teksti për të zvogëluar madhësinë e indeksit dhe për të përmirësuar performancën e kërkimit.
Shembull: Në fjalinë Dhelpra e shpejtë kafe kërcen mbi qenin dembel. fjalët e ndalimit the
dhe over
do të hiqen.
Sinonime
Identifikimi i sinonimeve për të zgjeruar rezultatet e kërkimit. Elasticsearch mund të konfigurohet për të trajtuar sinonimet dhe për të kthyer rezultate ekuivalente.
Shembull: Nëse një përdorues kërkon për big
, Elasticsearch mund të kthejë rezultate që përmbajnë të dyja large
dhe huge
.
Analiza e fjalëve të përbëra
Përpunimi i fjalëve të përbëra ose fjalëve të bashkuara në gjuhët e përbëra. Elasticsearch mund të analizojë fjalët e përbëra në komponentë të veçantë për kërkim më të lehtë.
Shembull: Në gjermanisht, fjala e përbërë schwimmbad
(pishinë) mund të analizohet në schwimm
dhe bad
.
Kërko fraza në Elasticsearch
Kërkimi i frazave është një mënyrë specifike e kërkimit në Elasticsearch, duke u fokusuar në gjetjen e frazave specifike që shfaqen në mënyrë të njëpasnjëshme dhe në rendin e duhur brenda tekstit. Kjo siguron rezultate më të sakta dhe më të besueshme kërkimi.
Shembull: Nëse ekziston një tekst Elasticsearch është një mjet i fuqishëm kërkimi dhe analitik., kur kryeni një kërkim frazash me frazën "kërkim dhe analitikë", Elasticsearch do të kthejë vetëm tekstet që përmbajnë atë frazë në rendin e duhur, siç është teksti i përmendur më sipër.
Për të kryer një phrase
kërkim në Elasticsearch, mund të përdorni ose pyetjen e frazës së përputhjes ose pyetjen Match Phrase Prefix
, në varësi të kërkesave tuaja të kërkimit. Kërkesa Match Phrase
do të kërkojë për një të saktë phrase
, ndërsa Match Phrase Prefix
pyetja lejon një përputhje të pjesshme të fjalës kyçe të fundit.