Natūralios kalbos apdorojimas(NLP) in Elasticsearch
Natūralios kalbos apdorojimas Elasticsearch apima esminius veiksmus, skirtus transformuoti ir išvalyti įvesties tekstą ruošiantis paieškai ir užklausoms. Žemiau pateikiami kai kurie natūralios kalbos apdorojimo metodai Elasticsearch:
Tokenization
Tokenization yra teksto padalijimas į mažesnius vienetus, vadinamus tokens
. Kiekvienas ženklas paprastai yra žodis arba maža frazė. Teksto žymėjimas padeda pagreitinti paiešką ir užklausas Elasticsearch.
Pavyzdys: tekstas Elasticsearch yra galingas paieškos ir analizės įrankis. bus ženklinamas į: Elasticsearch, is
, a
, powerful
, search
, ir analytics
, tool
.
Kamieninės
Kamienų sudarymas yra žodžių pavertimo į pagrindinę arba šaknies formą procesas. Tikslas yra normalizuoti žodžius su tuo pačiu žodžio kamienu, kad būtų galima gauti tikslesnius paieškos rezultatus.
Pavyzdys: žodžiai running
, runs
, ran
bus konvertuoti į pagrindinę formą run
.
Sustabdyti žodžių šalinimą
Stop žodžiai yra įprasti ir dažnai pasitaikantys žodžiai, pvz. is
, the
, ir a
. Elasticsearch pašalina sustabdymo žodžius iš teksto, kad sumažintų indekso dydį ir pagerintų paieškos našumą.
Pavyzdys: sakinyje greita rudoji lapė peršoka per tingų šunį. stabdymo žodžiai the
ir over
bus pašalinti.
Sinonimai
Sinonimų nustatymas, siekiant išplėsti paieškos rezultatus. Elasticsearch gali būti sukonfigūruotas taip, kad tvarkytų sinonimus ir pateiktų lygiaverčius rezultatus.
Pavyzdys: jei vartotojas ieško big
, Elasticsearch gali pateikti rezultatus, kuriuose yra large
ir huge
.
Sudėtinė žodžių analizė
Sudėtinių žodžių ar sujungtų žodžių apdorojimas sudėtinėmis kalbomis. Elasticsearch gali analizuoti sudėtinius žodžius į atskirus komponentus, kad būtų lengviau ieškoti.
Pavyzdys: Vokiečių kalboje sudėtinis žodis schwimmbad
(baseinas) gali būti analizuojamas į schwimm
ir bad
.
Frazės paieška Elasticsearch
Frazių paieška yra konkretus paieškos būdas Elasticsearch, sutelkiant dėmesį į konkrečių frazių, kurios tekste pasirodo iš eilės ir tinkama tvarka, paieška. Tai užtikrina tikslesnius ir patikimesnius paieškos rezultatus.
Pavyzdys: jei yra tekstas, Elasticsearch yra galingas paieškos ir analizės įrankis., atliekant frazės paiešką su fraze „paieška ir analizė“, Elasticsearch bus pateikti tik tekstai, kuriuose ta frazė yra tinkama tvarka, pvz., anksčiau minėtas tekstas.
Norėdami atlikti phrase
paiešką Elasticsearch, galite naudoti užklausą „Atitikti frazę“ arba užklausą Match Phrase Prefix
, atsižvelgdami į paieškos reikalavimus. Užklausa Match Phrase
ieškos tikslaus phrase
, o Match Phrase Prefix
užklausa leidžia iš dalies atitikti paskutinį raktinį žodį.