Natūralios kalbos apdorojimas(NLP) ir frazių paieška Elasticsearch

Natūralios kalbos apdorojimas(NLP) in Elasticsearch

Natūralios kalbos apdorojimas Elasticsearch apima esminius veiksmus, skirtus transformuoti ir išvalyti įvesties tekstą ruošiantis paieškai ir užklausoms. Žemiau pateikiami kai kurie natūralios kalbos apdorojimo metodai Elasticsearch:

Tokenization

Tokenization yra teksto padalijimas į mažesnius vienetus, vadinamus tokens. Kiekvienas ženklas paprastai yra žodis arba maža frazė. Teksto žymėjimas padeda pagreitinti paiešką ir užklausas Elasticsearch.

Pavyzdys: tekstas Elasticsearch yra galingas paieškos ir analizės įrankis. bus ženklinamas į: Elasticsearch, is, a, powerful, search, ir analytics, tool.

Kamieninės

Kamienų sudarymas yra žodžių pavertimo į pagrindinę arba šaknies formą procesas. Tikslas yra normalizuoti žodžius su tuo pačiu žodžio kamienu, kad būtų galima gauti tikslesnius paieškos rezultatus.

Pavyzdys: žodžiai running, runs, ran bus konvertuoti į pagrindinę formą run.

Sustabdyti žodžių šalinimą

Stop žodžiai yra įprasti ir dažnai pasitaikantys žodžiai, pvz. is, the, ir a. Elasticsearch pašalina sustabdymo žodžius iš teksto, kad sumažintų indekso dydį ir pagerintų paieškos našumą.

Pavyzdys: sakinyje greita rudoji lapė peršoka per tingų šunį. stabdymo žodžiai the ir over bus pašalinti.

Sinonimai

Sinonimų nustatymas, siekiant išplėsti paieškos rezultatus. Elasticsearch gali būti sukonfigūruotas taip, kad tvarkytų sinonimus ir pateiktų lygiaverčius rezultatus.

Pavyzdys: jei vartotojas ieško big, Elasticsearch gali pateikti rezultatus, kuriuose yra large ir huge.

Sudėtinė žodžių analizė

Sudėtinių žodžių ar sujungtų žodžių apdorojimas sudėtinėmis kalbomis. Elasticsearch gali analizuoti sudėtinius žodžius į atskirus komponentus, kad būtų lengviau ieškoti.

Pavyzdys: Vokiečių kalboje sudėtinis žodis schwimmbad(baseinas) gali būti analizuojamas į schwimm ir bad.

 

Frazės paieška Elasticsearch

Frazių paieška yra konkretus paieškos būdas Elasticsearch, sutelkiant dėmesį į konkrečių frazių, kurios tekste pasirodo iš eilės ir tinkama tvarka, paieška. Tai užtikrina tikslesnius ir patikimesnius paieškos rezultatus.

Pavyzdys: jei yra tekstas, Elasticsearch yra galingas paieškos ir analizės įrankis., atliekant frazės paiešką su fraze „paieška ir analizė“, Elasticsearch bus pateikti tik tekstai, kuriuose ta frazė yra tinkama tvarka, pvz., anksčiau minėtas tekstas.

 

Norėdami atlikti phrase paiešką Elasticsearch, galite naudoti užklausą „Atitikti frazę“ arba užklausą Match Phrase Prefix, atsižvelgdami į paieškos reikalavimus. Užklausa Match Phrase ieškos tikslaus phrase, o Match Phrase Prefix užklausa leidžia iš dalies atitikti paskutinį raktinį žodį.