การประมวลผลภาษาธรรมชาติ(NLP) ใน Elasticsearch
การประมวลผลภาษาธรรมชาติ Elasticsearch เกี่ยวข้องกับขั้นตอนสำคัญในการแปลงและทำความสะอาดข้อความป้อนเพื่อเตรียมพร้อมสำหรับการค้นหาและการสอบถาม ด้านล่างนี้เป็นวิธีการประมวลผลภาษาธรรมชาติใน Elasticsearch:
Tokenization
Tokenization เป็นกระบวนการแบ่งข้อความออกเป็นหน่วยย่อยๆ เรียก tokens
ว่า โดยทั่วไปโทเค็นแต่ละรายการจะเป็นคำหรือวลีเล็กๆ การทำโทเค็นข้อความช่วยเพิ่มความเร็วในการค้นหาและการสอบถาม Elasticsearch ใน
ตัวอย่าง: ข้อความ Elasticsearch เป็นเครื่องมือค้นหาและวิเคราะห์ที่มีประสิทธิภาพ จะถูกโทเค็นเป็น: Elasticsearch, is
, a
, powerful
, search
และ analytics
, tool
ต้นกำเนิด
Stemming คือกระบวนการแปลงคำเป็นรูปแบบฐานหรือรูท จุดประสงค์คือเพื่อทำให้คำที่มีต้นกำเนิดคำเดียวกันเป็นปกติ ช่วยให้ได้ผลลัพธ์การค้นหาที่แม่นยำยิ่งขึ้น
ตัวอย่าง: คำว่า running
, runs
, ran
จะถูกแปลงเป็นรูป run
ฐาน
หยุดการกำจัดคำ
คำหยุดเป็น คำ ทั่วไปและเกิดขึ้นบ่อย เช่น is
, the
, และ ลบคำหยุดออกจากข้อความเพื่อลดขนาดดัชนีและปรับปรุงประสิทธิภาพการค้นหา a
Elasticsearch
ตัวอย่าง ในประโยค The quick brown fox jumps over the lazy dog. คำหยุด the
และ over
จะถูกลบออก
คำพ้องความหมาย
การระบุคำพ้องความหมายเพื่อขยายผลการค้นหา Elasticsearch สามารถกำหนดค่าให้จัดการคำพ้องความหมายและส่งคืนผลลัพธ์ที่เทียบเท่าได้
ตัวอย่าง: หากผู้ใช้ค้นหา big
อาจ Elasticsearch แสดงผลลัพธ์ที่มี ทั้ง large
และ huge
การวิเคราะห์คำประสม
การประมวลผลคำประสมหรือคำรวมในภาษาประสม Elasticsearch สามารถวิเคราะห์คำประสมเป็นส่วนประกอบแยกกันเพื่อให้ค้นหาได้ง่ายขึ้น
ตัวอย่าง: ในภาษาเยอรมัน คำประสม(สระ ว่า schwimmbad
ยน้ำ) สามารถวิเคราะห์เป็น schwimm
และ bad
ค้นหาวลีใน Elasticsearch
การค้นหาวลีเป็นวิธีการเฉพาะในการค้นหา Elasticsearch โดยมุ่งเน้นที่การค้นหาวลีเฉพาะที่ปรากฏต่อเนื่องกันและอยู่ในลำดับที่ถูกต้องภายในข้อความ สิ่งนี้ทำให้แน่ใจได้ว่าผลการค้นหามีความแม่นยำและเชื่อถือได้มากขึ้น
ตัวอย่าง: หากมีข้อความ Elasticsearch เป็นเครื่องมือค้นหาและวิเคราะห์ที่มีประสิทธิภาพ เมื่อค้นหาวลีด้วยวลี "ค้นหาและวิเคราะห์" Elasticsearch จะแสดงเฉพาะข้อความที่มีวลีนั้นในลำดับที่ถูกต้อง เช่น ข้อความที่กล่าวถึงข้างต้น
หากต้องการ phrase
ค้นหาใน Elasticsearch คุณสามารถใช้ข้อความค้นหา Match Phrase หรือ Match Phrase Prefix
ข้อความค้นหาก็ได้ ทั้งนี้ขึ้นอยู่กับข้อกำหนดในการค้นหาของคุณ ข้อความ Match Phrase
ค้นหาจะค้นหาแบบตรงทั้งหมด phrase
ในขณะที่ Match Phrase Prefix
ข้อความค้นหาอนุญาตให้จับคู่บางส่วนของคำหลักสุดท้ายได้