Pemrosesan Bahasa Alami(NLP) di Elasticsearch
Pemrosesan Bahasa Alami Elasticsearch melibatkan langkah-langkah penting untuk mengubah dan membersihkan teks input dalam persiapan untuk pencarian dan kueri. Di bawah ini adalah beberapa metode pemrosesan bahasa alami di Elasticsearch:
Tokenization
Tokenization adalah proses membagi teks menjadi unit-unit yang lebih kecil yang disebut tokens
. Setiap token biasanya berupa kata atau frase kecil. Tokenisasi teks membantu mempercepat pencarian dan kueri dalam Elasticsearch.
Contoh: Teks Elasticsearch adalah alat pencarian dan analitik yang ampuh. akan dipatok menjadi: Elasticsearch, is
, a
, powerful
, search
, dan analytics
, tool
.
Berasal
Stemming adalah proses mengubah kata menjadi bentuk dasar atau akarnya. Tujuannya adalah untuk menormalkan kata-kata dengan akar kata yang sama, membantu hasil pencarian yang lebih akurat.
Contoh: Kata running
, runs
, ran
akan diubah menjadi bentuk dasar run
.
Hentikan Penghapusan Kata
Stopwords adalah kata-kata umum dan sering muncul, seperti is
, the
, dan a
. Elasticsearch menghapus kata berhenti dari teks untuk mengurangi ukuran indeks dan meningkatkan kinerja pencarian.
Contoh: Dalam kalimat The quick brown fox jumps over the lazy dog. kata berhenti the
dan over
akan dihapus.
Sinonim
Mengidentifikasi sinonim untuk memperluas hasil pencarian. Elasticsearch dapat dikonfigurasi untuk menangani sinonim dan mengembalikan hasil yang setara.
Contoh: Jika pengguna menelusuri big
, Elasticsearch dapat mengembalikan hasil yang berisi large
dan huge
.
Analisis Kata Majemuk
Memproses kata majemuk atau kata gabungan dalam bahasa majemuk. Elasticsearch dapat menganalisis kata majemuk menjadi komponen terpisah untuk memudahkan pencarian.
Contoh: Dalam bahasa Jerman, kata majemuk schwimmbad
(kolam renang) dapat dianalisis menjadi schwimm
dan bad
.
Pencarian Frasa di Elasticsearch
Pencarian Frasa adalah cara khusus untuk mencari di Elasticsearch, berfokus pada menemukan frasa tertentu yang muncul secara berurutan dan dalam urutan yang benar di dalam teks. Ini memastikan hasil pencarian yang lebih akurat dan andal.
Contoh: Jika ada teks Elasticsearch yang merupakan alat pencarian dan analitik yang kuat, saat melakukan pencarian frasa dengan frasa "pencarian dan analisis", Elasticsearch hanya akan mengembalikan teks yang berisi frasa tersebut dalam urutan yang benar, seperti teks yang disebutkan di atas.
Untuk melakukan phrase
penelusuran di Elasticsearch, Anda dapat menggunakan kueri Cocokkan Frasa atau Match Phrase Prefix
kueri, bergantung pada persyaratan penelusuran Anda. Kueri Match Phrase
akan mencari kata kunci yang tepat phrase
, sedangkan Match Phrase Prefix
kueri memungkinkan pencocokan sebagian dari kata kunci terakhir.