معالجة اللغة الطبيعية(NLP) في Elasticsearch
تتضمن معالجة اللغة الطبيعية Elasticsearch خطوات أساسية لتحويل وتنظيف نص الإدخال استعدادًا للبحث والاستعلام. فيما يلي بعض طرق معالجة اللغة الطبيعية في Elasticsearch:
Tokenization
Tokenization هي عملية تقسيم النص إلى وحدات أصغر تسمى tokens
. عادةً ما يكون كل رمز مميزًا كلمة أو عبارة صغيرة. يساعد ترميز النص في تسريع البحث والاستعلام Elasticsearch.
مثال: النص Elasticsearch هو أداة بحث وتحليلات قوية. سيتم ترميزها إلى: Elasticsearch و is
و و و و. a
powerful
search
analytics
tool
ينبع
الاشتقاق هو عملية تحويل الكلمات إلى شكلها الأساسي أو الجذر. والغرض من ذلك هو تطبيع الكلمات التي لها نفس جذع الكلمة ، مما يساعد على نتائج بحث أكثر دقة.
مثال: سيتم تحويل الكلمات running
، إلى الصيغة runs
الأساسية. ran
run
وقف إزالة الكلمات
كلمات التوقف هي كلمات شائعة ومتكررة ، مثل is
، the
و ، و a
. Elasticsearch يزيل كلمات الإيقاف من النص لتقليل حجم الفهرس وتحسين أداء البحث.
مثال: في الجملة يقفز الثعلب البني السريع فوق الكلب الكسول. كلمات التوقف the
وسيتم over
إزالتها.
المرادفات
تحديد المرادفات لتوسيع نتائج البحث. Elasticsearch يمكن تهيئتها للتعامل مع المرادفات وإرجاع نتائج مكافئة.
مثال: إذا كان المستخدم يبحث عن big
، Elasticsearch فقد يعرض نتائج تحتوي على كل من large
و huge
.
تحليل الكلمات المركبة
معالجة الكلمات المركبة أو الكلمات المنضمة في اللغات المركبة. Elasticsearch يمكنه تحليل الكلمات المركبة إلى مكونات منفصلة لتسهيل البحث.
schwimmbad
مثال: في اللغة الألمانية ، يمكن تحليل الكلمة المركبة(حمام السباحة) إلى schwimm
و bad
.
عبارة البحث في Elasticsearch
البحث بالعبارة طريقة محددة للبحث Elasticsearch ، مع التركيز على إيجاد عبارات محددة تظهر بشكل متتالي وبالترتيب الصحيح داخل النص. هذا يضمن نتائج بحث أكثر دقة وموثوقية.
مثال: إذا كان هناك نص Elasticsearch يمثل أداة بحث وتحليلات قوية. عند إجراء بحث عن عبارة باستخدام عبارة "بحث وتحليلات" ، Elasticsearch سيتم فقط عرض النصوص التي تحتوي على هذه العبارة بالترتيب الصحيح ، مثل النص المذكور أعلاه.
لإجراء phrase
بحث في Elasticsearch ، يمكنك استخدام إما استعلام مطابقة العبارة أو Match Phrase Prefix
الاستعلام ، بناءً على متطلبات البحث الخاصة بك. Match Phrase
سيبحث الاستعلام عن كلمة مرور تامة ، phrase
بينما Match Phrase Prefix
يسمح الاستعلام بمطابقة جزئية للكلمة الرئيسية الأخيرة.