معالجة اللغة الطبيعية(NLP) في Elasticsearch
تتضمن معالجة اللغة الطبيعية Elasticsearch خطوات أساسية لتحويل وتنظيف نص الإدخال استعدادًا للبحث والاستعلام. فيما يلي بعض طرق معالجة اللغة الطبيعية في Elasticsearch:
Tokenization
Tokenization هي عملية تقسيم النص إلى وحدات أصغر تسمى tokens. عادةً ما يكون كل رمز مميزًا كلمة أو عبارة صغيرة. يساعد ترميز النص في تسريع البحث والاستعلام Elasticsearch.
مثال: النص Elasticsearch هو أداة بحث وتحليلات قوية. سيتم ترميزها إلى: Elasticsearch و is و و و و. a powerful search analytics tool
ينبع
الاشتقاق هو عملية تحويل الكلمات إلى شكلها الأساسي أو الجذر. والغرض من ذلك هو تطبيع الكلمات التي لها نفس جذع الكلمة ، مما يساعد على نتائج بحث أكثر دقة.
مثال: سيتم تحويل الكلمات running ، إلى الصيغة runs الأساسية. ran run
وقف إزالة الكلمات
كلمات التوقف هي كلمات شائعة ومتكررة ، مثل is ، the و ، و a. Elasticsearch يزيل كلمات الإيقاف من النص لتقليل حجم الفهرس وتحسين أداء البحث.
مثال: في الجملة يقفز الثعلب البني السريع فوق الكلب الكسول. كلمات التوقف the وسيتم over إزالتها.
المرادفات
تحديد المرادفات لتوسيع نتائج البحث. Elasticsearch يمكن تهيئتها للتعامل مع المرادفات وإرجاع نتائج مكافئة.
مثال: إذا كان المستخدم يبحث عن big ، Elasticsearch فقد يعرض نتائج تحتوي على كل من large و huge.
تحليل الكلمات المركبة
معالجة الكلمات المركبة أو الكلمات المنضمة في اللغات المركبة. Elasticsearch يمكنه تحليل الكلمات المركبة إلى مكونات منفصلة لتسهيل البحث.
schwimmbad مثال: في اللغة الألمانية ، يمكن تحليل الكلمة المركبة(حمام السباحة) إلى schwimm و bad.
عبارة البحث في Elasticsearch
البحث بالعبارة طريقة محددة للبحث Elasticsearch ، مع التركيز على إيجاد عبارات محددة تظهر بشكل متتالي وبالترتيب الصحيح داخل النص. هذا يضمن نتائج بحث أكثر دقة وموثوقية.
مثال: إذا كان هناك نص Elasticsearch يمثل أداة بحث وتحليلات قوية. عند إجراء بحث عن عبارة باستخدام عبارة "بحث وتحليلات" ، Elasticsearch سيتم فقط عرض النصوص التي تحتوي على هذه العبارة بالترتيب الصحيح ، مثل النص المذكور أعلاه.
لإجراء phrase بحث في Elasticsearch ، يمكنك استخدام إما استعلام مطابقة العبارة أو Match Phrase Prefix الاستعلام ، بناءً على متطلبات البحث الخاصة بك. Match Phrase سيبحث الاستعلام عن كلمة مرور تامة ، phrase بينما Match Phrase Prefix يسمح الاستعلام بمطابقة جزئية للكلمة الرئيسية الأخيرة.

