معالجة اللغة الطبيعية(NLP) والبحث عن العبارات بتنسيق Elasticsearch

معالجة اللغة الطبيعية(NLP) في Elasticsearch

تتضمن معالجة اللغة الطبيعية Elasticsearch خطوات أساسية لتحويل وتنظيف نص الإدخال استعدادًا للبحث والاستعلام. فيما يلي بعض طرق معالجة اللغة الطبيعية في Elasticsearch:

Tokenization

Tokenization هي عملية تقسيم النص إلى وحدات أصغر تسمى tokens. عادةً ما يكون كل رمز مميزًا كلمة أو عبارة صغيرة. يساعد ترميز النص في تسريع البحث والاستعلام Elasticsearch.

مثال: النص Elasticsearch هو أداة بحث وتحليلات قوية. سيتم ترميزها إلى: Elasticsearch و is و و و و. a powerful search analytics tool

ينبع

الاشتقاق هو عملية تحويل الكلمات إلى شكلها الأساسي أو الجذر. والغرض من ذلك هو تطبيع الكلمات التي لها نفس جذع الكلمة ، مما يساعد على نتائج بحث أكثر دقة.

مثال: سيتم تحويل الكلمات running ، إلى الصيغة runs الأساسية. ran run

وقف إزالة الكلمات

كلمات التوقف هي كلمات شائعة ومتكررة ، مثل is ، the و ، و a. Elasticsearch يزيل كلمات الإيقاف من النص لتقليل حجم الفهرس وتحسين أداء البحث.

مثال: في الجملة يقفز الثعلب البني السريع فوق الكلب الكسول. كلمات التوقف the وسيتم over إزالتها.

المرادفات

تحديد المرادفات لتوسيع نتائج البحث. Elasticsearch يمكن تهيئتها للتعامل مع المرادفات وإرجاع نتائج مكافئة.

مثال: إذا كان المستخدم يبحث عن big ، Elasticsearch فقد يعرض نتائج تحتوي على كل من large و huge.

تحليل الكلمات المركبة

معالجة الكلمات المركبة أو الكلمات المنضمة في اللغات المركبة. Elasticsearch يمكنه تحليل الكلمات المركبة إلى مكونات منفصلة لتسهيل البحث.

schwimmbad مثال: في اللغة الألمانية ، يمكن تحليل الكلمة المركبة(حمام السباحة) إلى schwimm و bad.

 

عبارة البحث في Elasticsearch

البحث بالعبارة طريقة محددة للبحث Elasticsearch ، مع التركيز على إيجاد عبارات محددة تظهر بشكل متتالي وبالترتيب الصحيح داخل النص. هذا يضمن نتائج بحث أكثر دقة وموثوقية.

مثال: إذا كان هناك نص Elasticsearch يمثل أداة بحث وتحليلات قوية. عند إجراء بحث عن عبارة باستخدام عبارة "بحث وتحليلات" ، Elasticsearch سيتم فقط عرض النصوص التي تحتوي على هذه العبارة بالترتيب الصحيح ، مثل النص المذكور أعلاه.

 

لإجراء phrase بحث في Elasticsearch ، يمكنك استخدام إما استعلام مطابقة العبارة أو Match Phrase Prefix الاستعلام ، بناءً على متطلبات البحث الخاصة بك. Match Phrase سيبحث الاستعلام عن كلمة مرور تامة ، phrase بينما Match Phrase Prefix يسمح الاستعلام بمطابقة جزئية للكلمة الرئيسية الأخيرة.