ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਪ੍ਰੋਸੈਸਿੰਗ(NLP) ਅਤੇ ਵਾਕਾਂਸ਼ ਖੋਜ ਵਿੱਚ Elasticsearch

ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਪ੍ਰੋਸੈਸਿੰਗ(NLP) in Elasticsearch

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ Elasticsearch ਖੋਜ ਅਤੇ ਪੁੱਛਗਿੱਛ ਦੀ ਤਿਆਰੀ ਵਿੱਚ ਇਨਪੁਟ ਟੈਕਸਟ ਨੂੰ ਬਦਲਣ ਅਤੇ ਸਾਫ਼ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਕਦਮ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। ਹੇਠਾਂ ਕੁਝ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿਧੀਆਂ ਹਨ Elasticsearch:

Tokenization

Tokenization ਟੈਕਸਟ ਨੂੰ ਛੋਟੀਆਂ ਇਕਾਈਆਂ ਵਿੱਚ ਵੰਡਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਕਿਹਾ ਜਾਂਦਾ ਹੈ tokens । ਹਰੇਕ ਟੋਕਨ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਸ਼ਬਦ ਜਾਂ ਇੱਕ ਛੋਟਾ ਵਾਕਾਂਸ਼ ਹੁੰਦਾ ਹੈ। ਟੈਕਸਟ ਨੂੰ ਟੋਕਨਾਈਜ਼ ਕਰਨਾ ਵਿੱਚ ਖੋਜ ਅਤੇ ਪੁੱਛਗਿੱਛ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ Elasticsearch ।

ਉਦਾਹਰਨ: ਟੈਕਸਟ Elasticsearch ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਸੰਦ ਹੈ। ਵਿੱਚ ਟੋਕਨਾਈਜ਼ ਕੀਤਾ ਜਾਵੇਗਾ: Elasticsearch, is, a, powerful, search, ਅਤੇ analytics, tool.

ਸਟੈਮਿੰਗ

ਸਟੈਮਿੰਗ ਸ਼ਬਦਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਅਧਾਰ ਜਾਂ ਮੂਲ ਰੂਪ ਵਿੱਚ ਬਦਲਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਉਦੇਸ਼ ਇੱਕੋ ਸ਼ਬਦ ਸਟੈਮ ਵਾਲੇ ਸ਼ਬਦਾਂ ਨੂੰ ਆਮ ਬਣਾਉਣਾ ਹੈ, ਵਧੇਰੇ ਸਹੀ ਖੋਜ ਨਤੀਜਿਆਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨਾ।

ਉਦਾਹਰਨ: ਸ਼ਬਦ running, runs, ran ਨੂੰ ਅਧਾਰ ਰੂਪ ਵਿੱਚ ਬਦਲਿਆ ਜਾਵੇਗਾ run

ਸ਼ਬਦਾਂ ਨੂੰ ਹਟਾਉਣਾ ਬੰਦ ਕਰੋ

ਸਟਾਪ ਸ਼ਬਦ ਆਮ ਅਤੇ ਅਕਸਰ ਆਉਣ ਵਾਲੇ ਸ਼ਬਦ ਹਨ, ਜਿਵੇਂ ਕਿ is, the ਅਤੇ a. Elasticsearch ਸੂਚਕਾਂਕ ਦੇ ਆਕਾਰ ਨੂੰ ਘਟਾਉਣ ਅਤੇ ਖੋਜ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਟੈਕਸਟ ਤੋਂ ਸਟਾਪ ਸ਼ਬਦਾਂ ਨੂੰ ਹਟਾਉਂਦਾ ਹੈ।

ਉਦਾਹਰਨ: ਵਾਕ ਵਿੱਚ ਤੇਜ਼ ਭੂਰਾ ਲੂੰਬੜੀ ਆਲਸੀ ਕੁੱਤੇ ਦੇ ਉੱਪਰ ਛਾਲ ਮਾਰਦੀ ਹੈ। ਸਟਾਪ ਸ਼ਬਦ the ਅਤੇ over ਹਟਾ ਦਿੱਤੇ ਜਾਣਗੇ।

ਸਮਾਨਾਰਥੀ

ਖੋਜ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸਤਾਰ ਕਰਨ ਲਈ ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨਾ। Elasticsearch ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਨੂੰ ਸੰਭਾਲਣ ਅਤੇ ਬਰਾਬਰ ਨਤੀਜੇ ਦੇਣ ਲਈ ਕੌਂਫਿਗਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਉਦਾਹਰਨ: ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ big, Elasticsearch ਤਾਂ ਉਹ ਨਤੀਜੇ ਵਾਪਸ ਕਰ ਸਕਦਾ ਹੈ ਜਿਸ ਵਿੱਚ large ਅਤੇ huge.

ਮਿਸ਼ਰਿਤ ਸ਼ਬਦ ਵਿਸ਼ਲੇਸ਼ਣ

ਮਿਸ਼ਰਿਤ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਮਿਸ਼ਰਿਤ ਸ਼ਬਦਾਂ ਜਾਂ ਸੰਯੁਕਤ ਸ਼ਬਦਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨਾ। Elasticsearch ਆਸਾਨ ਖੋਜ ਲਈ ਮਿਸ਼ਰਿਤ ਸ਼ਬਦਾਂ ਨੂੰ ਵੱਖਰੇ ਹਿੱਸਿਆਂ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ।

ਉਦਾਹਰਨ: ਜਰਮਨ ਵਿੱਚ, ਮਿਸ਼ਰਿਤ ਸ਼ਬਦ schwimmbad(ਸਵੀਮਿੰਗ ਪੂਲ) ਦਾ schwimm ਅਤੇ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ bad

 

ਵਿੱਚ ਵਾਕਾਂਸ਼ ਖੋਜ Elasticsearch

ਵਾਕਾਂਸ਼ ਖੋਜ ਵਿੱਚ ਖੋਜ ਕਰਨ ਦਾ ਇੱਕ ਖਾਸ ਤਰੀਕਾ ਹੈ Elasticsearch, ਖਾਸ ਵਾਕਾਂਸ਼ਾਂ ਨੂੰ ਲੱਭਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਨਾ ਜੋ ਪਾਠ ਦੇ ਅੰਦਰ ਲਗਾਤਾਰ ਅਤੇ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ। ਇਹ ਵਧੇਰੇ ਸਹੀ ਅਤੇ ਭਰੋਸੇਮੰਦ ਖੋਜ ਨਤੀਜਿਆਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।

ਉਦਾਹਰਨ: ਜੇਕਰ ਕੋਈ ਟੈਕਸਟ ਹੈ ਤਾਂ Elasticsearch ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਟੂਲ ਹੈ।, ਜਦੋਂ "ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ" ਵਾਕਾਂਸ਼ ਦੇ ਨਾਲ ਇੱਕ ਵਾਕਾਂਸ਼ ਖੋਜ ਕਰਦੇ ਹੋ, ਤਾਂ Elasticsearch ਸਿਰਫ਼ ਉਸ ਵਾਕਾਂਸ਼ ਨੂੰ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਟੈਕਸਟ ਵਾਪਸ ਕਰੇਗਾ, ਜਿਵੇਂ ਕਿ ਉੱਪਰ ਜ਼ਿਕਰ ਕੀਤਾ ਟੈਕਸਟ।

 

phrase ਵਿੱਚ ਖੋਜ ਕਰਨ ਲਈ Elasticsearch, ਤੁਸੀਂ ਜਾਂ ਤਾਂ ਮੈਚ ਵਾਕਾਂਸ਼ ਪੁੱਛਗਿੱਛ ਜਾਂ Match Phrase Prefix ਪੁੱਛਗਿੱਛ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ, ਤੁਹਾਡੀਆਂ ਖੋਜ ਲੋੜਾਂ ਦੇ ਆਧਾਰ 'ਤੇ। ਪੁੱਛਗਿੱਛ Match Phrase ਇੱਕ ਸਟੀਕ ਦੀ ਖੋਜ ਕਰੇਗੀ phrase, ਜਦੋਂ ਕਿ Match Phrase Prefix ਪੁੱਛਗਿੱਛ ਆਖਰੀ ਕੀਵਰਡ ਦੇ ਅੰਸ਼ਕ ਮਿਲਾਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।