ਨੈਚੁਰਲ ਲੈਂਗੂਏਜ ਪ੍ਰੋਸੈਸਿੰਗ(NLP) in Elasticsearch
ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ Elasticsearch ਖੋਜ ਅਤੇ ਪੁੱਛਗਿੱਛ ਦੀ ਤਿਆਰੀ ਵਿੱਚ ਇਨਪੁਟ ਟੈਕਸਟ ਨੂੰ ਬਦਲਣ ਅਤੇ ਸਾਫ਼ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਕਦਮ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ। ਹੇਠਾਂ ਕੁਝ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿਧੀਆਂ ਹਨ Elasticsearch:
Tokenization
Tokenization ਟੈਕਸਟ ਨੂੰ ਛੋਟੀਆਂ ਇਕਾਈਆਂ ਵਿੱਚ ਵੰਡਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਕਿਹਾ ਜਾਂਦਾ ਹੈ tokens
। ਹਰੇਕ ਟੋਕਨ ਆਮ ਤੌਰ 'ਤੇ ਇੱਕ ਸ਼ਬਦ ਜਾਂ ਇੱਕ ਛੋਟਾ ਵਾਕਾਂਸ਼ ਹੁੰਦਾ ਹੈ। ਟੈਕਸਟ ਨੂੰ ਟੋਕਨਾਈਜ਼ ਕਰਨਾ ਵਿੱਚ ਖੋਜ ਅਤੇ ਪੁੱਛਗਿੱਛ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ Elasticsearch ।
ਉਦਾਹਰਨ: ਟੈਕਸਟ Elasticsearch ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਸੰਦ ਹੈ। ਵਿੱਚ ਟੋਕਨਾਈਜ਼ ਕੀਤਾ ਜਾਵੇਗਾ: Elasticsearch, is
, a
, powerful
, search
, ਅਤੇ analytics
, tool
.
ਸਟੈਮਿੰਗ
ਸਟੈਮਿੰਗ ਸ਼ਬਦਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਅਧਾਰ ਜਾਂ ਮੂਲ ਰੂਪ ਵਿੱਚ ਬਦਲਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ। ਉਦੇਸ਼ ਇੱਕੋ ਸ਼ਬਦ ਸਟੈਮ ਵਾਲੇ ਸ਼ਬਦਾਂ ਨੂੰ ਆਮ ਬਣਾਉਣਾ ਹੈ, ਵਧੇਰੇ ਸਹੀ ਖੋਜ ਨਤੀਜਿਆਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨਾ।
ਉਦਾਹਰਨ: ਸ਼ਬਦ running
, runs
, ran
ਨੂੰ ਅਧਾਰ ਰੂਪ ਵਿੱਚ ਬਦਲਿਆ ਜਾਵੇਗਾ run
।
ਸ਼ਬਦਾਂ ਨੂੰ ਹਟਾਉਣਾ ਬੰਦ ਕਰੋ
ਸਟਾਪ ਸ਼ਬਦ ਆਮ ਅਤੇ ਅਕਸਰ ਆਉਣ ਵਾਲੇ ਸ਼ਬਦ ਹਨ, ਜਿਵੇਂ ਕਿ is
, the
ਅਤੇ a
. Elasticsearch ਸੂਚਕਾਂਕ ਦੇ ਆਕਾਰ ਨੂੰ ਘਟਾਉਣ ਅਤੇ ਖੋਜ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਟੈਕਸਟ ਤੋਂ ਸਟਾਪ ਸ਼ਬਦਾਂ ਨੂੰ ਹਟਾਉਂਦਾ ਹੈ।
ਉਦਾਹਰਨ: ਵਾਕ ਵਿੱਚ ਤੇਜ਼ ਭੂਰਾ ਲੂੰਬੜੀ ਆਲਸੀ ਕੁੱਤੇ ਦੇ ਉੱਪਰ ਛਾਲ ਮਾਰਦੀ ਹੈ। ਸਟਾਪ ਸ਼ਬਦ the
ਅਤੇ over
ਹਟਾ ਦਿੱਤੇ ਜਾਣਗੇ।
ਸਮਾਨਾਰਥੀ
ਖੋਜ ਨਤੀਜਿਆਂ ਦਾ ਵਿਸਤਾਰ ਕਰਨ ਲਈ ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨਾ। Elasticsearch ਸਮਾਨਾਰਥੀ ਸ਼ਬਦਾਂ ਨੂੰ ਸੰਭਾਲਣ ਅਤੇ ਬਰਾਬਰ ਨਤੀਜੇ ਦੇਣ ਲਈ ਕੌਂਫਿਗਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਉਦਾਹਰਨ: ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਦੀ ਖੋਜ ਕਰਦਾ ਹੈ big
, Elasticsearch ਤਾਂ ਉਹ ਨਤੀਜੇ ਵਾਪਸ ਕਰ ਸਕਦਾ ਹੈ ਜਿਸ ਵਿੱਚ large
ਅਤੇ huge
.
ਮਿਸ਼ਰਿਤ ਸ਼ਬਦ ਵਿਸ਼ਲੇਸ਼ਣ
ਮਿਸ਼ਰਿਤ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਮਿਸ਼ਰਿਤ ਸ਼ਬਦਾਂ ਜਾਂ ਸੰਯੁਕਤ ਸ਼ਬਦਾਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨਾ। Elasticsearch ਆਸਾਨ ਖੋਜ ਲਈ ਮਿਸ਼ਰਿਤ ਸ਼ਬਦਾਂ ਨੂੰ ਵੱਖਰੇ ਹਿੱਸਿਆਂ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ।
ਉਦਾਹਰਨ: ਜਰਮਨ ਵਿੱਚ, ਮਿਸ਼ਰਿਤ ਸ਼ਬਦ schwimmbad
(ਸਵੀਮਿੰਗ ਪੂਲ) ਦਾ schwimm
ਅਤੇ ਵਿੱਚ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ bad
।
ਵਿੱਚ ਵਾਕਾਂਸ਼ ਖੋਜ Elasticsearch
ਵਾਕਾਂਸ਼ ਖੋਜ ਵਿੱਚ ਖੋਜ ਕਰਨ ਦਾ ਇੱਕ ਖਾਸ ਤਰੀਕਾ ਹੈ Elasticsearch, ਖਾਸ ਵਾਕਾਂਸ਼ਾਂ ਨੂੰ ਲੱਭਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਨਾ ਜੋ ਪਾਠ ਦੇ ਅੰਦਰ ਲਗਾਤਾਰ ਅਤੇ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ। ਇਹ ਵਧੇਰੇ ਸਹੀ ਅਤੇ ਭਰੋਸੇਮੰਦ ਖੋਜ ਨਤੀਜਿਆਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।
ਉਦਾਹਰਨ: ਜੇਕਰ ਕੋਈ ਟੈਕਸਟ ਹੈ ਤਾਂ Elasticsearch ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਟੂਲ ਹੈ।, ਜਦੋਂ "ਖੋਜ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ" ਵਾਕਾਂਸ਼ ਦੇ ਨਾਲ ਇੱਕ ਵਾਕਾਂਸ਼ ਖੋਜ ਕਰਦੇ ਹੋ, ਤਾਂ Elasticsearch ਸਿਰਫ਼ ਉਸ ਵਾਕਾਂਸ਼ ਨੂੰ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰਨ ਵਾਲੇ ਟੈਕਸਟ ਵਾਪਸ ਕਰੇਗਾ, ਜਿਵੇਂ ਕਿ ਉੱਪਰ ਜ਼ਿਕਰ ਕੀਤਾ ਟੈਕਸਟ।
phrase
ਵਿੱਚ ਖੋਜ ਕਰਨ ਲਈ Elasticsearch, ਤੁਸੀਂ ਜਾਂ ਤਾਂ ਮੈਚ ਵਾਕਾਂਸ਼ ਪੁੱਛਗਿੱਛ ਜਾਂ Match Phrase Prefix
ਪੁੱਛਗਿੱਛ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ, ਤੁਹਾਡੀਆਂ ਖੋਜ ਲੋੜਾਂ ਦੇ ਆਧਾਰ 'ਤੇ। ਪੁੱਛਗਿੱਛ Match Phrase
ਇੱਕ ਸਟੀਕ ਦੀ ਖੋਜ ਕਰੇਗੀ phrase
, ਜਦੋਂ ਕਿ Match Phrase Prefix
ਪੁੱਛਗਿੱਛ ਆਖਰੀ ਕੀਵਰਡ ਦੇ ਅੰਸ਼ਕ ਮਿਲਾਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ।