자연어 처리(NLP) 및 구문 검색 Elasticsearch

자연어 처리(NLP) Elasticsearch

의 자연어 처리에는 Elasticsearch 검색 및 쿼리를 준비하기 위해 입력 텍스트를 변환하고 정리하는 필수 단계가 포함됩니다. 다음은 다음의 몇 가지 자연어 처리 방법입니다 Elasticsearch.

Tokenization

Tokenization 라는 더 작은 단위로 텍스트를 나누는 과정입니다 tokens. 각 토큰은 일반적으로 단어 또는 작은 문구입니다. 텍스트를 토큰화하면 에서 검색 및 쿼리 속도를 높일 수 있습니다 Elasticsearch.

예: 텍스트는 Elasticsearch 강력한 검색 및 분석 도구입니다. Elasticsearch, is, a, powerful, searchanalytics, 로 토큰화됩니다 tool.

스테밍

형태소 분석은 단어를 기본 또는 어근 형태로 변환하는 프로세스입니다. 그 목적은 어간이 같은 단어를 정규화하여 보다 정확한 검색 결과를 얻는 것입니다.

예: 단어 running, runs, 는 ran 기본 형식 으로 변환됩니다 run.

불용어 제거

is 중지 단어는, the 및 와 같이 일반적이고 자주 발생하는 단어입니다 a. Elasticsearch 인덱스 크기를 줄이고 검색 성능을 향상시키기 위해 텍스트에서 불용어를 제거합니다.

예: 문장에서 재빠른 갈색 여우가 게으른 개를 뛰어 넘습니다. 중지 단어 theover 제거됩니다.

동의어

검색 결과를 확장하기 위한 동의어 식별. Elasticsearch 동의어를 처리하고 동등한 결과를 반환하도록 구성할 수 있습니다.

예: 사용자가 을 검색하면 및 가 big 모두 포함 Elasticsearch 된 결과가 반환될 수 있습니다. large huge

합성어 분석

복합어에서 복합어 또는 결합어를 처리합니다. Elasticsearch 더 쉬운 검색을 위해 합성어를 별도의 구성 요소로 분석할 수 있습니다.

예: 독일어에서 합성어(swimming pool)는 and schwimmbad 로 분석될 수 있습니다. schwimm bad

 

구문 검색 Elasticsearch

구문 검색은 에서 검색하는 특정 방법으로 Elasticsearch, 텍스트 내에서 올바른 순서로 연속적으로 나타나는 특정 구문을 찾는 데 중점을 둡니다. 이를 통해 보다 정확하고 신뢰할 수 있는 검색 결과를 얻을 수 있습니다.

예: 강력한 검색 및 분석 도구인 텍스트가 있는 경우 Elasticsearch "검색 및 분석"이라는 구문으로 구문 검색을 수행하면 Elasticsearch 위에서 언급한 텍스트와 같이 올바른 순서로 해당 구문을 포함하는 텍스트만 반환됩니다.

 

phrase 에서 검색을 수행하려면 검색 요구 사항에 따라 Elasticsearch Match Phrase 쿼리 또는 쿼리를 사용할 수 있습니다. Match Phrase Prefix 쿼리 Match Phrase 는 정확한 을 검색하는 phrase 반면 Match Phrase Prefix 쿼리는 마지막 키워드의 부분 일치를 허용합니다.