Próiseáil Teanga Nádúrtha(NLP) agus Cuardach Frásaí i Elasticsearch

Próiseáil Teanga Nádúrtha(NLP) i Elasticsearch

Elasticsearch Tá céimeanna riachtanacha i gceist leis an bPróiseáil Teanga Nádúrtha chun an téacs ionchuir a athrú agus a ghlanadh mar ullmhúchán don chuardach agus don cheistiúchán. Seo thíos roinnt modhanna próiseála teanga nádúrtha i Elasticsearch:

Tokenization

Tokenization ar a dtugtar an próiseas chun an téacs a roinnt ina aonaid níos lú tokens. Is gnách gur focal nó frása beag gach comhartha. Cuidíonn comharthaíocht an téacs chun cuardach agus fiosrú a bhrostú i Elasticsearch.

Elasticsearch Sampla: Is uirlis chumhachtach chuardaigh agus anailísíochta é an téacs. mar seo a leanas: Elasticsearch, is, a, powerful, search, agus analytics, tool.

Séimhiú

Is éard is gasú ann ná an próiseas chun focail a thiontú go dtí a mbunús nó go dtí a bhfréamhfhoirm. Is é an cuspóir ná focail a bhfuil an gas focal céanna orthu a normalú, ag cuidiú le torthaí cuardaigh níos cruinne.

Sampla: Tiontófar na focail running, runs, go dtí an bhunfhoirm. ran run

Stop Focal a Bhaint

Is focail choitianta agus a tharlaíonn go minic iad stopfhocail, mar is, the, agus a. Elasticsearch baintear focail stoptha as an téacs chun méid an innéacs a laghdú agus chun feidhmíocht chuardaigh a fheabhsú.

Sampla: San abairt Léimeann an sionnach donn gasta thar an madra leisciúil. na focail stad the agus over bainfear iad.

Comhchiallaigh

Comhchiallaigh a aithint chun torthaí cuardaigh a leathnú. Elasticsearch is féidir iad a chumrú chun comhchiallaigh a láimhseáil agus torthaí coibhéiseacha a thabhairt ar ais.

Sampla: Má dhéanann úsáideoir cuardach ar big, Elasticsearch is féidir leis torthaí ina bhfuil an dá large agus huge.

Anailís Focal Cumaisc

Comhfhocail nó focail cheangailte a phróiseáil i dteangacha cumaisc. Elasticsearch is féidir focail chumaisc a anailísiú ina gcomhpháirteanna ar leith chun iad a chuardach níos éasca.

Sampla: Sa Ghearmáinis, schwimmbad is féidir an focal cumaisc(linn snámha) a anailísiú isteach schwimm agus bad.

 

Cuardach Frása i Elasticsearch

Is bealach sonrach é Cuardach Frásaí chun cuardach a dhéanamh i Elasticsearch, ag díriú ar fhrásaí sonracha a aimsiú a thagann le chéile agus san ord ceart laistigh den téacs. Cinntíonn sé seo torthaí cuardaigh níos cruinne agus níos iontaofa.

Sampla: Más Elasticsearch uirlis chumhachtach chuardaigh agus anailísíochta é téacs., agus cuardach frásaí á dhéanamh leis an bhfrása “cuardach agus anailísíocht”, ní Elasticsearch sheolfar ar ais ach téacsanna ina bhfuil an frása sin san ord ceart, amhail an téacs thuasluaite.

 

Chun phrase cuardach a dhéanamh i Elasticsearch, is féidir leat an t-iarratas Frása Meaitseála nó an Match Phrase Prefix cheist a úsáid, ag brath ar do riachtanais chuardaigh. Déanfaidh an Match Phrase cheist cuardach do chruinn phrase, agus Match Phrase Prefix ceadaíonn an cheist do mheaitseáil pháirteach den eochairfhocal deiridh.