Próiseáil Teanga Nádúrtha(NLP) i Elasticsearch
Elasticsearch Tá céimeanna riachtanacha i gceist leis an bPróiseáil Teanga Nádúrtha chun an téacs ionchuir a athrú agus a ghlanadh mar ullmhúchán don chuardach agus don cheistiúchán. Seo thíos roinnt modhanna próiseála teanga nádúrtha i Elasticsearch:
Tokenization
Tokenization ar a dtugtar an próiseas chun an téacs a roinnt ina aonaid níos lú tokens
. Is gnách gur focal nó frása beag gach comhartha. Cuidíonn comharthaíocht an téacs chun cuardach agus fiosrú a bhrostú i Elasticsearch.
Elasticsearch Sampla: Is uirlis chumhachtach chuardaigh agus anailísíochta é an téacs. mar seo a leanas: Elasticsearch, is
, a
, powerful
, search
, agus analytics
, tool
.
Séimhiú
Is éard is gasú ann ná an próiseas chun focail a thiontú go dtí a mbunús nó go dtí a bhfréamhfhoirm. Is é an cuspóir ná focail a bhfuil an gas focal céanna orthu a normalú, ag cuidiú le torthaí cuardaigh níos cruinne.
Sampla: Tiontófar na focail running
, runs
, go dtí an bhunfhoirm. ran
run
Stop Focal a Bhaint
Is focail choitianta agus a tharlaíonn go minic iad stopfhocail, mar is
, the
, agus a
. Elasticsearch baintear focail stoptha as an téacs chun méid an innéacs a laghdú agus chun feidhmíocht chuardaigh a fheabhsú.
Sampla: San abairt Léimeann an sionnach donn gasta thar an madra leisciúil. na focail stad the
agus over
bainfear iad.
Comhchiallaigh
Comhchiallaigh a aithint chun torthaí cuardaigh a leathnú. Elasticsearch is féidir iad a chumrú chun comhchiallaigh a láimhseáil agus torthaí coibhéiseacha a thabhairt ar ais.
Sampla: Má dhéanann úsáideoir cuardach ar big
, Elasticsearch is féidir leis torthaí ina bhfuil an dá large
agus huge
.
Anailís Focal Cumaisc
Comhfhocail nó focail cheangailte a phróiseáil i dteangacha cumaisc. Elasticsearch is féidir focail chumaisc a anailísiú ina gcomhpháirteanna ar leith chun iad a chuardach níos éasca.
Sampla: Sa Ghearmáinis, schwimmbad
is féidir an focal cumaisc(linn snámha) a anailísiú isteach schwimm
agus bad
.
Cuardach Frása i Elasticsearch
Is bealach sonrach é Cuardach Frásaí chun cuardach a dhéanamh i Elasticsearch, ag díriú ar fhrásaí sonracha a aimsiú a thagann le chéile agus san ord ceart laistigh den téacs. Cinntíonn sé seo torthaí cuardaigh níos cruinne agus níos iontaofa.
Sampla: Más Elasticsearch uirlis chumhachtach chuardaigh agus anailísíochta é téacs., agus cuardach frásaí á dhéanamh leis an bhfrása “cuardach agus anailísíocht”, ní Elasticsearch sheolfar ar ais ach téacsanna ina bhfuil an frása sin san ord ceart, amhail an téacs thuasluaite.
Chun phrase
cuardach a dhéanamh i Elasticsearch, is féidir leat an t-iarratas Frása Meaitseála nó an Match Phrase Prefix
cheist a úsáid, ag brath ar do riachtanais chuardaigh. Déanfaidh an Match Phrase
cheist cuardach do chruinn phrase
, agus Match Phrase Prefix
ceadaíonn an cheist do mheaitseáil pháirteach den eochairfhocal deiridh.