www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

<rt id="hg1hv"><th id="hg1hv"><rt id="hg1hv"></rt></th></rt>

美文摘抄 蒲公英文摘 > 美文摘抄 >

漢語(yǔ)分詞技術(shù)綜述_無(wú)監(jiān)督漢語(yǔ)分詞

發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄點(diǎn)擊：

　　[摘要]首先介紹漢語(yǔ)自動(dòng)分詞技術(shù)及基于詞索引的中文全文檢索技術(shù)，接著分別從文獻(xiàn)自動(dòng)標(biāo)引、文摘自動(dòng)生成、文本自動(dòng)分類、文本信息過(guò)濾、自然語(yǔ)言檢索接口和智能檢索等方面詳細(xì)地闡述漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用，并對(duì)目前漢語(yǔ)自動(dòng)分詞技術(shù)存在的局限性進(jìn)行分析，提出發(fā)展思路，最后對(duì)漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用前景進(jìn)行預(yù)測(cè)。
　　[關(guān)鍵詞]漢語(yǔ)自動(dòng)分詞　中文全文檢索文獻(xiàn)自動(dòng)標(biāo)引　自然語(yǔ)言檢索
　　[分類號(hào)]G354
　　
　　1　漢語(yǔ)自動(dòng)分詞技術(shù)
　　
　　詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分，自然語(yǔ)言的處理必須以詞為單位，然而，漢語(yǔ)文本中詞與詞之間沒(méi)有明確的分隔標(biāo)記，而是連續(xù)的漢字串，因此理解和處理漢語(yǔ)的首要任務(wù)就是把連續(xù)的漢字串分割成詞的序列，即自動(dòng)分詞。
　　近20年來(lái)，國(guó)內(nèi)語(yǔ)言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們對(duì)漢語(yǔ)自動(dòng)分詞這一研究領(lǐng)域給予了極大的關(guān)注，提出了許多解決漢語(yǔ)自動(dòng)分詞的方法，歸納起來(lái)主要有四種類型：基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點(diǎn)，分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法由于其算法成熟，易于實(shí)現(xiàn)，是目前普遍使用的切分方法�；诮y(tǒng)計(jì)的分詞方法由于有良好的歧義切分能力和低頻詞識(shí)別能力，受到越來(lái)越多的研究人員的重視，發(fā)展較快，但實(shí)際使用中，單獨(dú)使用的較少，一般都與基于詞典匹配的分詞方法結(jié)合使用；基于理解的分詞方法是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義的分析，利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象，因而具有良好的歧義切分能力，但因?yàn)橐獙?duì)語(yǔ)言自身信息進(jìn)行更多的處理，因而加大了實(shí)現(xiàn)的難度；基于人工智能的分詞方法是目前理論上最為理想的分詞方法，但是該類分詞方法的研究還處于初級(jí)階段，并且由于漢語(yǔ)自然語(yǔ)言復(fù)雜靈活，知識(shí)表示困難，所以對(duì)于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。
　　
　　2　基于詞索引的中文全文檢索
　　
　　全文檢索是一種面向全文和提供全文的檢索技術(shù)，其核心是將文檔中所有基本元素的出現(xiàn)信息記錄到索引庫(kù)中，在中文全文檢索系統(tǒng)中，這些基本元素可以是單個(gè)漢字，也可以是詞，因此存在兩種基本的索引結(jié)構(gòu)，即基于字的索引和基于詞的索引。
　　基于詞索引的中文全文檢索系統(tǒng)首先必須進(jìn)行漢語(yǔ)自動(dòng)分詞，其次是把文檔中出現(xiàn)的所有有意義的詞建立倒排索引，檢索時(shí)將用戶輸入的檢索要求按照一定的匹配機(jī)制與詞索引庫(kù)中的信息進(jìn)行匹配，最后將檢索結(jié)果返回給用戶。
　　建立詞索引庫(kù)時(shí)，需要掃描整個(gè)文檔，并利用自動(dòng)分詞技術(shù)對(duì)文檔中的漢字串進(jìn)行切分，對(duì)切分出來(lái)的每一個(gè)有效詞，計(jì)算其在文檔中出現(xiàn)的位置和頻率，同時(shí)將該位置信息和頻率的值以及所屬文檔號(hào)加入到詞索引庫(kù)中，建立基于詞的倒排索引。
　　
　　典型的基于詞的倒排索引結(jié)構(gòu)(見(jiàn)圖1)包含兩部分.①中文詞組成向量(稱之為詞匯表)，包含詞的基本信息和詞索引在索引文件中的偏移量；②對(duì)于詞匯表中的每一個(gè)詞，都有一個(gè)它出現(xiàn)過(guò)的文檔列表，包含了出現(xiàn)文檔編號(hào)和在此文檔中該詞的詞頻以及出現(xiàn)位置序列，也可以在詞索引中記下段落號(hào)、句子號(hào)等。
　　詞索引庫(kù)建立之后，就可根據(jù)一定的檢索模型來(lái)處理用戶的檢索請(qǐng)求，常用的信息模型有：布爾邏輯模型、向量空間模型以及概率模型等，其中布爾邏輯模型是目前中文全文檢索系統(tǒng)采用最多的一種模型。
　　
　　3　漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用
　　
　　3.1　文獻(xiàn)自動(dòng)標(biāo)引
　　標(biāo)引是對(duì)文獻(xiàn)進(jìn)行分析，提取關(guān)鍵信息，產(chǎn)生對(duì)文獻(xiàn)的描述，它是全文檢索實(shí)現(xiàn)的主要支持。目前，對(duì)網(wǎng)上日益豐富的信息資源進(jìn)行人工標(biāo)引變得越來(lái)越困難，因而利用計(jì)算機(jī)進(jìn)行文獻(xiàn)自動(dòng)標(biāo)引的需求也越來(lái)越迫切。要實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)標(biāo)引，其重要的前提是漢語(yǔ)自動(dòng)分詞，只有正確地把具有檢索意義的漢語(yǔ)詞切分出來(lái)，才能提取足以描述文檔內(nèi)容的關(guān)鍵信息，并在此基礎(chǔ)上進(jìn)行文獻(xiàn)的自動(dòng)標(biāo)引。
　　常見(jiàn)的文獻(xiàn)自動(dòng)標(biāo)引的方式有：①全文標(biāo)引：將整篇文章中出現(xiàn)的所有具有檢索意義的漢語(yǔ)詞切分出來(lái)，統(tǒng)計(jì)詞頻并標(biāo)注其位置信息，存入全文數(shù)據(jù)庫(kù)；②主題詞自動(dòng)抽�。焊鶕�(jù)文獻(xiàn)所論述和研究的具體對(duì)象和問(wèn)題，賦予文獻(xiàn)以恰當(dāng)?shù)闹黝}詞，其首要的工作是對(duì)需要處理的文獻(xiàn)進(jìn)行自動(dòng)分詞處理，去掉停用詞，并計(jì)算詞頻和權(quán)值，然后進(jìn)行排序，選出系統(tǒng)規(guī)定數(shù)量的詞匯作為主題詞。
　　
　　3.2　文摘自動(dòng)生成
　　文摘自動(dòng)生成是把文檔內(nèi)容從邏輯和語(yǔ)義上進(jìn)行分析，縮寫(xiě)成有限的可讀摘要，標(biāo)志文章的主題內(nèi)容，從而有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度。文摘自動(dòng)生成常用的是基于統(tǒng)計(jì)的方法，即首先對(duì)全文進(jìn)行自動(dòng)分詞，然后計(jì)算文章中各個(gè)詞出現(xiàn)的頻率和權(quán)重，并按照某種準(zhǔn)則確定出關(guān)鍵詞，將關(guān)鍵詞所在的語(yǔ)句抽取出來(lái)，再依據(jù)各種句子權(quán)重指標(biāo)計(jì)算句子綜合權(quán)重，選出一組最能代表文獻(xiàn)主題內(nèi)容的句子，并對(duì)句子進(jìn)行排序作為文摘句，最后生成文摘。
　　
　　3.3　文本自動(dòng)分類
　　文本自動(dòng)分類的任務(wù)是基于內(nèi)容將大量的用自然語(yǔ)言寫(xiě)成的文本按照一定的主題類別自動(dòng)進(jìn)行分類，它能將信息文檔分類并自動(dòng)將其歸人事先給定的最接近的類中，從而使用戶能夠更加準(zhǔn)確地查找所需的信息。
　　為完成分類任務(wù)，需要對(duì)文本進(jìn)行必要的表示和預(yù)處理，在此基礎(chǔ)上再運(yùn)用分類算法對(duì)其進(jìn)行分類。目前在信息處理方向上，文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量來(lái)表示文本，其中W為第i個(gè)特征項(xiàng)的權(quán)重，一般選擇詞作為特征項(xiàng)。因此，要將文本表示為向量空間中的一個(gè)向量，就首先要將文本分詞以獲取文本中所有的詞，繼而將文本用詞頻來(lái)表示，形成表示文本的特征向量，用于以后的文本分類。
　　
　　3.4　文本信息過(guò)濾
　　信息過(guò)濾是根據(jù)用戶的信息需求，運(yùn)用一定的標(biāo)準(zhǔn)和技術(shù)，從大量的動(dòng)態(tài)信息流中將與用戶無(wú)關(guān)的信息濾掉，把滿足用戶需求的信息提供給用戶，從而提高用戶獲取信息的效率。信息過(guò)濾的首要工作是：對(duì)采集到的Web頁(yè)面進(jìn)行預(yù)處理，將HTML頁(yè)面里的文本提取出來(lái)，然后使用中文分詞技術(shù)將Web文本切分成單個(gè)的中文詞語(yǔ)并進(jìn)行詞頻統(tǒng)計(jì)，根據(jù)統(tǒng)計(jì)的結(jié)果從得到的中文詞向量中提取出能夠表達(dá)出該文本主題的特征向量，這就是特征信息提取，它是信息過(guò)濾的基礎(chǔ)工作。
　　
　　3.5　自然語(yǔ)言檢索接口
　　檢索接口是連接用戶和全文檢索系統(tǒng)之間的橋梁，沒(méi)有一個(gè)有效的用戶接口，系統(tǒng)的功能就難以充分發(fā)揮。自然語(yǔ)言檢索接口允許用戶以自然語(yǔ)言的方式和機(jī)器交互，是一種人性化的智能接口，它的主要功能是分析用戶用自然語(yǔ)句輸入的查詢請(qǐng)求，“理解”人們檢索的真正意圖。其工作原理是：首先對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行分詞，識(shí)別每個(gè)詞的詞性，提取關(guān)鍵詞，然后從邏輯上進(jìn)行語(yǔ)法語(yǔ)義分析，生成中間形式的表現(xiàn)形式，再經(jīng)過(guò)翻譯模塊翻譯成目標(biāo)數(shù)據(jù)庫(kù)查詢語(yǔ)言表示的語(yǔ)句，最后對(duì)文本進(jìn)行語(yǔ)義上的概念匹配。在此過(guò)程中，分詞的準(zhǔn)確性對(duì)查詢效率的影響較大。
　　
　　3.6　智能搜索
　　智能搜索是結(jié)合了人工智能技術(shù)的新一代搜索技術(shù)，它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面，對(duì)知識(shí)有一定的理解與處理能力。它的主要任務(wù)是對(duì)信息進(jìn)行智能處理和智能理解用戶的檢索需求。而漢語(yǔ)自動(dòng)分詞技術(shù)正是使搜索具備“智力”的前提，它是自然語(yǔ)言理解、語(yǔ)法語(yǔ)義分析、概念匹配、機(jī)器翻譯等技術(shù)的基礎(chǔ)，將這些相關(guān)技術(shù)應(yīng)用到全文檢索系統(tǒng)中，可使檢索系統(tǒng)更加深入細(xì)致地獲取用戶需求，從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精確，系統(tǒng)都能幫助用戶從知識(shí)的海洋中及時(shí)準(zhǔn)確地獲取所需信息。
　　
　　4　漢語(yǔ)自動(dòng)分詞技術(shù)的局限及發(fā)展
　　
　　經(jīng)過(guò)十幾年的研究，漢語(yǔ)自動(dòng)分詞技術(shù)取得了令人矚目的成果，出現(xiàn)了一些實(shí)用的自動(dòng)分詞系統(tǒng)，如：北京航空航天大學(xué)的CDWS分詞系統(tǒng)、清華大學(xué)的SEG分詞系統(tǒng)和SEGTAG分詞系統(tǒng)等，這些系統(tǒng)在分詞的精確度(精度達(dá)到99％以上)和分詞速度(速度達(dá)到千字，s)方面都具有相當(dāng)?shù)乃剑⒃谝恍┲形娜臋z索系統(tǒng)中得到了應(yīng)用，如百度、北大天網(wǎng)、北京易用寶公司的TRS系統(tǒng)等都使用了漢語(yǔ)自動(dòng)分詞技術(shù)。但與此同時(shí)又應(yīng)該看到目前漢語(yǔ)自動(dòng)分詞的技術(shù)還在一定的局限性，需要從以下幾個(gè)方面加以進(jìn)一步的研究。
　　
　　4.1　分詞算法
　　分詞算法是漢語(yǔ)自動(dòng)分詞技術(shù)中的重點(diǎn)和難點(diǎn)，它是影響切分效率的關(guān)鍵因素，切分效率的衡量指標(biāo)是分詞速度和分詞精度�，F(xiàn)有的分詞算法基本上都是基于規(guī)則和詞典的分詞方法，它們都必須在分詞速度和精度之間做出選擇。要提高速度，就要適當(dāng)放棄精度的追求，縮減詞典，減少匹配次數(shù)；而要提高切分精度，就得舍棄速度，無(wú)限擴(kuò)充詞典，匹配次數(shù)也會(huì)無(wú)限增加。對(duì)此，目前還沒(méi)有找到有效的破解方法。
　　分詞的精度常常直接影響到對(duì)全文檢索結(jié)果的相關(guān)度排序，分詞的速度也會(huì)嚴(yán)重影響檢索系統(tǒng)內(nèi)容更新的速度，因此對(duì)于全文檢索系統(tǒng)來(lái)說(shuō)分詞的精度和速度兩者都需要達(dá)到很高的要求。傳統(tǒng)的漢語(yǔ)自動(dòng)分詞要獲得新的突破，只有在現(xiàn)有的切分算法的基礎(chǔ)上，充分吸收自然語(yǔ)言處理、人工智能和專家系統(tǒng)的最新研究成果，著重從漢語(yǔ)句法和語(yǔ)義入手，并加強(qiáng)對(duì)漢字串統(tǒng)計(jì)性質(zhì)的研究，將基于知識(shí)和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來(lái)，對(duì)漢語(yǔ)分詞算法進(jìn)行更加深入的研究，這是今后漢語(yǔ)自動(dòng)分詞努力的重要方向之一。
　　
　　4.2　分詞詞典與分詞規(guī)范
　　分詞詞典是漢語(yǔ)自動(dòng)分詞過(guò)程中的重要工具之一，目前，互聯(lián)網(wǎng)上信息膨脹，各種概念說(shuō)法繁多，如何使詞典收錄的詞粒度適中，提高信息檢索的查全率和查準(zhǔn)率，是詞典編制面臨的一大挑戰(zhàn)。另外，分詞詞典的組織方式、通用的核心詞典和各個(gè)領(lǐng)域的專業(yè)詞典的編制和更新也是未來(lái)需要進(jìn)一步關(guān)注的問(wèn)題。與此同時(shí)，詞與詞素、短語(yǔ)之間的概念模糊，給分詞詞典的規(guī)范化造成了困難。雖然目前已有《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》指導(dǎo)分詞，但該規(guī)范還不成熟，有很多地方有待商榷，需要改進(jìn)，需要計(jì)算機(jī)科學(xué)家和漢語(yǔ)言學(xué)家共同努力。
　　
　　4.3　岐義消除
　　漢語(yǔ)詞與詞之間沒(méi)有沒(méi)有任何區(qū)分標(biāo)志，加上漢語(yǔ)詞理解的多義性、復(fù)雜性，因而歧義消除是自動(dòng)分詞過(guò)程中的一大難題，切分岐義的存在將嚴(yán)重影響著分詞系統(tǒng)的切分精度，而目前的分詞系統(tǒng)大多在消除岐義方面不理想，因而也就直接影響到中文檢索的查準(zhǔn)率和查全率。未來(lái)在岐義消除方面的研究除了完善分詞詞典以外，還需要深入細(xì)致地分析各種岐義產(chǎn)生的原因，針對(duì)不同類型的岐義提出不同的消岐方法；同時(shí)深入研究漢語(yǔ)的構(gòu)詞規(guī)則和詞法規(guī)則，增強(qiáng)歧義判別的能力。
　　
　　4.4　未登錄詞的識(shí)別
　　未登錄詞即是指未包含在分詞詞表中的詞，包括各類專名(人名、地名、企業(yè)字號(hào)和商標(biāo)號(hào)等)、某些術(shù)語(yǔ)、縮略語(yǔ)和新詞等，由于專用術(shù)語(yǔ)繁多，新名詞、新概念層出不窮，這些詞一般很難全部收錄到詞典中，但這些詞往往在一定時(shí)期內(nèi)呈現(xiàn)較高的檢索概率。因而未登錄詞識(shí)別也是中文信息處理中的一個(gè)難點(diǎn)，在大規(guī)模中文文本的自動(dòng)分詞中，未被識(shí)別的新詞是造成分詞錯(cuò)誤的一個(gè)重要原因。
　　目前，未登錄詞辨識(shí)的研究基礎(chǔ)還比較薄弱，同時(shí)擁有多種未登錄詞辨識(shí)能力的系統(tǒng)尚不多見(jiàn)，因此未登錄詞的綜合識(shí)別問(wèn)題還沒(méi)有引起足夠的重視，現(xiàn)行的識(shí)別方法主要是基于分解與動(dòng)態(tài)規(guī)劃策略的識(shí)別方法和基于語(yǔ)料學(xué)習(xí)的檢測(cè)方法，這些方法的識(shí)別能力還非常有限，未來(lái)的發(fā)展方向主要是探究新詞自身的構(gòu)成規(guī)律和特點(diǎn)，充分利用語(yǔ)料庫(kù)等網(wǎng)上語(yǔ)言信息資源，提出更有效的識(shí)別新詞的方法。
　　
　　4.5　漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)和應(yīng)用
　　漢語(yǔ)語(yǔ)料庫(kù)對(duì)中文全文檢索的輔助是必不可少的，目前，語(yǔ)料庫(kù)對(duì)于信息檢索的輔助作用還沒(méi)有得到充分的發(fā)揮，未來(lái)對(duì)漢語(yǔ)料庫(kù)的工作主要包括兩方面：①充分利用現(xiàn)有的語(yǔ)料庫(kù)資源，如國(guó)家語(yǔ)言文字工作委員會(huì)的“國(guó)家現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”，它是一個(gè)大型的國(guó)家級(jí)的、通用語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)2005年通過(guò)鑒定，其中包有豐富的語(yǔ)料資源，這些語(yǔ)料信息使計(jì)算機(jī)能從中學(xué)到漢語(yǔ)的構(gòu)成規(guī)律，也就增強(qiáng)了計(jì)算機(jī)自動(dòng)識(shí)別的能力，這對(duì)漢語(yǔ)自動(dòng)分詞的切分精度有非常大的幫助。②進(jìn)一步進(jìn)行語(yǔ)料庫(kù)的建設(shè)，尤其是大規(guī)模真實(shí)語(yǔ)料庫(kù)的建設(shè)更為需要。
　　
　　4.6　詞索引數(shù)據(jù)庫(kù)的結(jié)構(gòu)
　　詞索引數(shù)據(jù)庫(kù)是全文檢索系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)，由于全文檢索系統(tǒng)通常處理的數(shù)據(jù)量很大，經(jīng)過(guò)處理生成的索引數(shù)據(jù)也很大，這對(duì)系統(tǒng)的存儲(chǔ)容量和檢索速度都帶來(lái)了極大的挑戰(zhàn)，因此，未來(lái)還需要繼續(xù)對(duì)詞索引數(shù)據(jù)庫(kù)記錄內(nèi)容的確定、數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)和存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)庫(kù)的壓縮存儲(chǔ)等方面進(jìn)行進(jìn)一步的研究。
　　
　　5　漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用前景
　　
　　漢語(yǔ)自動(dòng)分詞技術(shù)的每一次突破都會(huì)使中文全文檢索的效率得到很大的提高，未來(lái)的中文全文檢索技術(shù)必定是以提高其系統(tǒng)的查準(zhǔn)率、查全率和查詢速度為目標(biāo)，因此，漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用將會(huì)在以下方面得到進(jìn)一步拓展。
　　
　　5.1　文獻(xiàn)信息的深度處理
　　信息搜索的真正對(duì)象是標(biāo)引的結(jié)果，因而高性能的檢索需要有效的索引支持。目前，中文信息處理的深度還不十分理想，隨著漢語(yǔ)詞的切分精度和自然語(yǔ)言處理水平的提高，未來(lái)的標(biāo)引是按照一定的格式，建立詞法、句法／語(yǔ)義層次的深度標(biāo)引，與此同時(shí)，文摘自動(dòng)生成和文本自動(dòng)分類的準(zhǔn)確性將會(huì)得到大幅度的提高，這些對(duì)中文全文檢索的速度和效率都會(huì)產(chǎn)生很大的影響。
　　
　　5.2　匹配機(jī)制的進(jìn)一步優(yōu)化
　　信息檢索的目的是在信息收藏中查找包含用戶所需的信息內(nèi)容的文檔，當(dāng)前的全文檢索系統(tǒng)采用自由詞匹配，其優(yōu)點(diǎn)是靈活，缺點(diǎn)是有大量的誤檢和漏檢。未來(lái)的信息系統(tǒng)應(yīng)當(dāng)是概念匹配，即系統(tǒng)自動(dòng)抽取能夠描述文獻(xiàn)內(nèi)容的概念，用文中的關(guān)鍵詞或與之相應(yīng)的主題詞加以標(biāo)引；用戶在系統(tǒng)的輔助下選用合適的詞語(yǔ)表達(dá)自己的信息需求，在此基礎(chǔ)上兩者之間執(zhí)行概念匹配，匹配在語(yǔ)義上相同、相近、相包含的詞語(yǔ)，使檢索更逼近人的智能程度，以減少誤檢和漏檢。
　　
　　5.3　自然語(yǔ)言檢索的智能化
　　自然語(yǔ)言應(yīng)用于全文檢索主要體現(xiàn)在兩方面：一是用自然語(yǔ)言標(biāo)引全文；二是向用戶提供自然語(yǔ)言檢索接口。目前，在自然語(yǔ)言標(biāo)引方面多數(shù)限于詞形或詞匯層次，即使在詞匯層次，也沒(méi)有很好的解決由于詞的同義、近義現(xiàn)象而需要擴(kuò)展檢索的問(wèn)題，不能從語(yǔ)義上理解，因此漏檢和誤檢問(wèn)題非常嚴(yán)重；在自然語(yǔ)言檢索接口方面，目前大多數(shù)中文全文檢索系統(tǒng)在這方面的功能比較缺乏。要改變這一現(xiàn)狀，一方面，必須將自然語(yǔ)言與受控語(yǔ)言進(jìn)行有機(jī)的融合，融合的手段主要是通過(guò)有效的詞匯控制技術(shù)，如停用詞表、同義＼近義詞表、入口詞表、后控詞表等；另一方面，充分利用自然語(yǔ)言處理的最新研究成果，使自然語(yǔ)言檢索具有更高的智能，其智能化主要表現(xiàn)在：①?gòu)膬?nèi)容上真正的理解文獻(xiàn)所論述的主題；②使用適當(dāng)?shù)闹R(shí)表示方法來(lái)充分體現(xiàn)各主題概念和標(biāo)識(shí)之間的分、屬、交叉等復(fù)雜關(guān)系；③能準(zhǔn)確分析用戶的自然語(yǔ)言提問(wèn)，并通過(guò)人機(jī)交互推斷出其真正需求。
　　
　　6　結(jié)束語(yǔ)
　　
　　漢語(yǔ)分詞是中文信息處理的基礎(chǔ)，也是中文全文檢索中的“瓶頸”問(wèn)題，因而，中文全文檢索系統(tǒng)的檢索效率的提高，依賴于漢語(yǔ)自動(dòng)分詞技術(shù)的發(fā)展；依賴于對(duì)漢語(yǔ)的語(yǔ)詞結(jié)構(gòu)、句結(jié)構(gòu)、語(yǔ)義等語(yǔ)言知識(shí)的深入系統(tǒng)的研究；依賴于對(duì)語(yǔ)言與思維的本質(zhì)的揭示；同時(shí)，在很大程度上還寄希望于人工智能技術(shù)的突破。相信在不久的將來(lái)，隨著相關(guān)領(lǐng)域知識(shí)的研究越來(lái)越成熟，未來(lái)的中文全文檢索將最終達(dá)到真正的語(yǔ)義、語(yǔ)用、語(yǔ)境層次的智能信息檢索，檢索結(jié)果更加全面和準(zhǔn)確。

相關(guān)熱詞搜索：漢語(yǔ) 分詞綜述漢語(yǔ)分詞技術(shù)綜述分詞技術(shù) 中文分詞技術(shù)

熱點(diǎn)文章閱讀

調(diào)教美文 2017-01-15
重慶最大“黑保護(hù)傘”文強(qiáng)究竟 2020-03-05
盜墓筆記美文 2017-02-10
sm美文 2017-01-25
中東恐怖分子活割人頭視頻在線 2020-03-16
王建勛：再說(shuō)“孫大午案” 2020-06-15
阜陽(yáng)法官史青峰驚看阜陽(yáng)法官 2020-03-05
警察強(qiáng)強(qiáng)耽美文 2017-02-10
有沒(méi)有重生到紅軍成立時(shí)的小說(shuō) 2022-08-16
穿越攻古代耽美文 2017-02-10

版權(quán)所有 蒲公英文摘 www.91mayou.com

<form id="ptdyy"><legend id="ptdyy"></legend></form>