www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

日記大全 蒲公英文摘 > 日記大全 >

【國內(nèi)中文自動分詞技術(shù)研究綜述】搜索引擎中文分詞技術(shù)

發(fā)布時間:2020-03-10 來源: 日記大全點(diǎn)擊：

　　[摘要]認(rèn)為分詞是文本自動分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理的基礎(chǔ)與關(guān)鍵技術(shù)之一，中文本身復(fù)雜性及語言規(guī)則的不確定性，使中文分詞技術(shù)成為分詞技術(shù)中的難點(diǎn)。全面歸納中文分詞算法、歧義消除、未登錄詞識別、自動分詞系統(tǒng)等研究，總結(jié)出當(dāng)前中文分詞面臨的難點(diǎn)與研究熱點(diǎn)。
　　[關(guān)鍵詞]中文分詞　分詞算法　歧義消除　未登錄詞　分詞系統(tǒng)
　　[分類號]G354
　　
　　中文分詞是文本分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理中的關(guān)鍵技術(shù)及難點(diǎn)。經(jīng)過廣大學(xué)者共同努力，過去2D多年中文分詞取得可喜進(jìn)步，黃昌寧、趙�！谒姆矫婵偨Y(jié)了取得的成績。筆者利用CNKI全文期刊數(shù)據(jù)庫，以“中文and分詞”、“漢語and分詞”、“自動and分詞”等為檢索條件，檢索時段為1987年1月1日～2010年9月1l日，進(jìn)行篇名檢索，經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇，通過文獻(xiàn)歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究內(nèi)容、研究熱點(diǎn)與難點(diǎn)，并展望其發(fā)展。
　　
　　1　中文分詞基礎(chǔ)理論研究
　　
　　中文分詞理論研究可歸結(jié)為：三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識別與分詞與詞性標(biāo)注評測研究。
　　
　　1.1　分詞算法研究
　　衡量分詞算法優(yōu)劣標(biāo)準(zhǔn)是分詞速度與精度，各種算法圍繞精度與速度展開。目前分詞算法很多，大致可歸納為：詞典分詞方法、理解分詞方法、統(tǒng)計(jì)分詞方法、組合分詞算法。
　　1.1.1　詞典分詞方法
　　?算法。詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進(jìn)行匹配，若在詞典中找到某個字符串，則匹配成功，該方法需要確定三個要素：詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有：正向最大匹配法、逆向最大匹配法、雙向最大匹配法、最少切分等。實(shí)際分詞系統(tǒng)，都是把詞典分詞作為一種初分手段，再通過各種其他的語言信息進(jìn)一步提高切分的準(zhǔn)確率。
　　詞典分詞方法包含兩個核心內(nèi)容：分詞算法與詞典結(jié)構(gòu)，算法設(shè)計(jì)可從以下幾方面展開：①字典結(jié)構(gòu)改進(jìn)；②改進(jìn)掃描方式；③將詞典中的可按由長到短遞減順序逐字搜索整個待處理材料，一直到分出全部詞為止。
　　?詞典結(jié)構(gòu)。同典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù)，直接影響分詞算法的性能。三個因素影響詞典性能：①詞查詢速度；②詞典空間利用率；③詞典維護(hù)性能。Hash表是設(shè)計(jì)詞典結(jié)構(gòu)常用方式，先對GB2312～1980中的漢字排序(即建立Hash表)，然后將其后繼詞(包括詞的屬性等信息)放在相應(yīng)的詞庫表中。
　　孫茂松等設(shè)計(jì)并實(shí)驗(yàn)考察了三種典型的分詞詞典機(jī)制：整詞二分、TRIE索引樹及逐字二分，著重比較它們的時間、空間效率。姚興山提出首字Hash表、詞次字Hash表、詞次字結(jié)構(gòu)、詞3字Hash表、詞3字結(jié)構(gòu)、詞4字Hash表、詞4字結(jié)構(gòu)、詞索引表和詞典正文的詞典結(jié)構(gòu)，該結(jié)構(gòu)提高查詢速度，但增大存儲開銷。陳桂林等介紹了一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu)，它支持首字Hash和標(biāo)準(zhǔn)的二分查找，且不限詞條長度，并給出利用近鄰匹配方法來查找多字詞，提高了分詞效率。目前文獻(xiàn)看，圍繞詞典結(jié)構(gòu)提高分詞性能的主流思想是設(shè)計(jì)Hash表，表數(shù)目隨結(jié)構(gòu)不同而不同，數(shù)目越多，空間開銷越大，但查詢速度也相應(yīng)提高，具體設(shè)計(jì)需要在時間與空間之間權(quán)衡。
　　1.1.2　理解分詞方法　基本思想是分詞同時進(jìn)行句法、語義分析；利用句法信息和語義信息來處理歧義現(xiàn)象，理解分詞方法需要使用大量語言知識和信息。
　　?人工智能技術(shù)。人工智能技術(shù)主要包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和生成一測試法三種。分詞專家系統(tǒng)能充分利用詞法知識、句法知識、語義知識和語用知識進(jìn)行邏輯推理，實(shí)現(xiàn)對歧義字段的有效切分。何克抗等深入分析了歧義切分字段產(chǎn)生的根源和性質(zhì)，把歧義字段從性質(zhì)上劃分為四類，并給出消除每一類歧義切分字段的有效方法。王彩榮設(shè)計(jì)了一個分詞專家系統(tǒng)的框架：將自動分詞過程看作是基于知識的邏輯推理過程，用知識推理與語法分析替代傳統(tǒng)的“詞典匹配分詞+歧義校正的過程。”神經(jīng)網(wǎng)絡(luò)摸擬人腦神經(jīng)元工作機(jī)理設(shè)計(jì)，將分詞知識所分散隱式的方法存入神經(jīng)網(wǎng)內(nèi)部，通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值，以達(dá)到正確的分詞結(jié)果。林亞平、尹鋒利等用BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一個分詞系統(tǒng)，進(jìn)行大量仿真實(shí)驗(yàn)，取得不錯分詞效果。
　　采用神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)的人工智能分詞算法與其他方法相比具有如下特點(diǎn)：①知識的處理機(jī)制為動態(tài)演化過程；②字詞或抽象概念與輸入方式對應(yīng)，切分方式與輸出模型對應(yīng)；③能較好地適應(yīng)不斷變化的語言現(xiàn)象，包括結(jié)構(gòu)的自組織和詞語的自學(xué)習(xí)；④新知識的增加對系統(tǒng)處理速度影響不大，這與一般機(jī)械匹配式分詞方法有很大區(qū)別；⑤有助于利用句法信息和語義信息來處理歧義現(xiàn)象，提高理解分詞的效果。作為智能分詞技術(shù)的一種探討，將神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)思想引入中文分詞，是一種有益嘗試，為后續(xù)智能自動分詞技術(shù)取得更多進(jìn)展打下良好基礎(chǔ)。
　　黃祥喜提出“生成一測試”法，通過詞典的動態(tài)化、分詞知識的分布化、分詞系統(tǒng)和句法語義系統(tǒng)的協(xié)同工作等手段實(shí)現(xiàn)詞鏈的有效切分和漢語句子切分與理解的并行。該方法具有通用性，實(shí)現(xiàn)容易，分詞和理解能力強(qiáng)。
　　由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
　　?統(tǒng)計(jì)模型技術(shù)。蘇菲等提出基于規(guī)則統(tǒng)計(jì)模型的消歧方法和識別未登錄詞的詞加權(quán)算法，通過詞頻統(tǒng)計(jì)、加權(quán)技術(shù)與正向逆向最大匹配進(jìn)行消歧與未登錄詞識別。張茂元等提出基于馬爾可夫鏈的語境中文切分理論，進(jìn)而提出一種語境中文分詞方法，該方法建立在詞法和句法基礎(chǔ)上，從語境角度分析歧義字段，提高分詞準(zhǔn)確率。
　　1.1.3　統(tǒng)計(jì)分詞方法　統(tǒng)計(jì)方法思想基礎(chǔ)是：詞是穩(wěn)定的漢字的組合，在上下文中漢字與漢字相鄰共現(xiàn)的概率能夠較好地反映成同的可信度。因此對語料中相鄰共現(xiàn)的漢字的組合頻度進(jìn)行統(tǒng)計(jì)，計(jì)算他們的統(tǒng)計(jì)信息并作為分詞的依據(jù)。常用統(tǒng)計(jì)量有如詞頻、互信息、t-測試差，相關(guān)分詞模型有最大概率分詞模型、最大熵分詞模型、N-Gram元分詞模型、有向圖模型等。孫茂松等提出了一種利用句內(nèi)相鄰字之間的互信息及t－測試差這兩個統(tǒng)計(jì)量解決漢語自動分詞中交集型歧義切分字段的方法，并進(jìn)一步提出將兩者線性霍加的新的統(tǒng)計(jì)量md，并引入“峰”和“谷”的概念，設(shè)計(jì)了一種無詞表的自動分詞算法。王思力等提出一種利用雙字耦合度和t-測試差解決中文分詞中交叉歧義的方法。孫曉、黃德根提出基于最長次長匹配的方法建立漢語切分路徑有向圖，將漢語自動分詞轉(zhuǎn)換為在有向圖中選擇正確的切分路徑。
　　三種主流方法各有優(yōu)缺點(diǎn)，其具體比較見表1。
　　
　　1.1.4　組合方法　單個方法有優(yōu)點(diǎn)，但也存在不足，實(shí)際分詞算法設(shè)計(jì)時需要組合幾種方法，利用各自優(yōu)點(diǎn)，克服不足，以更好解決分詞難題。
　　?字典與統(tǒng)計(jì)組合。翟鳳文等提出了一種字典與統(tǒng)計(jì)相結(jié)合的分詞方法，首先利用字典分同方法進(jìn)行第一步處理，然后利用統(tǒng)計(jì)方法處理第一步所產(chǎn)生的歧義問題和未登錄詞問題。該算法通過改進(jìn)字典的存儲結(jié)構(gòu)，提高了字典匹配的速度；通過統(tǒng)計(jì)和規(guī)則相結(jié)合提高交集型歧義切分的準(zhǔn)確率，并且一定條件下解決了語境中高頻未登錄詞問題。
　　?分詞與詞性標(biāo)注組合。詞性標(biāo)注是指對庫內(nèi)語篇中所有的單詞根據(jù)其語法作用加注詞性標(biāo)記。將分詞和詞類標(biāo)注結(jié)合起來，利用豐富的詞類信息對分詞決策提供幫助，并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整，從而極大地提高切分的準(zhǔn)確率。白拴虎將自動分詞和基于隱馬爾可夫鏈的詞性自動標(biāo)注技術(shù)結(jié)合起來，利用人工標(biāo)注語料庫中提取出的詞性二元統(tǒng)計(jì)規(guī)律來消解切分歧義。佟曉筠等設(shè)計(jì)N-最短路徑自動分詞和詞性自動標(biāo)注一體化處理的模型，在分詞階段召回N個最佳結(jié)果作為候選集，最終的結(jié)果會在未登錄詞識別和同性標(biāo)注之后，從這N個最有潛力的候選結(jié)果中選優(yōu)得到。姜濤等對Kit提出基于實(shí)例的中文分詞一詞性標(biāo)注模型，通過理論上定性分析和實(shí)驗(yàn)證明得出如下優(yōu)點(diǎn)：①對于訓(xùn)練語料相關(guān)的文本(即與訓(xùn)練語料相同、相似或同領(lǐng)域的文本)，EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果具有極高的準(zhǔn)確率；②EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果與訓(xùn)練語料中的分詞一詞性標(biāo)注具有很好的一致性。
　　
　　1.2　歧義消除研究
　　1.2.1　歧義類型　歧義是指同一個字符串存在不止一種切分形式。歧義字段分為交集型歧義字段(交叉歧義)、組合型歧義字段(覆蓋歧義)兩種。據(jù)統(tǒng)計(jì)交叉歧義字段占到了總歧義字段的86％，所以解決交叉歧義字段是分詞要解決的重點(diǎn)與難點(diǎn)。
　　1.2.2　消歧方法　目前解決歧義消除的典型方法有：
　　?窮舉法。找出待分析字串所有可能的詞，該方法簡單，但時間開銷大，實(shí)用性不強(qiáng)。多數(shù)時候采用雙向匹配算法，正向匹配結(jié)果與逆向匹配結(jié)果一致，分詞正確，否則分詞有歧義。
　　?聯(lián)想一回溯法。李國臣等提出聯(lián)想一回溯法，先將待切分的漢字符號串序列依特征詞詞庫分割為若干子串，每個子串或?yàn)樵~或?yàn)樵~群(幾個詞組合而成的線性序列)，然后利用實(shí)詞詞庫和規(guī)則庫再將詞群細(xì)分為詞。分詞時，利用了一定語法知識。聯(lián)想和回溯機(jī)制同時作用于分割和細(xì)分兩個階段，旨在有效解決歧義組合結(jié)構(gòu)的切分問題。
　　?詞性標(biāo)注。白拴虎利用馬爾可夫鏈的詞性標(biāo)注技術(shù)結(jié)合分詞算法消解切分歧義，其他學(xué)者也有類似成果出現(xiàn)。
　　?EM(Expectation Maximization)法。王偉等提出基于EM思想，每個句子所對應(yīng)的所有(或一定范圍內(nèi))的分詞結(jié)果構(gòu)成訓(xùn)練集，通過這個訓(xùn)練集和初始的語言模型可以估計(jì)出一個新的語言模型，最終的語言模型通過多次迭代而得到。EM是極大似然原則下的建模方法，存在過度擬合問題。
　　?短語匹配與語義規(guī)則法。姚繼偉、趙東范在短語結(jié)構(gòu)文法的基礎(chǔ)上，提出一種基于局部單一短語匹配和語義規(guī)則相結(jié)合的消歧方法。通過增加短語問的右嵌套規(guī)則和采用有限自動機(jī)的實(shí)現(xiàn)方式，解決了短語規(guī)則中存在冗余項(xiàng)的問題，提高了短語匹配效率和歧義消除類型的針對性。
　　
　　1.3　未登錄詞研究
　　1.3.1　未登錄詞類型　未登錄詞大致包含兩大類：①新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語等；②專有名詞，如中國人名、外國譯名、地名、機(jī)構(gòu)名(泛指機(jī)關(guān)、團(tuán)體和其他企事業(yè)單位)等。未登錄詞識別指正確識別未在詞典中出現(xiàn)的詞，未登錄詞出現(xiàn)極大影響了分詞的精度，如何解決未登錄詞識別問題成為分詞準(zhǔn)確性的一大難題。
　　1.3.2　未登錄詞識別　識別第一類未登錄詞一般是先根據(jù)某種算法自動生成一張候選詞表(無監(jiān)督的機(jī)器學(xué)習(xí)策略)，再人工篩選出其中的新詞并補(bǔ)充到詞表中。該方法需要大規(guī)模語料庫支持。第二種常用辦法是：首先依據(jù)從各類專有名詞庫中總結(jié)出的統(tǒng)計(jì)知識(如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結(jié)構(gòu)規(guī)則，在輸入句子中猜測可能成為專有名詞的漢字串并給出其置信度，之后利用對該類專有名詞有標(biāo)識意義的緊鄰上下文信息如稱謂，以及全局統(tǒng)計(jì)量和局部統(tǒng)計(jì)量參見下文，進(jìn)行進(jìn)一步鑒定。
　　歸納起來，未登錄詞解決方案有兩大類：專用方法與通用方法。專用方法主要針對特定領(lǐng)域的未登錄詞如中文人名、中文地名、中文機(jī)構(gòu)名等識別，此類方法主要基于專有詞庫與規(guī)則展開。通用方法則重在解決所有類別的未登錄詞識別問題，前面列舉的機(jī)械分詞、理解分詞、統(tǒng)計(jì)分詞方法就是一種通用方法。
　　?專有名詞庫。對中文人名、地名、機(jī)構(gòu)名等分別建立詞庫，該方法需要搜集特定資源并制定特定算法，信息集成難度大。
　　?啟發(fā)式規(guī)則。通過前后綴的修飾詞發(fā)現(xiàn)人名等未登錄詞。如“先生張三”，前面“先生”就是一個特定的修飾詞，一般后面緊接著是人名。鄭家恒將中文姓氏用字進(jìn)行歸類，并利用分類信息建立規(guī)則以識別“小張”、“老李”之類的人名，并且有效地區(qū)分出“張”“李”等字的量詞用法。
　　?通用解決方案。不針對特定的未登錄詞設(shè)計(jì)算法，適用于各種類型的未登錄詞。前述三種主流分詞及組合算法則屬于通用解決方案。另外，呂雅娟等對中同人名、中國地名、外國譯名進(jìn)行整體識別為目標(biāo)，采用分解處理策略降低了整體處理難度，并使用動態(tài)規(guī)劃方法實(shí)現(xiàn)了最佳路徑的搜索，較好地解決了未登錄詞之間的沖突問題。秦文、苑春法提出了決策樹的未登錄詞識別方法，適用各種未登錄詞識別。
　　
　　1.4　分詞與詞性標(biāo)注評測
　　各種算法優(yōu)劣需要在真實(shí)文本上以較大規(guī)模、客觀、定量的方式進(jìn)行公開公正評測，它是推動中文信息處理研究的重要手段。楊爾弘等介紹了2003年“863中文與接口技術(shù)”漢語自動分詞與詞性標(biāo)注一體化評測內(nèi)容、評測方法、測試試題的選擇與產(chǎn)生、測試指標(biāo)以及測試結(jié)果，各種測試結(jié)果以精確率、召回率、F值度量，并對參評系統(tǒng)的切分和標(biāo)注錯誤進(jìn)行了總結(jié)。
　　
　　2　分詞系統(tǒng)研究
　　
　　中文分詞系統(tǒng)是利用計(jì)算機(jī)對中文文本進(jìn)行詞語自動識別的系統(tǒng)。一個高效的、性能優(yōu)良的中文分詞系統(tǒng)應(yīng)該具備幾個基本要素：分詞精度、分詞速度、系統(tǒng)可維護(hù)性、通用性、適應(yīng)性�；诜衷~系統(tǒng)特點(diǎn)，將分詞系統(tǒng)研究分為早期自動分詞系統(tǒng)與現(xiàn)代分詞系統(tǒng)研究兩部分。
　　
　　2.1　早期自動分詞系統(tǒng)
　　20世紀(jì)80年代初有學(xué)者開始研究自動分詞系統(tǒng)，陸續(xù)有一些實(shí)用性系統(tǒng)出現(xiàn)。典型的有：CDWS分詞系統(tǒng)、漢語自動分詞系統(tǒng)-NEWS L321、書面漢語自動分詞專家系統(tǒng)等。由于受硬件條件及分詞技術(shù)影響，早期分詞實(shí)用系統(tǒng)在分詞速度與精度上還不夠理想，實(shí)用性不高。但這些實(shí)用分詞系統(tǒng)的出現(xiàn)為后續(xù)分詞系統(tǒng)設(shè)計(jì)打下了良好基礎(chǔ)。
　　
　　2.2　現(xiàn)代分詞系統(tǒng)
　　2.2.1　中國科學(xué)院計(jì)算所漢語詞法分析系統(tǒng)　ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中國科學(xué)院計(jì)算技術(shù)研究所研制，主要功能包括中文分詞，詞性標(biāo)注，命名實(shí)體識別，新詞識別；支持用戶同典，繁體中文，GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。目前ICTCLAS3.0分詞速度單機(jī)為996KB／s，分詞精度為98.45％，AP[不超過200KB，各種淵典數(shù)據(jù)壓縮后不到3M。
　　2.2.2　海量智能分詞研究版　海量智能分詞系統(tǒng)較好地解決了分詞領(lǐng)域中的兩大技術(shù)難題：歧義切分和新詞的識別，分詞準(zhǔn)確率達(dá)到99.6％，分同效率為2000萬字／分鐘。其中組合歧義的處理一直是分詞領(lǐng)域的難點(diǎn)中的難點(diǎn)，海量分詞系統(tǒng)能對絕大多數(shù)的組合歧義進(jìn)行正確的切分。在新詞的識別上，針對不同類型采用不同識別算法，其中包括對人名、音譯詞、機(jī)構(gòu)團(tuán)體名稱、數(shù)量詞等新同的識別，其準(zhǔn)確率比較高。
　　由于計(jì)算機(jī)硬件技術(shù)的大幅提升，分詞技術(shù)的逐步成熟，現(xiàn)在分詞系統(tǒng)在歧義消除、未登錄詞識別方面取得較大進(jìn)展，分詞速度與精度明顯提高，實(shí)際性越來越強(qiáng)，為中文信息處理帶來極大方便。
　　
　　3　結(jié)語
　　
　　歧義消除與未登錄詞識別還是目前中文分詞研究領(lǐng)域難點(diǎn)問題，各種算法圍繞兩大難題展開。論文歸納出中文分詞研究熱點(diǎn)：①創(chuàng)新算法，研究者需在更廣泛的方法論上探討算法，創(chuàng)新提出一攬子方案，設(shè)計(jì)出通用的解決歧義與未登錄詞識別的方法，提高分詞精度與速度。②統(tǒng)計(jì)組合算法，目前大量文獻(xiàn)集中于統(tǒng)計(jì)分詞研究，基于統(tǒng)計(jì)的分詞及與其他方法的組合足以后研究熱點(diǎn)，將會給中文分詞技術(shù)帶來實(shí)質(zhì)性突破。

相關(guān)熱詞搜索：分詞技術(shù)研究中文國內(nèi)中文自動分詞技術(shù)研究綜述網(wǎng)絡(luò)技術(shù)研究綜述蛋品加工技術(shù)研究綜述

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.91mayou.com