漢語方言語音數(shù)據(jù)庫建設(shè)構(gòu)想:完整的數(shù)據(jù)庫設(shè)計案例
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]介紹我國近年來相關(guān)研究的情況,論述建設(shè)漢語方言語音數(shù)據(jù)庫的重要意義和技術(shù)上的可行性,并從漢語方言語音數(shù)據(jù)庫功能、數(shù)據(jù)庫系統(tǒng)構(gòu)成、語音語料庫設(shè)計等幾個方面進行分析和探討,構(gòu)建一款可用于認(rèn)知和研究等的多功能的漢語方言語音數(shù)據(jù)庫,同時提出需要注意的幾個問題。
[關(guān)鍵詞]漢語方言 方言數(shù)據(jù)庫 語音數(shù)據(jù)庫
[分類號]H21 G254
1 引言
近幾年,由于受到普通話和流動人口的影響,使得用純正方言的人數(shù)越來越少,應(yīng)該說這些方言正處于衰變狀態(tài)。所以,筆者認(rèn)為,盡快建立具有多功能的漢語方言語音數(shù)據(jù)庫具有極其重要的意義:①可以通過其存儲和學(xué)習(xí)功能來保護和傳播人類非物質(zhì)文化遺產(chǎn);②通過其檢索和辨識等功能,幫助某些職能部門準(zhǔn)確辯別出話語者的鄉(xiāng)里籍貫等地域信息,如對公安、安全部門開展刑事偵查等具有重要的應(yīng)用價值;③通過其原生態(tài)的語音語料庫事實數(shù)據(jù)有助于深入研究語音現(xiàn)象和文化淵源等。同時,它又可以推動語言現(xiàn)代化處理技術(shù)的深入研究和運用?梢,擬建的漢語方言語音數(shù)據(jù)庫具有廣闊的應(yīng)用前景。
多媒體計算機語音處理功能的實現(xiàn),多媒體軟件開發(fā)技術(shù)的運用,漢語文-語轉(zhuǎn)換、自動分詞、語音合成、語音檢索等處理技術(shù)的深入研究等都為多功能漢語方言語音數(shù)據(jù)庫的建設(shè)提供了有力的技術(shù)保障,如漢語的文語轉(zhuǎn)換系統(tǒng)可以將計算機內(nèi)的任何文本轉(zhuǎn)換成連續(xù)的語音流,再如漢語方言自動辨識技術(shù)雖然尚處于起步階段,但它可以通過特征選取、音素匹配等方法對漢語方言進行辨識。
目前,學(xué)界相關(guān)研究也曾取得了一些成績,如李永宏和于洪志對“安多藏語語音合成語料庫”進行了初步研究,詞庫以雙音和多音節(jié)詞為主體,句料庫卻以7種句型合成為主;沈向榮曾提出開發(fā)“壯語方言詞語在線語料庫檢索軟件”的設(shè)想;海柳文曾提出“漢語方言民族語言語音材料處理軟件”的開發(fā)框架;肖雙榮和吳道勤曾提出要在建立湖南方言語音特征數(shù)據(jù)庫基礎(chǔ)上進行湖南方言語音特征統(tǒng)計和分析;中國社會科學(xué)院開發(fā)的“北方方言基本詞匯數(shù)據(jù)庫”,收錄北方話100余調(diào)查點和2000余條基本詞匯;由丁邦新等開發(fā)的“漢藏同源詞研究系統(tǒng)”,收錄了漢藏語系122種語言和12種漢語方言的1500余條詞匯;再如麥耘主持的“漢語方言詞匯數(shù)據(jù)庫”,劉丹青主持的“方言語法語料庫”,侯精一主持的“現(xiàn)代漢語方言音庫”,劉俐李主持的“漢語方言語音詞匯庫”等。盡管這些相關(guān)數(shù)據(jù)庫存在明顯不足,如方言偏少,收詞量偏少,語音數(shù)據(jù)缺乏,缺少語音原始情景信息,系統(tǒng)功能單一等,但它們都為漢語方言語音數(shù)據(jù)庫建設(shè)打下了良好的基礎(chǔ)。
2 方言語音數(shù)據(jù)庫建構(gòu)
2.1 數(shù)據(jù)庫功能
檢索功能。數(shù)據(jù)庫應(yīng)具有多途徑檢索功能,檢索標(biāo)識可以是文本也可以是語音;可使用多條件進行組合檢索,能實現(xiàn)普通話與方言以及方言與方言之間的雙向瀏覽,如由普通話詞匯或語音能檢索到相應(yīng)的方言詞匯或語音,由方言查找普通話或其它方言等;能以漢語方言語音為檢索入口,通過對語音特征進行匹配,如調(diào)類、調(diào)值、調(diào)型、變調(diào)等,查出方言的市、縣、鄉(xiāng)三級地名信息;能根據(jù)各種方言實際情況和用戶瀏覽習(xí)慣,來確定瀏覽方式和輸出信息。
學(xué)習(xí)功能。該數(shù)據(jù)庫的建成將成為人們了解和學(xué)習(xí)各種方言不可或缺的工具?梢酝ㄟ^直接點擊數(shù)據(jù)庫中的詞語或句子并選擇方言類型,便能聽到該方言的發(fā)音和相關(guān)例證等信息。可以通過輸入詞、句、段等文本,輸出相對應(yīng)的語音和相關(guān)例證等信息,這些語音文件有的是語料庫中的原生態(tài)發(fā)音,有的是通過自動切分技術(shù),采用音節(jié)及詞匯的語音合成技術(shù)模擬而成的仿自然語句。
分析功能。系統(tǒng)可以實現(xiàn)各種知識庫間的有機聯(lián)系,對各種方言的語法、語義和語用等資源描述信息進行比較分析等,如能以方言語音語料庫、方言詞語詞匯庫、方言語音語法知識庫等為基本依據(jù)進行各種特征相似度比較、匹配和分析等,從而確定檢索結(jié)果與要輸出的內(nèi)容。
下載功能。它用來實現(xiàn)用戶對檢索、分析和比較結(jié)果的下載和打;提供給用戶對語言數(shù)據(jù)的統(tǒng)計(表格)等的輸出;可以輸出用戶使用情況的統(tǒng)計數(shù)據(jù)與分析等?梢赃x擇語音文件的某種格式進行下載,也可以輸出帶方言注音的漢語學(xué)習(xí)文本。
維護功能。它主要包括三方面的維護功能:一是數(shù)據(jù)編輯功能,系統(tǒng)對載人的語音數(shù)據(jù)可以進行復(fù)制、剪切、替換、插入等;二是系統(tǒng)維護功能,系統(tǒng)管理員可進行數(shù)據(jù)管理、用戶管理、日志管理以及系統(tǒng)升級等;三是拓展功能,根據(jù)發(fā)展需要對數(shù)據(jù)庫再設(shè)計或添加新模塊,以加強或拓展數(shù)據(jù)庫功能。
用戶驗證。系統(tǒng)對使用者身份進行確認(rèn)從而分配不同的權(quán)限,主要分為系統(tǒng)管理員、數(shù)據(jù)管理員和普通用戶。
輔助功能。為用戶提供每種方言的語音系統(tǒng)介紹,為用戶提供輸入輸出音標(biāo)系統(tǒng)說明以及提供漢語方言調(diào)查表和相關(guān)語音對照表等。
2.2 數(shù)據(jù)庫系統(tǒng)構(gòu)成
2.2.1 系統(tǒng)基本模式建議采用C/S模式即服務(wù)器/客戶端模式。服務(wù)器端主要用于存放與管理數(shù)據(jù),可使用具有強大伸縮性和可靠性的網(wǎng)絡(luò)后臺數(shù)據(jù)庫軟件,如SQL SERVER等?蛻舳塑浖刹捎孟嚓P(guān)開發(fā)工具自主開發(fā),如借助ASP并結(jié)合相關(guān)語音錄入、合成、辨識和輸出等開發(fā)軟件共同制作而成,主要用來輸入、輸出及互傳信息等。
2.2.2 數(shù)據(jù)庫基本結(jié)構(gòu)
語音數(shù)據(jù)庫。語音數(shù)據(jù)庫用于存放漢語方言字、詞、句等各語音數(shù)據(jù)及其屬性、特征、標(biāo)注、鏈接等相關(guān)信息。其中方言語音特征信息是方言相關(guān)度計算的前提,需要把純粹音系特征和字音特征相結(jié)合來確定方言語音特征,這樣即能體現(xiàn)出不同方言在音系特征方面的異同,也能體現(xiàn)出字音特征方面的異同。語音數(shù)據(jù)既包括每個字、詞、句可能的正常發(fā)音,又包括其變調(diào)后的發(fā)音,特別是變調(diào)后那些“半陰”、“半陽”等模糊聲調(diào)音,由于變調(diào)都遵循規(guī)則,因此盡量錄制存儲音節(jié)單元的變調(diào),這樣不會使語音庫無限擴大。語音數(shù)據(jù)庫也可細分為詞音庫、句音庫、段音庫等,也可分為方言音庫和普通話音庫等。
文本數(shù)據(jù)庫。文本數(shù)據(jù)庫用于存放漢語方言字、詞、句、地名等各文本數(shù)據(jù)及其屬性、標(biāo)注、鏈接等相關(guān)信息。文本數(shù)據(jù)庫具體可包括詞匯庫、地名庫、語料庫等。
知識庫。該庫用于存放各種詞典、語法和語義等關(guān)系數(shù)據(jù)及各種規(guī)則等,它是集各種知識文檔和關(guān)系文檔于一體的大型集成系統(tǒng)。它可存放檢索標(biāo)識、特征和關(guān)系信息等,這既是實現(xiàn)具體檢索方法的基礎(chǔ),又是對檢索標(biāo)識屬性的描述。這些關(guān)系離不開各種規(guī)則,即事實性規(guī)則、關(guān)聯(lián)規(guī)則、推理規(guī)則、認(rèn)知規(guī)則和模糊規(guī)則等。知識庫具體可分若干子庫,如方言詞匯對應(yīng)規(guī)則知識庫、方言語音對應(yīng)規(guī)則知識庫、方言屬性對應(yīng)規(guī)則知識庫、語根知識庫等。
索引庫。它用于存放各種索引,包括分類索引、主題索引、語音特征索引、語音代碼索引等。
輔助庫。它用于存放在檢索或維護過程中調(diào) 用或形成的各種臨時數(shù)據(jù)或輔助數(shù)據(jù)等,如可根據(jù)需要建立一個臨時用戶代碼庫等,方便高級用戶在檢索時使用。也存放各級用戶相關(guān)的背景資料信息,即所謂的用戶庫;或存放系統(tǒng)維護的相關(guān)控制信息等,即所謂的控制庫;或存放用戶自定義的數(shù)據(jù)資料和輸出結(jié)果,即所謂的自定義庫等。
2.2.3 數(shù)據(jù)基本結(jié)構(gòu)數(shù)據(jù)項涉及多種數(shù)據(jù)屬性,包括方言域、方言類型、語音詞、音節(jié)、調(diào)類、音頻、釋義等。每個數(shù)據(jù)包括許多匹配與辨識所用的關(guān)聯(lián)與指示,如標(biāo)識域、描述域、分類域、關(guān)系域等,以及其它相關(guān)屬性等。如某一類數(shù)據(jù)基本結(jié)構(gòu)為:
Key:檢索鍵值
T:類型
C:族性類別代碼
N:出現(xiàn)頻次
P:地址指針(其中Pc為域指針,Pi為信息指針,Pn為其它指針)
2.2.4 檢索機制 漢語方言語音檢索主要是通過語音、語法、詞匯等關(guān)鍵特征的匹配來完成的,可以通過方言語音典型特征及相關(guān)控制等因素來判斷,也可通過對其綜合特征進行分析等來準(zhǔn)確判斷,或利用方言親疏關(guān)系聚類分析等來判斷。不管哪種方法都是要利用語音處理軟件把語音特征及相關(guān)數(shù)據(jù)轉(zhuǎn)換成與知識庫規(guī)則相一致的可比數(shù)據(jù),再通過辨識系統(tǒng)進行對比分析,最后輸出檢索結(jié)果。
特征信息量越大,排他性越強,越利于檢索匹配。所以,語音辨識,首先進行方言語音聲調(diào)和音長典型特征的匹配,聲調(diào)特征涉及面廣,具有強烈的排他性,各種方言的聲調(diào)系統(tǒng)間極少有在調(diào)類數(shù)、調(diào)型、調(diào)值、聲調(diào)來源、變調(diào)規(guī)律各方面都完全重合的;其次,可根據(jù)需要進一步進行方言其它特征的匹配,如聲波頻變、疊加、滑變等。
3 語音語料庫設(shè)計
3.1 語料庫
雖然語音語料庫搜集哪些語料、搜集多少,并無統(tǒng)一標(biāo)準(zhǔn),但要建立具有一定數(shù)量規(guī)模和特征的詞匯庫、句子庫、語段庫等,就要搜集方言地域人們所經(jīng)常使用的語言文字材料,如文化與生活、歷史與宗教、教育與科技等,越土、越俗的越要選用。
對于詞匯,美國普林斯頓大學(xué)1972年出版的Handbook of,Chinese Dialect Vocabulary(漢語方言詞匯調(diào)查手冊)將詞目分為33個義類,共5000余條目;我國2003年修訂的《漢語方言詞語調(diào)查條目表》版將詞匯分為29大類,詞目4000余條。方言的核心詞主要包括名詞、動詞、形容詞等,而方言中對同一事物的不同表述(或說法)的詞語,要盡量搜集全面,對于那些有本地方言特征或摻雜本地音調(diào)的外來詞,也要適當(dāng)搜集,增加例詞、例句、釋義等,力求能夠全面反映某地方言的語音特點。
對于句子,結(jié)合方言自身生活習(xí)俗、語言習(xí)慣等實際情況采集語料(包括長篇的話語材料),按其語法特點,提煉含有各種句型的句子樣本,它們包括敘述句、判斷句、疑問句、否定句、祈使句等。這些樣本是在一定的情景下以日常生活為題材的自然話語。
3.2 音源選擇
在語音數(shù)據(jù)庫建設(shè)中,對某種方言的典型地域及發(fā)音人的選擇至關(guān)重要。中國語言狀況極為復(fù)雜,每個地方都有自己的“語言”,這既是方言魅力所在,又給音源選擇帶來極大難度,所以,要對某種方言狀況進行較全面的調(diào)查了解,才能科學(xué)地選擇具有代表性的地域、方言及發(fā)音人。
為確保采集方言語料的質(zhì)量和代表性,所選擇的方言發(fā)音人必須土生土長、口齒清晰、操音熟練、用語傳統(tǒng)、語速適中,是當(dāng)?shù)毓J(rèn)發(fā)音準(zhǔn)確的。應(yīng)選擇那些文化程度不高、生活范圍狹小、善于交際聊天、但很少受普通話影響的年齡在五、六十歲的發(fā)音人,這個年齡段的人講話相對較“土”一些。
至少要選擇三組平行音源,進行平行錄音和重復(fù)錄音,以便采集準(zhǔn)確語音發(fā)音樣本。
3.3 語音錄制
應(yīng)選配專用錄音房、專業(yè)錄音麥克風(fēng)、電平監(jiān)視器等設(shè)備,采用先進的錄音合成軟件,音頻控制要在16000Hz采樣率和16位精度以上,設(shè)置為清晰的單聲道音頻信號,存儲為相應(yīng)的文件格式。
麥克風(fēng)是錄音中重要的設(shè)備,既要保證在專業(yè)環(huán)境下的高靈敏性,也要保證其能在非專業(yè)錄音環(huán)境中正常使用。對于具體環(huán)境下的情感語音錄音可隨機應(yīng)變,盡量選用不會影響發(fā)音人情緒的錄音設(shè)備,如錄音筆等。如果朗讀情感式錄音文本,建議配戴袖珍麥克或頭戴式麥克。
整個錄音過程應(yīng)在專業(yè)技術(shù)人員指導(dǎo)下進行,有些錄音可在正式錄音前安排模擬錄音實驗,但有些實時錄音必須一次成功。所有方言發(fā)音文件應(yīng)配備對應(yīng)的普通話讀音文件,便于理解與學(xué)習(xí)。
4 需要注意的幾個方面
4.1 數(shù)據(jù)庫功能
數(shù)據(jù)庫的設(shè)計既要保證數(shù)據(jù)的可靠性和完整性,又要保證系統(tǒng)的兼容性和共享性;既要成為通用的數(shù)據(jù)庫檢索系統(tǒng),又要成為語言學(xué)習(xí)與研究的共享軟件。對方言文本發(fā)音的標(biāo)音不僅要易標(biāo),關(guān)鍵是要易讀、易懂,能夠保證它的準(zhǔn)確性和連貫性。
4.2 方言數(shù)據(jù)采集
數(shù)據(jù)是數(shù)據(jù)庫各種功能得以實現(xiàn)的最基本保證,而方言所涉及種類多、范圍廣,所以,要在數(shù)據(jù)采集上加大投入,建立數(shù)據(jù)搜集的各級組織,以便把那些很土的方言采集齊全。應(yīng)減少朗讀普通話提示文本錄制語音數(shù)據(jù),盡量采集原生態(tài)語法現(xiàn)象與發(fā)音習(xí)慣,以保證某種方言的客觀性和特殊性。
4.3 檢索預(yù)處理
一般檢索系統(tǒng)往往采用禁用詞表、運算規(guī)則等進行初步檢索規(guī)范,但在方言數(shù)據(jù)庫檢索過程中無法使用這些規(guī)則,因為每個詞都有其發(fā)音,都有檢索意義,特別是在進行語音檢索時,某些超失范語句必須進行預(yù)處理,否則容易匹配失誤,導(dǎo)致檢索錯誤,而人工預(yù)處理需要有一定的檢索知識和語言知識,所以設(shè)計智能預(yù)處理系統(tǒng)非常必要。
4.4 軟件開發(fā)
盡管已經(jīng)開發(fā)出一些語音處理與識別軟件,但尚需進一步研究和開發(fā)具有“自然語言認(rèn)知和情感理解能力”的語音特征自動識別與提取軟件、語義自動分析軟件、語一文自動轉(zhuǎn)換軟件以及漢語方言智能預(yù)處理軟件、自動辨識軟件、自動合成軟件等。
4.5 數(shù)據(jù)庫標(biāo)準(zhǔn)化
我國數(shù)據(jù)庫系統(tǒng)的研制與開發(fā)需要統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和建庫規(guī)范。所以,有必要對語音數(shù)據(jù)庫的有關(guān)數(shù)據(jù)和功能制定一個統(tǒng)一的標(biāo)準(zhǔn),而方言語音數(shù)據(jù)庫的建設(shè)也亟需采取統(tǒng)一的規(guī)劃措施。
5 結(jié)語
中國地域遼闊,語言狀況相當(dāng)復(fù)雜,每個地方都有自己的方言,方言研究涉及很多問題,是一個很大的課題,為此,有必要對方言語音數(shù)據(jù)庫進行規(guī)模研究,以促進我國漢語語言文化的留存與傳承,并推動學(xué)界對我國漢語方言語言深入而持久的研究。
相關(guān)熱詞搜索:漢語 構(gòu)想 方言 漢語方言語音數(shù)據(jù)庫建設(shè)構(gòu)想 中國手語數(shù)據(jù)庫建設(shè)的構(gòu)想 布依語語音數(shù)據(jù)庫建設(shè)初探
熱點文章閱讀