政府大數(shù)據(jù)數(shù)據(jù)處理綜合解決方案
發(fā)布時(shí)間:2020-09-14 來源: 實(shí)習(xí)報(bào)告 點(diǎn)擊:
政府大數(shù)據(jù)處理綜合解決方案 數(shù)據(jù)質(zhì)量的好壞決定了數(shù)據(jù)價(jià)值的高低。
高質(zhì)量的數(shù)據(jù)可以保證 數(shù)據(jù)應(yīng)用、 數(shù)據(jù)服務(wù)的質(zhì)量。
高質(zhì)量的數(shù)據(jù)已成為組織最具價(jià)值的資 產(chǎn)之一。
交換、共享和開放數(shù)據(jù),同樣面臨數(shù)據(jù)質(zhì)量的問題,高質(zhì)量的交 換、共享和開放數(shù)據(jù)不僅能保證數(shù)據(jù)應(yīng)用和服務(wù)的價(jià)值, 還可以保障 和提升組織的公信力。交換、共享和開放政務(wù)數(shù)據(jù),并保證數(shù)據(jù)的質(zhì) 量,是組織面臨的一個(gè)嚴(yán)肅課題。
針對(duì)政務(wù)數(shù)據(jù)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全, 浪潮提出了一套基于政務(wù) 數(shù)據(jù)的交換、共享、開放的完整解決方案,功能包括數(shù)據(jù)檢測(cè)、數(shù)據(jù) 清洗、數(shù)據(jù)加工、數(shù)據(jù)脫敏等。
1. 數(shù)據(jù)檢測(cè) 數(shù)據(jù)檢測(cè)是按一定規(guī)則對(duì)數(shù)據(jù)質(zhì)量的評(píng)估, 浪潮對(duì)政務(wù)數(shù)據(jù)的梳 理形成一套完整的數(shù)據(jù)元標(biāo)準(zhǔn), 依據(jù)數(shù)據(jù)元標(biāo)準(zhǔn)規(guī)范可以自動(dòng)的對(duì)大 部分?jǐn)?shù)據(jù)字段做檢測(cè)規(guī)則設(shè)定, 沒有自動(dòng)設(shè)定檢測(cè)規(guī)則的字段可以由 人工設(shè)置,檢測(cè)結(jié)果會(huì)以數(shù)據(jù)檢測(cè)報(bào)告的形式輸出。
基于政務(wù)數(shù)據(jù)的特點(diǎn)和格式規(guī)范, 針對(duì)不同類型的數(shù)據(jù), 會(huì)有不 同的檢測(cè)規(guī)則。
1.1. 數(shù)據(jù)標(biāo)準(zhǔn) 用于數(shù)據(jù)檢測(cè)、數(shù)據(jù)清洗的數(shù)據(jù)標(biāo)準(zhǔn)來源于政務(wù)數(shù)據(jù)的數(shù)據(jù)元標(biāo) 準(zhǔn),由浪潮梳理、總結(jié)、歸納出的數(shù)據(jù)元標(biāo)準(zhǔn)對(duì)數(shù)據(jù)元對(duì)應(yīng)字段的長(zhǎng) 度、格式、字符類型等字段標(biāo)準(zhǔn)做了定義。系統(tǒng)會(huì)根據(jù)政務(wù)數(shù)據(jù)元字 段標(biāo)準(zhǔn)規(guī)范,對(duì)待檢測(cè)數(shù)據(jù)字段做智能分析和數(shù)據(jù)元匹配, 與標(biāo)準(zhǔn)數(shù) 據(jù)元匹配成功的待處理字段即可以按照數(shù)據(jù)元標(biāo)準(zhǔn)做檢測(cè)、清洗等操 作,對(duì)于沒有匹配成功的或不認(rèn)可自動(dòng)匹配的字段可以在系統(tǒng)自定義 設(shè)定檢測(cè)規(guī)則。
1 ?1 ?1• 字段類型標(biāo)準(zhǔn) 通過對(duì)政府大數(shù)據(jù)的各類數(shù)據(jù)字段的整理、 歸納,整理出主要的 數(shù)據(jù)字段類型及定義情況。
中文字符 可以包含漢字 ( 中、國(guó)……等 )
、字母字符( a-z,A-Z )
和數(shù)字字符等 字母字符 特指字母字符( a-z,A-Z )
數(shù)字字符 數(shù)字字符( 0 、 1 、 2 、 3 ……)
數(shù)值 數(shù)值型 字母 + 數(shù)字 字母和數(shù)字字符 日期 日期型,包含年、月、日信息 時(shí)間 時(shí)間型,包含時(shí)、分、秒信息 字典 含有數(shù)據(jù)字典的字段
綜合 含有各類字符并具有一定格式的字段
1 ?1 ?2• 字段格式標(biāo)準(zhǔn) 數(shù)據(jù)字段內(nèi)容格式標(biāo)準(zhǔn)采用了數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn),對(duì)字段的類型、 長(zhǎng)度、格式等通過字符予以標(biāo)識(shí),表示格式和示例如下。標(biāo)準(zhǔn)數(shù)據(jù)字 段目錄詳見附件。
c 中文字符,可以包含漢字 ( 中、國(guó)……等 )
、字母字彳 ( a-z,A-Z )和數(shù)字字符等 c12 固定 12 位字符(即 6 個(gè)漢字)長(zhǎng)度的中文字符 C..12 最多為 12 位字符(即 6 個(gè)漢字)長(zhǎng)度的中文字符 a 特指字母字符( a-z,A-Z )
a3 固定長(zhǎng)度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符( 0 、 1 、 2 、 3 ……)
n3 固定長(zhǎng)度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 , n2 數(shù)值型 , 小數(shù)點(diǎn)前最多為 5 位數(shù)字,小數(shù)點(diǎn)后保留 2 位數(shù)字, 總長(zhǎng)度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長(zhǎng)度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符
d8 日期型,按年、月、日順序全數(shù)字表示,格式為 8 位定長(zhǎng)、 全數(shù)字表示( YYYYMM )
D 年用 4 位數(shù)字表示,月、日各 用 2 位數(shù)字表示,彼此之間沒有分隔符,如 2002 年 12 月 25 日,應(yīng)表示為 20021225 t 時(shí)間型,按時(shí)、分、秒順序全數(shù)字表示,格式為 6 位定長(zhǎng)、 全數(shù)字表示( hhmmsS z 綜合性,可含有各種字符,且具有一定的格式。
1.1.3• 約束條件標(biāo)準(zhǔn)
字段約束是對(duì)數(shù)據(jù)集字段間邏輯關(guān)系分析, 依據(jù)字段間的相互依 存關(guān)系、約束關(guān)系來檢測(cè)字段內(nèi)容的準(zhǔn)確性。主要依存關(guān)系如下。
導(dǎo)出 字段 A 可由字段 X 導(dǎo)出 歸并 字段 A
B ……可以歸并為字段 X 條件 字段 A 滿足甲條件時(shí),字段 X 內(nèi)容為一
1.1.4• 數(shù)據(jù)目錄標(biāo)準(zhǔn) 浪潮針對(duì)政務(wù)數(shù)據(jù)目錄的梳理形成了一整套完整的標(biāo)準(zhǔn)體系, 結(jié) 合字段類型標(biāo)準(zhǔn)、格式標(biāo)準(zhǔn)、約束條件標(biāo)準(zhǔn),形成數(shù)據(jù)目錄標(biāo)準(zhǔn),數(shù) 據(jù)目錄標(biāo)準(zhǔn)中對(duì)其包含的數(shù)據(jù)字段的類型、 格式,數(shù)據(jù)字段之間的約 束條件進(jìn)行預(yù)先定義,形成以數(shù)據(jù)目錄為單位的格式和約束標(biāo)準(zhǔn)。
在 對(duì)數(shù)據(jù)集進(jìn)行檢測(cè)時(shí),如果可以建立數(shù)據(jù)集層面的匹配,則不僅可以 對(duì)數(shù)據(jù)字段做細(xì)致的檢測(cè),對(duì)數(shù)據(jù)的整體性也建立了檢測(cè)依據(jù)。
1 ?1 ?5• 敏感數(shù)據(jù)標(biāo)準(zhǔn) 針對(duì)數(shù)據(jù)安全性,浪潮制定了敏感數(shù)據(jù)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)包含敏感數(shù) 據(jù)的定義、敏感詞庫(kù)的定義、黑白名單的定義等。
個(gè)人信息字段 涉及個(gè)人敏感信息的數(shù)據(jù)字段 法人信息字段 涉及企業(yè)敏感信息的數(shù)據(jù)字段 涉密信息字段 涉及隱私的數(shù)據(jù)字段 約束信息 由多字段可以推導(dǎo)出敏感數(shù)據(jù)的情況 敏感詞庫(kù) 含有敏感詞庫(kù)中內(nèi)容的數(shù)據(jù) 黑名單 含有黑名單中內(nèi)容的數(shù)據(jù) 白名單 含有白名單中內(nèi)容的數(shù)據(jù)
12 檢測(cè)問題 1.2.1• 字段檢測(cè)問題明細(xì) F 面列出了不同類型的數(shù)據(jù)字段與可能檢測(cè)出的數(shù)據(jù)質(zhì)量問題 的對(duì)應(yīng)情況
中文字符 字母字符 數(shù)字字符 數(shù) 值 字 母 + 數(shù) 字 日期 時(shí) 間 字 典 綜 合 空值 V V V V V V V V V 含非標(biāo)準(zhǔn)字符 V V V V V
V 含空格 V V V V V
V
含換行符 V V V V V
V 含非標(biāo)準(zhǔn)特殊字符 V V V V V
V 字符長(zhǎng)度超限 V V V V V
V 值范圍超限
V V
V V
非字典項(xiàng)
V
不符合格式要求
V
V V
V
1.2.2• 約束檢測(cè)問題明細(xì) 字段間的約束問題需要根據(jù)具體數(shù)據(jù)字段情況進(jìn)行設(shè)定。
如身份 證與性別、年齡、出生日期的導(dǎo)出關(guān)系等。具體的約束檢測(cè)規(guī)則詳見 附件。
1.2.3• 整體檢測(cè)問題明細(xì) 整體檢測(cè)包括數(shù)據(jù)的完整性、一致性、時(shí)效性、唯一性等方面的 檢測(cè),數(shù)據(jù)整體檢測(cè)以浪潮梳理的政務(wù)數(shù)據(jù)目錄標(biāo)準(zhǔn)為依托, 輔以完 整性規(guī)范、一致性規(guī)范等標(biāo)準(zhǔn)。
字段完整性問題 數(shù)據(jù)集是否含有某些關(guān)鍵字段 記錄完整性問題 數(shù)據(jù)集記錄是否完整 記錄致性問題 記錄中的值是否沖突,如合計(jì)項(xiàng)的值 字段致性問題 字段中的值是否沖突,如合計(jì)項(xiàng)的值 字段唯性問題 字段是否重復(fù) 記錄唯性問題 對(duì)關(guān)鍵字段檢測(cè),是否含有重復(fù)記錄
時(shí)效性問題 不同數(shù)據(jù)集時(shí)效要求的評(píng)測(cè) 1.2.4• 敏感問題明細(xì)(安全性)
基于數(shù)據(jù)安全性的檢測(cè),針對(duì)數(shù)據(jù)中含有的敏感信息進(jìn)行檢測(cè) 含個(gè)人敏感信息字段 涉及個(gè)人敏感信息的數(shù)據(jù)字段 含法人敏感信息字段 涉及企業(yè)敏感信息的數(shù)據(jù)字段 含涉密信息字段 涉及隱私的數(shù)據(jù)字段 含約束敏感字段 由多字段可以推導(dǎo)出敏感數(shù)據(jù)的情況 含敏感詞 含有敏感詞庫(kù)中內(nèi)容的數(shù)據(jù) 含黑名單數(shù)據(jù) 含有黑名單中內(nèi)容的數(shù)據(jù) 含白名單數(shù)據(jù) 含有白名單中內(nèi)容的數(shù)據(jù)
1.3.檢測(cè)方法 1.3.1• 依字段標(biāo)準(zhǔn)檢測(cè) 首先對(duì)待檢測(cè)字段做智能匹配,去匹配數(shù)據(jù)元標(biāo)準(zhǔn)中的標(biāo)準(zhǔn)數(shù)據(jù) 元,匹配成功后會(huì)依據(jù)匹配成功的數(shù)據(jù)元標(biāo)準(zhǔn)進(jìn)行檢測(cè)。
1.3.2. 自定義字段檢測(cè) 對(duì)于通過“依字段標(biāo)準(zhǔn)檢測(cè)”沒有匹配成功的或者匹配結(jié)果不滿 意的字段可以修改或自定義字段格式標(biāo)準(zhǔn), 通過修改或自定義的字段 格式標(biāo)準(zhǔn)進(jìn)行檢測(cè)。
1.3.3. 依約束標(biāo)準(zhǔn)檢測(cè) 在系統(tǒng)中會(huì)依據(jù)對(duì)政務(wù)數(shù)量的標(biāo)準(zhǔn)和規(guī)范, 設(shè)置一系列的數(shù)據(jù)字 段約束條件, 在完成待檢測(cè)字段與數(shù)據(jù)元的匹配后, 會(huì)檢測(cè)該字段是 否含有字段約束條件,并依
據(jù)字段約束條件的相關(guān)規(guī)則進(jìn)行檢測(cè)。
1.3.4. 自定義約束檢測(cè) 對(duì)于通過 “依約束標(biāo)準(zhǔn)檢測(cè)” 沒有匹配成功的或者匹配結(jié)果不滿 意的約束條件可以修改或自定義, 通過修改或自定義的約束條件標(biāo)準(zhǔn) 進(jìn)行檢測(cè)。
1.3.5. 依數(shù)據(jù)目錄標(biāo)準(zhǔn)檢測(cè)(整體性檢測(cè))
對(duì)于存在數(shù)據(jù)目標(biāo)標(biāo)準(zhǔn)的數(shù)據(jù)集,如果完成數(shù)據(jù)集層面的匹配, 則可以依據(jù)完備的數(shù)據(jù)目錄標(biāo)準(zhǔn)進(jìn)行從數(shù)據(jù)字段細(xì)節(jié), 到數(shù)據(jù)字段間 約束性,到數(shù)據(jù)整體性的完整檢測(cè)流程。
1.3.6. 自定義整體性檢測(cè) 自定義整體性檢測(cè)可以設(shè)置數(shù)據(jù)集整體性檢測(cè)規(guī)則, 依據(jù)自定義 的整體性規(guī)則對(duì)數(shù)據(jù)集的整體性進(jìn)行檢測(cè)。
1.4. 檢測(cè)報(bào)告 對(duì)數(shù)據(jù)的檢測(cè)結(jié)果會(huì)以報(bào)告的形式輸入, 檢測(cè)報(bào)告會(huì)詳細(xì)的描述 檢測(cè)中出現(xiàn)的問題以及問題類型,會(huì)對(duì)檢測(cè)問題做統(tǒng)計(jì)和分析操作, 檢測(cè)結(jié)果和分析結(jié)果會(huì)通過可視化圖表等方式展示。
同時(shí),對(duì)于檢測(cè) 出的問題, 可以通過清洗操作解決的會(huì)給出清洗建議, 存在安全隱患 的,會(huì)給出安全處理建議。
1.4.1. 問題描述
問題描述羅列出檢測(cè)中出現(xiàn)的各種問題以及問題的數(shù)量。
1.4.2. 問題分析 問題分析是對(duì)檢測(cè)中的問題進(jìn)行分析和統(tǒng)計(jì), 并將分析和統(tǒng)計(jì)結(jié) 果以可視化的形式展現(xiàn)。
1.4.3. 清洗建議 清洗建議是針對(duì)可以進(jìn)行清洗的數(shù)據(jù), 給出的清洗建議。
清洗建 議中包括是否適合機(jī)器清洗、人工清洗、機(jī)器 + 人工清洗,包括適合 的清洗方法,具體的數(shù)據(jù)清洗方法會(huì)在下一章節(jié)中列出。
1.4.4. 加工建議 加工建議是針對(duì)數(shù)據(jù)存在的整體性問題提出的加工建議, 加工建 議中包括是否適合機(jī)器加工、人工加工、機(jī)器 + 人工加工,包括適合 的加工方法,具體的數(shù)據(jù)加工方法在后面章節(jié)中列出。
1.4.5. 脫敏建議 脫敏建議是針對(duì)存在敏感性的數(shù)據(jù)提出的脫敏建議, 具體的數(shù)據(jù) 脫敏方法在后面章節(jié)中列出。
2. 數(shù)據(jù)清洗 現(xiàn)實(shí)數(shù)據(jù)一般含有噪聲、格式錯(cuò)誤、數(shù)值超限、不完整、不一致 等情況,數(shù)據(jù)清洗可以填補(bǔ)空缺數(shù)據(jù)、識(shí)別錯(cuò)誤、消除噪聲、糾正數(shù) 據(jù)中的不一致。數(shù)據(jù)清洗是基于數(shù)據(jù)檢測(cè)的結(jié)果對(duì)數(shù)據(jù)質(zhì)量做的提升 工作。
數(shù)據(jù)清洗中很多方法并不能完全正確的修復(fù)數(shù)據(jù), 所以一些數(shù)據(jù) 清洗方法只適用于準(zhǔn)確性要求不高的數(shù)據(jù)。
以下數(shù)據(jù)清洗方法中, 除 特別提到由人工處理的,其它方法均可以由系統(tǒng)實(shí)現(xiàn)。
2.1. 空缺值處理 空缺值是指字段內(nèi)容是空缺的,根據(jù)空缺內(nèi)容字段的重要程度, 可以選擇不同的清洗方式。
2.1.1. 刪除記錄 即刪除有空缺的記錄。
可在設(shè)定好規(guī)則后由機(jī)器處理, 情況包括:
1 、 某條記錄的某字段空缺時(shí),刪除該條記錄; 2 、 某條記錄的某幾個(gè)字段同時(shí)空缺,刪除該條記錄; 3 、 某條記錄空缺值超過 X 個(gè)時(shí),刪除該條記錄; 4 、 某條記錄空缺值超過總字段數(shù)的 Y% 時(shí),刪除該條記錄。
2.1.2. 人工填寫 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在空缺值較少的 情況可由人工填寫。
人工填寫空缺值的優(yōu)點(diǎn)是經(jīng)過人為判斷, 可以保 證填充值的準(zhǔn)確度。
2.1.3. 常量填充 使用一個(gè)或若干個(gè)常量來填充空缺值,情況包括:
1 、 直接使用一個(gè)常量填充該字段所有空缺值; 2 、 隨機(jī)從若干個(gè)常量中選擇一個(gè)填充。
2.1.4. 統(tǒng)計(jì)填充 對(duì)該字段中非空缺值進(jìn)行統(tǒng)計(jì), 根據(jù)統(tǒng)計(jì)結(jié)果來選擇空缺值填充 內(nèi)容,情況包括:
1 、 對(duì)數(shù)值型數(shù)據(jù),可以使用非空缺值的平均值、最大值、最 小值、眾數(shù)、某分位數(shù)等做填充; 2 、 對(duì)時(shí)間型(日期型)數(shù)據(jù),可以使用非空缺值的平均時(shí)間 (日期)、最近時(shí)間(日期)、最遠(yuǎn)時(shí)間(日期)等做填充; 3 、 對(duì)字符型數(shù)據(jù),可以對(duì)非空缺值分類并統(tǒng)計(jì)出各類別的數(shù) 量和占比,根據(jù)各分類數(shù)量或占比的值選擇如最大量、最 小量等做填充。
2.1.5. 條件填充 條件填充是依據(jù)該條記錄中其它非空字段的特點(diǎn), 設(shè)置關(guān)聯(lián)條件, 對(duì)空缺值進(jìn)行填充。情況包括:
。ㄏ旅嬖O(shè)定 A 字段為待填充的含空缺 值字段, B 、 C••… 為其它關(guān)聯(lián)字段)
1 、 存在與 A 字段強(qiáng)關(guān)聯(lián)的 B 字段,通過 B 字段推理出 A 字段 的內(nèi)容,如學(xué)歷為研究生的大部分都通過了英語(yǔ)六級(jí); 2 、 存在與 A 字段具有約束關(guān)系的 B 字段,通過 B 字段推導(dǎo)出
A 字段內(nèi)容,如通過身份證號(hào)碼可以推導(dǎo)出年齡、出生日 期、性別等字段。
2.1.6. 分析填充 分析填充通過數(shù)據(jù)統(tǒng)計(jì)、分析、挖掘等算法,來尋找空缺值最可 能的值給予填充。分析填充需要人工設(shè)置分析方法并選擇分析字段, 需要人工和計(jì)算器共同完成。情況包括:
1 、 關(guān)聯(lián)分析,使用關(guān)聯(lián)分析的挖掘方法分析數(shù)據(jù),尋找出強(qiáng) 關(guān)聯(lián)的字段,根據(jù)強(qiáng)關(guān)聯(lián)字段關(guān)聯(lián)情況尋找最可能的值, 當(dāng)數(shù)據(jù)字段具有強(qiáng)關(guān)聯(lián)時(shí),此種方式有效。
2 、 聚類分析,使用聚類分析的挖掘方法分析數(shù)據(jù),將非空數(shù) 據(jù)記錄聚類成若干簇,根據(jù)簇中字段特點(diǎn)來選擇最可能的 值。
3 、 回歸分析,使用回歸等數(shù)據(jù)挖掘方法,計(jì)算最可能的值, 此種方式對(duì)數(shù)值型數(shù)據(jù)有效。
2.1.7. 規(guī)則填充 規(guī)則填充是指如果數(shù)據(jù)元標(biāo)準(zhǔn)、 數(shù)據(jù)目錄標(biāo)準(zhǔn)中存在相應(yīng)的標(biāo)準(zhǔn) 規(guī)范,可以直接按照標(biāo)準(zhǔn)規(guī)范中的要求進(jìn)行填充。規(guī)則填充依據(jù)“條 件填充”的規(guī)范,是事先定義好的標(biāo)準(zhǔn)。
2.2. 違規(guī)值處理 違規(guī)值問題是指數(shù)據(jù)的格式不符合要求, 或者含有格式要求外的 字符,如姓名中出現(xiàn)阿拉伯?dāng)?shù)字。
2.2.1. 刪除記錄 即刪除含違規(guī)值記錄。
可在設(shè)定好規(guī)則后由機(jī)器處理, 適于刪除 記錄操作的情況包括:
1 、 關(guān)鍵字段存在違規(guī)值,且無法恢復(fù); 2 、 編碼錯(cuò)誤導(dǎo)致存在大量違規(guī)值,且無法恢復(fù); 2.2.2. 人工修改 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在違規(guī)值較少的 情況可由人工修改。
人工修改違規(guī)值的優(yōu)點(diǎn)是經(jīng)過人為判斷, 可以保 證修正值的準(zhǔn)確度。
2.2.3. 內(nèi)容清空 即清空違規(guī)值字段內(nèi)容,當(dāng)作空缺值處理。
2.2.4. 違規(guī)字符清除 對(duì)于存在違規(guī)字符的數(shù)據(jù), 通過設(shè)置規(guī)則清理掉數(shù)據(jù)字段中的違 規(guī)字符,而保留不違規(guī)字符,可直接將違規(guī)字符替換為空。適于違規(guī) 字符清理的操作包括如:
1 、 時(shí)間或日期型數(shù)據(jù)中含有如 “ ()”等違規(guī)字符; 2 、 名字等字段中含有空格;
3 、 身份證號(hào)碼等字段中含有 X 以外的其它字母或字符;
2.2.5. 違規(guī)字符替換 對(duì)含有違規(guī)字符的內(nèi)容做違規(guī)字符替換, 將違規(guī)字符替換為規(guī)則 內(nèi)字符。
1 、 統(tǒng)一替換,將違規(guī)字符統(tǒng)一替換為某規(guī)則內(nèi)字符;
2 、 規(guī)則替換,不同違規(guī)字符對(duì)應(yīng)不同的規(guī)則內(nèi)字符; 3 、 精確替換,設(shè)置匹配規(guī)則做精確替換, 如“ & ”替換為“和”; 4 、 模糊替換,設(shè)置匹配規(guī)則做模糊替換,如“ &*** ( * 代表 其他字符)”替換為“和”。
2.2.6. 字典匹配 對(duì)于字典字段, 填寫的內(nèi)容不在字典項(xiàng)之內(nèi), 這種問題可以歸為 違規(guī)值,有些違規(guī)可能是因?yàn)樘顚懖灰?guī)范造成的, 如多寫了或少寫了 一些字符,可以通過模糊匹配核心詞的方式來做處理:
1 、 模糊匹配,新增規(guī)則字典并設(shè)置匹配規(guī)則做模糊對(duì)應(yīng); 2 、 精確匹配,新增規(guī)則字典并設(shè)置匹配規(guī)則做精確對(duì)應(yīng); 2.2.7. 規(guī)則修改 按照數(shù)據(jù)字段標(biāo)準(zhǔn)和數(shù)據(jù)目錄標(biāo)準(zhǔn)或者設(shè)置條件約束規(guī)則, 對(duì)含 有違規(guī)值的內(nèi)容做修改。
該種方式忽略當(dāng)前違規(guī)值, 直接依據(jù)標(biāo)準(zhǔn)規(guī) 則或約束條件進(jìn)行修改處理。
2.3. 噪聲值處理 噪聲值是指數(shù)據(jù)內(nèi)容超出了字段要求的邏輯范疇,不符合常理。
如人的年齡 190 歲、身高 10 米、體重 5 噸等錯(cuò)誤,可以通過一些降 噪方式來處理。
2.3.1. 刪除記錄 即刪除含噪聲值記錄。可在設(shè)定好規(guī)則后由機(jī)器統(tǒng)一處理。
2.3.2. 內(nèi)容清空
依據(jù)字段要求的邏輯范疇,對(duì)噪聲值內(nèi)容做清空處理。
2.3.3. 人工修改噪聲值 通常數(shù)據(jù)量較大的情況下, 此種方式并不適合, 在噪聲值較少的 情況可由人工修改。
人工修改噪聲值的優(yōu)點(diǎn)是經(jīng)過人為判斷, 可以保 證修正值的準(zhǔn)確度。
2.3.4. 修改規(guī)則 數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況, 如數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定的單 位是米,而待檢測(cè)數(shù)據(jù)是按厘米保存的數(shù)據(jù), 數(shù)據(jù)單位的不一致會(huì)導(dǎo) 致檢測(cè)規(guī)則不符合實(shí)際數(shù)據(jù)情況, 可以通過修改檢測(cè)規(guī)則的方式來處 理,重新識(shí)別噪聲值。
2.3.5. 數(shù)值轉(zhuǎn)換 數(shù)值型數(shù)據(jù)中存在數(shù)據(jù)單位不統(tǒng)一的情況, 如數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定的單 位是米,而待檢測(cè)數(shù)據(jù)是按厘米保存的數(shù)據(jù)。
為了保證數(shù)據(jù)標(biāo)準(zhǔn)的權(quán) 威性,可以通過數(shù)值轉(zhuǎn)換的方式來做處理。如身高標(biāo)準(zhǔn)的單位是米, 待處理數(shù)據(jù)的單位是厘米,則可以對(duì)待處理數(shù)值除以 100 ,另外還有 貨幣或其他計(jì)量單位。此種方式一般需要人工分析和設(shè)置。
2.3.6. 數(shù)據(jù)平滑 對(duì)數(shù)值型數(shù)據(jù)含有的噪聲數(shù)據(jù),可以通過數(shù)據(jù)平滑技術(shù)做處理。
1 、 近似填充,通過考察相近的值來平衡噪聲值,如選擇離噪 聲值最近的正常值,將噪聲值修改為正常值,或者選擇離 噪聲值較近的若干個(gè)正常值,將噪聲值修改為這些正常值 的平均值等。數(shù)據(jù)量較大時(shí)適用; 2 、 統(tǒng)計(jì),基于統(tǒng)計(jì)的方法,如將噪聲值修改為正常值的平均 值。數(shù)據(jù)量較
小時(shí)適用; 3 、 常量替換,將噪聲值替換為常量。
2.4. 數(shù)據(jù)完整性處理 為保證數(shù)據(jù)集的完整性和一致性, 從整體出發(fā),來做相應(yīng)的處理。
數(shù)據(jù)完整性處理可以對(duì)重復(fù)字段、重復(fù)記錄、沖突字段做清洗處理, 單對(duì)數(shù)據(jù)缺失的問題無法處理,這需要從數(shù)據(jù)源出發(fā)尋找解決辦法。
2.4.1. 字段排重 重復(fù)字段是某若個(gè)字段表述的屬性是一樣, 可以做排重處理。
對(duì) 于重復(fù)字段,可以選擇保留某一字段,刪除其它重復(fù)的字段。
1 、 人工選擇,由人工選擇保留字段,刪除其它重復(fù)字段; 2 、 依標(biāo)準(zhǔn)保留,依據(jù)數(shù)據(jù)目標(biāo)標(biāo)準(zhǔn),保留完全符合數(shù)據(jù)目錄 標(biāo)準(zhǔn)的字段; 3 、 依質(zhì)量保留,根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)結(jié)果,保留數(shù)據(jù)質(zhì)量問題 最少的字段; 4 、 順序保留,即按字段出現(xiàn)的順序,保留第一個(gè)字段或最后 一個(gè)字段。
2.4.2. 依關(guān)鍵字段的記錄排重 針對(duì)某關(guān)鍵字段, 每條記錄需要是唯一的, 如果同一字段出現(xiàn)了 多條記錄對(duì)應(yīng),只需要保留其中一條即可。
1 、 人工選擇,由人工選擇保留記錄,刪除其它重復(fù)記錄; 2 、 順序保留,即按記錄出現(xiàn)的順序,保留第一條記錄; 3 、 條件保留,設(shè)置條件規(guī)則和約束字段,比如保留按時(shí)間屬
性字段離當(dāng)前最近的 4 、 以數(shù)據(jù)質(zhì)量保留,根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)結(jié)果,保留數(shù)據(jù)質(zhì)量 問題最少的記錄。
2.4.3. 依重復(fù)度的記錄排重 對(duì)比數(shù)據(jù)記錄的重復(fù)情況,達(dá)到一定要求的,即可排重。
1 、 完全重復(fù),即兩條記錄完全一致,保留一條即可; 2 、 不完全重復(fù),設(shè)置若干比對(duì)字段,按比對(duì)字段完全一致的 記錄,保留一條即可。
2.4.4. 字段沖突處理 對(duì)具有強(qiáng)約束關(guān)系的字段, 可以以某字段作為標(biāo)準(zhǔn), 對(duì)其余字段 做修改處理。如,身份證號(hào)字段與年齡、性別字段具有約束關(guān)系,可 以以身份證號(hào)座位標(biāo)準(zhǔn)字段, 在與年齡或性別字段沖突時(shí), 通過身份 證號(hào)推導(dǎo)出正確的值。
2.4.5. 記錄沖突處理 對(duì)不同的記錄, 記錄之間可能存在關(guān)聯(lián)關(guān)系, 需要根據(jù)不同的問 題情況做不同的處理。
1 、 統(tǒng)計(jì)錯(cuò)誤,如合計(jì)項(xiàng)的值不是列表項(xiàng)中值的和,需要人工 分析處理和修改錯(cuò)誤值; 2 、 邏輯錯(cuò)誤,如人員列表中,不同的人對(duì)應(yīng)了相同的駕駛證 號(hào),其中一條記錄一定是錯(cuò)的,需要人工分析處理和修改
錯(cuò)誤值 3. 數(shù)據(jù)加工 在完成數(shù)據(jù)清洗后, 可以對(duì)清洗后的數(shù)據(jù)按需求做一定的加工處 理,數(shù)據(jù)加工要求在不改變數(shù)據(jù)內(nèi)容和數(shù)據(jù)邏輯的前提下進(jìn)行。
3.1. 數(shù)據(jù)集成 數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)集合并成一個(gè)數(shù)據(jù)集的操作。
數(shù)據(jù)集成可 能會(huì)產(chǎn)生冗余數(shù)據(jù)或重復(fù)數(shù)據(jù), 需要再經(jīng)過數(shù)據(jù)檢測(cè)來查看數(shù)據(jù)問題。
3.1.1. 記錄合成 將數(shù)據(jù)結(jié)構(gòu)一致或相近的數(shù)據(jù)集合成為一個(gè)大數(shù)據(jù)集。
可能出現(xiàn) 的情況和加工方式包括:
1 、 結(jié)構(gòu)一致,將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后; 2 、 結(jié)構(gòu)不一致,在數(shù)據(jù)集 A 中增加數(shù)據(jù)集 B 中的新字段,并 將值均置為空,同時(shí)在數(shù)據(jù)集 B 中增加數(shù)據(jù)集 A 中的新字 段,并將值均置為空,再將數(shù)據(jù)集 B 拼接在數(shù)據(jù)集 A 之后; 3 、 記錄冗余處理,數(shù)據(jù)集拼接后,可能存在記錄重復(fù)、數(shù)據(jù) 沖突等問題,需要經(jīng)過數(shù)據(jù)檢驗(yàn)來排除問題。
3.1.2. 字段聚合 將具有相同關(guān)鍵字段的多個(gè)數(shù)據(jù)集,以關(guān)鍵字段(要求唯一)為 主鍵,聚合成一個(gè)具有更多屬性字段的數(shù)據(jù)集。
1 、 設(shè)置主數(shù)據(jù)集,其它數(shù)據(jù)集以主數(shù)據(jù)集為依托進(jìn)行聚合, 最終聚合的記錄與主數(shù)據(jù)集記錄數(shù)對(duì)應(yīng); 2 、 不設(shè)置主數(shù)據(jù)集,對(duì)多個(gè)數(shù)據(jù)集的主鍵拼接排重,最終聚 合的記錄是多個(gè)數(shù)據(jù)集的并集; 3 、 字段冗余處理,字段聚合后,可能存在字段重復(fù)、數(shù)據(jù)沖 突等問題,需要經(jīng)過數(shù)據(jù)檢驗(yàn)來排除問題。
3.2. 數(shù)值平滑 數(shù)據(jù)平滑主要針對(duì)數(shù)值型數(shù)據(jù), 除了可以用來消除檢測(cè)出的噪聲 數(shù)據(jù),還可以分析符合檢測(cè)要求的數(shù)據(jù)值中存在的噪聲。
3.2.1. 數(shù)值分箱 分箱方法通過考察周圍的值來做平滑處理。
數(shù)值被劃分到若干個(gè) 箱中,每個(gè)箱內(nèi)的數(shù)據(jù)可以統(tǒng)一取平均值或邊界值。
3.2.2. 數(shù)值聚類 通過聚類可以發(fā)現(xiàn)異常數(shù)據(jù), 相似或相鄰的數(shù)據(jù)聚合在一起形成 了各個(gè)聚類集合, 位于聚類集合之外的數(shù)據(jù), 可以被認(rèn)為是異常數(shù)據(jù), 可以做刪除或者修改的操作。
3.2.3. 數(shù)值回歸 可以利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。
例如,線性回歸需要找到適
合兩個(gè)變量字段的擬合直線, 使得一個(gè)字段可以預(yù)測(cè)另一個(gè)字段。
多 線性回歸則涉及兩個(gè)以上的字段。
通過擬合函數(shù)平滑數(shù)據(jù)并去除異常 數(shù)據(jù)。
3.3. 數(shù)據(jù)變換 按需求將已有字段內(nèi)容變換成其它形式。
3.3.1. 依規(guī)則變換 依據(jù)一定的標(biāo)準(zhǔn)(或字典)將數(shù)據(jù)轉(zhuǎn)換成其它形式。如:
0 對(duì)應(yīng) 未知、 1 對(duì)應(yīng)男、 2 對(duì)應(yīng)女等,依據(jù)對(duì)應(yīng)規(guī)則做相應(yīng)的變換。
3.3.2. 數(shù)據(jù)概化 用更抽象的概念取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象。如年齡字段, 可以從 0 、 1 、2 、 3 、 4 、 5 ……這樣的數(shù)值屬性映射到較高層概念, 如兒童、少年、青年、中年、老年…… 3.3.3. 單位轉(zhuǎn)換 根據(jù)數(shù)據(jù)單位及單位間的轉(zhuǎn)換規(guī)則轉(zhuǎn)換數(shù)值, 如人民幣轉(zhuǎn)換為美 元、英尺轉(zhuǎn)換為公尺等等。
3.3.4. 數(shù)據(jù)下鉆 對(duì)數(shù)據(jù)進(jìn)行匯總和聚集操作。例如,可以聚集日數(shù)據(jù),計(jì)算出月 和年數(shù)據(jù)。
3.3.5. 數(shù)據(jù)規(guī)范化
將有關(guān)屬性數(shù)據(jù)按比例投射到特定的小范圍內(nèi),如 -1.0~1.0 或 0.0~1.0 。
3.4. 分拆合并 對(duì)已知字段做分拆、合并等操作,轉(zhuǎn)換成新的字段。
3.4.1. 直接分拆 從字段中分拆其中的部分直接生產(chǎn)新的數(shù)據(jù)字段, 如從地址信息 中分拆出城市名稱。
1 、 從左往右分拆出 X 位; 2 、 從右往左分拆出 X 位; 3 、 從第 M 位開始, 分拆出 X 位; 3.4.2. 分拆變換 分拆字段中的部分內(nèi)容并做一定的轉(zhuǎn)化, 如提取身份證號(hào)中的性 別位并轉(zhuǎn)化為性別字段。
3.4.3. 字符添加 在字段中添加特定的字符。
1 、 在開頭添加字符; 2 、 在結(jié)尾添加字符; 3 、 在第 X 位添加字符; 4 、 在某固定字符前(后)添加字符。
3.4.4. 直接合并 將多個(gè)字段直接合并為一個(gè)字段。
3.4.5. 變換合并 將字段進(jìn)行轉(zhuǎn)換后再合并為一個(gè)字段。
4. 數(shù)據(jù)脫敏 數(shù)據(jù)脫敏指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形, 實(shí)現(xiàn) 敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣,就可以在開發(fā)、測(cè)試和其它非生產(chǎn) 環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。
4.1. 定義敏感數(shù)據(jù) 敏感數(shù)據(jù)又稱隱私數(shù)據(jù), 常見的敏感數(shù)據(jù)有 : 姓名、身份證號(hào)碼、 地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類 ( 如 賬戶查詢密碼、取款密碼、登錄密碼等 )
、組織機(jī)構(gòu)名稱、營(yíng)業(yè)執(zhí)照 號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。平臺(tái)提供敏感數(shù)據(jù)定義功 能,可以人工定義敏感數(shù)據(jù)。
一般可分為替換算法和生成算法兩大類。
替換算法即將需要脫敏 的部分使用定義好的字符或字符串替換,生成類算法則更復(fù)雜一些, 要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是 “看起來很真實(shí)的假數(shù)據(jù) ”。
4.2. 可恢復(fù)脫敏 一般的脫敏規(guī)則分類為可恢復(fù)與不可恢復(fù)兩類。
可恢復(fù)類, 指脫 敏后的數(shù)據(jù)可以通過一定的方式, 可以恢復(fù)成原來的敏感數(shù)據(jù), 此類 脫敏規(guī)則主要指各類加解密算法規(guī)則。
可恢復(fù)脫敏遵循下面兩個(gè)原則:
盡可能的為脫敏后的應(yīng)用 , 保留脫敏前
的有意義信息;最大程度上防 止黑客進(jìn)行破解。
4.2.1. 替換 如統(tǒng)一將女性用戶名替換為 A ,對(duì)內(nèi)部人員可以完全保持信息完 整性,但易破解。
4.2.2. 重排 如序號(hào) 12345 重排為 54321 ,按照一定的順序進(jìn)行打亂, 很像“替 換”, 可以在需要時(shí)方便還原信息,但同樣易破解。
4.2.3. 加密 如編號(hào) 12345 加密為 23456 ,安全程度取決于采用哪種加密算法, 一般根據(jù)實(shí)際情況而定。
4.3. 不可恢復(fù)脫敏 不可恢復(fù)類, 指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能 恢復(fù)出。脫敏方法示例。
4.3.1. 刪除 直接刪除敏感字段。
4.3.2. 截?cái)?如 13811001111 截?cái)酁?138 ,舍棄必要信息來保證數(shù)據(jù)的模糊性, 是比較
常用的脫敏方法,但往往對(duì)生產(chǎn)不夠友好。
4.3.3. 掩碼 如 123456 -> 1xxxx6 ,保留了部分信息,并且保證了信息的長(zhǎng)度 不變性,對(duì)信息持有者更易辨別,如火車票上的身份信息。
4.3.4. 日期偏移取整 20130520 12:30:45 -> 20130520 12:00:00 ,舍棄精度來保證原始數(shù) 據(jù)的安全性,一般此種方法可以保護(hù)數(shù)據(jù)的時(shí)間分布密度。
4.3.5. 隨機(jī)化 按一定規(guī)則將數(shù)據(jù)值替換為隨機(jī)值。
5. 數(shù)據(jù)標(biāo)準(zhǔn) 數(shù)據(jù)標(biāo)準(zhǔn)是基于對(duì)政務(wù)數(shù)據(jù)的梳理, 整理出數(shù)據(jù)元對(duì)應(yīng)的數(shù)據(jù)字 段的格式標(biāo)準(zhǔn)。不同字段對(duì)應(yīng)的數(shù)據(jù)元可以由系統(tǒng)自動(dòng)識(shí)別和匹配,
同時(shí)也可以做自定義設(shè)定。平臺(tái)自動(dòng)識(shí)別和匹配的格式標(biāo)準(zhǔn)也可以根 據(jù)實(shí)際需求做個(gè)性化的設(shè)置和調(diào)整。
5.1. 數(shù)據(jù)格式分類和規(guī)范 數(shù)據(jù)字段內(nèi)容格式規(guī)范采用了數(shù)據(jù)元相關(guān)標(biāo)準(zhǔn),表示格式如下 c 中文字符,可以包含漢字 ( 中、國(guó)……等 )
、字母字彳 ( a-z,A-Z )和數(shù)字字符等 c12 固定 12 位字符(即 6 個(gè)漢字)長(zhǎng)度的中文字符 C..12 最多為 12 位字符(即 6 個(gè)漢字)長(zhǎng)度的中文字符 a 特指字母字符( a-z,A-Z )
a3 固定長(zhǎng)度的 3 位字母字符 a..3 最多為 3 位字母字符 n 數(shù)字字符( 0 、 1 、 2 、 3 ……)
n3 固定長(zhǎng)度的 3 位數(shù)字字符 n..3 最多為 3 位數(shù)字字符 n..5 , n2 數(shù)值型 , 小數(shù)點(diǎn)前最多為 5 位數(shù)字,小數(shù)點(diǎn)后保留 2 位數(shù)字, 總長(zhǎng)度最多為 8 位數(shù)字字符 an 字母和數(shù)字字符 an3 固定長(zhǎng)度的 3 位字母數(shù)字字符 an ..3 最多為 3 位字母數(shù)字字符
d8 日期型,按年、月、日順序全數(shù)字表示,格式為 8 位定長(zhǎng)、 全數(shù)字表示( YYYYMM )
D 年用 4 位數(shù)字表示,月、日各 用 2 位數(shù)字表示,彼此之間沒有分隔符,如 2002 年 12 月 25 日,應(yīng)表示為 20021225 t 時(shí)間型,按時(shí)、分、秒順序全數(shù)字表示,格式為 6 位定長(zhǎng)、 全數(shù)字表示( hhmmsS z 綜合性,可含有各種字符,且具有一定的格式。
52 標(biāo)準(zhǔn)字段目錄 5 ?2 ?1 ? 自然人屬性 521.1. 姓名 標(biāo)準(zhǔn)字段名 姓名 匹配字段名 人名 | 名字 | 企業(yè)法人 定義 在公安戶籍管理部門正式登記注冊(cè)、 人事檔案中正式記 載的中文姓氏名稱 默認(rèn)檢測(cè)規(guī)則 1 、 C..30 2 、 不應(yīng)存在空格和特殊字符 可選清洗規(guī)則 1 、 不處理(該字段為輔字段項(xiàng)時(shí)推薦)
2 、 刪除記錄(該字段為主字段項(xiàng)時(shí)推存)
5212 身份證號(hào)碼 標(biāo)準(zhǔn)字段名 身份證號(hào)碼 匹配字段名 公民身份號(hào)碼(男)
1 公民身份號(hào)碼(女)
1 身份證 定義 公民身份證的號(hào)碼 默認(rèn)標(biāo)準(zhǔn) 1 、 an15 2 、 an18 邏輯檢測(cè) 1 、 格式說明:
15 位身份證號(hào)碼組成:
ddddddyymmddxxs 共 15 位。其 中:dddddd 為 6 位的地方代碼,根據(jù)這 6 位可以獲得 該身份證號(hào)所在地; yy 為 2 位的年份代碼,是身份證持 有人的出身年份, mm為 2 位的月份代碼,是身份證持 有人的出身月份, dd 為 2 位的日期代碼,是身份證持 有人的出身日,這 6 位在 起組成了身份證持有人的出 生日期; xx 為 2 位的順序碼,這個(gè)是隨機(jī)數(shù); s 為 1 位 的性別代碼,奇數(shù)代表男性,偶數(shù)代表女性。
18 位身份證號(hào)碼組成:
ddddddyyyymmddxxsp 共 18 位。
年份代碼由原來的 2 位升級(jí)到 4 位,最后一位為校驗(yàn)位, 其它部分和 15 位號(hào)碼相同。
2 、 校驗(yàn)規(guī)則:
1 )十七位數(shù)字本體碼加權(quán)求和公式 :
S = Sum(Ai * Wi)
其中 i = 0, ... , 16, 先對(duì)前 17 位數(shù)字的
權(quán)求和, Ai 表示第 i 位置上的身份證號(hào)碼數(shù)子值, Wi 表示第 i 位置上的加權(quán)因子 ( Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ) 2) 計(jì)算模:
Y 二
mod(S, 11) 3) 通過模得到對(duì)應(yīng)的校驗(yàn)碼:
Y: 0 1 2 3 4 5 6 7 8 9 10 對(duì)應(yīng)校驗(yàn)碼 :1 0 X 9 8 7 6 5 4 3 2 也就是說,如果得到余數(shù)為 1 則最后的校驗(yàn)位 p 應(yīng)該為 對(duì)應(yīng)的 0• 5213 性別 標(biāo)準(zhǔn)字段名 性別 匹配字段名
定義 人的基本生理特征 默認(rèn)標(biāo)準(zhǔn) C..6 標(biāo)準(zhǔn)變換 0 對(duì)應(yīng)未知; 1 對(duì)應(yīng)男; 2 對(duì)應(yīng)女; 9 對(duì)應(yīng)未說明 值域 未知;男;女;未說明
5214 民族 標(biāo)準(zhǔn)字段名 民族 匹配字段名
定義 個(gè)人所屬的、經(jīng)國(guó)家認(rèn)可在公安戶籍管理部門登記注冊(cè)
的民族名稱。
默認(rèn)規(guī)則 C..10 標(biāo)準(zhǔn)變換 1 、 見民族代碼表中代碼與名稱的對(duì)應(yīng) 2 、 不含“族”字與含“族”字對(duì)應(yīng) 值域 見民族代碼表 民族代碼表
代碼 名稱 代碼 名稱 1 漢族 29 柯爾克孜族 2 家古族 30 土族 3 回族 31 達(dá)斡爾族 4 藏族 32 仫佬族 5 維吾爾族 33 羌族 6 苗族 34 布朗族 7 彝族 35 撒拉族 8 壯族 36 毛難族 9 布依族 37 仡佬族 10 朝鮮族 38 錫伯族 11 滿族 39 阿昌族 12 侗族 40 普米族 13 瑤族 41 塔吉克族 14 白族 42 怒族 15 土家族 43 烏孜別克族
16 哈尼族 44 俄羅斯族 17 哈薩克族 45 鄂溫克族 18 傣族 46 德昂族 19 黎族 47 保安族 20 傈僳族 48 裕固族 21 佤族 49 京族 22 畬族 50 塔塔爾族 23 高山族 51 獨(dú)龍族 24 拉祜族 52 鄂倫春族 25 水族 53 赫哲族 26 東鄉(xiāng)族 54 門巴族 27 納西族 55 珞巴族 28 景頗族 56 基諾族 99 其他民族
521.5. 血型 標(biāo)準(zhǔn)字段名 血型 匹配字段名
定義 人員的血型 默認(rèn)規(guī)則 an..2 標(biāo)準(zhǔn)變換 含“型”與不含“型”相對(duì)應(yīng) 值域 A ; B ; AB; O
5216 年齡 標(biāo)準(zhǔn)字段名 年齡 匹配字段名
定義 人員的年齡 默認(rèn)規(guī)則 n..3
5 ?2 ?2 ? 時(shí)間屬性 時(shí)間屬性包括日期型和時(shí)間型,日期型字段要求符合 GB/T 7408 中的日歷日期, YYYYM MDD 為基本格式, YYYY-M M-DD 為擴(kuò)展格式 522.1. 日期 標(biāo)準(zhǔn)字段名 日期 匹配字段名
定義 日期 默認(rèn)規(guī)則 d8, YYYYM MDD! 基本格式 標(biāo)準(zhǔn)變換 YYYY-M M-DD YYYY /MM/DD
5222 已發(fā)生日期 標(biāo)準(zhǔn)字段名 已發(fā)生日期 匹配字段名 出生日期 定義 當(dāng)前日期之前的日期 默認(rèn)規(guī)則 1 、 d8, YYYYMMD 為基本格式 2 、 不超過當(dāng)前日期
標(biāo)準(zhǔn)變換 YYYY-M M-DD YYYY /MM/DD
5 ?2 ?3• 位置屬性 5.2.4• 數(shù)值屬性 5.3. 字段約束標(biāo)準(zhǔn) 梳理數(shù)據(jù)并可自定義添加。
相關(guān)熱詞搜索:數(shù)據(jù)處理 解決方案 政府
熱點(diǎn)文章閱讀