統計數據專題庫的研究論文

來源:瑞文範文網 2.12W

統計部門應用系統繁多,數據來源廣。

統計數據專題庫的研究論文

專題庫建設的步驟和方法

專題庫建設時,首先需要明確該專題的數據範圍,專題數據可來源於統計年鑑、專題彙報等文件以及聯網直報系統等應用,緊密圍繞專題的業務本質進行設定,如能源專題庫則應該包括能源建設、能源生產、能源消費等內容。

根據對統計領域已有系統和基礎數據的分析,建立專題庫的數據模型。其元數據主要包括13類,其中9類爲業務元數據。

專題庫中最直接的爲數據,通過對9類業務元數據的分析可得知指標與數據關聯最爲緊密,其他元數據均可通過指標與數據進行關聯,通過分析和設計,可變爲如圖3所示的數據模型。

通過分析每個元數據本身的屬性,根據模型可得出每一數據應包括60多個屬性,考慮數據存儲及專題庫的價值,逐一評估後給出需冗餘的屬性,如下:id、值、報送單位_id、期別_id、指標_id、目錄條目_id、入庫時間戳、報送單位全稱、期別_起、期別_訖、指標全稱、目錄_id、目錄條目名稱、分組1條目_id 、分組2條目_id 、分組3條目_id 、分組4條目_id 、分組5條目_id 、分組6條目_id 、分組7條目_id、地域1級_id 、地域2級_id 、地域3級_id、計量單位_id、數據釋意全文。

其中,5個必須字段爲值、報送單位_id、期別_id、指標_id、目錄條目_id;2個管理字段爲id、入庫時間戳,以及18個冗餘存儲字段。

數據是專題庫的基礎,所有的數據處理和分析都是建立在及時、準確、全面的數據之上,專題數據的來源主要包括以下幾個方面:

(1)通過聯網直報系統由企業、地方統計部門等按照制度報送週期的要求進行數據的報送;

(2)通過各專業司建立的信息上報系統,由相關的企業(如房地產企業等)進行定期的數據報送;

(3)通過電子郵件、紙質文件等由各部委辦局或地方統計局等將相關的數據進行彙總報送;

專題庫的建設將支撐不同的數據來源、不同類型數據的匯聚,並以統一的數據集合加以利用。

當數據處理和存儲時需考慮數據的處理,包括輸入格式轉換、數據篩選、數據單位的轉化、數據的校驗、數據存儲等。

(1) 輸入格式轉換。不同的數據來源可能有不同的數據格式,系統將自動解析來源數據的格式,並轉換爲系統的統一數據格式。

(2) 數據篩選。由於專題庫的數據有着多種數據來源,可能存在不同來源間的數據衝突,系統將建立數據衝突的處理機制,對數據進行篩選,確定數據採集途徑的標準,確保數據的唯一性。

(3) 數據單位的轉化。在統計數據中,經常會碰到以不同數量級的單位作統計的數據,如萬噸和噸。針對這種情況,系統將自動把不同數量級的單位轉換成標準單位存儲入庫。

熱門標籤