統計如何有效利用大數據
數據的真實價值就像漂浮在海洋中冰山,第一眼隻能看到冰山一角,而絕大部分則隱藏在表麵之下。在大數據時代,數據的價值仍然存在,隻是處於“休眠”狀態,而要解鎖這些數據的價值,就必須通過統計人員的不懈努力並借助新一代的方法和工具,來釋放數據隱藏的價值。
大數據來襲勢不可擋
世界每時每刻都在產生數據,數據又開始以幾何級增長,這種增長速度已經不是“爆炸”二字可以形容的了。國際數據公司(IDC)的《數據宇宙》報告顯示:2008年全球數據量為0.5ZB,2010年為1.2ZB,人類正式進入ZB時代。更為驚人的是,2020年以前全球數據量仍將保持每年40%以上的高速增長,大約每兩年就翻一倍,預計2020年將突破35ZB。
任何事物量變到一定程度必然要發生質變。哈佛大學裏·金教授說:“大數據是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商業還是政府,所有領域都將開始這種進程。”今天,我們進入了信息社會,麵臨著大數據時代的來臨,雲計算、物聯網、移動終端及可穿戴設備高度發達與融合,不管你是誰、不管你願意不願意,都要與數據打交道,要麼在生產數據,要麼在接收數據。大數據能輕而易舉地解決常規統計調查無法涉及到的、各種複雜多變的行業和領域的統計,因為大數據不但量大,其涵蓋麵也十分廣泛,任何時候、地方、人或單位,隻要發生了互動行為就要留下“痕跡”,而如何在各種各樣的數據中進行深入的分析和挖掘,發現這些數據當中隱藏的更深刻的規律和現象,對這些信息進行加工整理獲得的大數據,必然能夠有效解決現行統計和國民經濟核算資料不全的問題,更好地服務於政府決策和社會各方麵的需求。
有效利用大數據資源
實現數據共享。除統計部門外的其他政府部門也積累了海量的數據和行政記錄,由於數據開放程度不足,大量的政府數據處於“休眠”狀態,而且政府和公共部門是最大的信息數據生產、收集、使用和發布的單位。但現實情況是,海量的數據分散在各個部門、各個層級,彼此分割,形成一個個“信息孤島”。城市中不同單位之間的數據流通往往是以紙質文件形式進行的,數據的存儲也是以電子文檔的形式和紙質文檔的形式進行,而且不同城市之間的數據交流並不是很方便,一般是孤立的,之間沒有共享的網絡平台,是一座座“數據孤島”。這就給大數據的實現帶來很大阻礙,尤其針對基層統計分析人員來說,給數據的全麵搜集帶來很大阻力,不得不停留在小數據分析時代。因此,要實現大數據在統計上的應用,必須打破信息之間“壁壘”,真正實現信息資源共享。隻有這樣,才能夠最大限度地滿足常規統計、尤其是國民經濟核算的數據需求。
製定統一的標準。首先統計是一門科學,是一項十分嚴謹的工作。因此,統計指標的含義、口徑、範圍、來源渠道、計算方法、計量單位等應該統一,隻有這樣才具有可比性。比如,在大數據背景下,如果能有效獲取大型超市、商場、電商曆史銷售明細,將為CPI調查的小類、基本分類權重分配提供更具說服力的參考依據。但是很多食品以千克為單位,而企業的銷售單位往往是袋、瓶或件。如果折算為千克,需要大量細致而繁瑣的工作,並且還需要根據企業變化而變化,進行動態調整。數據標準不統一,指標口徑雜亂,數據之間就難以整合和銜接,界定哪些信息屬於可在統計上應用的大數據,應將大數據的口徑、範圍調整為常規統計所需的口徑和範圍,對大數據的海量信息進行甄別、篩選,然後挖掘出統計核算所需要的、且常規統計所難以取得的資料。其次大數據和小數據在運用過程中的結合所需要的理論解釋和技術手段也都需要創新,這就需要依據模煳數學、統計學、計量經濟學等學科的理論基礎,構建和完善智能決策係統的理論基礎和理論體係。在這樣的理論基礎上,還要突破技術上的障礙,實現政府數據交流的網絡平台架構、網絡數據的安全和保密、數據分析和應用體係的軟件設計和完善。同時,傳統的個人信息保護製度,在大數據場景下變得越來越難以操作,為防止泄密,有必要製定一個關於大數據開發利用的製度,保障個體信息資料的安全。
培養大數據人才。與信息技術其他細分領域人才相比,大數據產業對人才的複合型能力要求更高,尤其是需要具備綜合掌控數學、統計學等方麵知識的複合型人才,同時更離不開大數據發掘、加工、整理和分析的人才。因此,必須培養和造就一支懂技術、懂管理、懂指揮的統計大數據建設專業團隊,為統計大數據管理人才提供保障。大力培養一批大數據應用、尤其是大數據分析方麵的人才,為大數據廣泛應用於政府統計奠定基礎。中國大數據應用起步相對較晚,教育和職業培訓尚不能很好地滿足行業發展需求,預計目前大數據人才缺口已經超過100萬人。而且隨著大數據在中國的不斷發展,各個地方都開始興建大數據中心,但對於大數據中心的建設,更多地還停留在“建機房、上設備、堆數據”的階段,忽視了大數據對數據的分析和應用。比如,社會信用、食品藥品安全等一些社會管理和公共服務係統更多形成的是結果和狀態數據,大量的過程和行為數據並未有效采集,占數據總量95%以上的非結構化數據被束之高閣。這些數據如能夠得到合理保存並加以開發利用,將有極大的價值。
(作者單位:國家統計局七台河調查隊)
本文轉自d1net(轉載)
最後更新:2017-07-19 14:32:32