數據挖掘之數據準備——原始數據的特性
最初為數據挖掘準備的所有原始數據集通常很大,它們中的許多都和人有關,且比較雜亂。
初始數據集應包含丟失值,失真,誤記錄和不正當樣本等。要得到高質量的數據,必須在分析者看到它們之前,先整理和預處理數據,使其就像設計合理,準備充分的數據倉庫中的數據一樣。
雜亂數據的來源和含義。數據雜亂的原因如下:
1、數據丟失的原因包括測量或者記錄出錯,有時候都無法獲得數據值。在數據建模處理此問題時,必須能根據已有的數據甚至丟失的數據來建模。
2、數據的誤記錄,這在大數據集中非常常見。我們必須有能發現這些“異常”值的機製,某些情況下,甚至要用這些機製消除“異常”值對最終結果的影響
3、數據可能並不來自假定的樣本母體。這裏異常點就是典型的例子,分析人員要對它們進行仔細的分析,才能決定是將它們作為異常,從數據挖掘中剔除,還是將它們保留為所研究的樣本母體的不尋常樣本。
對於現代的大型數據集來說,必須依賴計算機程序來自動檢查數據。
失真數據,方法上錯誤的步驟選擇,濫用數據挖掘工具,模型過於理想化,未考慮數據中各種不確定性和模煳性的模型-所有這些都可能在數據挖掘過程中導致方向錯誤。因此,數據挖掘不隻是簡單地對已知問題應用一係列工具,而是一個批判性的鑒定,考查,檢驗和評估過程。數據在本質上應該是定義明確的,一致的和非易失性的。數據量要足夠大,以支持數據分析,查詢,匯報以及與長期曆史數據進行比較。
數據挖掘過程中一個最關鍵的步驟是初始數據集的準備和轉換。
原始數據並不總是能進行數據挖掘的最佳數據集,要對其進行許多轉換,才能產生對所選的數據挖掘方法更有用的特征。
用不同的方式計算,采用不同的樣本大小,選擇重要的比率,針對時間相關數據改變數據窗口的大小,包活移動平均數的變化——所有這些都可能有助於獲得更好的數據挖掘結果。
在數據挖掘應用的現實世界中,形勢恰恰相反。數據準備比應用數據挖掘方法更加的耗時耗力。
數據準備階段有兩個中心任務:
1、把數據組織成一種標準形式,以便於數據挖掘工具和其他基於計算機的工具處理
2、準備數據集,使其能得到最佳的數據挖掘效果。
最後更新:2017-04-07 21:23:50