閱讀99 返回首頁    go 阿裏雲 go 技術社區[雲棲]


數據挖掘之數據準備——原始數據的轉換

1c077186788295cc72a44e199d946ce31b51820f

接下來介紹的幾個數據轉換常見類型與問題無關,並可能改善數據挖掘的結果。在特定應用中選擇和使用技術,取決於數據的類型,數據量和數據挖掘任務的一般特征。


1. 標準化

 一些數據挖掘方法,一般是那些基於n維空間中的點間距離計算的方法,可能需要對數據進行標準化,以獲得最佳結果。測量值可按比例對應到一個特定的範圍。如【-1,1】或者【0,1】。如果沒有標準化,距離測量值將會超出數值較大的特征。數據的標準化有許多方法,這裏列舉3個簡單有效的標準化技術。


    1) 小數縮放,小數縮放移動小數點,但仍然保留大多數原始數值。常見的縮放是使值在-1 到 1的範圍。小數縮放可以表示為等式:

            v'(i) = v(i)/(10的k次冪) 

          在這個等式中,v(i)是特征v對樣本i的值,v(i)' 是縮放後的值,k是保證|v'(i)| 的最大值小於1的最小比例。

         首先,在數據集中找對|v'(i)|的最大值,然後移動小數點,直到得出一個絕對值小於1的縮放新值。這個因子可用於所有的其他的v(i)


    2)最小-最大標準化。假設特征v的數據在150~250的範圍之間,則前述的標準化方法使所有標準化後的數據取值在0.15~0.25之間。但是這會讓值堆積在這個取值範圍的一個小的子區間中。要使值在整個的標準化區間如【0,1】上獲得較好的分布,可以用最小-最大公式:

            v'(i) = (v(i) - min[v(i)])/(max[v(i)] - min[v(i)])

       其中特征v的最小值和最大值是通過一個集合自動計算的,或者是通過特定領域的專家估算出來的。這種轉換也可應用於標準化區間【-1,1】。最大值和最小值的自動計算需要對整個數據集進行另一次搜索,但是計算過程很簡單。另一方麵,最小值和最大值的專家估算可能導致標準化值的無意集中。


    3)標準差標準化,按標準差進行的標準化對距離測量值非常有效,但是把初始數據的轉化成了未被認可的形式。對於特征v,平均值mean(v) 和 標準差sd(v)是針對整個數據集進行計算的。那麼對於樣本i,用下述等式來轉換特征的值:

         v(i) = (v[i] - mean[v])/sd(v)


 標準化對幾種數據挖掘方法來說很有用,,但是標準化並不是一次性或一個階段的事件。如果一種方法需要標準化數據,就要為所選的數據挖掘技術對可用的數據進行轉換和準備,還必須對數據挖掘的所有其他階段,所有的新數據和未來數據進行同樣的數據標準化。因此,必須把標準化的參數和方法一起保存。



 2、數據平整

  數值型的特征y可能包括許多不同的值,有時跟訓練案例數一樣多。對許多數據挖掘技術來說,這些值之間的微小區別並不重要,但可能會降低挖掘方法的性能,影響最終結果。這些值可以看作同一潛在值的隨機變差。因此,有時候對變量值進行平整處理。


 很多簡單的平整方法可以計算類似測量值的平均值。


3. 差值 和 比率

差值和比率可以改進對目標的描述,尤其是在將它們應用於輸出特征時。

有時候,這些轉換得到的效果要好於預測一個數的簡單初始目標描述。對於很多數據挖掘方法來講,選項數量較少,可以提高算法效率。


比率是第二種簡單的目標或者輸出特征轉換方法,用s(t+1)/s(t)作為數據挖掘過程的輸出代替絕對值s(t+1),意味著特征鎮的增減量也能提高整個數據挖掘過程的性能。


差值和比率轉換不僅對輸出特征有用,對輸入特征也同樣有用。它們可作為一個特征的時間變化或用作不同輸入特征的合成。


不存在普遍使用的數據轉換方法。最終注意的是最終表現。



    



最後更新:2017-04-07 21:05:52

  上一篇:go 付錢拉
  下一篇:go 深圳首家“網上醫院”掛牌 這一模式成未來互聯網醫療趨勢?