閱讀746 返回首頁    go 技術社區[雲棲]


數據挖掘——數據挖掘過程

3cd99bf2b2f847e0e48efa50e404f90b4977916f

數據挖掘:數據挖掘是從已知數據集合中發現各種模型,概要和導出值的過程


數據挖掘是一個迭代的過程:首先研究數據,利用某個分析工具來檢查數據,然後從另一個角度來考慮這些數據,根據需要修改數據,接著從頭開始,應用另外一個數據分析工具得到更好的或者不同的結果。


這個過程可能循環許多次。


適合數據挖掘的一般實驗性程序包括一下步驟:



  1.陳述問題,闡明假設 

    在這一步中,建模人員通常會為未知的相關性製定一組變量,如有可能,還會指定此相關性的一個大體形式作為初始假設。在這個階段,可能會給一個問題提出幾個假設。這一步要求將應用領域的專門技術和數據挖掘模型相結合。


  2.收集數據

   這一步考慮數據是怎樣產生和收集的。通常有兩種截然不同的可能性。第一種是數據產生過程中在專家(建模者)的控製下:這稱為“有計劃的實驗”。第二種情況是專家不能影響數據產生過程:這稱為“觀察法”。在大多數數據挖掘應用中都采用了觀察法,即數據是隨機產生的。

   

  理解數據搜集如何影響其理論分布是相當重要的,而且還要確保用於評估模型的數據與後麵用於檢驗和應用於模型的數據都來自同一個位置的取樣分布


  3.預處理數據

   在觀察法中,數據常常采集於已有的數據庫,數據倉庫和數據集市。數據預處理通知至少包含兩個常見的任務:

   1. 異常點的監測(和去除) 對異常點有兩種處理方法:a. 檢測並最終去除異常點,作為預處理階段的一部分。b. 開發不受異常點影響的健壯性建模方法。

   2. 比例縮放,編碼和選擇特征

 

 備注:考慮數據預處理步驟時,不應完全獨立於數據挖掘的其他階段。在數據挖掘過程麼次迭代中,所有活動都能為後麵的迭代定義改進的新數據集。通常,以專有於某個應用的比例縮放和編碼形式來合並先驗知識,優秀的預處理方法能為數據挖掘技術提供最佳的陳述。

  

  4.模型評估

  選擇並實現合適的數據挖掘技術是這一階段的主要任務。


  5.解析模型,得出結論

   大多數情況下,數據挖掘模型應該有助於決策。因此,這種模型必須是可解釋的才能有用。現代的數據挖掘方法寄望於使用高緯度的模型來獲得高精度的結果



最後更新:2017-04-01 17:04:39

  上一篇:go java.util.concurrent包學習
  下一篇:go Android開發技術周報 Issue#11