閱讀380 返回首頁    go 阿裏雲 go 技術社區[雲棲]


數據挖掘——數據歸約之大型數據集的維度

前言
雖然大型數據集可能得到更佳的挖掘結果,但未必能獲得比小型數據集更好的挖掘結果
對於多維數據,一個主要的問題是在所有維度中搜尋所有挖掘方案之前,是否可以確定某方法在已歸約數據集的挖掘和發現中國發揮得淋漓盡致。

一、大型數據集的維度
數據的描述以及特征的挑選,歸約或轉換可能是決定挖掘方案質量的最終更要問題。
預處理集的3個主要維度通常表示為平麵文件即列,行和特征的值
因此數據歸約的3個基本操作就是刪除列,刪除行和減少列中值的數量。這些操作的目的是試圖刪掉不必要的數據來保留原始數據的特征

在準備數據挖掘時候,要執行標準的數據歸約操作,需要了解通過這些活動可以得到什麼或者失去什麼? 則需要全麵比較需要分析下麵的參數:
1) 計算時間—— 數據歸約後的比較簡單數據,是否可以減少數據挖掘所消耗的時間
2) 預測/描述精度
3) 數據挖掘模型的描述—— 簡單的模型描述通常來自數據歸約,這往往意味著模型能得到更好的理解。所導出的模型和其他結果的這種簡易性依賴於對模型的描述。
理想情況下,使用維度歸約既能減少時間又能提高精度,簡化模型的描述。

數據歸約推薦的特性描述如下:
可測性—— 應用已歸約的數據集合可精確的確定近似結果的質量
可識別性——在應用數據挖掘程序之前,在數據歸約算法運行期間,很容易確定近似結果的質量
單一性——算法往往是迭代的,計算結果的質量是時間和輸入數據質量的一個非遞減的函數
一致性——計算結果的質量與計算時間及輸入數據質量有關
收益遞減——方案在計算的早期能獲得很大的改進,但是隨著時間遞減
可中斷性——算法可以隨時停止,並給出答案
優先權——算法可以暫停並以最小的開銷重新開始

最後更新:2017-08-13 22:34:15

  上一篇:go  web前端-移動端HTML5微商城項目實戰分享案例
  下一篇:go  H5和NA(WebView)的交互