數據挖掘之數據準備——時間相關數據
實際的數據挖掘應用範圍包括時間強相關,時間弱相關和時間無關問題。現實中的時間相關問題需要特殊的數據準備和數據轉換。
首先討論最簡單的情況——在一定的時間間隔測量的單個特征,這個特征的一係列值實在固定的時間間隔測量的。
例如 溫度讀數每小時測一次
X={t(1), t(2),t(3),..., t(n)}
其中 t(n) 是最近測定的值。
許多時間序列問題的目標是根據特征的以前值預測t(n+1)的值。以前的值和預測的值直接相關。在預處理原始的時間相關數據時,最
重要的一步是指定一個窗口或時延(時間間隔)。
最佳時延必須用通常的評估技術來測定,這種技術利用獨立的檢驗數據進行可變複雜度的測量。
數據準備不是隻進行一次,就交給數據挖掘程序進行預測,而是要反複進行多次。一般的目標是預測時間序列的下一個值。但在一些應用
中,可以把目標改為預測未來的幾個時間單元的值。
時間單元可以相當小,在時間序列的表格中,這會增加相同周期內的人工特征數量。這給高緯帶來的問題是在時間序列數據的標準表達中,
要為精度付出一定的代價。
實際上,特征的多數舊值都是一些曆史殘留數據,它們與分析不再相關,也不能用於分析。因此。對於許多商業應用和社會應用來講,新
趨勢可能會使舊數據更加不可靠,更不能使用。於是,就近數據成為重中之重,可以去除時間序列中的最老數據。現在不但時間序列的窗
口是固定的,而且數據集的大小也是固定的。隻有最近的n個樣本可用於分析,即使這樣,它們的加權也可能不一樣。做這些決策時必須
非常小心,它們有時依賴應用的知識和過去的經驗。
除時間序列的標準表格表述外,有時在應用數據挖掘技術之前,必須對原始數據進行額外的預處理,總結他們特征。多數情況下,把t(n+1)-t(n)
作為預測結果比t(n+1)更好。同樣t(n+1)/t(n)比率揭示了變化率。有時用這個比值也能得到更好的預測結果。這些預測結果值特別適用於基於邏
輯的數據挖掘方法,比如決策樹和決策規則。
時間相關的案例通過目標和時延或者大小為m的窗口來指定。匯總數據集的特征時,
一種方法是取平均值,公式如下
i
MA(i,m) = 1/m t(j)
j=i+m+1
MA對所有時間點的加權都是相等的。
另一種方法是指數移動平均數(EMA),它對最近的時間周期進行更大的加權。可采用遞歸方式將其表述為:、
EMA(i,m) = p*t(i) + (1-p)*EMA(i-1,m-1)
EMA(i,1) = t(i)
其中p是介於0~1之間的值。按照慣例,p的值是根據應用知識或者經驗實證來確定的。
MA對近期進行了概括,而找出數據走向的變化又提高了預測性能。
總之,時間序列的特征概括起來,主要成分如下:
1)當前值
2) 應用MA平整得到的值
3)導出走向 ,差值和比率
單變量的時間序列可以簡單的延伸為多變量,多變量的時間序列不是在時刻i 測量的單個t(i)值,而是同時測量多個值t[a(i),b(j)].
多變量時間序列的數據準備沒有額外的步驟。每個序列可轉換成特征,特征在每個不同時刻的值 A(i)組合成一個樣本i。合成變換生
成數據的標準表格形式。
一些數據集並未明確包含時間成分。但是整個分析在時間域內進行。這類數據集中有一種非常重要的數據,叫做幸存數據。幸存數據
描述了某個時間需要多長時間才會發生。在很多醫學應用中,該事件指的是病人的死亡。
幸存數據有兩個主要的特證: 第一個特征就做審查,第二個特征是輸入值與時間相關。。數據挖掘對這類問題的分析集中再幸存率函數
和故障率函數上。幸存率函數是幸存時間比t大的概率,故障率函數揭示了在t時刻之前機器零件故障沒有出現故障,在t時刻故障發生的可能性。
最後更新:2017-04-12 13:00:21