數據挖掘——數據挖掘的起源
數據挖掘的定義還遠沒有達成一致,甚至沒有定義出數據挖掘的構成。
數據挖掘起源於多種學科,其中最重要的是統計學和機器學習。
統計學起源於數學其強調的是數學的精確性;
機器學習主要起源於計算機實踐其更傾向於實踐,主動檢測某個東西,來確定它的表現形式。
統計學方法與機器學習方法之間的主要區別之一是對數學性和形式化的重視程度不同,另外一個區別是模型和算法的相對重要性。
統計學強調的是模型,而機器學習強調的是算法。
數據挖掘中的基本建模法則起源於控製理論,控製理論主要應用於工程係統和工業過程。觀察未知係統的輸入輸出信息,以確定其數學模型的過程通常叫做係統識別
係統識別的目標從數據挖掘的角度來看最重要的是預測係統的行為,解釋係統變量之間的相互作用和關係
係統識別通常包括兩個自上而下的步驟:
1. 結構識別—— 這一步要要應用目標係統的先驗知識,來確定一類模型。再在這類模型中找出最適合的模型
2.參數識別——在第二步中,當模型的結構已知時,隻需要應用優化技術來測定參數向量,使得所得模型能恰如其分的描述目標係統。
特別注意:係統識別不是一次性的過程,結構和參數識別都要重複進行,直到找到滿意的模型為止。
如果事先對目標係統一無所知,結構識別就會很困難,而必須通過試錯法來選擇結構。
最後要區分“模型”與“模式"在數據挖掘中的概念
模型是一個大型結構或許總結了許多案例的關係;而模式是一個局部結構,隻有少數案例或者很小的數據空間區域具備該結構。
最後更新:2017-04-01 16:42:10