閱讀664 返回首頁    go 機器人


當特征工程自動化,人工智能才真的“智能”

人類希望通過人工智能,可以從機械且繁瑣的工作中解放出來,然而現實是,想要挖掘海量數據,實現判斷、預測等能力,很大程度上還需要依靠人的經驗去完成”特征工程“的工作。特征工程是一項龐大且耗時的工程,其中涉及到了模型選擇、數據處理、泛化等多方麵的機器學習知識,以及需要對業務有一定的理解,目前該領域人才的匱乏很難與大數據的快速發展相匹配。

簡單來說,特征是數據抽取出來的對結果預測有幫助的信息;特征工程是為了使特征在機器學習算法和模型上發揮更優效果的過程,該過程往往需要數據科學家人工地找出最佳的特征組合,但在效果及效率上有一定的局限性。人工智能技術與服務提供商第四範式一直致力於打破這個瓶頸。近期,第四範式發布了其自主研發的FeatureGO算法,該算法實現了機器自動組合特征的功能,有效解決了人為添加組合特征門檻高、耗時長等問題。

做好特征組合,絕非易事

特征組合是一種加強特征描述能力,提升模型預測效果的方法。以個性化內容推薦為例,例如該模型有兩個特征,一個特征是新聞類型,另一個特征是用戶ID。現在隻用新聞類型和用戶ID做特征,那麼模型隻會學到對於不同新聞類型和不同用戶ID對當前預測點擊率的影響。而通過加入一個組合特征:新聞類型x用戶ID,就能讓模型學習到該用戶對不同新聞的偏好,從而使模型的個性化預測能力得到提高。

然而,想要在數據中獲得對模型有效的組合特征並非易事。在建模過程中,業務人員首先要對特征的含義有深入的了解,其次需要依靠個人經驗,從成百上千個特征中進行特征組合,通過不斷地嚐試,找出有效的組合,達到優化模型效果的目標。但現實是,特征組合的工作猶如“大海撈針”一般,組合後的特征數量呈指數級增長,對技術人員來說耗時耗力,若將所有的組合全部丟給模型,現有的優化算法和計算能力都不能很好的支持,且並不是所有的組合都帶來效果的提升,有的甚至會不升反降。

自動特征工程,最新的破局利器

如何自動發現有效特征、自動特征組合,彌補人工經驗不足?目前,機器學習業界在研究自動特征工程問題時,主要分為隱式特征組合、半顯式特征組合、顯式特征組合三個方向。

隱式特征組合主要特點是對連續特征非常友好,最成功的應用場景是語音和圖像。在這些原始信號是像素或是聲波的問題中,深度學習通過神經網絡層次化的特征表示及組合,獲得了遠超人類手工特征工程的效果。但是深度神經網絡不擅於處理高維離散特征,同時缺乏可解釋性,這樣會導致其相對難用於其他算法之上,也很難給人明確的信息反饋。

半顯式特征組合主要基於樹模型,由於葉子節點的每一個分支並不是一種顯式、直接的特征組合,而是在特定取值區間的組合。故半顯式的特征組合,有一定可解釋性,但仍無法直接體現特征相關性或者特征之間組合關係。作為非線性模型,樹模型易於理解,效果好。但對離散的精細特征很難處理。

顯式特征組合會明確指定哪些特征作為基礎特征,沿著啟發式搜索的思路,以正則化加貪心的方式進行。雖然該方向問題求解空間大,尋找最優特征組合較難,但其優勢在於可解釋性強,知道哪些特征間應該組合;同時該方法產生的特征可以用於其他機器學習的算法,成為它們訓練的基礎。

第四範式自主研發的FeatureGo算法便沿著顯式特征組合的思路,實現了機器自動特征組合的功能。此外,FeatureGo也增加了模型的可解釋性,提升易用性,進一步降低了機器學習的應用門檻。此前,第四範式非機器學習專業的運營人員,就利用封裝了FeatureGo算法的第四範式先知平台,在一場大神聚集的Kaggle 比賽中跑出了前15的成績。

第四範式一直在積極降低機器學習的使用門檻,讓更多非專業建模人員能夠使用機器學習,建立適合各個業務的高維模型。隨著FeatureGo等頂尖機器學習算法的加入,第四範式先知平台將進一步推動人工智能在各個行業的應用普及。

最後更新:2017-10-08 05:31:35

  上一篇:go 雙創周“人工智能機器人創新論壇”,機器人
  下一篇:go 人工智能會否顛覆金融行業及對投資的影響