閱讀241 返回首頁    go windows


《TensorFlow技術解析與實戰》——第1章 人工智能概述 1.6機器學習的相關賽事

本節書摘來自異步社區《TensorFlow技術解析與實戰》一書中的第1章,第1.6節,作者李嘉璿,更多章節內容可以訪問雲棲社區“異步社區”公眾號查看

第1章 人工智能概述

1.6 機器學習的相關賽事

說到機器學習,不得不提到每年的一些挑戰賽。近年來取得好成績的隊伍,常常時使用深度學習的方法的。正是這些賽事激勵著全世界科學家不斷采用更優化的方法提高算法結果的準確率,也引領著年度的深度學習探索方向。

1.6.1 ImageNet的ILSVRC
ILSVRC(ImageNet Large Scale Visual Recognition Challenge,大規模視覺識別挑戰賽)是用來大規模評估對象檢測和圖像識別的算法的挑戰賽。從2010年開始,至2016年已舉辦7屆。ImageNet是目前世界上最大的圖像識別數據庫,擁有超過1500萬張有標記的高分辨率圖像的數據集,這些圖像分屬於大概22 000個類別。ILSVRC使用ImageNet的一個子集,分為1 000種類別,每種類別中都有大約1 000張圖像。總之,大約有120萬張訓練圖像,5萬張驗證圖像和15萬張測試圖像。[13]圖1-14所示為ImageNet的官方網站。

1

圖1-14

ILSVRC每年邀請穀歌、微軟、百度等IT企業使用ImageNet,測試他們圖片分類係統運行情況。過去幾年中,該係統的圖像識別功能大大提高,出錯率僅為約5%(比人眼還低,人眼的識別錯誤率大概在5.1%[14])。在2015年,ILSVRC的錯誤率已經降低到了3.57%[15],采用152層的ResNet獲得了2015年分類任務的第一名。ILSVRC曆年的Top-5錯誤率如圖1-15所示。

在ImageNet上,習慣性地報告兩個錯誤率:Top-1和Top-5。Top-1錯誤率是指,預測輸出的概率最高的類別,是否和人工標記的類別一致,如果不一致,此時的概率。Top-5錯誤率是指,預測輸出的概率最高的前5個類別當中,有沒有和人工標記的類別一致,當5個都不一致時的概率。例如在圖片分類任務下,對一張圖片進行預測,輸出這張圖片分類概率最高的5個類別,隻要有一個預測的類別和人工標注的類別標記一致,就是認為正確。當5個都不一致發生的概率就是Top-5錯誤率。

2

圖1-15

值得自豪的是,在剛剛過去的ILSVRC 2016上,中國學術界和工業界科研團隊包攬了多項冠軍[16]。

CUImage(商湯科技聯合港中文):目標檢測第一。
Trimps-Soushen(公安部三所):目標定位第一。
CUvideo(商湯科技聯合港中文):視頻中物體檢測子項目第一。
NUIST(南京信息工程大學):視頻中的物體探測兩個子項目第一。
Hikvvision(海康威視):場景分類第一。
SenseCUSceneParsing(商湯科技聯合港中文):場景分析第一。
1.6.2 Kaggle
如果說ILSVRC企業參加的居多,那Kaggle這個平台則更多地麵向個人開發者。圖 1-16展示的是Kaggle的官方網站首頁。

Kaggle成立於2010年,是一個進行數據發掘、數據分析和預測競賽的在線平台。與Kaggle合作之後,一家公司可以提供一些數據,進而提出一個問題,Kaggle網站上的計算機科學家和數學家(也就是現在的數據科學家)將領取任務,提供潛在的解決方案。最終勝出的解決方案可以獲得3萬美元到25萬美元的獎勵。也就是說,Kaggle也是一個眾包理念,利用全世界的人才來解決一個大問題。

3

圖1-16

Kaggle這個比賽非常適合學生參加,因為一般在校學生可能拿不到很多數據。此外,Kaggle不僅對參賽者有算法能力上的要求,而且能鍛煉參賽者對數據的“嗅覺”,使參賽者從數據本身問題出發來尋求解決方案。

1.6.3 天池大數據競賽
“天池”是阿裏搭建的一個大數據競賽平台,圖1-17展示的是它的官方網站頁麵。

4

圖1-17

這個平台上一般會有一些穿衣搭配挑戰、新浪微博互動預測、用戶重複購買行為預測等賽事。平台提供的“賽題攻略”對新手入門有很大的引領作用。如果在一些項目上取得不錯的成績,還有豐厚的獎金,以及進入阿裏巴巴的工作機會。

最後更新:2017-05-24 10:31:20

  上一篇:go  獨家 | 企業互聯網架構優化升級之路
  下一篇:go  《TensorFlow技術解析與實戰》——第1章 人工智能概述 1.5為什麼要學TensorFlow