閱讀864 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【iPhone X重磅發布】攜A11人工智能芯片登場,人臉識別9大特征


image


蘋果13日淩晨發布了本年度最重量級的產品——iPhone X (iPhone 10)。這款用人臉識別進行解鎖的新iPhone 可能是蘋果AI屬性最強的一個產品了。在發布會現場,蘋果介紹了A11生物神經網絡引擎”這一AI芯片,近期,以智能手機為主的終端設備定製芯片已經形成一種新的趨勢,我們將在文章中進行重點介紹。另外,本文也會介紹蘋果在人工智能上的實力儲備情況:主要從四篇經典論文談起。

北京時間9月13日淩晨,蘋果在新的總部召開發布會,發布新的智能手表、電視和手機等一係列新產品。這是最受科技界關注的發布會之一。


image


今年的蘋果新品發布會首次在蘋果新總部的史蒂夫•喬布斯劇院舉行,蘋果CEO蒂姆•庫克在發布會的介紹中,重申了喬布斯精神。本次發布會最受關注的便是蘋果的新手機,傳說中的iPhone8,令人驚喜的是,蘋果本次發布會帶來了最最重量級的智能手機——iPhone X (蘋果10)。增加了人臉識別解鎖Face ID的這款新手機,應該是迄今為止這家最受關注的智能手機生產商推出的最AI的一部手機了。

首先,這是一部全屏幕的、沒有Home鍵的iPhone,支持無線充電。


image


iPhone X 最值得關注的一點便是通過人臉識別進行解鎖,這在蘋果發布會之前就已經傳得沸沸揚揚的功能終於得到了確認。

蘋果人臉識別解鎖9大特征


image


根據蘋果在發布會現場的介紹,蘋果的人臉識別解鎖Face ID包含了9大特點:

  • 人臉驗證 (Face authentication)
  • TrueDepth 攝像頭
  • 驗證簡便
  • 專門的神經網絡
  • 自然和安全
  • 用戶隱私
  • 注意力察覺
  • 自適應性
  • Apple Pay和其他應用的綁定

根據官網的介紹,Face ID 功能通過原深感攝像頭來實現,設置起來也非常簡單。它會投射超過 30,000 個肉眼不可見的光點,並對它們進行分析,為你的臉部繪製精確細致的深度圖。

詳細來看,在安全上,蘋果自稱,他們人臉識別的錯誤率是百萬分之一。另外,數據的處理都是在設備上進行的,解鎖是會通過識別用戶的注意力來進行判斷。


image


具體可以再看一下另一大特點:TrueDepth 攝像頭


image


技術核心:蘋果 A11 和 A11 Bionic 芯片

據介紹,iPhone X 將采用定製的芯片來處理人工智能工作負載。這是一個雙核的“A11生物神經網絡引擎”(A11 bionic neural engine)芯片,每秒運算次數最高可達6000億次。

該芯片賦能的最重要的事情就是使 Face ID 身份認證功能能夠快速識別人臉,從而解鎖 iPhone X 或進行購物。


image
image
image
image


這個消息並不出乎意外。早在今年5月,彭博就曾經報道,蘋果公司正在為iPhone開發AI芯片,但不清楚該芯片是否已經準備好可以用在今年最新的iPhone產品上。

而且,芯片走向定製化,以滿足AI軟件的需求,在行業中已經變成一股新的大趨勢。 Alphabet的穀歌已經設計了兩代芯片來處理數據中心的AI計算工作負載。 微軟也為未來版本的HoloLens混合現實頭盔開發了一款AI芯片。

在iPhone上安裝新的專用芯片意味著主芯片的工作量將會減少,從而提高電池壽命。 否則,例如,通過手機攝像頭進行物體識別同時進行視頻錄製時,可能會迅速地將電池消耗完。

此外,在不久的將來, iPhone以外的更多移動設備都可能包含針對AI的處理器。


image
image
image


Burke 在今年的穀歌 I/O 會議上曾說:“隨著時間推移,我們預計會看到專門為神經網絡的推理和訓練設計的DSP(digital signal processors,數字信號處理器)的出現。”

雖然今天的消息肯定會占滿新聞頭條,但蘋果其實以前就已將AI用途的芯片置於iPhone中。iPhone 7就包含有一個FPGA,這是英特爾和微軟為加速AI任務進行探索的。據福布斯報道,在iPhone7之前蘋果沒有在iPhone中使用過FPGA。

蘋果對於芯片開發並不陌生。蘋果已經在它的 iOS 設備上對其A係列處理器給予重視,並且在智能手機上專門使用了某些計算類型的組件。

本次發布會上對此前蘋果一直重視和宣傳的 Siri 著墨甚少,並且在最新的iPhone上,還特別強調,沒有了Home鍵以後,可以通過手機側麵的按鈕喚醒Siri。此前,Siri的一個宣傳點難道不是直接語音喚醒,不需觸碰控製嗎?


image

最後看一眼價格:999美元,起。

蘋果第一篇公開的人工智能論文:關於人臉識別,CVPR 2017最佳論文

蘋果在7月20日推出名為 Apple Machine Learning Journal 的新研究博客,對蘋果來說,做一個專門介紹他們的人工智能研究論文的博客還是挺新鮮的,因為蘋果通常不會公開談論他們的研究項目。

該博客發表的第一篇文章是關於如何將合成的圖像變得更逼真,以用於訓練神經網絡。這也是蘋果於去年年底在arXiv發布的第一篇AI論文“Learning from Simulated and Unsupervised Images through Adversarial Training”的介紹,這篇論文在 CVPR 2017 獲得 best paper。

根據這篇文章,蘋果要訓練神經網絡來檢測照片上的人臉和其他物體。但蘋果的方法不是製造擁有數百萬計圖像樣本的巨大的數據集來訓練神經網絡,而是創建由計算機生成的人物的合成圖像,並應用一個過濾器使這些合成圖像更逼真。這比一般的方法訓練神經網絡的成本更低,而且速度更快。

在機器學習研究中,使用計算機生成的圖像(例如電子遊戲中的)訓練神經網絡比使用現實世界的圖像更高效。因為生成的圖像數據都是有標簽和注釋的,而真實圖片的數據需要耗費人力標注計算機所看的東西,告訴它這是一棵樹,一隻狗,一輛自行車等等。但是生成圖片的方法也有問題,因為這讓算法所學到的東西並不總是能無縫轉移到真實場景。生成圖片的數據“常常不那麼真實,導致神經網絡隻學習生成圖片的細節,卻無法在真實圖片上很好地遷移。”蘋果的論文如是說。

論文中用於舉例的“未標注的真實圖像”、“合成的圖像”、“精細化的圖像”等都是人的眼睛圖片,或許,iPhone X 的 Face ID 新功能正是有利用這一方法,以及更多蘋果沒有公開的研究成果?

image


模型使用未標注的真實數據,利用模擬器改善合成的圖像的真實性,同時保留注釋信息。

地址:https://arxiv.org/abs/1612.07828

更聰明的Siri

蘋果機器學習博客接著在8月連著發表3篇來自 Siri 團隊的技術文章,分別是:

通過跨帶寬和跨語言初始化改進神經網絡聲學模型(Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization)

反文本歸一化作為標簽問題(Inverse Text Normalization as a Labeling Problem)

Siri聲音的深度學習:為混合單元選擇合成的設備上深度混合密度模型(Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis)

三篇文章題目看起來都非常高深,介紹了 Siri 背後的技術進步。其中第一篇文章討論利用聲學模型數據的遷移學習技術,以顯著提升新的語言版本Siri的精確度,讓Siri支持更多語言;第二篇介紹Siri如何利用機器學習格式化地顯示日期、時間、地點等。第三篇則更綜合地介紹Siri聲音的進化,探討如何利用深度學習讓Siri更會說話。

具體來說,Siri在2014年中推出一個新的語音識別引擎,使用深度神經網絡(DNN)。先是用於美國英語,到2015年中擴展到13種語言。為了順利擴展到其他語言,蘋果研究人員需要使用有限的轉錄數據(transcribed data)來解決構建高質量的聲學模型的問題。他們提出使用帶限(band-limit)相對更多、更易於收集的寬帶音頻來解決較少量的窄帶藍牙音頻問題。他們在遷移學習框架之上使用了神經網絡初始化。


image
圖:在窄帶藍牙測試上的詞錯率


0
圖:跨語言初始化

另一值得一提的是Siri的文本轉語音(TTS)係統:


image

從 iOS 9 到 iOS 11,Siri的聲音對比

原文發布時間為:2017-09-13
作者:劉小芹 胡祥傑
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接

最後更新:2017-09-14 17:02:53

  上一篇:go  ESG裏程碑:發布第100份實驗室報告
  下一篇:go  9月14日雲棲精選夜讀:揭秘IPHONE X刷臉認證的技術奧秘