揭秘阿裏人工智能實驗室首款智能音箱——天貓精靈X1
7月5日下午,阿裏人工智能實驗室在北京正式發布了旗下首款智能設備——天貓精靈X1,據介紹,這款產品采用了阿裏人工智能實驗室自主研發的中文語義理解引擎,內置第一代中文人機交流係統AliGenie,並且依托阿裏雲的機器學習技術實現智能家居控製、語音購物、手機充值、音樂播放等功能。

以下是關於天貓精靈X1以及AliGenie的問答!
一、關於天貓精靈X1
Q:天貓精靈X1是什麼?
A:天貓精靈X1是阿裏人工智能實驗室推出的首款智能語音終端設備,內置第一代中文人機交流係統AliGenie。AliGenie生活在雲端,它能夠聽懂中文普通話語音指令,目前可實現智能家居控製、語音購物、手機充值、叫外賣、音頻音樂播放等功能,帶來嶄新的人機交互新體驗。依靠阿裏雲強大的機器學習技術和計算能力,AliGenie能夠不斷進化成長,了解使用者的喜好和習慣,成為人類貼心的智能助手。
Q:能介紹一下阿裏人工智能實驗室嗎?
阿裏人工智能實驗室(A.I. Labs)成立於2016年,負責阿裏巴巴集團旗下消費級AI產品的研發。A.I. Labs的使命是探索人機交互新大陸,帶領人們體驗探索未知世界的樂趣。
Q:阿裏為什麼要做天貓精靈X1?
A:語言是人與人之間最主要的溝通方式,也應該是人與另外一種智能進行交流的主要方式。我們認為隨著雲端一體化帶來的高度智能化,智能終端需要匹配比手機觸屏更強大的人機交互方式,AliGenie將肩負阿裏巴巴在智能人機交流係統領域探索的使命。我們將為開發者和硬件廠商提供一個開發者平台,包括了語音技術、服務入口以及硬件方案,並整合阿裏巴巴生態體係中豐富的互聯網服務和商業鏈接能力,共同為消費者提供全新的智能體驗。天貓精靈X1隻是這個生態體係中新生長出來的一顆大樹,我們希望未來能長出一片新的森林。
Q:為什麼起這個名字,X1有什麼意義嗎?
A:在數學中,“X”代表未知數和變量。天貓精靈X1作為中國消費級AI產品的開端,充滿著未知和變量。這也是阿裏人工智能實驗室推出的第一款產品,因此命名為X1。
Q:天貓精靈X1目前有哪些功能?
A:目前已經具備音樂音頻內容的播放、聽故事、講笑話、查運勢、玩遊戲、查天氣、找手機、問百科、設鬧鍾/定時器、查食物熱量、充話費、查快遞、查價格、天貓魔盒控製、天貓超市購物、智能家電操控等功能。隨著開發者的入駐,天貓精靈X1能夠實現的功能還將快速增加,具體可以查看天貓精靈官方網站,或下載天貓精靈APP。
Q:天貓精靈X1的聲音是怎麼來的?
A:我們接觸了100位專業聲優,最後選擇了我們最滿意的這位。加上語音合成技術,這就是最後大家聽到的回答,希望大家都能喜歡。另外,未來還會開放語音包接口。
Q:天貓精靈X1硬件配置如何?
A:天貓精靈X1采用了首顆專門為智能語音行業開發的芯片,在解碼,降噪,聲音處理,多聲道的協同等方麵做了專門的優化處理。針對AliGenie需要進行大量音頻處理、聲音合成的工作環境,定製芯片加入了獨立的NEON處理單元,NEON 技術可加速音頻和語音處理、電話和聲音合成等,從而帶來更優秀的語音識別及音頻處理效果。
在收音方案上我們采用了業界公認的優秀方案------六麥克風收音陣列技術。在頂部的六顆高靈敏麥克風有助於收集到來自不同方向的聲音,從而更容易在周圍的噪音中識別出有用的信息,來達到更好的遠場交互效果。
Q:在有噪音的環境中也能正常使用嗎?是如何做到的?
A:天貓精靈X1背後的團隊在降噪技術上做了大量研究,並專門針對家庭使用場景做了優化。天貓精靈不是在絕對安靜的環境下工作的,家庭中有各種各樣的噪音,開發人員在廚房,客廳,臥室,書房等環境裏麵,對玻璃,木材,混凝土,金屬,石材,等各種材質和環境進行了上千次實驗,其中對中國家庭環境大量使用的石材和木頭材質進行了針對性的測定,能夠適應在家庭環境噪音下進行喚醒。並且具備一定的學習功能,可以根據環境噪音進行學習和進化,適應不同家庭環境噪音,經過7天左右優化,會更加適應所在家庭環境。
此外,天貓精靈X1還使用了回聲對消和遠近場拾音等技術,即使在播放音樂的同時也能正常接收語音指令。
Q:什麼時候正式發售?
A:天貓精靈X1於7月5日開始限量公測,用戶和開發者可以在天貓精靈官網(bot.tmall.com)申請公測,8月8日將麵向天貓會員用戶進行首批正式發售。
Q:這個需要配套的手機APP嗎?
A:在初次使用時,用戶在手機上安裝天貓精靈app,用以綁定賬號。手機app可以實時顯示與硬件產品的連接狀態、命令接受反應情況、產品最新的功能上線提醒,以及主動推薦適合用戶使用習慣的內容。
天貓精靈APP 7月5號就會在各大應用商店上線,X1的用戶也可以通過“手機淘寶”------“我的設備”進入操作頁麵,可不必安裝單獨APP。
二、關於AliGenie和開發者平台
Q:AliGenie目前所涵蓋的功能包括?
A:目前有以下功能,隨著更多功能的開發和第三方開發者的加入,功能將不斷擴展
1. 音樂音頻:海量曲庫和內容庫
2. 家居控製:語音控製智能家電設備
3. 購物充值:聲紋實現購物全流程
4. 兒童教育:精選兒童音頻內容,寓教於樂
5. 技能市場:匯聚各種服務和內容,不斷擴展功能
Q:AliGenie未來還會進入哪些生活及商業場景?
A:目前已經或正在拓展的行業解決方案有1、兒童領域2、酒店領域3、家庭場景下4、TO B其他商業場景5、線下零售場景6、與其他顯示設備結合的場景
Q:AliGenie可接入的智能家電範圍包括?
A:目前支持100多個品牌,包括接入阿裏智能聯盟、塗鴉科技、broadlink等智能家居方案的產品,更多智能家電正在接入中。
Q:AliGenie開發者平台會開放哪些能力?
A:AliGenie開發者平台主要麵向四種類型的開發者,包括內容開發者、應用開發者、智能家居開發商和硬件生產商。開發者既可以創建技能,為更多的語音用戶提供服務,也可以將自己的設備接入雲端服務,獲取語音交互能力。
依托強大的底層技術、智能的算法引擎、完善的雲端服務和成熟的軟硬件標準係統,AliGenie會持續不斷地將全麵、易用的核心技術能力進行輸出,為開發者帶去更多可能。通過AliGenie開發者平台,開發者可以鏈接到阿裏生態體係中的數億消費者和海量的生活和商業場景。
Q:AliGenie開發者平台有哪些核心技術開放?
A:1、深度學習
我們研發了國際領先的深度學習技術來作為AliGenie的大腦,這些技術成果被發表在頂尖國際會議例如KDD和CVPR上。我們自主研發的深度學習能快速高效的從海量數據中進行學習,並能在廣泛的應用場景中使用。
2、自然語言處理
基於我們積累的海量的自然語言數據,和自主研發的國際領先的深度學習技術,我們實現了高效準確穩定的自然語言理解。
3、搜索/推薦算法
通過阿裏積累的用戶畫像,為用戶個性化地提供用戶所需要的信息和內容服務。
4、知識表示及推理問答係統
我們構建了一個海量的知識庫,實現對萬事萬物的結構化的描述,這個知識庫不僅幫助我們更好的理解語言,更重要的是可以通過推理回答各種知識類問題。
上述能力我們將免費開放給開發者和硬件廠商,無需從頭搭建AI語音係統,節省在研發上的巨量投入,使開發者能夠更好的為用戶提供服務。
Q:如何成為AliGenie平台上的開發者?
A:通過我們的開發者平台,即可申請成為開發者,隻需要簡單認證,就可以使用我們的深度學習訓練平台。
1、通過官網進行注冊,填寫資料申請邀請碼
2、一周內發放邀請碼,開放相關工具和平台
3、可以利用平台進行相關的開發和應用,然後提交測試評審,通過後可以在應用商店上線
Q:硬件廠商如何將AliGenie集成到自己的產品中?
A:我們會推出全套的硬件參考設計方案,給予合作夥伴足夠的支持。
1、廠商通過官網申請合作文檔和技術參考文檔。
2、我們將對申請進行評估,並與合作夥伴討論準備相關硬件的設計方案、接入方案及商業策略。
3、雙方進行聯合開發和測試,整個過程約1.5個月左右完成。
Q:什麼樣的智能硬件可以與AliGenie連接?硬件廠商如何加入?
A:目前阿裏智能聯盟的上千萬智能家居設備已經能夠與天貓精靈X1進行連接。
硬件設備廠商可以通過兩種方式接入AliGenie:
1.通過SDK接入
提供常用平台(如嵌入式Linux、Android)的SDK給到設備廠商,SDK中包含了如長連接通訊、設備用戶綁定、音頻播控、狀態管理等功能模塊,封裝其中的實現細節,開發者可以方便的進行接入。
2.通過協議接入
提供基於Websocket的一套標準化協議,由廠商自行進行對接,直接調用AliGenie的各項能力。
Q:開發者如何分成?
A:開發者可以獲得全部收益,平台在推廣期間不參與分成。我們還會推出相關的阿裏AI創新開發者計劃。
三、關於技術
Q:這個產品是阿裏自己研發的嗎?有哪些核心技術?
A:天貓精靈X1和AliGenie均由阿裏巴巴的科學家和工程師團隊研發,應用了阿裏巴巴積累多年的語音識別、自然語言處理、人機交互等技術。其中,阿裏人工智能實驗室正在對聲紋識別、聲紋購、NLP中文對話引擎等核心技術申請專利。不久前,我們的NLP技術團隊還在國際權威技術論壇KDD 2017 上發表了一篇論文。
Q:阿裏巴巴在人工智能語音領域有何獨到的技術優勢?
A:在美國國家標準署2016年舉辦的全球說話人識別競賽(NIST SRE2016),阿裏巴巴以OpenSesame(芝麻開門)為隊名,采用了基於深度學習網絡的特征提取,借助距離測度學習來提高數據的泛法能力,開創性提出利用對稱性支持向量機器來提高係統性能,在近兩百多支參賽隊伍中,阿裏最後的係統性能在大中華區聲紋識別性能排第一,美國賽區第二。同時我們遞交了4個相關的專利,這一係統曾受邀在聲紋識別頂級(NIST SRE2016 workshop)作公開演講。
在語音頂級國際會議Interspeech2017, 我們的兩篇論文也被接受:《The Opensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NIST Speaker Recognition Evaluation 2016》。
這一聲紋識別技術也被運用到了X1上,它會根據聲音條件識別出不同的使用者,以此保證使用的安全性和私密性。而在記住了每個人之後,X1還能夠實現“千人千麵”,能夠根據每個人的喜歡進行內容設定和推薦。
基於聲紋識別技術,我們還推出了聲紋購功能,是第一個商用的聲紋購物係統,可以通過聲紋完成支付,當你發起購物、充值等行為時,隻需要說出聲紋密碼,聲音識別係統將對身份進行校檢,確認是本人後才會完成交易,否則將拒絕請求。
Q:產品是否支持多輪對話?
A:支持。阿裏巴巴人工智能實驗室在自然語言理解的基礎上,加入了“決策引擎”機製,能夠理解語音的上下文語境,並判斷當前應該響應的是哪一個模塊,進行決策。這一套先進的人機交互和自然語言處理係統也在國際頂級學術論壇KDD 2017上發表了重要的論文,並正在申請技術專利。
Q: X1的語義理解是用的自己的技術嗎?做的怎麼樣?
A:中文語音交互的難點在於中文的語義理解。阿裏人工智能實驗室研發的中文語義理解引擎針對常用的定時,提醒,天氣,娛樂內容,家居控製,助手,以及購物等領域進行了特別優化,僅天氣預報就能夠理解786種中文問法。
通過深度機器學習,天貓精靈X1已兼容20個領域的自然語義理解。
此外也更多考慮到中文語言對話過程中的各種實際案例,對北方語言的兒化音,幹淨利素的問法,小朋友經常疊字疊詞,南方人某些與普通話混淆的中文表達方法進行了深度處理。針對中國人語言發音的特色,對吞字,咬字,缺字,北京話習慣,河南話習慣進行了特別優化,進行補償和修正。
這套語義理解係統還帶有記憶功能和強大總結歸納能力,還加入了模擬的“長期記憶”和“短期記憶”功能,能夠針對不同的場景和時間度,讓語義理解係統更加貼近用戶。除此之外,阿裏人工智能實驗室還已經著手其他多個語種的研究。
最後更新:2017-07-05 16:32:14