閱讀377 返回首頁    go 阿裏雲 go 技術社區[雲棲]


未來已來!阿裏小蜜AI技術揭秘




在全球人工智能領域不斷發展的今天,包括Google、Facebook、Microsoft、Amazon、Apple等互聯公司相繼推出了自己的智能私人助理和機器人平台,智能人機交互成為各大公司在人工智能戰場上激烈競爭的入口級領域。 智能人機交互通過擬人化的交互體驗逐步在智能客服、任務助理、智能家居、智能硬件、互動聊天等領域發揮巨大的作用和價值。

在2015年7月,我們阿裏也推出了自己的智能私人助理-阿裏小蜜,一個圍繞著電子商務領域中的服務、導購以及任務助理為核心的智能人機交互產品。通過電子商務領域與智能人機交互領域的結合,提升傳統電商領域的能效,帶來傳統服務行業模式的變化與體驗的提升。


傳統的服務行業是一個人力密集型的行業,就拿我們阿裏巴巴雙11狂歡節來說,無論是對於阿裏直接對外的服務(消費者服務和商家服務)還是淘寶商家的服務都麵臨著當天服務量的巨大井噴,人力擴容成為每年阿裏以及商家巨大的挑戰。傳統人力密集型服務模式(以自營客服、外包客服和雲客服為主的服務模式)亟待被顛覆和改變,圍繞著以阿裏小蜜產品為核心,通過智能人機交互與人工服務相結合的模式才是未來真正的服務模式。機器通過智能化技術處理掉絕大部分的簡單、重複等可識別處理的問題,對於解決不了的問題流向人工,讓人提供更有溫度也更加專業的服務。通過智能+人工相結合的模式探索,在今年的雙11期間,阿裏小蜜整體智能服務量達到643萬,其中智能解決率達到95%,智能服務在整個服務量(總服務量=智能服務量+在線人工服務量+電話服務量)占比也達到95%,成為了雙11期間服務的絕對主力。

image


在體驗維度,由於機器的運算速度遠超於人,因此智能人機交互可以帶來提升:智能交互相比人工可以達到急速的秒級體驗,而人的服務通常需要一定時間的回複等待。並且在互動領域,智能人機交互也帶來了一種新的模式和新的玩法,帶來更多價值。




阿裏小蜜是電子商務領域的智能私人助理,基於阿裏海量消費和商家數據,結合線上、線下的生活場景需求,以智能+人工的模式提供智能導購、服務、助理的擬人交互業務體驗。
1.在跨終端、多場景領域支持多輪交互、多模交互(文本、語音和圖像)和問題推薦預測;
2.支持多模型(文本模型、客戶模型、語音識別和圖像識別)識別客戶意圖;
3.支持多領域識別和路由分流;

阿裏小蜜整體體係圖如下:

image


通過1年多阿裏小蜜在阿裏業務體係內的不斷嚐試和摸索,今年在電子商務生態圈範圍內,在基於千牛的買賣家生態圈、基於釘釘的企業生態圈上,我們將阿裏小蜜進行平台化開放,同時賦能給我們商家和企業用戶。未來我們期望通過不斷的領域數據和技術模型的積累,能夠在阿裏其他生態圈(例如:阿裏雲)逐步進行開放,賦能更多電子商務生態圈領域。

阿裏小蜜平台結構圖如下:

image


阿裏小蜜在各個領域係統示例截圖:

image





智能人機交互係統,俗稱:chatbot係統或者bot係統,我們核心需要做的事情是理解人類的語言意思,進而給予合理的答案或者Action。
人機交互基本流程如下:

image


其核心部分就是NLU(自然語言理解),通過對話係統處理後最後通過自然語言生成的方式給出答案。一段語言如何理解對於計算機來說是非常有難度的,例如:“蘋果”這個詞就具備至少兩個含義,一個是水果屬性的“蘋果”,還有一個是知名互聯網公司屬性的“蘋果”。因此在阿裏小蜜這樣在電子商務領域的場景中,我們先采用分領域分層分場景的方式進行架構抽象,然後再根據不同的分層和分場景采用不同的機器學習方法進行技術設計。首先我們將對話係統從分成兩層:
1意圖識別層:識別語言的真實意圖,將意圖進行分類並進行意圖屬性抽取。意圖決定了後續的領域識別流程,因此意圖層是一個結合上下文數據模型與領域數據模型不斷對意圖進行明確和推理的過程;
2問答匹配層:對問題進行匹配識別及生成答案的過程。在阿裏小蜜的對話體係中我們按照業務場景進行了3種典型問題類型的劃分,並且依據3種類型會采用不同的匹配流程和方法:
1.問答型:例如“密碼忘記怎麼辦?”→ 采用基於知識圖譜構建+檢索模型匹配方式
2.任務型:例如“我想訂一張明天從杭州到北京的機票”→ 意圖決策+slots filling的匹配方式
3.語聊型:例如“我心情不好”→ 檢索模型與Deep Learning相結合的方式


通常在意圖識別領域我們將其抽象成為機器學習中的分類問題來解決,在阿裏小蜜的技術方案中除了傳統的文本特征之外,考慮到本身在對話領域中存在語義意圖不完整的情況,我們也加入了用實時、離線用戶本身的行為及用戶本身相關的特征,通過深度學習方案構建模型,對用戶意圖進行預測。如下圖:

image


在基於深度學習的分類預測模型上,我們有兩種具體的選型方案:一種是多分類模型,一種是二分類模型。多分類模型的優點是性能快,但是對於需要擴展分類領域是整個模型需要重新訓練;而二分類模型的優點就是擴展領域場景時原來的模型都可以複用,可以平台進行擴展,缺點也很明顯需要不斷的進行二分,整體的性能上不如多分類好,因此在具體的場景和數據量上可以做不同的選型。整體的基本技術思路就是將行為因子與文本特征分別進行Embedding處理,通過向量疊加之後再進行多分類或者二分類處理。這裏的文本特征維度可以選擇通過傳統的bag of words的方法,也可使用Deep Learning的方法進行向量化。具體如下圖:

image


目前主流的智能匹配技術分為如下4種方法:
1 基於模板匹配(Rule-Based)
2.基於檢索模型(Retrieval Model)
3.基於統計機器翻譯模型(SMT)
4.基於深度學習模型(Deep Learning)

在阿裏小蜜的技術場景下,我們采用了基於模板匹配,檢索模型以及深度學習模型為基礎的方法原型來進行分場景(問答型、任務型、語聊型)的會話係統構建。

問答型:基於知識圖譜構建+檢索模型匹配方式
特點:有領域知識的概念,且知識之間的關聯性高,並且對精準度要求比較高
基於問答型場景的特點,我們在技術選型上采用了知識圖譜構建+檢索模型相結合的方式來進行核心匹配模型的設計。

知識圖譜的構建我們會從兩個角度來進行抽象,一個是實體維度的挖掘,一個是短句維度進行挖掘,通過在淘寶平台上積累的大量屬於以及互聯網數據,通過主題模型的方式進行挖掘、標注與清洗,再通過預設定好的關係進行實體之間關係的定義最終形成知識圖譜。基本的挖掘框架流程如下:

image


挖掘構建的知識圖譜示例如下:

image


基於知識圖譜的匹配模式具備以下幾個優點:
1 在對話結構和流程的設計中支持實體間的上下文會話識別與推理
2.通常在一般型問答的準確率相對比較高(當然具備推理型場景的需要特殊的設計,會有些複雜)

同樣也有明顯的缺點:
1.模型構建初期可能會存在數據的鬆散和覆蓋率問題,導致匹配的覆蓋率缺失;
2.對於知識圖譜增量維護相比傳統的QA Pair對知識的維護上的成本會更大一些;

因此我們在阿裏小蜜的問答型設計中,還是融入了傳統的基於檢索模型的對話匹配。
其在線基本流程分為:
1.提問預處理:分詞、指代消解、糾錯等基本文本處理流程;
2.檢索召回:通過檢索的方式在候選數據中召回可能的匹配候選數據;
3.計算:通過Query結合上下文模型與候選數據進行計算,通過我們采用文本之間的距離計算方式(餘弦相似度、編輯距離)以及分類模型相結合的方式進行計算;
4.最終根據返回的候選集打分閾值進行最終的產品流程設計。

離線流程分為:
1.知識數據的索引化;
2.離線文本模型的構建:例如Term-Weight計算等。

檢索模型整體流程如下圖:

image


任務型:意圖決策+slots filling的匹配方式
特點:有領域知識的概念,每個任務負責獨立的業務流程,任務之間相對互斥性強,精準度要求高。基於任務型的特點,在技術選型上,我們采用了意圖決策+slot filling的方式進行會話匹配設計。首先按照任務領域進行本體知識的構建,例如機票的領域本體知識場景如下:

image


在問答匹配過程中結合上下文模型和領域數據模型不斷在Query中進行slot屬性的提取,並循環進行本體意圖樹的不斷填充和修改,直到必選意圖樹填充完整後進行輸出。如下圖:

image


語聊型:檢索模型與Deep Learning相結合的方式
特點:非麵向目標,語義意圖不明確,通常期待的是語義相關性和漸進性,對準確率要求相對較低。

麵向open domain的聊天機器人目前無論在學術界還是在工業界都是一大難題,通常在目前這個階段我們有兩種方式來做對話設計:一種是學術界非常火爆的Deep Learning生成模型方式,通過Encoder-Decoder模型通過LSTM的方式進行Sequence to Sequence生成,如下圖:

image


一種是Generation Model(生成模型):
1.優點:通過深層語義方式進行答案生成,答案不受語料庫規模限製;
2.缺點:模型的可解釋性不強,且難以保證一致性和合理性回答。

另外一種方式就是通過傳統的檢索模型的方式來構建語聊的問答匹配。
Retrieval Model(檢索模型):
1.優點:答案在預設的語料庫中,可控,匹配模型相對簡單,可解釋性強;
2.缺點:在一定程度上缺乏一些語義性,且有固定語料庫的局限性。

因此在阿裏小蜜的聊天引擎中,我們結合了兩者各自的優勢,將兩個模型進行了融合形成了阿裏小蜜聊天引擎的核心。先通過傳統的檢索模型檢索出候選集數據,然後通過Seq2Seq Model對候選集進行Rerank,重排序後超過製定的閾值就進行輸出,不到閾值就通過Seq2Seq Model進行答案生成,整體流程如下圖:

image




目前的人工智能領域任然處在弱人工智能階段,特別是從感知到認知領域需要提升的空間還非常大。智能人機交互在麵向目標的領域已經可以與實際工業場景緊密結合並產生巨大價值,隨著人工智能技術的不斷發展,未來智能人機交互領域的發展還將會有不斷的提升,對於未來技術的發展我們值得期待和展望:

1.數據的不斷積累,以及領域知識圖譜的不斷完善與構建將不斷助推智能人機交互的不斷提升;
2.麵向任務的垂直細分領域機器人的構建將是之後機器人不斷爆發的增長點,open domain的互動機器人在未來一段時間還需要不斷提升與摸索;
3.隨著分布式計算能力的不斷提升,深度學習在席卷了圖像、語音等領域後,在NLP(自然語言處理)領域將會繼續發展,在對話、QA領域的學術研究將會持續活躍;

在未來隨著學術界和工業界的不斷結合與積累,期待人工智能電影中的場景早日實現,人人都能擁有自己的智能“小蜜”。

原文鏈接

最後更新:2017-06-22 12:01:59

  上一篇:go  《vSphere性能設計:性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一導讀
  下一篇:go  大數據上雲那些事兒:(一)上雲工具的選擇