403
機器人
科大訊飛譚昶:人工智能和大數據建設美好世界
2017年10月27日,易觀A10大數據應用峰會在北京召開,本次峰會以“數以致用 源力覺醒”為主題。大會邀請到國內互聯網行業領袖大咖,以及來互聯網、傳統企業、媒體及資本領域在內的3000多位與會者,共同喚醒“數字源力”,讓用戶數據價值得到充分釋放和利用。
在27日下午的舉行用戶場景平行論壇上,科大訊飛大數據研究院副院長譚昶做了題為《訊飛大數據實踐》的演講。在譚昶看來,人工智能和大數據的終極目的,是讓人們的生活變得更簡單輕鬆,這也是訊飛大力發展該領域的主要目的。以下為其演講實錄:
大家好,先花一點時間介紹一下科大訊飛是一家什麼樣的公司,大家可能都已經比較熟悉。我們是國內在A股上市公司的人工智能領域的標杆企業,我們現在的市值達到700個億,我們自己認為是人工智能的先行者。訊飛自己的公司的使命是什麼?我們定義成這樣一句話:“讓機器能聽會說,能理解會思考,用人工智能來建設美好世界!”分成了三個部分,第一句話是我們訊飛成立的初心,做智能語音,做中國最好的智能語音,機器說,機器聽,這樣就能同人和人的方式相比較。
到了後來,我們發現智能語音技術實際上是人工智能的一個非常重要的組成部分,人工智能在人機交互這個層麵上最重要的在幹什麼,要有認知能力,要能理解、能思考,這樣的話人工智能才能真正地應用到我們的生產生活實踐裏邊去。
之後我們要做什麼?人工智能還應該幫助人的最終目的是建設一個更加美好的世界,讓每個人的工作生活變得更加輕鬆愉快。
大家會問一個問題,人工智能公司跟大數據到底什麼關係?我希望用這頁PPT把這個問題非常簡單的回答,我們訊飛自己做的工作,訊飛輸入法有語音識別能力,隻要對它說比較標準的普通話一分鍾400個字,怎麼實現的呢?
深度神經網絡作為機器學習的重要組成部分,它需要海量的數據據訓練,這個訓練過程裏麵我們一般來說十萬小時左右的有標準語音數據一定要輸入進去,經過我們的人工智能專家、大數據專家的工作,得到了非常良好的語音識別模型,這個模型要放在實驗室睡覺嗎?或者參加一些比賽,一定不是,我們放到訊飛開放平台裏麵,我們開放平台裏麵還有其他很多產品,機器人、音箱、電視搖控器這樣的產品,每個人說的話都要經過這樣的開放平台,經過用人工智能的技術把它轉變成文字,而且這個識別率、處理能力識別率達到97%,這個過程的兩個階段,第一個人工智能的自學習過程裏麵離不開大數據,這個叫做大數據能夠讓人工智能更加的智能。還有一句話,原來的語音數據沒有人工智能的時候沒辦法,數億人海量的數據怎麼去聽,人工智能讓非結構化的數據能夠被處理,價值就產生了,大數據可以讓人工智能更加的智能。
展開一點講,大數據和人工智能的關係,深度神經網絡和大數據之間形成了緊密結合才能成為我們讓算法、模型取得一個良好效果的主流路徑,還離不開更多的數據,我們有時候叫做數據閉環,在訊飛內部叫做漣漪效應,一滴水打入一個平靜的水平,技術在擴散,水的波浪在不斷的擴散,你要不斷的收集數據改進你的技術,如果你的技術改進速度比擴散速度慢,最新進來的用戶就會感覺到速度很慢。我們叫做研究、工程、產生、用戶閉環迭代優化的過程。
人工智能成功了,大數據能不能成功,大數據為什麼要有價值?如果大數據放在那裏站著,我們怎麼樣把這個數據價值挖掘出來,我做數據科學家,建大數據平台,為結構化的數據如果想更好的處理分析的話,最好要有人工智能手段做一些比較複雜的挖掘或者說分析的過程,轉變為容易處理的數據。這個過程三個階段,采集數據,分析數據,深度的洞察使用數據,三個過程裏麵有三個訊飛小產品來介紹一下,人工智能技術已經深入到我們去進行數據價值挖掘的各個領域及各個階段。
比如,我們現在有訊飛聽見產品,所定即所見,所有的語音別轉化為文字,被方便的處理。這是采集過程。在分析過程裏麵,剛才看到了趙總,我們能夠把學生的過程數據,比如人臉,老師講課全部轉換為標準化結構化的數據,訊飛同樣也有,我們也可以通過學生學習過程數據的分析進行個性化學習。還有一個層次洞察,最常用的洞察我到底能不能通過我的數據獲得商業價值,獲得廣告上的商業價值,我們有自己的廣告平台,也是人工智能開放服務過程裏麵收集到的用戶行為數據。
有了這樣的一個分析和認知之後,人工智能和大數據的緊密結合的,訊飛如果想讓數據產生更大的價值,讓我們自己公司取得的更大的商業上成功,必須把大數據和人工智能融合貫穿,怎樣一步一步的實現呢?對於大數據能力的簡單理解:首先你有沒有大數據資源;其次,對於大數據的資源有沒有足夠好的分析處理能力,也就是我們的工具,你要挖金礦就要有錘子和鋤頭,大數據平台就是這樣的工具。
在工具和數據之上我們首先要服務自己的業務。現在的思路我要把這個東西做深加工,先服務的業務,在消費者領域、APP怎麼樣服務更多更好的服務別的用戶,我在教育領域怎麼樣讓學生學習更輕鬆,這些過程都是業務本身的改進。再向上才是像廣告、征信這樣的大數據業務的能力,基於已有的數據創造一個以前不能做的業務,最典型的就是廣告。
我們複盤一下訊飛有沒有這個能力?大數據資源我們有人工開放平台,截止2017年9月我們已經覆蓋了15.9億的終端設備,每天形成40億次的使用次數,包括45萬的第三方團隊,比如京東上麵的客服機器人聊天,也是我們的語音識別自然語音處理的能力提供的,這都是大數據相關的。小的比較有趣的是,我們看到一個一個快遞員最重要的事情打電話,你的快遞到什麼地方了過來拿,這個過程裏麵我們發現開發者做了非常小的產品,對著手機說出號碼自動撥號,我現在兩個手拿兩個設備,沒有辦法拿第三個設備或者撥號,我的嘴可以說。這樣很小的產品已經極大地方便了很多人的工作和生活。
在一個開放平台之外,我們還在非常多的領域做深耕,比如汽車領域,汽車語音套件95%的市場份額,智能家具產品已經有3000多個合作夥伴。工具不展開介紹了,這樣一個平台我們每天處理15000個任務,100TB的數據,演奏出美妙的數據音樂,這個平台要完成收集、存儲、計算,不僅對外部,還是對公司各個業務部門提供數據服務能力,更加簡便的方法,讓所有的用戶去使用公司的大數據。
在平台數據之外我們要有人,我們也邀請了非常多的數據科學家作了產學研的合作,有了數據、平台、人,下麵訊飛就一定是一帆風順的?所有的大數據就迎刃而解?我們幹不了這個事情。上午的時候很多嘉賓提到了我們做大數據也要深耕行業,一定要依靠行業裏麵的深耕紮根下去,才能取得差異化的優勢、取得真正的勝利,把這些東西加起來以後最終的目的是獲得商業價值,商業價值的體現有很多種,挖掘出來知識,產生新的產品,所有我們會進行一些企業內部的流程機製改造升級,都是產生價值的過程。
訊飛在哪些方麵產生具體的價值?簡單講三個案例,看起來也非常簡單,第一個精準營銷,這個事太普通了,訊飛已經把自己的數據用好了,把數據變成了廣告上的精準投放,變成了推薦過程裏麵的精準推薦,讓大家享受到比較優質的服務。另外兩個層麵是訊飛比較獨特的對於數據的深耕和探索,怎麼樣把大數據的能力、人工智能能力賦能到教育領域、智慧城市的政務服務以及交通領域。
第一個叫做訊飛廣告平台,這個廣告平台不做更細的展開,SSP、ADX、DMP,訊飛的大數據的價值已經孵化出來了,訊飛自己的大數據每天40億次的交互,每天100個TB的交量,這些數據的價值被費用覆蓋掉了,我們可以去做更多的事情,大數據業務回過頭來反饋業務大數據的發展。我們兩千多個標簽覆蓋15億終端設備,獨立用戶識別出來10億左右。
這個領域訊飛也做了一些自己的技術能做的事情,一個是對於自然語言的理解,語音第一步處理出來就是自然語言,自然語言對它進行深刻理解才叫人工智能,理解的過程可能有簡單一點的,比如同樣兩個人談汽車,關鍵做出來兩個人有什麼區別,一個人可能有車,有車談怎麼養車,出了事故怎麼樣。另外一個人還沒車,就說這個車什麼顏色,什麼配置,這個車價錢怎麼樣,有沒有促銷。微車做汽車金融服務的時候,我現在要做有車的人賣保險,做沒車的人推銷二手車,這兩人區分非常有意義,廣告投放更加精準。
更直接的人工智能相關的技術,我們做一些生活語音方麵的分析之後,男性和女性的差異非常精準的趣聞出來,大家使用用戶行為手段,比如上網香水,男人給女人買,看一些軍事、曆史方麵的書籍,也不是那麼準確,都沒有你對著手機說一句話我就能知道,男女都能知道,有價值的信息就被人工智能挖掘出來了。挖掘出來之後怎麼辦?我們給自己的產品也試了一下,發現這種精準營銷的東西非常有威力,比如我們推出了訊飛翻譯機,我們打廣告的時候第一反應大家出國旅遊基本要買翻譯機,一打廣告效果不理想。
我們做深度的分析,第一個留學人群代表什麼?並不是中國人到外國學習,而是老外到中國來,他們會先買翻譯機,我不會說中文,我會說英語就行,拿翻譯機一說能跟中國人順暢交流。其次是翻譯人群,有些人要做翻譯工作的時候拿翻譯機減少很多工作量,出國旅遊人很多,並不是所有的出國旅遊人都會去買翻譯機,坐飛機的時候才會去買翻譯機。這是旅遊的,再往下外語培訓的人群,小朋友們不僅僅依靠真人老師學習,該可以依靠機器的老師來學習。這個過程裏麵有非常好的效果,從我們的10億用戶裏麵篩出來一千萬人群,投放效果4.61%,比一般手段1%的的投放效果要好。我們給京東、2345做效果投放基本上都能收到非常好的效果回升,訊飛很多標簽是別的公司做不出來的,拿不出來,因為他們沒有。
在教育方麵,剛才大家已經聽了很多的科普,我就不展開了,最簡單的,無論什麼樣的教育方式,最終的目的通過數據分析學生學的怎麼樣,老師教的怎麼樣,家長、教學主管部門,學校對於老師和學生的過程非常的感興趣,有一些問題,我們在線的MOOC教育非常簡單,但是在中國廣大學校、每個教室裏頭大家學習的手段,老師的教案是紙的,作業還是紙的,這些數據能不能利用起來?怎麼解決?
並不是大數據就能解決這個問題,先用人工智能解決數據采集的問題,我們用手寫識別,第二步是老師改試卷,一場月考一千人的考試,可能整個年級組要花四五個小時,這樣的工作能不能變成機器的工作,以後老師的時間被解放出來了,可以更高的備課,可以用人工智能手段,不僅可以把試卷掃描出來,把文字轉化成機器可以理解的自然語言,而且可以對自然語言做深度的分析,對語文、英語、數學,無論是作文還是公式都可以直接告訴你做錯了還是做對了,作文好不好,有沒有排比句,有沒有比喻,甚至有沒有抄襲,這是機器的特性。效果不展開講了,無論在今年高考裏麵,還是研究生裏麵我們都做了相應的驗證,教育部考試中心非常認可,認為人、老師、和機器結合起來,這種產生的效果可能遠遠優於人和人之間的合作。
我們這個產品叫做全學科閱卷,隻要這個字老師能認機器也能認。有了這樣數據,下一步分析學生學的怎麼樣,一場試卷下來知識點拿出來,掌握程度和班級平均、學校平均、全國平均水平,基於差異找出薄弱點,找出需要做什麼練習,學什麼樣的微課程,做完練習之後機器可以再做一次過程化學習的迭代更新,這樣的良性循環建立起來之後,學生每做一道題下一道題都不一樣,針對每個知識點的程度做出了非常精細的判斷,每道題都是你可以學會的,成績可能得到可以的提升。作文批改時間從原來40個小時變成幾分鍾,使用頻率從月到周。未來所有的學校在使用個性化的產品大家一問可能都是訊飛的。
人工智能助力城市大數據應用。教育跟我們每個人的未來、子女的未來息息相關的,城市服務跟我們現在息息相關,我們都想享受更好的服務,比如大家遇到的困難丟了身份證去辦的時候排隊,提交的時候等30天以後再來拿新的身份證,辦護照、港澳通行證,都遇到很多問題,現在國家也提了,這樣的事情不能讓人在那裏跑腿。比如分析一個城市裏麵到底有多少數據,45個部門715類數據,一個城市裏麵典型為網上事項1948項,現在一號一窗一網,當場辦理,原來十天現在變成一天了,所有的數據就被電子化,這個工作裏麵訊飛做的非常多的示範性工作,包括我們做的幾個城市,在現在周圍城市裏麵典型案例大家都看得到,安徽、杭州、貴陽等30多個地市都使用了“互聯網+服務”的產品,這個產品到底幹什麼?
比如“人臉+識別”怎麼用,比如老人半身份證隻能去窗口辦,比如領退休金,有時候老年身體不好去世了,被冒領了,國家有一個笨方法,社會保險長期待遇人員資格認證,今年認證通過的今年退休金可以照常領,很多城市這種情況,我們並不是都北京上海工作,加上可能在遙遠的安徽,老年人每年跑一次,本來沒病跑一次就生病了,現在把自己手機拿出來裝上政府的互聯網服務APP,打開攝像頭,打開麥克風,讓老年人對著說幾句話,這是金融支付,避免了很多奔波的問題,身份認證一旦推廣開來的話,最多跑一次,訊飛講一次都不用跑,手機拿出來想辦什麼事就辦什麼事。我們逛淘寶難道有哪一次需要去阿裏巴巴總部買東西嗎?政府為什麼還需要上門去排隊,一次都不需要。我們在杭州開一個農家樂辦證需要跑10天,現在做了一個政務服務平台,在線提交相應的資料申請材料,最後EMS可以把證照送到家門口,一個窗口受理,一站式完成服務。杭州政府給我們提了一次機會,讓我們設計一下怎麼樣做到一次不跑,數字杭州頂層設計方案,到2020可以享受真正足不出戶的服務了。
除了這些之外,我們也在城市裏麵做其他的工作,比如公交車路線優化,比如這個地方應該蓋商場還是學校,這些工作裏有一個非常關鍵的點,你不能隻用政府的數據,你要考慮到城市裏麵產生的所有數據,比如車、人、手機的數據,這些數據使用起來之後,你可以對整個城市的運轉狀況做一個非常詳細的洞察和理解,未來的物聯網更發達的時候,我們會找到更多手段,這些數據利用起來之後,讓我們的城市規劃管理更加的智慧化、便利化,整個大家在城市裏麵的生活也會更加的幸福,更加的美好。
無論是在哪個領域,深度學習,培訓方法,以及海量大數據資源,理念我們做了很多基礎性的數據,廣告、個性化學習、數據共享打通都不能根本目的,這些數據在各行各業產生真正的價值。比如我們在法院的一些工作,比如我們在公安、客服的工作,我們都是要用人工智能、大數據核心技術,讓大家的變得更加的便捷方便,無論是老師,政府,公務員的,他們的工作都應該變得更加的輕鬆,同時每個人的生活都變得更加的幸福,學生、居民都可以變得更加幸福,這樣的工作才是用人工智能、大數據最終需要創造價值據解決的問題,一句話作為一個總結,訊飛是一家用人工智能改變世界的公司,我們的團隊是希望能夠用數據去創造價值的團隊,讓訊飛成為一家創造更多和更好的社會型公司。
想體驗數據驅動用戶精細化運營?
任何關於易觀方舟的問題
長按下方二維碼即可谘詢
最後更新:2017-11-02 20:21:54