794
技術社區[雲棲]
語音技術正在改變計算行業
英國科幻小說家 Arthur C. Clarke 曾經說過,任何足夠高級的技術都近乎魔術。迅速崛起的語音計算技術證明了他的觀點。使用該技術如同下咒語一樣:隻需要對著空氣說幾句話,附近的設備就可以滿足願望。
亞馬遜Echo是一台語音圓柱形計算機,我們可以將它放在桌麵上,唿叫“Alexa”就可以喚醒,它可以播放音樂,講笑話,回答旅行問題,控製智能家電;就在聖誕之前,4%的美國家庭已經擁有Echo。
在智能手機市場,語音助手迅速發展。每周蘋果Siri處理200億個命令,在美國來自Android手機的Google語音搜索已經占了20%的份額。用語音發郵件、寫信息已經相當可靠。既然能夠說,為什麼還要輸入文字呢?
這是一次巨大的轉變。語音有能力改變計算產業,它可以用更自然的方式互動。Windows、圖標、菜單、觸摸屏,與複雜的鍵盤相比它們無疑都是非常直觀的交互方式。
如果可以與計算機對話,就可以完全廢棄“用戶界麵”。手機不再隻是沒有線的電話,汽車不再隻是沒有馬的車廂,同樣的,沒有屏幕和鍵盤的計算機可以變得更實用,更強大,更流行。
語音不會完全取代其它輸入輸出方式,有時,輸入比說話更加方便。但在我們使用技術的過程中,語音的地位會越來越高。要完全發揮語音技術的潛力,還有一些障礙需要突破。
Alexa,什麼是深度學習?
計算機口述係統已經存在多年了,不過係統並不可靠,需要進行長時間訓練才能理解某個人的聲音。近年來,計算機不需要訓練就可以識別任何人的語音,這些突破全都歸功於“深度學習”,它是一種人工智能技術,利用深度學習技術,軟件可以用無數案例學習,這些案例一般來自網絡。
有了深度學習,在識別筆跡時計算機像人一樣精準,計算機翻譯係統正在快速進步,“文本-語音”係統不再那麼生硬,發出的聲音更加自然。總之,不論從哪方麵來看,計算機處理自然語言的能力越來越強。
有了深度學習,機器識別語音的能力提高,說話的方式不再那麼呆板,盡管如此,它仍然無法理解語言的意義。理解意義是最大的難題,如果語音計算想要流行起來,這一障礙必須克服。
計算機隻有理解環境,才能圍繞某一主題進行連貫的對話,現在的係統隻能對簡單的一次性命令做出回應。
大學、大企業和小企業的研究人員正在努力解決這一問題,它們開發可以完成精致對話、可以處理複雜任務的機器人,這些機器人可以檢索信息,為抵押貸款提供建議,還可以安排旅行計劃。
什麼時候魔法才能替代拚寫?
語音計算如何進化,消費者與監管機構也起到了重要的決定作用。雖然語音技術仍然處在原始階段,但是它已經帶來一些問題:當係統麵向個人時非常實用,它可以獲得大量數據,比如日曆、郵件、其它敏感信息。於是乎,隱私與安全問題接踵而來。
許多語音設備一直在監聽,隨時準備激活,問題因此變得更複雜。聯網麥克風裝進了每一個房間和每一台智能手機,這種現狀已經引起一些人擔憂。並非所有語音都被送到了雲端,當設備聽到觸發短語時(比如“Alexa”、 “OK,Google”、 “Hey Cortana”、 “Hey,Siri”)才會將用戶的語音傳輸到服務器,然後開始處理問題。如果設備開始存儲語音,我們根本不知道誰持有數據,存儲了哪些數據,何時存儲的。
警察曾經調查Arkansas(阿肯色州)凶殺案,案發經過可能被亞馬遜Echo監聽,警察要求亞馬遜開放語音數據,方便查看。亞馬遜拒絕了,它不知這樣做是否合法。
2016年也曾出現過相似的事情,當時蘋果拒絕幫助 FBI 破解槍殺案凶手的 iPhone。這兩件事告訴我們:應該建立規則,讓大家知道何時接入個人隱私數據、獲得什麼數據是合理的。
即使這些問題沒有解決,消費者還是會接受語音計算技術。在許多環境中,語音方便得多,自然得多。當我們在做其它事時,語音最能發揮作用。因為各種原因,有時用戶無法使用屏幕或者鍵盤,此時語音計算可以拓寬用途。
事實上,語音技術不隻對計算造成影響,還影響了語言本身。對於大多人來說,要想說一門不懂的外語比登天還難,計算機模擬翻譯工具可以解決問題。如果機器可以說話,小語種就可以存活下來。在人類與計算機互動的曆史長河中,觸摸屏是最近出現的一次變革,如果能向語音轉移,變革的力度會更大。
本文轉自d1net(轉載)
最後更新:2017-07-20 23:04:06