395
機器人
人工智能為什麼看起來像人工智障?
因為人話真的
好難理解啊!
差評君最近注意到,雷布斯又在搞事情了。。。
他們搞了個什麼 “ 小愛同學 ”
其實呢,就是為了賣音響!
這是個人工智能產品,類似於個人助理一樣
不得不說雷布斯挺愛自黑的
這類產品其實現在已經有很多了。。。
和 Google 的 Google Assistant 差不多
亞馬遜的 Alexa
微軟的 Cortana (中文名是小娜)
還有最後,大家整天喜歡調戲的小姐姐 Siri
上麵提到的小姐姐們都是人工智能的衍生產物,語音助理。
她們的完成任務的主要過程是:
把人的發音轉化成文字理解意思(拆分,抓取關鍵信息)處理信息做出反饋(完成你布置的任務或者是調戲回來)
這其中用到了一項科技:自然語言處理 ,以下簡稱 NLP (Natural Language Processing ) 。這項技術是人工智能和語言學的分支。
注:NLP是一門很深奧的學問,涉及了大量數學模型和計算機理論知識。本文為了可讀性,犧牲了一定(大部分)嚴謹(準確)性,如有 NLP 大神覺得有誤,請輕輕拍打差評君的臉(喂,不要撫摸!)
差評君來稍微說一下語音轉文字的過程~
聲音是一種波,當你的智能設備收到你的話的時候,其實是收到了聲波。
首先,這段聲波會被剔除掉噪音,然後被截成很小的單位,小到不能再小(比如說人民幣現在最小隻能到 “ 分 ”)
機器會把每 3 個(可能不止 3 個)最小單位會組成一個音素。(音素是發音的最小單位)
最後,根據這些音素可以組成文字。
最小單位組成音素
圖片引用自知乎用戶@張俊博的回答
相信大家多半看蒙了,舉個簡單的例子(為了科普,此例子不太嚴謹)
小黑胖說了一句 “ 我想吃雞腿 ”。
語音識別係統會把這句話拆分成最基本的單位狀態,再把最基本狀態重組成 w,o, x,i,ang, ch,i, j,i, t,ui 這麼多個音素,再根據自身樣本數據,分析這些音素組成哪些字的概率最大,根據統計學的原理來還原成文字。
(其實中文還涉及到了同聲字多,存在音調等問題,實際處理時遠比差評君這裏說的複雜)
至此,已經把語音變成文字,為了防止人工智能變成人工智障,接下來 AI 小姐姐們就要從文字中試圖理解語義並且做出反應了~
對於計算機來說,理解語義的第一步是拆分語句。
把 “ 我想吃雞腿 ” 拆分成 “ 我/想/吃/雞腿 "
然後,抓取有可能是命令的關鍵信息,例如我/想/吃
再分析額外信息,雞腿!
接著,AI 小姐姐會處理這句話,找出相應的應對措施:
吃 -> 找個飯店
雞腿 -> 雞肉料理
小姐姐就會覺得你是想找雞腿吃了!然後直接調查數據庫,找配對。
最終輸出結果:
而數據庫越龐大則小姐姐們越 “ 聰明 ”,這也是各大廠商宣傳時提到的重點:她們會越來越智能。
因為你每次使用它相當於一次訓練,這樣一套係統等於集中了全世界的用戶來提供樣本去提升她們。
這種情況隨著進化就不會出現了
至於,為什麼都是小姐姐呢(其實Siri可以選小哥哥)?因為女性聲音容易給人親近放鬆的感覺。
除了小愛同學,其他的小姐姐們的二次元形象隻有 Siri 才有,還是日本網友創造的,還順帶做了支歌發了個唱片。。。
小米這回的小愛同學形象倒確實是走在了前麵,官方逼死同人了。。。
不過不同的語音助手智能水平的確有些差距。
比如說,你問小姐姐們 “ 今天天氣怎麼樣 ”,都可以得到天氣反饋。
小米手機的語音助手
但你接下來不問 “ 明天天氣怎麼樣 ”,而是接一句 “ 明天呢 ”,就會。。。
沒有對比就沒有傷害,咱們看看 Google 家的。
這是 Google assistant 的
可以看到 Google 的技術的確挺成熟的,而且除了天氣還會添一句 “ 路可能會有些滑 ”, 給人的感覺更加像是和人在說話。
不過,因為學習的不夠深度,現在大多數 AI 小姐姐都處出智障狀態。。。
這個技術還在不斷的完善,也許以後可以變得和許多科幻電影裏一樣,成為人機交互的主要方式。
這樣,計算機技術的使用門檻會變得越來越低,爺爺奶奶們也可以輕鬆使用~
說不定以後你泡在手機上最大的理由就是和小姐姐們聊天,而不是微博,微信,知乎。。。
立刻關注【差評】企鵝號,每天花點時間看些有趣、有料的資訊!
最後更新:2017-09-10 02:46:36