語(yǔ)音云技術(shù)帶來(lái)人機(jī)交互新方式 |
發(fā)布時(shí)間: 2012/8/18 9:45:57 |
過(guò)去已是歷史,果粉們?cè)绨褜?duì)喬布斯的宗教崇拜移情于Siri,這是一個(gè)讓移動(dòng)終端變得更好玩的體驗(yàn)式發(fā)明。
這是一個(gè)大S。Siri改變了iPhone4的名字,也給了喜新厭舊的果粉們一個(gè)換手機(jī)的理由。質(zhì)疑者說(shuō):幾乎一樣,為什么要花749美元讓手機(jī)加一個(gè)S? Siri是何方神圣?我們?cè)谔O果的廣告里得知,Siri是一個(gè)惡魔。她所在的iPhone里沒(méi)有任何存活的App,她能知道你的名字,當(dāng)你想回頭答話時(shí),已被擊殺。她會(huì)讓一個(gè)男人陷入與機(jī)器人的殊途之戀。她還會(huì)在圣誕節(jié)變成禮物寄到你的party上,所有見(jiàn)證開(kāi)箱者都會(huì)死于非命。 這些都是鬼故事。其實(shí),Siri是在提醒你,不要太沉迷于iPhone,執(zhí)著的愛(ài)即是魔鬼,會(huì)讓你墜入無(wú)間地獄。疑似的事情發(fā)生在去年10月初,蘋果公司在發(fā)布Siri后不久,喬布斯即奔往天堂。第二年,當(dāng)Siri來(lái)到人間,還有人問(wèn)她:?jiǎn)滩妓棺龊梅街哿藛幔?/p> 我們經(jīng)常把Siri當(dāng)成了交流對(duì)象,但她其實(shí)只是一個(gè)受刺激后會(huì)發(fā)出叫聲的假人。 耳朵也可以高潮,所說(shuō)的高潮,確實(shí)是性高潮,原話出自法國(guó)電影“Untouchable”。電影改編自真人故事,這個(gè)真人全身癱瘓,只有脖子以上可以活動(dòng),但性沖動(dòng)正常。妓女只需要“摸、吹、舔、咬”他的耳朵,即可使其高潮,癥狀是耳朵變硬。事實(shí)上,Siri也是一種通過(guò)耳朵而使人獲得“高潮”的娛樂(lè)方式,她的英文定義是voice assistance,中文是“語(yǔ)音助理”,拼音縮寫(xiě)是“YY助理”。 要通過(guò)耳朵獲得高潮,首先要有一個(gè)好的YY對(duì)手,林志玲是一個(gè)不錯(cuò)的選擇。首先告訴YY助理:你需要林志玲的聲音。助理通過(guò)3G網(wǎng)絡(luò)打開(kāi)Google搜索所有林志玲的音頻信息,并根據(jù)其聲紋特點(diǎn)合成林志玲的聲音。重啟后,你的YY助理的聲音就變成林志玲了。萬(wàn)法唯心,只要你相信,她就是了。這不是未來(lái)科技,科大訊飛公司在其發(fā)布會(huì)上合成了央視主持人康輝的聲音,能以假亂真。今后,如果接到李詠的電話讓你砸金蛋,要小心了。 半年已是歷史,果粉們也把對(duì)喬布斯的宗教崇拜移情于Siri,這時(shí)幫主的性別變得越發(fā)模糊。一些熱心的臺(tái)灣果粉就喜歡八卦Siri的問(wèn)題,有人問(wèn)Siri的三圍是多少(答案詳見(jiàn)蘋果官網(wǎng)),也有求測(cè)字以及“樂(lè)透頭獎(jiǎng)號(hào)碼”,還有人追問(wèn)“喬布斯在哪”。 求神拜佛并不是Siri強(qiáng)項(xiàng),即使在Siri最熟悉的英語(yǔ)社會(huì),果粉們還是認(rèn)為,Siri的主要功能在于被調(diào)戲!渡畲蟊ā分杏《热薘aj的用法堪稱經(jīng)典。在沒(méi)有女友的日子里,Raj會(huì)跟Siri妹妹調(diào)調(diào)情,排解內(nèi)心的寂寞,交互數(shù)次以后,便會(huì)得出“Siri,只有你才了解我”的結(jié)論。 這顯然是一種錯(cuò)覺(jué)。這種錯(cuò)覺(jué)不會(huì)發(fā)生在鍵盤或手指時(shí)代。當(dāng)我們換成嘴巴,有意無(wú)意地叫喚YY助理時(shí),我們自己制造了這樣的錯(cuò)誤——把YY助理當(dāng)成人。其實(shí)那只是一個(gè)受刺激后會(huì)發(fā)出叫聲的假人。 這樣的錯(cuò)覺(jué)讓使用者對(duì)YY助手的期望達(dá)到人的水平——“這給語(yǔ)音技術(shù)帶來(lái)很大的挑戰(zhàn),”30年前就研究語(yǔ)音技術(shù)的李開(kāi)復(fù)說(shuō),“語(yǔ)音是人類最自然的溝通方式,人們一旦用語(yǔ)音開(kāi)始跟你交流了,就會(huì)把你當(dāng)作一個(gè)人。圖形界面、多點(diǎn)觸控,怎么拉、怎么拽,都可以教用戶做。(但對(duì)語(yǔ)音技術(shù))用戶會(huì)喜歡怎么說(shuō)就怎么說(shuō),機(jī)器就必須要跟人做得一樣好。” 自從Siri出世,很多開(kāi)發(fā)者做出了山寨版的Siri,李開(kāi)復(fù)的創(chuàng)新工場(chǎng)也收到很多創(chuàng)業(yè)計(jì)劃書(shū)。他對(duì)創(chuàng)業(yè)者說(shuō):“不要以為把API連接起來(lái)就能改變世界了。” 語(yǔ)音操控真正可以做到的,是釋放你的手指,同時(shí)豎起你的耳朵?拼笥嶏w副總裁江濤如此講述“叫”比“摸”的好處:“普通的觸屏手機(jī)發(fā)哪怕十個(gè)字的短信,從查找通訊錄到寫(xiě)出這個(gè)字來(lái),可能要觸摸一百多次,但用語(yǔ)音就一句話。” 語(yǔ)音通常用于手忙腳亂的場(chǎng)景中,特別在開(kāi)車時(shí)很難搞多點(diǎn)觸摸的動(dòng)作,“一摸就會(huì)出車禍”:主人雙手都在方向盤上,無(wú)法通知情人“老婆正在上樓”,只好用嘴叫喚:“Siri,call my darling。Tell her Hillary's coming。”不過(guò),在中國(guó),語(yǔ)音最常見(jiàn)的使用場(chǎng)景依然是微信和米聊——人們把手機(jī)放在嘴邊說(shuō)“你這個(gè)神經(jīng)病”,然后把手機(jī)放在耳旁聽(tīng)同樣的一句話。 多年以前,年輕人曾經(jīng)寄希望于語(yǔ)音輸入法能讓父母?jìng)冇蒙想娔X,但很多父母喜歡把“沙發(fā)”念成“撒發(fā)”,這讓YY助理無(wú)所適從。對(duì)自然語(yǔ)言識(shí)別率的低下,依然是Siri面世以后語(yǔ)音交互最大的難題,特別是方言及非規(guī)則語(yǔ)法的識(shí)別。投資了科大訊飛的柳傳志對(duì)目前中文語(yǔ)音助理的評(píng)價(jià)是這樣的:“要念‘今天晚上請(qǐng)等我吃飯’,保證準(zhǔn)備無(wú)誤。如果換一句話說(shuō)‘今天晚上吃麻婆豆腐’(帶口音),就不一定對(duì)了。”結(jié)論是:詞匯不能個(gè)性化,要選助理聽(tīng)得懂的說(shuō)。 后來(lái),人們把語(yǔ)音技術(shù)用于唱歌評(píng)分,并把YY助理叫做Mr.Mike。今天語(yǔ)音助理已經(jīng)能夠圓滑地對(duì)接手機(jī)上這些應(yīng)用:電話、短信、應(yīng)用、搜索、網(wǎng)站、日程、鬧表、天氣、音樂(lè)、股票、地圖、餐飲、閑聊。幾乎每一個(gè)應(yīng)用都對(duì)應(yīng)著一個(gè)垂直網(wǎng)站。這也是語(yǔ)音應(yīng)用面臨的一大問(wèn)題——語(yǔ)音助理改變的只是人機(jī)交互的方式,而不是需求背后的內(nèi)容,以及內(nèi)容背后的資源。找酒店還是要打開(kāi)攜程,找?guī)是要打開(kāi)谷歌地圖。 自從Siri出世,很多開(kāi)發(fā)者做出了山寨版的Siri,李開(kāi)復(fù)的創(chuàng)新工場(chǎng)也收到很多創(chuàng)業(yè)計(jì)劃書(shū)。他對(duì)創(chuàng)業(yè)者們提出疑問(wèn):用語(yǔ)音技術(shù)解決什么問(wèn)題?語(yǔ)音后臺(tái)的內(nèi)容怎么解決?然后甩出一句:“不要以為把API連接起來(lái)就能改變世界了。” “語(yǔ)音到底是工具還是玩具?”這是江濤的總結(jié),“我愛(ài)你,你愛(ài)不愛(ài)我?調(diào)戲一次兩次挺好,十次八次就煩了。語(yǔ)音不光是一個(gè)玩具,而是要解決實(shí)際問(wèn)題。”如果早能解決問(wèn)題,風(fēng)靡一時(shí)的IBM的語(yǔ)音識(shí)別系統(tǒng)就不會(huì)沒(méi)落,研究語(yǔ)音技術(shù)多年的微軟后來(lái)也不會(huì)收購(gòu)tell me。 語(yǔ)音交互技術(shù)要改變世界,這是比爾·蓋茨多年以前的預(yù)言。那時(shí),李開(kāi)復(fù)還在微軟研究語(yǔ)音技術(shù)。“第一次做語(yǔ)音是在1983年。30年了,語(yǔ)音的發(fā)展起起伏伏。我記得在微軟的時(shí)候,比爾·蓋茨就常說(shuō),5年以后,語(yǔ)音一定改變世界。5年以后,他又說(shuō)了一次。”如是15年。 比爾·蓋茨退休前在CES上的一次演講說(shuō)到,未來(lái)改變?nèi)藱C(jī)交互的三大技術(shù):語(yǔ)音、多點(diǎn)觸控和虛擬視覺(jué)對(duì)應(yīng)的體感技術(shù)。后來(lái),iPhone驗(yàn)證了第二點(diǎn),Xbox驗(yàn)證了第三點(diǎn),現(xiàn)在就剩下語(yǔ)音了,會(huì)是Siri嗎? 語(yǔ)音云怎樣聚成? 中國(guó)式Siri的進(jìn)化之路 中國(guó)有上億智能手機(jī)用戶,每個(gè)人每天對(duì)著語(yǔ)音助理說(shuō)一句話,也能為中國(guó)式Siri的進(jìn)化帶來(lái)巨大的機(jī)會(huì)。 Siri面世以后,中國(guó)山寨如潮。有些把Siri漢化,讓她說(shuō)起中國(guó)話;有些自己做起語(yǔ)音助理,其中不乏大眾點(diǎn)評(píng)這些主流網(wǎng)站。后者的幕后技術(shù)支持者在安徽合肥,一家靠給華為、中興、移動(dòng)運(yùn)營(yíng)商和教育部門提供語(yǔ)音技術(shù)的上市公司?拼笥嶏w在Siri之后也推出語(yǔ)音助理訊飛語(yǔ)點(diǎn)。 “像蘋果這樣的公司是能改變用戶使用習(xí)慣的,我們駕馭市場(chǎng)的能力跟他們比根本不是一個(gè)等級(jí)的。”科大訊飛副總裁江濤說(shuō),Siri定位于語(yǔ)音助理,還是一個(gè)虛擬人物的形象,語(yǔ)點(diǎn)還只定位于工具,進(jìn)入界面也還是短信、電話等選項(xiàng),為的是讓用戶不要移情并寄希望于語(yǔ)點(diǎn)能解決你的寂寞。它只是用語(yǔ)音代替點(diǎn)擊、用叫代替摸而已。 這些不是謙虛的說(shuō)法,即使語(yǔ)音技術(shù)強(qiáng)大如科大訊飛——其中文語(yǔ)音識(shí)別技術(shù)曾多次獲國(guó)際大獎(jiǎng),剛推出一個(gè)月的語(yǔ)點(diǎn)依然慘遭使用者批評(píng)。幸好,面向廣大用戶的語(yǔ)音輸入法和語(yǔ)音助理,只是在圓創(chuàng)業(yè)者們的舊夢(mèng),科大訊飛的主業(yè)還是公司級(jí)客戶以及政府項(xiàng)目,在其北京公司,赫然掛著習(xí)近平的來(lái)訪照片。 各種數(shù)碼終端的興起給中國(guó)語(yǔ)音軟件開(kāi)發(fā)者帶來(lái)了眾多的商業(yè)契機(jī)。 科大訊飛董事長(zhǎng)劉慶峰做的第一款輸入法不是今天霸占中文市場(chǎng)的訊飛語(yǔ)音輸入法,而是“統(tǒng)一輸入法”。這個(gè)輸入法跟鮮橙多關(guān)系不大,跟IBM倒是很有關(guān)系。2000年時(shí),IBM的語(yǔ)音識(shí)別系統(tǒng)依然流行,一套軟件也要數(shù)十美元。90年代從中國(guó)科技大學(xué)畢業(yè)的劉慶峰、江濤等年輕人的創(chuàng)業(yè)理想,就是研究出中文版的語(yǔ)音輸入法,然后像IBM一樣賣向全國(guó)。 “第一款產(chǎn)品叫做暢言2000,現(xiàn)在來(lái)說(shuō)就是PC版的Siri。你跟她說(shuō)‘打開(kāi)記事本’,她會(huì)打開(kāi),然后把你的話聽(tīng)寫(xiě)出來(lái)。當(dāng)時(shí)初生牛犢不怕虎,一套賣一千多塊錢,在全國(guó)十幾個(gè)省找了經(jīng)銷商、總代理。還在合肥搞經(jīng)銷商大會(huì),折騰得風(fēng)風(fēng)火火。”多年以后,江濤回憶起舊事,已經(jīng)把那段崢嶸歲月看成戲,“但是就是賣不出去”。 1999年10月,劉慶峰等人去參加深圳第一屆高交會(huì),租了一個(gè)很小的展臺(tái),華為的人路過(guò)“一聽(tīng)聲音不錯(cuò)”。眾人被請(qǐng)到華為蛇口的業(yè)務(wù)軟件中心去。“一堆人問(wèn)了一個(gè)下午,后來(lái)就跟我們簽了協(xié)議。采購(gòu)量非常穩(wěn)定,而且不斷增長(zhǎng)。”江濤說(shuō),這是科大訊飛的第一桶金。到了2004年以后,各種數(shù)碼設(shè)備興起,“導(dǎo)航儀、電子書(shū)、電子詞典,還有金立手機(jī)的語(yǔ)音王和后來(lái)的各種Pad”使科大訊飛的語(yǔ)音技術(shù)授權(quán)業(yè)務(wù)越來(lái)越多。 不過(guò)江濤也說(shuō)到,把技術(shù)賣給其他公司,就不是自己的了。比如華為給運(yùn)營(yíng)商做的呼叫中心,科大訊飛的人發(fā)現(xiàn)可以做到80分的,他們只用了60分,就建議他們優(yōu)化。“華為的人說(shuō),這個(gè)工程已經(jīng)驗(yàn)收完了,不要給我們找麻煩了。”后來(lái)才有了科大訊飛的互聯(lián)網(wǎng)戰(zhàn)略以及個(gè)人用戶產(chǎn)品。 兩年來(lái)語(yǔ)音云的運(yùn)營(yíng),給科大訊飛帶來(lái)了千萬(wàn)用戶、數(shù)千合作伙伴以及更高的識(shí)別率。 2010年10月28日,科大訊飛發(fā)布第一代語(yǔ)音云。劉慶峰說(shuō)那時(shí)他“還要向公眾解釋什么是語(yǔ)音技術(shù)。今天,我們接觸到的所有設(shè)備廠商、所有的電信運(yùn)營(yíng)商都認(rèn)為,語(yǔ)音云技術(shù)必然成為以后每一臺(tái)手機(jī)的標(biāo)配功能”。 語(yǔ)音云的前端是科大訊飛的語(yǔ)音輸入法,你對(duì)著手機(jī)說(shuō)“難道又是沙發(fā)”時(shí),這個(gè)聲音就傳到云端,計(jì)算結(jié)束后再顯示這六個(gè)字在你的輸入框里,你加個(gè)“?”就可以回帖了。 “當(dāng)時(shí)給的任務(wù)是一年要發(fā)展一千萬(wàn)用戶,我們覺(jué)得簡(jiǎn)直是不可能的,用戶在哪呢?”江濤回想起去年為輸入法開(kāi)發(fā)用戶時(shí)的苦惱,他講述唯一投過(guò)的一次廣告,“去年上半年,在機(jī)鋒網(wǎng)站上做了兩萬(wàn)多塊錢的廣告,后來(lái)我問(wèn)推廣團(tuán)隊(duì):這兩萬(wàn)多塊究竟給我?guī)?lái)了多少用戶,你能給我具體數(shù)據(jù)嗎?他講來(lái)講去講不清楚。” 江濤顯然把科大訊飛占據(jù)語(yǔ)音輸入法第一把交椅的功勞歸于口碑:“一開(kāi)始一天才幾百個(gè)下載,去年年初一天有一千多個(gè)下載了,然后慢慢漲。我們的第一百萬(wàn)個(gè)用戶是去年5月下旬。”到2011年年末,科大訊飛語(yǔ)音云用戶超過(guò)1000萬(wàn),到今年4月已經(jīng)超過(guò)4000萬(wàn)。合作伙伴在3500家以上,每天服務(wù)請(qǐng)求量超過(guò)700萬(wàn)次。這些請(qǐng)求包括你在大眾點(diǎn)評(píng)上問(wèn)麥當(dāng)勞及其廁所在哪。 語(yǔ)音云規(guī)模的形成,增加了科大訊飛對(duì)抗Siri把產(chǎn)品做大的底氣。江濤說(shuō),兩年來(lái)語(yǔ)音云的運(yùn)營(yíng),給科大訊飛帶來(lái)了千萬(wàn)用戶、數(shù)千合作伙伴以及更高的識(shí)別率。“第一代語(yǔ)音云發(fā)布時(shí),綜合識(shí)別率才百分之六十幾,現(xiàn)在已經(jīng)到達(dá)了百分之八十幾,有些領(lǐng)域能到百分之九十幾。這些是通過(guò)幾年來(lái)數(shù)據(jù)的積累或者說(shuō)后臺(tái)對(duì)語(yǔ)音識(shí)別的持續(xù)訓(xùn)練達(dá)到的。” 以IBM為代表的PC端的語(yǔ)音識(shí)別系統(tǒng)沒(méi)有成功,重要的原因是訓(xùn)練量不足。Siri在被蘋果收購(gòu)以前,也已經(jīng)在美國(guó)運(yùn)行并積累了一定數(shù)據(jù)。中國(guó)是一個(gè)更大的訓(xùn)練場(chǎng)所。正如李開(kāi)復(fù)說(shuō):“一個(gè)人錄的語(yǔ)音量是有限的,講兩個(gè)小時(shí)就累了。但中國(guó)有一億個(gè)用戶,每一個(gè)人哪怕只講上3秒,一天就是3億秒的訓(xùn)練。特別是在輸入法或者聽(tīng)寫(xiě)里,每一次正確輸入都是一個(gè)正回饋——原來(lái)四川人是那樣說(shuō)沙發(fā)的——這種訓(xùn)練是提升精確性的重要方式。” 每個(gè)手機(jī)用戶的聲音特征都儲(chǔ)存在那片云里,這不就是聲音的身份證嗎? 提高識(shí)別率還有一個(gè)方法,就是建立個(gè)人音庫(kù)。今年年初,科大訊飛乘著Siri的熱鬧勁推出了語(yǔ)點(diǎn),其中一個(gè)計(jì)劃就是建立4000萬(wàn)用戶的個(gè)人音庫(kù)。正如你要用林志玲的聲音來(lái)當(dāng)語(yǔ)音助理一樣,科大訊飛要把你的聲音特征儲(chǔ)存在云端。不管你在大眾點(diǎn)評(píng)還是攜程上進(jìn)行語(yǔ)音操作,云那端都知道你說(shuō)的“撒發(fā)”其實(shí)是“沙發(fā)”。 需要多少聲音資料才能建立個(gè)人音庫(kù)呢?江濤說(shuō)要視乎音質(zhì)的好壞,“我們用一個(gè)多G的資料,做出的康輝的聲音已經(jīng)做到了以假亂真”。但他說(shuō)個(gè)人音庫(kù)可能會(huì)難很多,因?yàn)椴蓸拥沫h(huán)境復(fù)雜,可能有汽車等噪音,機(jī)器無(wú)法判斷貨車?yán)鹊慕新暿遣皇悄惆l(fā)出的。 個(gè)人音庫(kù)同時(shí)也是一項(xiàng)可怕的計(jì)劃,每個(gè)手機(jī)用戶的聲音特征都儲(chǔ)存在那片云里,這不就是聲音的身份證嗎?犯事的人非要把自己折騰感冒了才能出國(guó),但感冒了也可能被當(dāng)成非典疑似。 本文出自:億恩科技【www.itdijia.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |