語音識別十年痛苦發展 準確度突破95%

人氣 10
標籤:

【大紀元8月18日訊】(大紀元記者馮靜綜合編譯報導) 英文語音識別技術歷經十年的曲折發展,近年來終於有了重大突破。全球領先的語音識別技術提供商「紐安斯通訊公司」(Nuance Communications)聲稱,該公司的語音識別軟件「龍語音」(Dragon NaturallySpeaking9.5)的最新版本允許您在閱讀速度達到每分鐘160個單詞的情況下,語音記錄的文字精確度達到95%,成為有史以來語音識別的最準確版本。

語音識別終於達到既快又準目標

《科學生活》(LiveScience) 最近報導,2007年夏天可留念的不僅是希爾頓酒店王國繼承人巴莉絲•希爾頓小姐被監禁的故事,而且還有個人計算機連續語音識別技術的突破,暨1997年夏天推出的「龍語音」軟件的第10個週年紀念。

最初,龍語音軟件是為打字困難的消費者而設計的。它的想法是,您的閱讀速度可以比打字還快。在軟件出爐的初期,用戶必須花費大約45分鐘閱讀「龍語音」軟件的錄音測試,以便「訓練」 這個軟件,但只有大約75%的準確性,相當於讀一個短句都會出現幾個大錯。而今天,所有權已轉手兩次的「龍語音」版本9.5,語音訓練只需幾分鐘,其準確度就可達95%,意味著每句只出錯一次。該軟件現在的主人,位於麻省伯靈頓(Burlington)的紐安斯通訊公司表示,「龍語音」軟件今天有更廣泛的用途,為家庭和企業用戶節省大量時間。

紐安斯通訊公司報告說,目前的銷售興旺。公司發言人斯純米羅(Chris Strammiello)告訴《科學生活》雜誌,直到2004年6月發佈了版本8.0,這個軟件才大量流向市場,提供的準確度才真正能夠被人們接受,這主要歸功於算法的改善和更快速的電腦硬件。從那以後,銷售額每年增長30%。紐安斯通訊公司的銷售額已從2004年的1.3億美元上升到2005年的2.3億美元和2006年的3.9億美元。

精度平均達到95% 使用矯正設備還可達99%

歷經10 年,這項技術取得了重大進展。紐安斯通訊公司聲稱,現在您能對著「龍語音」軟件說話的速度已達每分鐘160個詞。您還能通過聲音命令打開和關閉計算機上的其它程序,以及文件和菜單等。總之,該公司稱,目前龍語音識別精確度最高能達到99%,平均95%, 成為有史以來最準確的版本。

根據一些使用者的證詞,該語音識別軟件錄下的文字有95%的機會和人們用打字機記錄相統文字一樣準確。這個軟件的主要好處就是能夠跟上每分鐘140個單詞的一般會話速度,三倍於多數人打字的速度。長的單詞幾乎總是正確,短單詞有時好像會出錯。

如果使用者利用該軟件的矯正設備,既根據您的聲音該軟件逐步調整自己,幾星期後則有可能達到99%的準確性。不過有一個先決條件,就是使用者必須始終如一、清楚地講話,否則精度可能會受到影響。該軟件的個人版本零售價大約為200美元,專業版本大約765美元。

語音識別技術的十年痛苦發展

在過去的十年或更早時期,語音識別的發展幾經周折,這門技術由於強制推銷幾乎兩次敗落。語音識別領域的先驅之一是「Kurzweill實用智能公司」(Kurzweill Applied Intelligence),1993年公司的二位主管人員因虛構銷售被判入獄。

「龍語音」軟件的最初賣主「龍系統」(Dragon Systems)在1997年發佈了「龍語音」NaturallySpeaking軟件之後,沒有報告更多的增長。位於比利時的語音識別企業Lernout & Hauspie (L&H)在於2000年在一次股票交易中出面購買這個苦苦掙扎的企業。幾個月後,L&H的銷售增長又被揭露為假報告,最終導致破產。

ScanSoft公司在2001年底購買了被破產拍賣的「龍語音」技術,從那以後,通過三次升級持續發展這一技術,與此同時,公司更名為「紐安斯通訊公司」(Nuance Communications)。

目前這個軟件有幾個版本,從99美元的標準(Standard)版,到199美元的首選(Preferred)版。專業版(Professional)價格更高,從765到899美元。同時,還有要價更高的專門為法律和醫療專業所設的版本。

資料來源:科學生活(LiveScience)、今日美國
(http://www.dajiyuan.com)

相關新聞
網絡被封 上海軟件工程師起訴中國電信
德研發軟件 復原遭銷毀的前東德機密
火狐收入大增 處理盈利成「頭痛」問題
新一代網絡"世界射線" 互聯網概念大變革
如果您有新聞線索或資料給大紀元,請進入安全投稿爆料平台
評論