下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

低调超越谷歌苹果,

15-03-02 13:15 2447次浏览
金蝉子
+关注
博主要求身份验证
登录用户ID:
Blizzard Challenge是由美国和日本联合发起的国际上规模最大、最具影响力的语音合成大赛,自2005年起,历届大赛吸引了美国卡耐基-梅隆大学、英国爱丁堡大学、日本名古屋工业大学、IBM研究院、微软 亚洲研究院等语音技术领域的世界一流科研机构参加。

而在这样高手云集的国际顶级赛事上,连续9年在多项指标中获得冠军的却是一支来自中国的队伍——科大讯飞研发团队。

1999年以前,中文语音产业基本上控制在国外IT巨头手中。微软、IBM、Intel等纷纷在在中国设立语音研究基地,国内语音专业优秀毕业生基本上全部外流,中文语音产业被国外掐住了“咽喉”。

怀抱着“中文语音技术应当由中国人做到全球最好,中文语音产业应当掌握在中国人自己手中”的信念,1999年,以刘庆峰为首的18名在校大学生创立了科大讯飞,并不断通过产学研合作的创新机制有效整合语音技术源头资源,将中文语音技术做到了全球最高水平。

2004年,科大讯飞在国家863中文语音合成评测中囊括所有指标第一。在此之后,我们开始将目光投向国际赛场。2005年,在了解到第一届Blizzard Challenge的情况之后,讯飞首席科学家王仁华教授提出,“现在,我们已经把中文语音合成做到了世界领先,明年我们是不是去国际比赛中试一试?”

团队成员们也都跃跃欲试,希望得到向世界一流科研机构与高校学的机会,“那时没有想过参赛能获得什么名次,只是期待能到国际舞台上‘亮剑’,衡量我们真实水平,大家当时都卯足了一股劲。”当时的团队成员江源回忆道。

2006年,科大讯飞代表大中华区参加Blizzard Challenge。参赛前,时任中国科学院院长的路甬祥恰好来公司进行视察,了解到科大讯飞要参加国际比赛的事情,“这是你们第一次参加世界性大赛,如果能获得前三名就已经很不错了。”

当年的比赛规则要求在规定时间内搭建出基于1000句和5000句两个不同规模音库的英文合成系统,主办方从可懂度和自然度两个方面分别测试各个团队的语音合成效果。一般来说,从零开始搭建一个基于5000句规模音库的高质量语音合成系统需要至少半年以上的时间。而留给参赛者的时间只有一个月,按时完成的难度非常大。

讯飞研发团队克服了音库规模大和时间紧的压力,采用当时国际上最先进的基于统计声学建模的参数语音合成方法完成了两个参数系统的构建,并在模型训练、参数生成等方面进行了创新性的改进,系统优化的工作一直持续到了规定提交的最后时刻!

结果,讯飞提交的参赛系统一举获得了小库可懂度和自然度两个指标双料第一,大库可懂度第一、自然度第二的优异成绩!成为当年大赛最大的“黑马”,震惊了国际语音学界。因为,中国人不仅将中文语音技术做到了全球最好,而且可以将非母语的英文语音技术做到了全球最好!

世界知名语音研究机构纷纷主动与讯飞建立联系。大赛组织者,国际知名语音学家、IEEE院士德田惠一教授还特地不远万里的来到到讯飞参观、交流。科大讯飞成功地在世界舞台上发出了自己的声音。

此后,从2006年至今连续9年的时间里,科大讯飞一路高歌猛进,在Blizzard Challenge中连续夺冠。这意味着中国人在语音合成技术上牢牢树立了国际领先的地位!

回顾9年征程,这是科大讯飞核心技术的卫冕之路,更是超越之路,创新之路!讯飞的研发团队通过比赛不断开拓研究方向、提升国际化视野,有力地推动了我国乃至国际智能语音技术与产业持续的向前发展。
打开淘股吧APP
2
评论(25)
收藏
展开
热门 最新
提交