哼一段旋律就能查到对应的歌曲,输一个关键词就能从一堆音频资料里查到想要的一段话。一边摆弄着语音软件,赵庆卫博士一边说,“这些语音识别技术是最近一两年才开始应用的。”
2006年5月8日,在中国科学院声学研究所中科信利语音实验室里,赵庆卫博士向记者演示了实验室在语音识别技术的一些应用软件产品。
一个单位,两块牌子。颜永红的名片上印着两家单位名称:中科信利技术有限公司和中国科学院声学所语音实验室,其实这两个指的是同一个单位。
颜永红既是中科信利公司的董事长,同时兼任语音实验室的主任。中科院声学研究所所长田静博士将这种模式称为中科院高科技产业化的“试点”。
“在国内公司里面,真正将语音识别产品拿出来在国家电信网上使用的,应该只有我们。”颜永红表示。
音频搜索:从关键词到内容
“在将来数年内,互联网将成为一个浩大的视/音频档案库。”颜永红顺手指了一下他桌子上的聊天摄像头。
伴随多媒体内容制作成本下降,诸如《馒头》之类网民自制的音视频内容在互联网上日益增多,一段用录音笔随手录下的讲话、自我娱乐的博客音频,或是用DV亲手拍下的短剧,将大大激发网民的创造热情。而3C(Computer、Communication和Consumer Electrics)融合带来的应用,将渐渐抹平个人电脑、电视和移动设备之间的界限。然而,如何在这样浩繁的数据库里查找所需的片断,亦将成为困扰互联网搜索的难题。
“目前的搜索技术主要是搜索音视频的关键词,如名字或作者,并没有办法搜索音频内容。”颜永红指出。
如今,大多数的视/音频搜索引擎依赖于人工创建的文字信息,比如包含视/音频网页的环绕文字;或者注册源的描述性文字(作品名称或作者名字)。步入下一个网络(NGN)时代时,多媒体信息将必然增多。
但由于音视频内容都包含在文件里面,并没有一个直白的文字材料可以去搜索,这个时候,需要一种技术对音视频文件去理解,只有知道了内容以后,才能应用搜索引擎。
通过语音识别技术,可以把多媒体文件变成文字。然而,一旦实现了这种转变,又将产生一个老问题:如何有效地进行文字搜索。
事实上,实现了音频向文字的转变,只要使用现有的搜索引擎技术,就可以解决这个老问题。“对于下一代搜索引擎来说,语音识别技术是关键。”颜永红说道,头略微昂高了些,眼睛直视着前方。