2024年04月25日 星期四
奉贤区金汇镇河道常态化管理机制落地见效 康明斯姜学锋:引领企业供应链数字化转型 上海全面实施婚姻登记全市通办 金山区张堰镇党建引领促整治  人居环境展新颜 姚敏锋:让粤语拥抱世界
第02版:业主周刊 2022-12-07

姚敏锋:让粤语拥抱世界

刘进红

2016年AlphaGo击败围棋冠军李世石后,人工智能的概念开始进入大家的视野。经过6年裂变式的迅速发展,目前人工智能作为新一轮科技革命和产业变革的重要驱动力,已然成为世界各国竞争的焦点和产业政策发力的重点。特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同作用下,人工智能伴随着多元化布局,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。

在这样的趋势下,越来越多的研究者开始把苗头转向基于语音识别、语音合成、自然语言处理等技术,在多种实际应用场景下能赋予产品“能听、会说、懂你”式的智能人机交互体验。其中就包含广东外语外贸大学信息科学与技术学院副教授姚敏锋先生,多年来他一直在深耕‘基于语音识别和声纹认证的粤语语音助手’的课题研发。

该项目对GMM-UBM模型进行了全面升级。系统通过MAP算法对模型参数进行自适应,不必调整目标用户GMM的所有参数,只需要对各个高斯成分的均值参数进行估计,就能实现更好的识别性能。其次,系统采用GFCC作为粤语语音特征参数,并对PCA进行了降维处理。实验结果表明,GFCC在多种常见噪声环境下都取得了比传统M FCC更好的识别效果,特别是在低信噪比的情况下表现出了更大的优势。再加上PCA的降维处理,如此可大幅提升粤语声纹识别速率。第三,为了保证系统跨信道语音识别更高效,错误率更低,该项目启用了I-vector因子分析方法和基于DNN-RELIANCE算法的二阶判决结构。在说话人识别研究中,I-vector系统被证明是目前最前沿最有效的说话人建模技术,传统的JFA方法是对说话人差异空间以与信道差异空间分别建模,而基于I-vector的方法是对全局差异进行建模,如此一来就放宽了对训练语料的限制,且计算简单,这在很大程度上增强了信道语音识别功能。再结合DNN神经网络的自学习功能、系统具备的语料解析功能、扩展移植功能、训练功能等等,不仅全方位保证了该项目的识别率,还在很大程度上增加了它的实用价值和经济效益。

姚敏锋副教授说,随着科技水平的发展,基于语音识别的智能人机交互模式已广泛应用于我们的生活中,智能机器人、智能驾驶、智慧城市等AI技术应用实例的加速涌现,让我们充分感受到了AI推动社会发展变革的力量之大。特别是无人驾驶、脑机接口和元宇宙三大板块的研发,它们所表现出来的巨大的功能性和实用性一直受到社会各界的广泛关注。

由此可见,人工智能作为一项炙手可热的高新技术,正在赋能这个世界的各个领域。随着技术的日趋成熟,人类对它的研究会更加透彻也更加全面,未来人工智能将在更多的应用场景中得到应用,我们且看它到底能走多远吧! (刘进红)

放大

缩小

上一版

下一版

下载

读报纸首页