2025-05-16
你是否曾在视频会议中,被背景噪音干扰,听不清对方讲话?又是否在观看在线课程时,因混响问题而苦恼,影响学习体验?…… 这些干扰沟通的音频杂音,如何从 “无解” 变为 “可消”?答案藏在一场充满意外的科研旅程中。去年荣获“广东好人”称号,hjcvg黄金城会员登录股份的音频专家刘荣带领团队,用生活噪音作燃料、以浴室灵感为火种,打破传统技术瓶颈,将复杂声场化作清晰人声—— 这场静悄悄的音频革命,让声音从此告别模糊,让每一句对话都回归清晰与纯粹。
有意思的是,刘荣带领团队在布满荆棘的研发道路上,上演了一段充满挑战与惊喜的特殊“噪声” 收集故事。
顺着这段奇妙的探索轨迹深入探寻,在hjcvg黄金城会员登录股份的研发故事里,有这样一群人,他们的行为乍一看有些奇怪。在会议室中,常常能看到两三人一组,带着各种奇怪的“装备”。桌子上摆满了各式各样的笔、形状各异的茶杯,还有尺子、装修用的小管子、瓷砖碎片等物品。他们神情专注,既不交谈,也不做常规的会议记录,而是拿着这些物品,在会议室的各个角落“折腾”。一会儿在桌子上用力丢笔,一会儿用茶杯在不同位置轻敲桌面,甚至拿着尺子在屏幕上写写画画,还让装修材料相互碰撞,整个会议室充斥着各种奇怪的声音。
原来,他们是在为音频降噪技术的研发录制噪声数据。这些看似毫无头绪的噪声,在刘荣的团队里,可是极为宝贵的“宝贝”。“这些噪声数据是神经网络训练的关键‘养料’,是我们实现音频降噪突破的重要基础。”刘荣解释道。
之所以要收集如此多样的噪声数据,是为了解决不同场景下的噪声问题。在音频降噪技术的模型训练中,需要输入带噪的语音。带噪语音由纯净语音混合噪声数据构成,模型的优劣与输入数据的丰富程度密切相关。“简单来说,模型接触到的噪声类型越多,它就越‘见多识广’,适应能力也就越强,越能精准地识别和消除噪声。所以,收集大量不同的噪声数据至关重要。” 刘荣补充道。
而录制噪声数据的工作繁琐又耗时。每次录制通常由两三人参与,一组人往往只录制半小时左右。这是因为每个人操作道具的手法不同,为了保证收集到的数据足够丰富多样,就需要不断更换人员和场地。从不同风格的会议室,到热闹程度不同的餐厅,再到忙碌节奏各异的厨房,他们不放过任何一个可能产生独特噪声的角落。“虽然过程很辛苦,但只有让模型接触到足够多不同类型的噪声,它才能变得更‘聪明’,更好地识别和消除噪声。”刘荣说道。
如今模型的“燃料”越来越丰富。刘荣团队已积攒下几十万条噪声数据与几百万条语音数据。训练时,这些数据相互搭配,一条噪声对应一条语音,噪声幅度随机调整。如此产生的组合数据可达几千万甚至更多,且训练时均为随机组合。丰富的数据极大增强了模型的学习能力,为团队研发的音频降噪技术筑牢了根基,让该技术在各类场景应用中表现卓越。
“收集这些噪声数据,就是为了解决音频降噪领域那些长期没攻克的难题。”谈及研发初衷,刘荣语气坚定。早年深耕传统音频降噪技术,他在麦克风信号处理领域积累颇丰,却也清晰认识到传统方法的局限性:“像高跟鞋走路声、拍掌声这类非稳态噪声,用传统频谱分析处理,很难达到理想效果。”
其中,提升语音识别率成为横在团队面前的“硬骨头”。早在2020年左右,团队就尝试用降噪后的数据优化语音识别。刘荣回忆道,起初大家满怀期待,“都觉得降噪后的语音会更利于识别,可实际调试时才发现,无论怎么调整降噪、去混响环节,语音识别率始终原地踏步。” 这个难题持续困扰团队数月甚至半年,“那段时间,大家翻遍资料、反复试验,却始终找不到突破口。”
转机发生在2023年底的一个夜晚。当时正在洗澡的刘荣,脑海中突然闪过灵感:“传统信号自适应滤波处理需要参考信号,而应用场景里很难获取,为什么不能用神经网络处理后的干净语音替代呢?”“当时我兴奋极了,回去单位之后赶紧进行试验去验证该想法。”刘荣回忆道。幸运的是,试验结果令人惊喜——语音识别率实现大幅跃升:在原本识别率较高的场景,从91%、92%提升至95%、96%;而原本只有60%左右的低识别率场景,更是跃升至80% - 85%。
“这个灵感就像一束光,彻底打开了研发新思路。”回忆起关键突破时刻,刘荣仍难掩激动。团队通过研究发现,这一创新核心在于显著提升信噪比与信混比,有效攻克了噪声与混响干扰的难题。
音频降噪是一个发展数十年的成熟领域,但刘荣团队另辟蹊径,聚焦语音信号增强。“我们的目标,就是在嘈杂环境里精准留下人声。”刘荣解释道,传统频谱分析技术依赖人工标注参数,一遇到复杂场景就难以发挥作用。
2021年底,团队迎来关键突破,将自研的神经网络降噪和去混响模型应用到MAXHUB智能交互平板上,成为行业首批实现技术落地的团队。“当时学术界的研究成果虽然不少,但模型参数多、计算量大,根本没法满足实时使用的需求。”刘荣回忆说。
为了让技术真正“能用”,团队在多个环节大胆创新。当时业界连去混响的训练数据都没有,他们就从零开始搭建训练框架、生成数据,还申请了专利。在模型优化上,通过精简网络结构、压缩计算量,把实验室里的理论模型变成了能实际运行的产品方案。如今,这套AI音频处理技术已经涵盖回声消除、声源定位等多个功能。
说起攻克技术难题的过程,刘荣直言“只能硬扛”。团队一方面紧盯学术界论文、行业竞赛,寻找新思路;另一方面扎根实验室,在服务器上反复调试模型参数。需要采集数据时,他们就带着设备去会议室、商场等真实场景录制音频。“只有让模型接触到真实复杂的声音,才能在实际应用中发挥作用。”
这些努力最终换来了显著成果。“和老技术相比,现在的降噪效果完全是两个档次。”刘荣说,以前处理不了的突发噪声,现在都能轻松消除。市场反馈也印证了技术实力:过去会议室里常见的“听不清”抱怨,如今越来越少了。
“现在我们虽然解决了基本的听清问题,但音频体验不能止步于此。”刘荣说道,“我们希望能让声音像经过‘美颜’一样,听起来更加自然、舒适,给用户带来更优质的听觉享受。”他形象地比喻道,“就像相机从单纯拍清楚,发展到如今加入美颜功能,让照片更赏心悦目。音频技术也应如此,在保证清晰的基础上,实现‘美化’升级,带给用户来更愉悦的感受。”
目前,团队正在积极探索基于大模型和生成式方式的音频处理技术。“我们希望通过识别语音信号中的信息,重新生成高质量的语音,达到类似专业播音的效果。”刘荣充满信心地说,“虽然这项技术目前还处于早期研究阶段,在算法优化、计算效率等方面面临诸多挑战,但我们有信心不断攻克难题,推动音频降噪技术迈向新的高度。”
从“噪声猎人” 到 “声音美容师”,刘荣在音频降噪领域的创新探索,不仅为hjcvg黄金城会员登录股份的产品带来了技术优势,也为整个行业的发展提供了宝贵的经验。这位 “广东好人” 用匠心与智慧,激励着更多科研人员在技术创新的道路上不断前行,让清晰、美好的声音,成为数字化时代的沟通标配。