hjcvg黄金城会员登录_点击进入

    新闻News

    C厂科技 |探秘“声音捕手”:这群人如何把生活杂音炼成技术密码

    2025-05-16

    你是否曾在视频会议中,被背景噪音干扰,听不清对方讲话?又是否在观看在线课程时,因混响问题而苦恼,影响学习体验?…… 这些干扰沟通的音频杂音,如何从 “无解” 变为 “可消”?答案藏在一场充满意外的科研旅程中。去年荣获“广东好人”称号,hjcvg黄金城会员登录股份的音频专家刘荣带领团队,用生活噪音作燃料、以浴室灵感为火种,打破传统技术瓶颈,将复杂声场化作清晰人声—— 这场静悄悄的音频革命,让声音从此告别模糊,让每一句对话都回归清晰与纯粹。 

    图片


    “噪声” 收集大作战:一场充满奇趣的录制行动

    有意思的是,刘荣带领团队在布满荆棘的研发道路上,上演了一段充满挑战与惊喜的特殊“噪声” 收集故事。

    顺着这段奇妙的探索轨迹深入探寻,在hjcvg黄金城会员登录股份的研发故事里,有这样一群人,他们的行为乍一看有些奇怪。在会议室中,常常能看到两三人一组,带着各种奇怪的“装备”。桌子上摆满了各式各样的笔、形状各异的茶杯,还有尺子、装修用的小管子、瓷砖碎片等物品。他们神情专注,既不交谈,也不做常规的会议记录,而是拿着这些物品,在会议室的各个角落“折腾”。一会儿在桌子上用力丢笔,一会儿用茶杯在不同位置轻敲桌面,甚至拿着尺子在屏幕上写写画画,还让装修材料相互碰撞,整个会议室充斥着各种奇怪的声音。

    原来,他们是在为音频降噪技术的研发录制噪声数据。这些看似毫无头绪的噪声,在刘荣的团队里,可是极为宝贵的“宝贝”。“这些噪声数据是神经网络训练的关键‘养料’,是我们实现音频降噪突破的重要基础。”刘荣解释道。


    图片

    之所以要收集如此多样的噪声数据,是为了解决不同场景下的噪声问题。在音频降噪技术的模型训练中,需要输入带噪的语音。带噪语音由纯净语音混合噪声数据构成,模型的优劣与输入数据的丰富程度密切相关。“简单来说,模型接触到的噪声类型越多,它就越‘见多识广’适应能力也就越强,越能精准地识别和消除噪声。所以,收集大量不同的噪声数据至关重要。” 刘荣补充道。

    而录制噪声数据的工作繁琐又耗时。每次录制通常由两三人参与,一组人往往只录制半小时左右。这是因为每个人操作道具的手法不同,为了保证收集到的数据足够丰富多样,就需要不断更换人员和场地。从不同风格的会议室,到热闹程度不同的餐厅,再到忙碌节奏各异的厨房,他们不放过任何一个可能产生独特噪声的角落。“虽然过程很辛苦,但只有让模型接触到足够多不同类型的噪声,它才能变得更‘聪明’,更好地识别和消除噪声。”刘荣说道。

    图片


    如今模型的“燃料”越来越丰富刘荣团队已积攒下几十万条噪声数据与几百万条语音数据。训练时,这些数据相互搭配,一条噪声对应一条语音,噪声幅度随机调整。如此产生的组合数据可达几千万甚至更多,且训练时均为随机组合。丰富的数据极大增强了模型的学习能力,为团队研发的音频降噪技术筑牢了根基,让该技术在各类场景应用中表现卓越。


    浴室灵感迸发:一次改变技术走向的灵光乍现

    收集这些噪声数据,就是为了解决音频降噪领域那些长期没攻克的难题。谈及研发初衷,刘荣语气坚定。早年深耕传统音频降噪技术,他在麦克风信号处理领域积累颇丰,却也清晰认识到传统方法的局限性:像高跟鞋走路声、拍掌声这类非稳态噪声,用传统频谱分析处理,很难达到理想效果。

    其中,提升语音识别率成为横在团队面前的硬骨头。早在2020年左右,团队就尝试用降噪后的数据优化语音识别。刘荣回忆道,起初大家满怀期待,都觉得降噪后的语音会更利于识别,可实际调试时才发现,无论怎么调整降噪、去混响环节,语音识别率始终原地踏步。” 这个难题持续困扰团队数月甚至半年,那段时间,大家翻遍资料、反复试验,却始终找不到突破口。

    图片


    转机发生在2023年底的一个夜晚。当时正在洗澡的刘荣,脑海中突然闪过灵感:传统信号自适应滤波处理需要参考信号,而应用场景里很难获取,为什么不能用神经网络处理后的干净语音替代呢?”“当时我兴奋极了,回去单位之后赶紧进行试验去验证该想法刘荣回忆道。幸运的是,试验结果令人惊喜——语音识别率实现大幅跃升:在原本识别率较高的场景,从91%92%提升至95%96%;而原本只有60%左右的低识别率场景,更是跃升至80% - 85%

    这个灵感就像一束光,彻底打开了研发新思路。回忆起关键突破时刻,刘荣仍难掩激动。团队通过研究发现,这一创新核心在于显著提升信噪比与信混比,有效攻克了噪声与混响干扰的难题。 


    从实验室到产品:打响音频技术的突围之战

    音频降噪是一个发展数十年的成熟领域,但刘荣团队另辟蹊径,聚焦语音信号增强。我们的目标,就是在嘈杂环境里精准留下人声。刘荣解释道,传统频谱分析技术依赖人工标注参数,一遇到复杂场景就难以发挥作用。

    2021年底,团队迎来关键突破,将自研的神经网络降噪和去混响模型应用到MAXHUB智能交互平板上,成为行业首批实现技术落地的团队。当时学术界的研究成果虽然不少,但模型参数多、计算量大,根本没法满足实时使用的需求。刘荣回忆说。

    为了让技术真正能用,团队在多个环节大胆创新。当时业界连去混响的训练数据都没有,他们就从零开始搭建训练框架、生成数据,还申请了专利。在模型优化上,通过精简网络结构、压缩计算量,把实验室里的理论模型变成了能实际运行的产品方案。如今,这套AI音频处理技术已经涵盖回声消除、声源定位等多个功能。

    说起攻克技术难题的过程,刘荣直言只能硬扛。团队一方面紧盯学术界论文、行业竞赛,寻找新思路;另一方面扎根实验室,在服务器上反复调试模型参数。需要采集数据时,他们就带着设备去会议室、商场等真实场景录制音频。只有让模型接触到真实复杂的声音,才能在实际应用中发挥作用。

    图片


    这些努力最终换来了显著成果。和老技术相比,现在的降噪效果完全是两个档次。刘荣说,以前处理不了的突发噪声,现在都能轻松消除。市场反馈也印证了技术实力:过去会议室里常见的听不清抱怨,如今越来越少了。 


    声音“美颜”:奔赴从听清到听“美”的新探索

    “现在我们虽然解决了基本的听清问题,但音频体验不能止步于此。”刘荣说道,“我们希望能让声音像经过‘美颜’一样,听起来更加自然、舒适,给用户带来更优质的听觉享受。”他形象地比喻道,“就像相机从单纯拍清楚,发展到如今加入美颜功能,让照片更赏心悦目。音频技术也应如此,在保证清晰的基础上,实现‘美化’升级带给用户来更愉悦的感受。”

    目前,团队正在积极探索基于大模型和生成式方式的音频处理技术。“我们希望通过识别语音信号中的信息,重新生成高质量的语音,达到类似专业播音的效果。”刘荣充满信心地说,“虽然这项技术目前还处于早期研究阶段,在算法优化、计算效率等方面面临诸多挑战,但我们有信心不断攻克难题,推动音频降噪技术迈向新的高度。”


    图片

    从“噪声猎人” 到 “声音美容师”,刘荣在音频降噪领域的创新探索,不仅为hjcvg黄金城会员登录股份的产品带来了技术优势,也为整个行业的发展提供了宝贵的经验。这位 “广东好人” 用匠心与智慧,激励着更多科研人员在技术创新的道路上不断前行,让清晰、美好的声音,成为数字化时代的沟通标配。