风多大都能让你听见,这个视频制作APP帮你告别「全损音质」
myzbx 2025-03-23 21:38 6 浏览
机器之心原创
机器之心编辑部
空气为何突然安静?原来是开了「降噪」按钮。
「你说什么?风太大我听不见!」
这句大家经常拿来玩梗的话其实在现实中也经常发生,尤其是在短视频的录制过程中。风声、雨声、机器声…… 每一种噪声都可能让你的视频拥有「全损音质」。
为了减轻环境噪声带来的影响,人们想了很多种方法,比如给话筒穿上厚厚的「毛衣」:
但「毛衣」不是冰冰的笑容,不可能解决一切问题。更何况,我们大多数人拍视频都是手机直接收音,连专业话筒都没有。
硬件不够软件凑。噪声在视频中的广泛存在催生了一大批降噪软件,它们在视频的后期制作中发挥了重要作用。但是,这些软件也有各自的短板,比如操作复杂、降噪不彻底、上传下载耗时、降噪程度不可调等。随着短视频制作群体的扩大,越来越多的制作者渴望拥有一款简单、灵活又好用的降噪软件。
对此,拥有 3.792 亿日活老铁的快手表示:已经安排上了。
这个实用的小功能最近在快手旗下的视频拍摄、剪辑、制作 APP「快影」中上线,打开 APP 就能直接用。
降噪功能的入口就在「快影」App 底部功能区的「音效」中,点击「视频原声」或者「录音」按钮,页面中均有「降噪功能」选项。
降噪前后效果对比:
https://v.qq.com/x/page/p32490gv9vx.html
在试用过程中我们发现,它不仅可以去除各种噪声,还能满足实时预览、降噪量可调等需求。而之所以能满足这些需求,是因为快影的降噪功能是部署在移动端的。
与部署在服务器端的方案相比,移动端部署可以帮我们省去上传、下载的麻烦,从而降低视频制作对网络的要求、节省制作时间;同时,它还支持个性化的降噪量选择(5 个降噪档位,从噪声抑制 5dB 到全部消除),让我们在不想要背景音时将其彻底消除,想要保留一些背景音时将其适当抑制。
不同档位降噪效果对比:
https://v.qq.com/x/page/v3249fjc279.html
如果你听觉比较敏锐,你可能还会发现,经过快影降噪处理的音频依然非常丰富、立体,这是因为快影的深度降噪算法支持双声道 16kHz 宽频输出,最大程度上保留了原始信号的频宽和双声道声像。相比之下,一般的深度语音降噪算法只能支持单通道 8kHz 带宽输出,音质会大打折扣。
作为一款为「零基础」创作者打造的视频制作平台,快影拥有很多实用的小功能,如视频画中画、文字语音互转、人脸融合等,可以满足短视频创作者的大部分制作需求。「降噪」功能的上线进一步降低了对拍摄环境和硬件的要求,使得用户拍起来更加随心。
那么,这么好用的一个功能是如何打造的呢?在最近的一次访谈中,快手的音频技术团队向机器之心介绍了这项功能背后的技术细节。
既要模型效果好,又要体积压得小
语音降噪是语音领域一个很重要的研究方向,其历史可以追溯到上世纪 30 年代,从无线电到电话,再到 VOIP 都对语音降噪技术有着强烈的需求。
在深度学习取得长足进展前,单通道语音降噪通过传统信号处理方式来实现,一般认为其只能去除带噪语音中的稳定噪声成分,如空调噪声、汽车发动机噪声等。这些噪声在音量和频率上都比较稳定,相对来说比较容易消除。但我们的环境中还充斥着很多非稳态噪声,如汽车鸣笛、多人谈话等。这些噪声在音量和频率上存在较大变化,是传统降噪方案的短板。
2015 年之后,深度学习技术突飞猛进,降噪技术也随之取得巨大进步。快影的降噪方案便是基于深度学习技术打造的。
技术团队表示,在训练阶段,他们从三个方面入手来保证模型在大小受限的情况下的降噪效果。
第一个方面是网络设计。快影降噪方案的核心是一个 CNN 加 RNN 的混合网络结构,这样可以兼顾语音局部特征的抓取和长时特性的追踪,确保降噪效果。
第二个方面是前、后处理和损失函数的设计。
在前处理方面,团队利用信号处理和心理声学中的响度及掩蔽等方面的已有结论,在不影响主观听感的前提下设计了基于信号处理的前处理模块。该模块的目的是剔除训练目标中人耳无法感知的成分,聚焦那些更重要的成分,从而简化深度网络的训练目标,促进有限参数量的小网络的收敛程度,最终提高主观音质体验。
在后处理方面,团队利用语音信号低频成分和高频成分的强相关特性及心理声学中人耳对高频分量感知显著弱于低频分量的结论,合理分配计算资源,实现可以在大部分机型上上线的降噪方案。
在损失函数设计方面,团队在实践验证学术界已有的损失函数的基础上,结合降噪问题的主要矛盾点,即降噪量(over-suppress)和语音保留(under-suppress)的平衡及语音信号谐波特征明显的特性,设计了一种新的损失函数:在加强输出语音信号谐波特性的同时,当输入带噪语音信噪比低时突出降噪效果,当输入带噪语音信噪比高时突出语音保留效果,最终保证算法对于降噪量和语音保留的整体平衡。
第三个方面是数据增强。噪声数据的多样性是提高降噪模型泛化性的关键。为此,技术团队进行了各种环境混响、采集播放设备、预处理算法的模拟,以此来产生各种数据。基于这些数据,技术人员再依靠 AI 算法训练神经网络去区分语音和噪声,从嘈杂环境中剥离出干净语音。
在部署阶段,考虑到短视频创作者存在实时预览、降噪量可调和降噪处理后可以保留原视频中立体声信号等需求,技术人员选择了移动端的部署方案。为了解决降噪效果和移动端算力之间的矛盾,他们在算法侧进行了模型压缩,采用了知识蒸馏、模型剪枝、量化等方法,还在工程实现方面对计算复杂度进行了深度优化,确保模型可以适配高、中、低端各种机型。
杀敌一千,但绝不自损八百
为了验证快影的降噪方案与其他产品的效果差异,技术团队借助 SNR(信噪比)和 POLQA(感知客观语音质量评估)等指标对模型进行了评估。
SNR 表示语音的含噪程度。SNR 越大,语音含噪量越少。
实验结果表明,在相同的降噪量下,快影的降噪能力与其他产品相当;但快影降噪方案的优势在于,它支持降噪量可调的模式,随着降噪量的提升,快影的降噪效果相对于其他产品的优势变得非常明显。
POLQA 是目前业界公认的有参考的音质评测手段,可对与原始信号相比的降级或处理过的语音信号进行评级。它反映的是音频整体的音质效果,包括语音失真程度和语音完整度等。
如下图所示,在纯净语音的降噪中,快影没有造成音质损伤,其他产品则不然;在 12dB 的相同降噪量下,快影比其他产品得分高 0.2 分左右。随着降噪量的提升,快影的降噪优势变得越发明显。
注:由于其他产品无法选择降噪量,故快影 20dB 和全降噪提升均为相对于其他产品单一降噪量(大约 12dB)的提升。
幕后技术团队:未来可期
好用的产品离不开靠谱的技术团队。除了最近推出的降噪产品之外,快手的音频技术团队还在全球音频技术顶级会议 Interspeech 2021 举办的国际回声消除算法大赛中斩获颇丰,拿到了双讲回声消除的单项世界冠军和远端单讲回声消除的单项世界亚军,在综合排名中位列世界第三。值得一提的是,在参加这个比赛时,快手的团队其实在人数上并不占优势,只有其他大厂的三分之一左右。
快手的音频技术团队与快影团队表示,他们下一步的工作重点将是提升快影「特定场景下的声音分层处理」效果,解决用户在非正常说话场景下的噪声问题,如用户唱歌时,算法需要在消除噪声的同时保留伴奏。团队的目标是通过不断优化精细化场景下的降噪效果,让每位用户都能在快影 App 内享受黑科技带来的优越听觉体验。
相关推荐
- Django零基础速成指南:快速打造带用户系统的博客平台
-
#python##服务器##API##编程##学习#不是所有教程都值得你花时间!这篇实战指南将用5分钟带你解锁Django核心技能,手把手教你从零搭建一个具备用户注册登录、文章管理功能的完整...
- iOS 17.0 Bootstrap 1.2.9 半越狱来啦!更新两点
-
这款Bootstrap半越狱工具终于更新,离上一次更新已相隔很久,现在推出1.2.9版本,主要为内置两点功能进行更新,也是提升半越狱的稳定性。如果你正在使用这款半越狱工具的,建议你更新。注意!...
- iOS 16.x Bootstrap 1.2.3 发布,支持运行清理工具
-
本文主要讲Bootstrap半越狱工具更新相关内容。如果你是iOS16.0至16.6.1和17.0系统的,想体验半越狱的果粉,请继续往下看。--知识点科普--Bootstrap...
- SpringBoot整合工作流引擎Acticiti系统,适用于ERP、OA系统
-
今日推荐:SpringBoot整合工作流引擎Acticiti的源码推荐理由:1、SpringBoot整合工作流引擎Acticiti系统2、实现了三级权限结构3、持久层使用了mybatis框架4、流程包...
- SpringCloud自定义Bootstrap配置指南
-
在SpringCloud中自定义Bootstrap配置需要以下步骤,以确保在应用启动的早期阶段加载自定义配置:1.添加依赖(针对新版本SpringCloud)从SpringCloud2020...
- Python使用Dash开发网页应用(三)(python网页开发教程)
-
PlotlyDash开发Web应用示例一个好的网页设计通常都需要编写css甚至js来定制前端内容,例如非常流行的bootstrap框架。我们既然想使用Dash来搭建web应用,很大的一个原因是不熟悉...
- Oxygen XML Editor 27.1 中的新功能
-
OxygenXMLEditor27.1版是面向内容作者、开发者、合作者和出版商的行业领先工具包的增量版本。在27.1版本中,AIPositronAssistant得到了增强,包括用于...
- 【LLM-多模态】Mini-Gemini:挖掘多模态视觉语言模型的潜力
-
一、结论写在前面论文提出了Mini-Gemini,一个精简而强大的多模态VLM框架。Mini-Gemini的本质在于通过战略性框架设计、丰富的数据质量和扩展的功能范围,发掘VLM的潜在能力。其核心是补...
- 谐云课堂 | 一文详解分布式改造理论与实战
-
01微服务与分布式什么是分布式?首先,我们对上图提到的部分关键词进行讲解。单体,是指一个进程完成全部的后端处理;水平拆分,是同一个后端多环境部署,他们都处理相同的内容,使用反向代理来均衡负载,这种也叫...
- 基于Abaqus的手动挡换挡机构可靠性仿真
-
手动挡,也称手动变速器,英文全称为Manualtransmission,简称MT,即用手拨动换挡操纵总成才能改变变速器内的齿轮啮合位置,改变传动比,从而达到变速的目的。家用轿车主要采用软轴连接的换挡...
- 【pytorch】目标检测:彻底搞懂YOLOv5详解
-
YOLOv5是GlennJocher等人研发,它是Ultralytics公司的开源项目。YOLOv5根据参数量分为了n、s、m、l、x五种类型,其参数量依次上升,当然了其效果也是越来越好。从2020...
- 超实用!50个非常实用的PS快捷键命令大全分享
-
今天,给大家介绍50个非常实用的快捷键命令大全,大家伙都是设计师,关于软件使用那是越快越好啊。一、常用的热键组合1、图层混合模式快捷键:正常(Shift+Option+N),正片叠底(Shif...
- Pohtoshop中深藏不露的小技巧(科目一考试技巧记忆口诀看完必过)
-
邢帅教育ps教程为大家总结了一些Pohtoshop中深藏不露的小技巧,可以帮助到大家在设计时减少不必要的麻烦,提高工作效率哦~~~1.设置网格线保持像素完美不在1:1分辨率下也能保持像素完美,可以...
- Ganglia监控安装总结(监控安装工作总结)
-
一、ganglia简介:Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格。它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数据...
- 谁说Adobe XD做不出好看的设计?那是你没搞懂这些功能
-
AdobeXD的美化栏具有将设计视图美化的功能,它能使界面设计和原型设计更漂亮、更吸引眼球。美化栏的7个功能包括竖线布局设计、横线布局设计、重复网格、图形大小和位置设置、响应式调整大小、文字美化以及...
- 一周热门
- 最近发表
-
- Django零基础速成指南:快速打造带用户系统的博客平台
- iOS 17.0 Bootstrap 1.2.9 半越狱来啦!更新两点
- iOS 16.x Bootstrap 1.2.3 发布,支持运行清理工具
- SpringBoot整合工作流引擎Acticiti系统,适用于ERP、OA系统
- SpringCloud自定义Bootstrap配置指南
- Python使用Dash开发网页应用(三)(python网页开发教程)
- Oxygen XML Editor 27.1 中的新功能
- 【LLM-多模态】Mini-Gemini:挖掘多模态视觉语言模型的潜力
- 谐云课堂 | 一文详解分布式改造理论与实战
- 基于Abaqus的手动挡换挡机构可靠性仿真
- 标签列表
-
- HTML 基础教程 (29)
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 选择器 (30)
- CSS 轮廓 (30)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 中级教程 (30)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)