Meta 推出 SAM Audio,寄望声音分离技术重塑创作者经济

作者
Amanda Zhang
1 分钟阅读

Meta发布SAM Audio,押注声音分离技术变革创作者经济

Meta周二发布了SAM Audio,这是一款最先进的模型,允许用户通过直观的提示——文字描述、视频上的视觉点击或时间标记——从复杂的音频混合中分离出任何声音。此次发布代表了该公司迄今为止在降低音频编辑门槛方面最复杂的尝试,在音频编辑市场,专业工具长期占据主导地位,但很少能触及到普通创作者。

这一发布扩展了Meta的“任意分割模型”(Segment Anything Model, SAM)系列,SAM通过允许用户在图像和视频中进行简单点击来分割对象,彻底改变了计算机视觉领域。现在,这种交互范式也被引入到声音领域。在乐队视频中点击一位吉他手,SAM Audio就能分离出该乐器的音轨;输入“狗叫声”,该模型就能从整个播客录音中将其过滤掉。

披着研究发布外衣的平台战略

Meta此次并非仅仅发布了一个模型。该公司发布了一个小型生态系统:包括SAM Audio本身、作为技术核心的感知编码器视听模型(Perception Encoder Audiovisual, PE-AV)、首个全面的野外音频分离基准测试工具SAM Audio-Bench,以及自动化评估模型SAM Audio Judge。所有这些都通过Meta的“任意分割游乐场”(Segment Anything Playground)提供,与公司近期发布的SAM 3和SAM 3D并行。

这种捆绑策略复制了Meta在推出初代SAM时的做法——同步发布模型、评估指标和测试基础设施,旨在鼓励研究界和开发者采用Meta的标准。根据对此次发布的投资分析,这代表着“战略性基础设施”,而非即时创收工具,其真正目标是实现对生态系统的控制。

SAM Audio背后的技术引擎PE-AV,利用多模态对比学习技术,在超过1亿个视频上进行了训练。它能够在精确的时刻同步所见与所闻,使系统能够分离视觉上有依据的声源(例如屏幕上的发言者),同时还能从场景背景中推断出屏幕外发生的事件。该模型运行速度快于实时,能在5亿到30亿参数的不同版本中高效处理音频。

创作者的兴奋与集成焦虑

早期社区反馈显示出兴奋与摩擦并存。各平台用户称赞这项技术在处理复杂音频场景方面“令人印象深刻”——例如从现场录音中消除观众噪音、分离麦克风的摩擦声、过滤视频通话中的背景音。一些人立即看到了其在广告、AR/VR应用和内容审核方面的变现潜力。

然而,热情与实际障碍产生了冲突。多位用户反映,在尝试将SAM Audio集成到现有工具时感到“迷茫”,并请求提供分步指导。关于其具体能力,特别是乐器分离的局限性,也出现了疑问。“游乐场”界面吸引了许多人进行实验,但稀少的实践评论表明开发者仍在探索该存储库。

声音分离技术中“未言明的风险”

科技出版物《The Register》提出了Meta材料中刻意回避的担忧:如果能够精确分离声音和人声,就可能催生新的监控能力。对于一家已经在隐私问题上面临监管审查的公司来说,任何被视为“更容易窃听”的技术都将引来关注,即便类似功能已在其他地方存在。

许可结构增加了复杂性。SAM Audio在Meta的SAM许可下运行,该许可包含访问要求和使用限制。尽管Meta寻求广泛采用,但其“受控开放”的性质可能会限制生态系统标准化,尤其与完全开放的替代方案相比。

Meta已与美国最大的助听器制造商Starkey以及残疾人创始人初创加速器2gether-International合作,探索其在无障碍应用方面的潜力。这一时机与Meta近期旨在在嘈杂环境中分离语音的眼镜功能不谋而合——这表明声音分离技术可能被整合到该公司的可穿戴硬件战略中。

成功的衡量标准

其经济效益不会很快显现。追踪此次发布的投资分析师指出,未来几个季度关键在于:其是否能整合到Meta的核心创作工具中;能否显著提升创作者的产出和留存率;SAM Audio的基准能否被业界采纳为行业标准;以及是否有证据表明这项技术能增强Meta的硬件产品。

Meta将声音分离技术定位为基础设施,而非独立产品——它能小幅减少编辑摩擦,但这种影响可能逐渐累积,带来每个创作者更多的内容产出、更高的用户参与度,并最终增加广告库存。这一理论能否转化为实际的财务业绩,将取决于Meta尚未展现的执行力。

非投资建议

您可能也喜欢

本文是根据我们的用户在 新闻提交规则和指南下提交的。封面照片是计算机生成的艺术作品,仅用于说明目的;不表明实际内容。如果您认为本文侵犯了版权,请毫不犹豫地通过 发送电子邮件给我们来举报。您的警惕和合作对帮助我们维护尊重和合法合规的社区至关重要。

订阅我们的通讯

通过独家预览了解我们的新产品,获取企业业务和技术的最新资讯

我们网站使用Cookie来启用某些功能,为您提供更相关的信息并优化您在我们网站上的体验。更多信息请参阅我们的 隐私政策 和我们的 服务条款 。强制性信息可在 法律声明