通过耳机实现空间音频：科学如何将 9 个扬声器和一个低音炮塞进您的大脑中

一台 Apple iPhone 14，显示 Apple Music 应用程序以及有关 Spatial Audio 内容的功能页面，旁边还有一组 Apple AirPods Max 耳机。 — 西蒙·科恩/数字趋势

空间音频正在风靡一时。虽然提供更身临其境、类似 3D 的聆听体验的目标可能诞生于电影院，但围绕空间音频的大部分讨论已经转向音乐，特别是通过音乐流媒体服务提供相对较新的杜比全景声 (Dolby Atmos) 音乐曲目。

空间音频的吸引力并不神秘。当你将立体声以来最早的一种新颖的听音乐方式与苹果公司巨大的营销力量结合起来时，就会有很多人想要尝试它。

然而，一个谜团是，一种流媒体服务与另一种流媒体服务的空间音频之间是否存在差异。比如说 Apple Music 和 Amazon Music。那么您的耳机呢？它们会影响空间音频的声音吗？

答案是肯定的，但可能不是因为你想象的原因。为了解释这一点，让我们更深入地了解一下当您使用耳机收听空间音频时幕后发生的情况。

在继续之前，这里有一个空间音频入门知识，解释它是什么以及体验它的各种方式。

你脑子里装满了扬声器的房间

杜比全景声 ( Dolby Atmos)等空间音频格式是多声道环绕声（如杜比数字 (Dolby Digital)）的扩展，旨在通过放置在房间周围的扬声器提供电影院聆听体验。这个理论房间有前面、后面、两侧和天花板。

在杜比全景声 (Dolby Atmos) 中创建的音乐以 9.1 声道的“床”开始，通常配置为 7.1.2 布局，对应于前部（左、中、右）、两侧（环绕左/右）、后部的扬声器（左/右）、天花板（左/右高度）以及发送到低音炮的低频效果 (LFE) 通道。除了这 9 个可以产生不同量声音的声道之外，杜比全景声 (Dolby Atmos) 还添加了多达 118 个声音“对象”，这些“对象”可以在这 9 个扬声器覆盖的半球的任何位置自由移动。

当您通过耳机收听空间音频时，您会听到相同的 9.1 声道和 118 个物体音轨，这似乎是一个悖论。戴在你头上的两个小扬声器怎么能和你周围排列的九个扬声器做同样的事情呢？

欺骗你的大脑

THX Spatial Audio 图像显示一名戴着耳机的男子看上去很惊讶。 — 谢谢

答案可以在心理声学中找到，这是一个研究大脑如何解释声音信息并做出反应的科学领域。这包括一个被称为声音定位的过程——大脑如何利用声音提示来确定声音来自哪个方向，以及声音来源的距离有多近或多远。

我们通过合成音高和响度来定位声音。但最大的线索是声音到达我们每个耳朵的方式。我们对时间上最细微的差异都极其敏感。如果声音在到达右耳之前一毫秒到达我们的左耳，我们的大脑就会知道并做出相应的反应。

使用心理声学模型（和一组立体声耳机），我们可以通过仔细控制声音到达每只耳朵的方式来模拟现实世界声音的方向和距离。

双耳渲染

采用杜比全景声 (Dolby Atmos) 等空间音频格式并利用心理声学原理将其转换为一组可通过耳机传送的声音的过程称为双耳渲染。

如果您曾经使用耳机听过 Dolby Atmos、DTS:X 或 Sony 360 Reality Audio (360RA)，那么在播放链中的某个时刻，会使用双耳渲染软件算法来创建这种体验。对于具有 5.1 或 7.1 音轨的视频游戏也是如此 – 这些可以通过THX Spatial Audio或Immerse Gaming Hive等技术进行双耳渲染。

双耳渲染令人兴奋的部分是它适用于任何立体声耳机或耳塞。无论是有线还是无线，也无论您花费 10 美元还是 1,000 美元，所有立体声耳机都与双耳渲染空间音频兼容。一套耳机可能会专门宣传它们“适用于空间音频”，但这有点像说一组四个汽车轮胎“适用于铺好的道路”——它们都可以。

空间音频：一切都在你的脑海之外？

Neumann KU 100 假人头双耳麦克风。 — 人类头部的形状对于空间感知非常重要，以至于录音工程师经常使用像 Neumann KU 100 这样的头形麦克风来捕捉空间声音。它的每只耳朵都有一个麦克风。诺伊曼

现在我刚刚解释了双耳渲染可以欺骗您的大脑，让您认为它正在使用任何旧耳机聆听完整的 7.1.2 声道音响系统 – 换句话说，这一切都在您的脑海中 – 我要说自相矛盾。部分地。

我们每个人解释声音定位线索的方式与我们头部的形状有很大关系。具体来说，就是我们耳朵的形状和位置。我们头部的生理机能会在到达耳膜的声音上产生独特的指纹（声纹？）——没有两个是相同的。从婴儿早期开始，随着我们的大脑发展定位声音的能力，它会使用此录音作为模板。

当以数学方式描述并用于过滤传入每只耳朵的声音时，该声纹被称为“ 头部相关传递函数”（HRTF）。

HRTF 是关键

为了使双耳渲染听起来尽可能逼真，空间音频使用 HRTF 配置文件进行处理。

您可能已经猜到，我们都有独特的 HRTF 配置文件。在理想的情况下，我们会对头部和上躯干进行 3D 扫描，并将生成的 HRTF 配置文件上传到 Apple Music 或 Amazon Music（或任何其他支持空间音频的应用程序）中。然后，每个应用程序的双耳渲染算法将使用该 HRTF 配置文件来创建一组声音，我们的大脑可以高度逼真地解释这些声音。

我们还没有完全做到这一点。在缺乏可上传的个性化 HRTF 的情况下，每个空间音频应用程序都使用通用的 HRTF。顾名思义，这些通用 HRTF 由数百个单独的 HRTF 编译而成，以创建声音进入我们耳朵的近似值。您的个人 HRTF 与平均 HRTF 越接近，空间音频听起来就越真实。

通用 HRTF 还用于空间化立体声内容或改善头部跟踪空间音频。如果您的音乐应用程序、无线耳机或无线耳塞具有空间声音模式，则可以使用它来赋予立体声额外的深度。如果您的耳机具有内置传感器来跟踪您的头部运动，它们可以生成头部跟踪的空间音频，从而提供更真实、类似房间的聆听体验。

谁的 HRTF 最好？

奇怪的是，虽然每个双耳渲染器都使用通用 HRTF，但它们并不都使用相同的通用 HRTF。有些应用程序（例如 Amazon Music 和 Tidal）使用杜比提供的通用 HRTF（它嵌入在这些应用程序中包含的杜比全景声双耳渲染引擎中），而 Apple Music 使用由 Apple 开发的专有通用 HRTF。

根据定义，每种通用 HRTF 都比其他人更适合某些人，就像一套无线耳机比其他人更适合某些人一样。 Apple 的 HRTF 听起来是否比杜比的更好，取决于您与它们的匹配程度。唯一知道的方法就是两者都尝试一下。

更接近现实：个性化 HRTF

虽然全 3D 解剖扫描是定制 HRTF 的圣杯，但一些公司已经找到了一个中间步骤，为我们提供了一种超越通用 HRTF 的简单方法。苹果将其版本称为“个性化空间音频”。如果您拥有运行 iOS 16 或更高版本的 iPhone X 或更新机型（不包括 SE 型号），您可以使用手机内置的 TrueDepth 自拍相机拍摄脸部正面和每只耳朵的 3D 照片。这与 Apple 在使用 FaceID 解锁手机时扫描面部的技术相同。

不幸的是，它创建的个性化 HRTF 只能与精选的 Apple AirPods 或 Beats 无线耳机和耳塞结合使用 – 它不会影响您在使用任何其他设备时听到空间音频的方式。

索尼在索尼耳机应用程序中做了类似的事情。如果您购买一套兼容 360RA 的索尼耳机或耳塞，您可以拍摄每只耳朵的照片并将其上传到应用程序中。

这些照片经过评估并用于创建个性化 HRTF，该 HRTF 会传输到手机上播放 Sony 360RA 曲目的音乐应用程序。截至 2024 年 3 月，这包括 Amazon Music、Tidal、Nugs.net 和 PeerTracks。

创建虚拟空间音频工作室

Embody 的 Immerse Virtual Studio 软件的屏幕截图。 — 西蒙·科恩/数字趋势/Embody

尽管使用双耳渲染作为用耳机聆听空间音频的方式很酷，但对于许多音乐家和其他创作者来说，它已成为制作空间音频的重要组成部分。

正如“头脑中充满扬声器的房间”部分所述，杜比全景声 (Dolby Atmos) 等空间音频格式是为扬声器聆听而创建的。但创建一个 7.1.2 或更好的录音室，并进行适当的声学处理以消除回声和其他不需要的效果，可能需要花费数千美元。

如果您是一位崭露头角的艺术家或想要尝试空间音频作为业余爱好的人，这可能是一项令人望而却步的投资。但借助双耳渲染，您所需要的只是一套像样的耳机和正确的软件，并且您的计算机上就拥有了一个虚拟工作室。

虚拟工作室软件的一个例子是 Embody 的Immerse Virtual Studio Signature Edition 。它可以与任何数字音频工作站 (DAW)（例如 ProTools）配合使用，或者作为一种独立的方式来体验来自各种其他来源的双耳渲染空间音频。

Immerse 可让您模拟在一些最负盛名的专业杜比全景声工作室中混合空间音频的感觉，其中包括艾伦·迈尔森 (Alan Myerson) 的 7.1.6 工作室（汉斯·齐默 (Hans Zimmer) 在这里掌握了许多标志性的电影配乐）以及格莱美奖和奥斯卡奖的 Lurssen Mastering -获奖7.1.4工作室。

使用 Embody 软件进行基于手机的耳朵扫描的插图。 — 与苹果和索尼一样，Embody 使用智能手机摄像头生成个性化的 HRTF。体现

要想像在录音空间中实际工作一样聆听这些录音空间的声音，关键在于将 Immerse 的个性化 HRTF（您几乎可以使用任何智能手机创建）与适用于数十种流行消费者和专业有线和无线耳机的专用耳机配置文件相结合。和耳塞。

这些元素为艺术家提供了开发空间音频内容的优化环境。然而，正如前面所讨论的，大多数人没有优化的聆听空间音频的环境。 Embody 的软件可让您切换到不同的双耳渲染器（带或不带个性化 HRTF），这样您就可以像普通听众一样聆听录音。该软件包括 Apple Music 专有的双耳渲染器，也可用于通过 Tidal 和 Amazon Music 中使用的相同通用 HRTF 来监控杜比双耳。

奔向黄金

一般来说，当音乐厂牌向 Apple Music 或 Tidal 等流媒体服务提供杜比全景声 (Dolby Atmos) 格式的曲目时，它只是单一版本。这给艺术家带来了两难的境地。

该版本可能是在具有全景声扬声器配置的物理工作室中或通过使用虚拟化类似空间的软件来掌握的。然而，正如我们上面所讨论的，HRTF 等变量和所使用的特定双耳渲染器可以深刻影响您在不同平台上收听这些曲目时的声音。

艺术家可能会忍不住调整他们的混音，以便在通过 Amazon Music 进行流媒体播放并使用通用 HRTF 进行双耳渲染时听起来效果最好——特别是如果他们相信这就是大多数观众最终会聆听的方式。

但这会影响它在完整的 7.1.4 Dolby Atmos 音响系统甚至具有个性化 HRTF 的 Apple Music 上的音质。

由于大多数艺术家没有时间或金钱在曲目发布后返回录音室重新制作曲目，因此他们需要做出决定：创建一个针对最佳 7.1.4 聆听体验进行优化的版本并相信，随着时间的推移，随着苹果和亚马逊等公司改进其双耳渲染和对个性化 HRTF 的支持，耳机体验将会变得越来越好，或者创建一个与听起来不符的版本，以创建适合当今听众的优化耳机组合。

显然，这个决定将完全取决于艺术家和/或他们的唱片公司。然而，我担心像苹果的空间音频赏金这样的计划会激励音乐行业的每个人都急于制作空间混音，只是为了获得承诺的经济奖励。

尽管如此，我们仍处于音频领域激动人心的时代的开端。它将重新定义音乐的制作方式以及我们使用或不使用耳机聆听时的声音。