近場の声も遠くの環境音もリアルに再現!Appleの最新HRTF特許で空間オーディオは進化する (US12363492B1)

IT特許

空間オーディオは、映画やゲーム、さらにXR(VR/AR/MR)体験を支える技術です。
今回Appleが取得した特許「Spatial Audio Using Near-field And Far-field Rendering(US12363492B1)」は、音源までの距離を動的に判定して近距離音と遠距離音を別々のHRTF(頭部伝達関数)で処理するというものです。従来行われていた「すべての音源を遠距離とした前提」のHRTFで起こりがちだった違和感を解消し、より自然で定位の明確な再生を実現することが狙いです。

この記事では、特許の技術的な中身を図面の解説とともに分かりやすくご紹介します。

近距離音と遠距離音の違い

人間の耳に聞こえる音は、音源が近いか遠いかで、「音圧」「粒子速度」「位相」の取り扱いが大きく変わります。また、音は近距離では球面波として拡散し、遠距離では平面波に近づくため、耳介や頭部による回折・反射の影響も距離依存になります。

今回の特許では、遠距離・近距離の2種類のHRTFライブラリを用意し、距離による仕分けを行った信号処理を行います。これにより、近い話者の声が頭内定位に引き込まれることなく、自然な前方定位で再生できるようになります。

距離可変HRTFのワークフロー

Fig.6は、信号処理のメインフローを示しています。

  1. マイク信号から近距離音・遠距離音を分離し、
  2. 近距離音の音量を遠距離音の環境レベルに合わせて補正します。
  3. そして、近距離音・遠距離音それぞれに近距離HRTF・遠距離HRTFを適用し、
  4. 両者をミックスしてバイノーラル出力します。

この一連の処理で、近距離の声はクリアに、遠距離の環境音は臨場感を保ったまま再生されます。

HRTF (Head Related Transfer Function、頭部伝達関数)
 音源から発した音が空間~頭部~耳〜鼓膜と伝わるまでの音圧レベルの変化の周波数特性を相対音圧レベル(dB)で表したものです。HRTFは、頭部や耳の形状だけでなく,音源の位置(角度)によって異なる値をとります。このことは左右の耳に与える音の周波数特性を制御することで,音の聞こえる方向をコントロールできることを意味します。これがHRTFによる疑似サラウンドの基本的な考えです。

図面で見る技術要点

システム全体構成

FIg. 1は、システムの全体構成を示しています。全体をキャプチャデバイス(104)、オーディオプロセッサ(110)、空間オーディオプレーヤ(116)からなる三層構造で構成しています。

キャプチャ環境と再生環境

Fig. 2では、キャプチャ環境(204)で、マイクアレイ(202)が近距離の“話者”(206)と遠距離の“環境音”(208, 210)を同時収録し、再生環境(216)で、前方に話者、背後に鳥のさえずりといった定位を再現する様子が示されています。

固定領域ベースの近距離判定

Fig. 3は、固定領域を近距離と判定するアルゴリズムについての図です。スマートフォンの自撮り収録などを想定し、カメラ方向と反対側の扇形領域(312)を「近距離ゾーン」に設定。そこに入った音だけを近距離HRTFで処理します。
さらに、近距離音(308)のゲインを遠距離音(304/306)に合わせ込むアルゴリズムも説明されています。

距離推定ベースの近距離判定

Fig. 4は、固定領域に依存した信号処理ではなく、距離しきい値Aより近い音(404)のみを近距離音と見なす方式です。範囲外の音(406, 408, 410)は遠距離HRTFで再生されます。ウェアラブル機器やスマートスピーカーに適したモデルといえます。

音響処理システムのワークフロー

Fig.5は、SPRO(Source Probability Estimation)とPMWF(Parametric Multi-channel Wiener Filter)を組み合わせ、近距離音(522)を抽出→減算し遠距離音(524)を取り出す高精度な分離パイプラインが示されています。

“距離”が生む新しい音場設計の発想

従来の空間オーディオは、どんな音も「遠くにあるもの」と仮定して頭部伝達関数(HRTF)を適用してきました。結果として、たとえば自分のすぐそばで話す友人の声までが“頭の中”に定位してしまい、現実とはほど遠い聞こえ方になることがありました。

今回Appleは音源の距離をリアルタイムで推定し、「近距離なのか、遠距離なのか」を瞬時に仕分けるアルゴリズムを考案しました。近距離の音には球面波として拡散する特性を精密に再現する近距離HRTFを、遠距離の音には従来型の遠距離HRTFを適用し、それらを自然にブレンドして再生します。

応用

この技術は、私たちの日常の様々な体験に応用できます。

XRヘッドセット:ユーザーの声は仮想空間の前方に自然と定位します。そこへ遠距離HRTFで描かれたゲーム世界の足音や風のざわめきが重なれば、現実と仮想の境界は一層滑らかに溶け合うでしょう。

モバイル動画撮影:スマートフォンの背面マイクが撮影者のナレーションを近距離と判断してクリアに前面定位させつつ、街の環境音は遠距離HRTFで奥行きを与えリアルに表現します。

スマートスピーカーやハイブリッド会議システム:発言者の声が卓上マイクに近いと判断されれば近距離HRTFで強調され、離席した参加者の声や室内のBGMは遠距離HRTFで自然に空間配置される。誰がどこで話しているのかが即座に分かり、オンライン・オフラインが混在する会議でもストレスなくディスカッションに集中できます。

このように、Appleの距離可変HRTFはあらゆるデバイスを“場所に敏感なサウンドステージ”へと変貌させます。耳に届く音が「近いのか遠いのか」を忠実に再現できれば、私たちは現実世界とデジタル世界を区別する必要すらなくなるかもしれません。まさに“音のパララックス”を制御することで、新しい没入体験の扉が開かれようとしているのです。

まとめ

Appleの特許(US12363492B1)は「距離」をトリガーに空間オーディオ処理を切り替えることで、音のリアリティと聴きやすさを両立します。将来的にはAirPodsやVision Proだけでなく、車載システムやスマートホームデバイスにも展開される可能性が高く、「どこにいても“その場”の音」を再現する究極の没入体験が期待できます。

最後までお読みいただきありがとうございました。

特許情報

特許番号:US 12363492 B1
タイトル:Spatial Audio Using Near-Field and Far-Field Rendering
発明者:Symeon Delikaris Manias, Peter A. Raffensperger
出願人:Apple Inc.
公開日:2025/7/15
出願日:2023/5/16
特許の詳細については、US12363492B1を参照してください。

【参考記事】[Patently Apple] (https://www.patentlyapple.com

※企業の特許は、製品になるものも、ならないものも、どちらも出願されます。今回紹介した特許が製品になるかどうか現時点では不明です。ご注意ください。

タイトルとURLをコピーしました