Ambisonics(アンビソニックス)とは何かまとめてみた
Section: Technology

アンビソニックスとは

アンビソニックスの主な特徴は以下の通りです。

  • 空間や聴取者の頭が回転した際の音場の変化を、容易に再現できる
  • 視点は変えないが、インタラクティブに視線を変えたいような状況下での立体音の生成に有効な手法
  • 球面調和関数を用いている

大まかな構成

  1. 複数のマイクで録音した各音が、A-フォーマットの状態、つまりそのままの状態で保存される
  2. B-フォーマットエンコーダで、B-フォーマットに変換
  3. 音場の操作を必要に応じて行い、アンビソニックスの出力を行ったり、他のフォーマットに変換したりする

録音方法

基本的に4つのマイクが正四面体の各面に配置られたものを用いて、録音されます。

それぞれの情報が保存された状態のことを A-フォーマットと言います。

A から B に変換

それらを、X,Y,Z の軸方向の指向性成分と W の無指向性成分を持つ B-フォーマットに、単純な加減算で変換することができます。

デジタル信号処理を用いると、任意に配置した多数のマイクでも同様の成分に変換することができるが、最小限のマイクと単純な計算でそれらを生成できるところが、アンビソニックスの特質です。

B-フォーマットの種類

B-フォーマットには FuMa と AmbiX という二つのフォーマットがあります。

  • FuMa
    • 従来の B-フォーマット
    • WXYZ
  • AmbiX
    • HOA のことも考慮されたフォーマット
    • WYZX

信号処理

音場の回転

3次元の座標変換の行列に B-フォーマットを掛けると、回転した音が聞こえるようになります。

従来のステレオのマイクで録音した信号は、後から空間情報を操作するのは、とても難しい処理が必要であり、歪みを伴っていたが、アンビソニックスでは改善されています。

そのため VST プラグインなどのソフトウェアが多数存在します。

HOA の変換

Higher Order Ambisonics のデータの次数を落とす場合、次数に合ったチャンネル数分を先頭から取り出せばよいです。

再生

立体的な音を再現するには、4 個や 8 個、5.1ch などのスピーカーの配置に応じて適切な信号に変換する必要があります。

B-フォーマットの各信号に対して、適当な係数をかけて足し合わせることで合成されます。厳密には、壁の反射なども考慮する必要があります。

またヘッドホン再生の場合は、以下のように処理することでバイノーラル信号を生成することができます。

  1. 複数のスピーカー用の信号に変換
  2. スピーカーの位置に対応する頭部伝達関数を畳み込んで足し合わせる

球面調和関数とは

上記までの説明では、マイクの位置における音圧を球面調和関数展開した時の 0 次と 1 次の信号成分に相当していました。

1 次の信号成分が表す音圧傾度は、音圧の空間的な微分(勾配)であることから、音源の数が一つで反射波もない場合には、音の到来方向が再現できていると考えられます。

しかし音源が複数ある場合には、それらの音波が重畳されて音場が形成されるため、単純に一点における音圧傾度だけからでは、音源の方向は判断できません。

そのような場合でも正しく音場を再現するには、より高次の球面調和関数成分までを再現する必要があります。

アンビソニックスでは、0 次や 1 次に限らず、2 次以上の高い次数も考慮し、それらは Higher Order Ambisonics (HOA)と呼ばれています。

それにより、録音時と同じ音場が再現される空間領域が拡大するが、高い時数まで観測するには多くのマイクを集積配置する必要があり、その実現困難さに起因する誤差が制度の低下を招いています。現状では、市販されているものは 1 次までが一般的であり、研究目的でも 5 次程度までの信号成分を再現できるシステムまでしか開発されていません。

B-フォーマットが 4 チャンネルの信号であることから、使用するスピーカー数が 4 個を超える場合には、劣決定系の問題となり、一般には複数の解が存在します。HOA で時数を上げることは、この自由度を減らし、原音場により近い音場に同定する作業に他なりません。それ以外にも、音場に何らかの仮定を設け、事前知識による制約を加えることで間違った解に陥らないようにするアプローチともとらえられます。

文献