iZotopeプラグイン 学習シリーズ#5 【RX tips】
オーディオテクノロジーは日々進化を遂げており、それに伴い様々なオーディオファイル形式が生まれています。音質やデータサイズ、互換性などの観点からそれぞれ特性があり、用途により最適な形式が異なります。ここでは2023年現在、特に注目されているオーディオファイル形式についての英語記事からです。
iZotopeオーディオプラグインは素晴らしい製品ですが日本語情報がそれほど多いわけでもないので本家英語サイトのお勉強シリーズで気になる項目を自分なりに翻訳してみることにしました。
あくまで個人の勝手な翻訳なのでこの記事をみて気になった方はぜひ本家の英語記事をご覧ください。Youtube動画を除く表示画像はすべて引用+画像リンクとさせて頂きます。
ちなみに、私個人は「Music Production Suite v5」の正規ユーザーです。
▶ 本家英語記事はこちら 「Must-Know Audio File Formats in 2023」
本家記事が削除されましたので引用画像はなくなりました。(引用先がページ移動後復活しました)
2023年に知っておくべきオーディオファイル形式
音楽制作の分野には、紛らわしいファイル形式があふれています。さまざまな形式には、オーディオプロジェクトの品質、互換性、効率に大きな影響を与える独自の特性があるため、それらを理解することは困惑させるとともに非常に重要です。
この包括的なガイドでは、あなたが知っておくべき主要なオーディオファイル形式について、その長所と制限、そしてオーディオ制作の各段階でどれを使うべきかを説明します。
このチュートリアルでは、音楽やダイアログの編集、バックグラウンドノイズの除去、オーディオのクリーンアップに役立つパワフルなオーディオ制作ツールであるRXシリーズを使ってオーディオファイル形式について説明します。
オーディオファイル形式とは?
オーディオファイル形式は、オーディオデータを保存し表現するデジタルコンテナです。個々のオーディオトラックの音の特徴をデジタル形式でカプセル化して記述し、さまざまなデジタル環境で共有、再生、操作できるようにします。
異なるオーディオファイル形式は、オーディオデータを整理するために異なるエンコーディング技術を採用し、最終的にオーディオファイルの品質、ファイルサイズ、互換性を形成します。
なぜこれほど多くのオーディオファイル形式があるのでしょうか?
一般的なオーディオファイル形式がこれほど多く存在する理由はいくつかあり、オーディオの忠実度、保存効率、独自の保護です。
この3つのうち最初のものについては、フォーマットによってオーディオの忠実度が異なります。WAVやAIFFのような非圧縮フォーマットは、データを失うことなくオーディオ品質を保つことを優先します。これらのフォーマットは、プロのオーディオレコーディングや編集、ミキシング、マスタリングでよく使われます。しかし、忠実な音質は多くの容量を消費します。そのため、2つ目の検討事項であるストレージの効率性を考慮する必要があります。
つまり、デジタルスペースはプレミアムです(プロレベルでクラウドストレージを利用する場合、通常は月額20ドル程度)。デジタルファイルをオンラインでストリーミングすることをユーザーに強制すると、リスナーの電話代は飛躍的に高くなります。これが、MP3やAACのような圧縮フォーマットがある理由です。忠実度は高くありませんが占有スペースは少なくなります。 その方法については後ほど説明します。
3つ目の大きな理由は、昔ながらの保護です。初代iTunesの頃の厄介なM4Pファイルを覚えていますか?CDに焼いてMP3として再インポートしない限り、5台以上のデバイスで再生できなかったことを覚えていますか?
これは名目上は著作権保護として行われたものですが、明らかにiTunesに縛られることにもなります。最近では、独自の、あるいはわずかに独自のオーディオファイル形式も見かけるようになりました。WMAファイルを思い浮かべると、多くのオーディオ環境で使えるように変換するために追加の手順を実行する必要があるためです。
オーディオファイルのエンコード方法と圧縮技術
オーディオファイル形式は、オーディオ品質とファイルサイズのバランスをとるために、さまざまな方法を利用しています。WAV (Waveform Audio File Format) や AIFF (Audio Interchange File Format) のような一般的な非圧縮フォーマットは、パルス符号変調と呼ばれる技術を使ってオーディオデータを圧縮されていないオリジナルの状態で保存します。PCMがどのように機能するかは、もう少し後で説明します。
これらの非圧縮フォーマットは高い忠実度を提供します。非圧縮のWAVファイルを作る際にデータが失われることはありません。
一方、MP3(MPEG Audio Layer-3)やAAC(Advanced Audio Coding)などの非可逆圧縮フォーマットは、ファイルサイズの大幅な縮小を達成するためにオーディオデータを破棄するアルゴリズムを採用しています。多くの場合、音響心理学的なフィルターを使用して原音を表現しつつ、どの部分を安全に破棄できるかを判断します。
これらのファイルは非可逆的で、MP3のエンコーディングの際にデータが捨てられたり失われたりします。
非可逆ファイルは、ファイルフォーマットのスキムミルクのようなものだと考えてください。確かに、スキムミルクは最初の一口は本物のような味がするかもしれませんが後味は弱く満足感が低くなります。
例として、ミックスをWAVファイルにバウンスし、RXでスペクトログラムとして表示したものを次に示します:
RXのスペクトログラムのWAVファイル
同じミックスをMP3ファイルにしたものです:
RXスペクトログラムのMP3ファイル
素人目には同じように見えるかもしれませんが、拡大してみるとかなり奇妙な変化を見ることができます。WAVファイルを拡大してみましょう:
RXでWAVファイルを拡大して見る
そしてこれがRXのMP3バージョンです:
RXでMP3ファイルを拡大して見る
丸で囲ったギザギザの黒い点が見えますか?これは、MP3アルゴリズムが破棄することにした情報の一部です。どこへ行ってしまったんでしょうか?消えた、消えた、完全に消えた!MP3アルゴリズムが、必要ないと判断して破棄しました。
現時点では、失われたデータを完全に再構成する方法はありません。
実際、非圧縮WAVファイルから圧縮ファイルに変換される過程で多くのオーディオ情報が捨てられてきました。 同じミックスのWAVバウンスとMP3バウンスの聴覚的な違いを実際に示すことができます。
MP3アーティファクト(こちらのオーディオは本家英語サイトでお聴きください)
これは、曲を特定するのに十分なかなり聞き取りやすい違いです。まるで、音をこねくり回すような奇妙なサウンドエフェクトのように感じられます。
もう 1 つ関連情報をお知らせします。iZotope Ozone には、WAVファイルからMP3またはAACへの転送で何が失われるかをプレビューできる機能があります。 I/O メーターの横にある「コーデック」ボタンを押すと、このウィンドウが表示されます。
Ozoneのコーデックオプション
アーティファクトをソロにすると、非圧縮ファイル出力とMP3スタイルのエンコーディングの違いをリアルタイムで聞くことができます。また、ミックスがローレゾファイルとしてどのように聞こえるかも聞くことができます。ミックスをエクスポートするときは、これをオフにすることを忘れないでください!
それでは、様々なファイルフォーマットについて、まずは非圧縮のものから見ていきましょう。
非圧縮ファイルフォーマット
前にも述べたように、非圧縮オーディオフォーマットは、オーディオの忠実度を保持することを目的とし、ファイルサイズを気にせずに行います。あなたのレコーディングインターフェイスが48kHz/24ビットオーディオをキャプチャするように設定されているとします。その結果、非圧縮ファイルはすべてのデータを48kHz、24ビットで保存します。情報が失われることはありません。
WAV (Waveform Audio File Format)
WAV (Waveform Audio File Format)フォーマットは、プロオーディオの品質と互換性の標準として広く認識されています。WAVファイルは(すべてではないにしても)ほとんどのデジタルオーディオワークステーション(DAW)やメディアプレーヤーでサポートされています。
WAVファイルは1991年にマイクロソフトとIBMによってRIFF(Resource Interchange File Format)の一部として導入されました。一般ユーザーの間では、WAVファイルはそのシンプルさと幅広いプラットフォームでの互換性により人気を博しました。WAVは、最初にWindowsを開発した会社によって設計されましたが、常にWindowsとMacの両方のオペレーティングシステムと互換性がありました。
BWBWAV(Broadcast Wave)
BWAV(Broadcast Wave)ファイルはWAVファイルフォーマットの拡張ですが、特にメタデータとラベリングが整理目的の鍵となる放送アプリケーション用に設計されています。BWAVファイルは、タイムコードやトラック名など、プロジェクトの詳細のタグ付けをサポートしています。
今日でも、BWAVファイルはポストプロダクションで使用されており一般的なWAVファイルとは異なる存在として言及する価値があります。映画、テレビ、またはポッドキャスティングのような新しいメディアで作業する場合、BWAVファイルを使用することがよくあります。
AIFF(Audio Interchange File Format)
Apple社が開発したAIFFフォーマットは、WAVフォーマットと多くの共通点があります。非圧縮のフォーマットで、特にMacのエコシステム内で高いオーディオ品質と互換性を提供します。
WAVファイルとAIFFファイルには、舞台裏でいくつかの違いがあり、特にファイルが情報を保持する方法において違いがありますが基本的には同じ目的を持っています。
WAVファイルはどこでもサポートされる傾向がありますが、AIFFファイルはそうではありません。MacOSとIOSプラットフォームはAIFFをうまくサポートしますが、インターネット上のさまざまなサイトにAIFFファイルをアップロードするのは難しいと感じるかもしれません。
PCM (Pulse-code modulation)
一般的な非圧縮フォーマットの背後にある基基礎科学について説明すると言いましたので、以下に説明します:
WAVやAIFFのようなファイル形式では、アナログオーディオ信号が一定の間隔でサンプリングされ、その間隔はグラフのプロットのように特定の数値に量子化されます。これがPCMプロセスの簡略化された説明です。
波形の振幅は、特定の時間間隔(CD品質のファイルでは1秒間に44,100回、映画では1秒間に48,000回、ハイレゾファイルではそれ以上)で測定され、ダイナミックレンジに対応する特定の値(通常は16ビットまたは24ビットの解像度に沿ったどこか)が与えられます。
これらの値はバイナリデータとしてファイルに保存されるため、コンピュータはサウンドを「創造的に再解釈」することなく、簡単にデータを呼び出して再生することができます。
WAVファイルとAIFFファイルは、デジタル領域でオーディオ情報をキャプチャするために、このテクニックを使っています。
ただし、他の方法が使用される場合もあります。これについては、次のセクションに進みます:
DSD (Direct Stream Digital)
DSDは、オーディオマニアやキラキラした物にすぐ惹かれる人向けの特殊なオーディオ形式です。オーディオサンプルのダイナミックレンジを表現するために複数のビットを使用する従来のPCMベースの形式とは異なり、DSDは非常に異なるアプローチを採用しています。
PCMと同様にDSDはオーディオを非常に高い周波数のパルスの連続ストリームとしてエンコードします。DSDでは、2.8224MHz(CDの64倍のサンプリングレート)という非常に高いサンプリングレートが使われます。
PCM形式の16ビットまたは24ビットの代わりに、DSDは1ビットシステムを採用しています。ダイナミックレンジは16ビットと24ビットのいずれかに割り当てられるわけではありません。代わりに、ダイナミックレンジはリレーショナルな方法でチャート化されます:現在のサンプルが前のサンプルと異なる振幅を持つか持たないかです。現在のサンプルの振幅が前のサンプルと異なるか、そうでないかを2進数で選択する(異なる場合は1、同じ場合は0)。
これは非常に単純化された説明ですが、私たちの目的にはこれで十分です。
DSDファイルは非常に特殊です。DSD形式がPCM形式よりも多くの情報を持っていることは間違いありませんが、二重盲検法でハイレゾPCM形式と比較した場合、DSDファイルがより「リアル」であるかどうかはまだ議論の余地があります。
一部のオーディオマニアには違いが聞こえると言う人もいますが、2022年のオーディオマニアのMoFiスキャンダルに見られるように、すべての耳は確証バイアスに陥りやすいものです。
非可逆圧縮オーディオ形式
次に、圧縮と非可逆の両方のオーディオ形式を取り上げます。これらのオーディオ形式は、音質を犠牲にする可能性がありますが、ハードドライブのスペースをあまり占有せず、データプランからあまり多くのbites/bytes(両方の言葉が当てはまります)を消費しないためマスマーケットのストリーミングには最適です。
MP3 (MPEG-1 Audio Layer-3):
1990年代後半、MP3はレコード業界をほぼ崩壊させました。このフォーマットは、オリジナルの音源に忠実でありながらファイルサイズを小さくすることを目的として、ヨーロッパのエンジニアによって設計されました。
MP3の開発チームは、音響心理モデルを使って、ある曲の情報を伝えるのに不要と思われるオーディオの部分をフィルタリングしました。オリジナルのWAVファイルよりもはるかに小さいサイズのMP3は、NapsterやLimewireのようなピアツーピアの共有サービスにとって完璧な手段でした。
最近では、個人の海賊行為は企業の海賊行為(アーティストに正当な報酬を支払わないストリーミングサービス)に取って代わられていますが、依然としてMP3が最も人気のある非可逆形式のままです。
AAC (Advanced Audio Coding)
AACは原理的にはMP3に似ていますが、オリジナルソースにより忠実な音質を持つように設計されたフォーマットです。より高いサンプルレートとより多くのチャンネルをサポートしています。AACの歴史は長く退屈なものですが、このフォーマットはMP3よりもあまり広く使われていませんが、音質はわずかに優れていると言えば十分でしょう。Appleのプラットフォームでは、非可逆圧縮配信ファイルのデフォルトがAACになっていることが多いです。
私の経験では、AACは、WAVファイルがスペースを取りすぎる場合、プロジェクトを評価するためにプロダクションチーム内で送信されますが、MP3はまだ市場に最終的な非可逆配信物になる傾向があります。
Ogg Vorbis
Ogg Vorbis は、非可逆データ圧縮エンコーディングの別の形式です。 しかし、Ogg Vorbis のような名前を付ければオープンソースでなければならないことがわかります。 また、Ogg Vorbis ファイルはオープンソースであるため、この特定の非可逆形式には興味深い、ややアナーキーな歴史があり、メタデータ部門でより多くの可能性を可能にします。
Ogg Vorbisは、AACやMP3フォーマットと比較するとあまり利用されていませんが、注目すべき例外が 1 つあります: Spotifyは、より高品質なストリーミングにOgg Vorbisを使っていることです。
WMA (Windows Media Audio)
WMAファイルは、Microsoftの頭脳から生まれたものです。他の非可逆コーデックと同様、WMAはより小さなファイルを作成するために、重要でないと判断されたデータを破棄します。WMAファイルは、Windows Media Playerのようなプレーヤーで動作するWindowsベースのシステムに最適化されたファイルです。本番環境ではあまり見かけませんがたまに見かけます。AppleベースのDAWはWMAファイルを扱えないため、WMAファイルを入手したら、他の種類のファイルに変換しなければならないことがよくあります。
ロスレス(可逆)圧縮オーディオフォーマット
長年にわたり、オーディオの忠実度を犠牲にすることなくファイルサイズを圧縮できるコーデックが開発されてきました。これらはWAVファイルとまったく同じように聞こえますが、より少ないスペースしかとりません。ここでは、そのうちのいくつかを取り上げます。
FLAC (Free Lossless Audio Codec):
FLACは、2000年頃にOgg Vorbisを世に送り出した人々によって開発されました。FLACファイルは、リニアパルスコード変調データ(先ほど説明したPCM)のロスレスエンコーディングを使用しており、WAVファイルと同じ結果を、より小さなファイルサイズで実現しています。ファイルサイズはMP3より大きいですが、WAVほどではない中間的なものです。
多くのハイレゾストリーミングアウトレットは、FLACフォーマットでオーディオを配信しています。実際、QobuzはハイレゾファイルをFLACでストリーミングしています。
ALAC (Apple Lossless Audio Codec)
ALACは、Appleが開発したロスレス圧縮ファイルです。オープンソースでないことを除けば、FLACとよく似ています。その代わり、Appleのエコシステム内で非常にうまく機能します。IOSデバイスの内蔵オーディオオプションで圧縮ロスレスオーディオを聴きたいなら、ALACは唯一の選択です。
WMA Lossless
WMA Losslessは、WindowsのALACに相当すると考えることができます。Windows Media Playerに最適なロスレス圧縮フォーマットです。
正しいビットレートの選択
WAVファイルをMP3やAACのような非可逆オーディオフォーマットにエンコードする場合、適切なビットレートを選択することが重要です。ビットレートが高いほどオーディオ品質は良くなりますが、ファイルサイズも大きくなります。ファイルサイズとオーディオ品質の適切なバランスを見つけることは、効率的な音楽配信と保存のために非常に重要です。多くの場合、配信会社はMP3配信に必要なスペックを教えてくれます。
MP3の書き出しに関しては、選択したDAWが豊富なビットレートの選択肢を与えてくれることがわかります:
Pro ToolsでMP3を書き出す
Logic ProでMP3を書き出す
MP3やその他の非可逆形式では、特にファイルがすでに 0 dBFSに近い値をプッシュしている場合レンダリングプロセス中にクリッピング歪みを加える可能性があります。
このため、iZotope RXには、MP3ファイルをより良いサウンドでエクスポートするための機能があります:
RXでのMP3書き出し
クリッピングを防ぐ「Prevent clipping」チェックボックスにチェックを入れ、「Normalize」を選択すると、RXはエンコード時にファイルのレベルをインテリジェントに調整し、再生時にサンプル間のピーク歪みが発生しないようにします。この処理には時間がかかりますが、特に大音量のMP3を配信サービスに提供する場合、音質的にはそれだけの価値があります。
オーディオフォーマットの力を取り入れる
オーディオ制作の広大な世界では、オーディオファイル形式を理解することで、オーディオ品質の保持、互換性の確保、ストレージ効率の最適化について、十分な情報に基づいた決定を下すことができます。主要な形式を熟知することで、音楽制作プロセスの各段階に最適な形式を選択することができます。
オーディオの忠実度、ファイルサイズ、プラットフォームの互換性、特定のワークフロー要件などの要素を考慮することを忘れないでください。トラックをバウンスするときには、書き出しのフォーマットを常に確認することを忘れないでください!
この記事が、自信を持って選択するのに十分な情報を与えてくれることを願っています。ファイルフォーマットに関する知識があれば、進化し続けるオーディオファイルフォーマットを自信を持ってナビゲートし、あなたの音楽作品の可能性を最大限に引き出すことができます。