技術解説 - 音声品質評価法

音声品質評価法

まえがき

近年、従来の電話サービスとIP技術との統合により実現したIP電話サービスが急速に普及しています。IP電話サービスは、音声をIPネットワークで伝送するVoIP (Voice over Internet Protocol) 技術を利用して、音声情報をリアルタイム伝送することにより実現された音声通信サービスです。平成20年6月時点でIP電話利用者数は1800万人以上にのぼります(総務省発表)。IP電話が普及した要因として挙げられるのが通信コストの削減です。また、音声通信とインターネットアプリケーションの融合による豊かなサービス創出の観点からも、IP電話のさらなる発展が期待されています。

しかしIP電話サービスには、これまでの電話サービス（PSTNサービス）における品質要因に加えて、IPネットワーク特有の品質要因もあります。また、同じ品質要因であっても従来とは異なる視点を加味する必要があることもあります。いくら通信コストが安価であったとしても、快適な通話が出来なければ電話サービスとしての価値はなくなってしまいますので、お客様に満足いただける品質でサービスを提供する必要があります。このためには、

サービス提供に先立ってのネットワークや端末の品質設計
サービス開始後の品質監視やサービス品質レベルの維持（品質管理）

が重要となります。このような品質設計・管理を行うためには、IP電話サービスのQoE（Quality of Experience）を適切に評価する技術が不可欠です。QoEとは、各種通信サービス（IP電話や動画配信など）を享受するお客様が体感する品質であり、ユーザ体感品質とも呼ばれます。

本解説ページでは、IP電話サービスのQoEを決定する要因（品質要因）について説明するとともに、QoEを評価するための様々な技術について紹介します。

1. 品質要因と品質技術

IP電話サービスは複数の接続形態に分けることが可能です。代表的な４つの接続形態を以下に示します。（PSTN(Public Switched Telephone Networks)とは従来の一般加入電話に利用されている回線網のことです。）

(ア) PSTN⇔IPネットワーク⇔PSTN
従来の一般加入電話同士の接続形態であり、中継ネットワークとしてIPネットワークを用います。
(イ) IPネットワーク（シングルドメイン環境）
同一のIP電話サービスに加入しているIP電話同士の接続形態です。
(ウ) IPネットワーク⇔PSTN
一般加入電話とIP電話の接続形態です。
(エ) IPネットワーク（インタドメイン環境）
異なるIP電話サービスに加入しているIP電話同士の接続形態であり、相互接続した複数のIPネットワークを介します。

いずれの接続形態でサービスが提供されたとしても、IP電話サービスの通話品質を確保するためには、個々のネットワークの品質確保という観点ではなく、End-to-Endでお客様が体感する品質に基づき品質設計・管理をすることが重要です。この章では、IP電話サービスの品質に影響を与える「品質要因」、およびIP電話サービスの品質に関連した「品質技術」について説明します。

1.1. 品質要因

始めに、IP電話サービスにおける通話品質を決定付ける主要な心理要因、およびこれらに影響を与える物理要因の関係を以下に図示します。音質や遅延などの心理要因は、ネットワークや端末の物理的要因に対応付けることができます。ネットワークの物理要因にはパケット損失やネットワーク遅延などがあり、端末の物理要因にはバッファ溢れによるパケットの損失や符号化歪みなどがあります。End-to-Endの品質を測定するためには、ネットワーク側と端末側の両方の物理要因も考慮する必要があります。

上記の心理要因や物理要因がIP電話サービスの品質に与える影響については、５章で詳しく説明します。

1.2. 品質技術

通信サービスを対象とした品質技術は、主観品質評価、客観品質評価からなる(1)品質評価技術と、(2)品質設計技術、(3)品質管理技術の３つに分類することができます。以下に、それぞれの技術の位置づけを示します。

(1)品質評価技術

主観品質評価技
実際に音声を聞いたり会話した時の品質心理評価に基づいて評価する技術です。お客さまが実感する品質を直接的に評価することから、品質評価の基本となる技術です。
客観品質評価技
品質設計・管理パラメータや音声信号そのものから、主観品質評価によって得られる評価値を推定する技術です。客観品質評価法は、評価の目的や入力情報の違いにより、複数のカテゴリに分類することができます。

(2)品質設計技術

上記品質評価技術に基づき、予め設定したサービス品質目標を実現するためにネットワークと端末が備えるべき性能や機能条件を明らかにし、ネットワークと端末を設計・設定する技術です。

(3)品質管理技術

提供しているサービスの品質を把握・管理し、サービス品質の維持・向上を図る技術です。

サービス・機器提供事業者はお客様が感じる品質を考慮しつつ、ネットワークや端末を設計・管理する必要があります。品質評価技術は、このお客様が体感する品質と設計・管理パラメータを適切に対応付けるための技術であり、品質設計・管理技術の基盤となる技術と位置づけることができます。

２章では、お客様の感じる品質を評価するための技術である、「主観品質評価」、「客観品質評価」の２つの品質評価技術についてより詳しく説明します。

2. 主観評価と客観評価

音声や映像といった視聴覚メディアを用いた通信サービスにおいて、品質指標として用いられるのが、ユーザ体感品質、すなわち主観品質です。主観品質を評価する基本的な方法は主観品質評価技術です。主観品質評価技術の最大の特徴は、お客様の感じる品質を視聴覚心理実験によって直接測定するという点です。そのため、主観評価はサービスの主観品質を評価するうえで最も信頼できる方法であるといえます。音声の品質を評価する主観品質評価技術として最も広く用いられているのはオピニオン評価法と呼ばれる技術です。この方法では、評価者に音声品質を「非常に良い」～「非常に悪い」の５段階で評価してもらい、全評価者の評点を平均した値をMOS (Mean Opinion Score)値として定量化します。このMOS値が音声品質を表す基本的な尺度として用いられています。この他にも多くの主観品質評価技術が存在しますが、その詳細については３章で説明します。

適切な主観品質評価を実施するためには、以下の点に注意する必要があります。ここでは音声の受聴品質を評価する場合を例にとって説明しています。

1)多数の評価者が必要

同じ音声を受聴した場合でも、評価者によって感じる品質は様々です。このような評価者の個人差による評価値のバラつきをなくすために、１つの音声について多くの評価者から評点を取得する必要があります。国際的な品質評価試験では通常24名以上の評価者を必要とします。

2)専用の設備が必要

評価値の普遍性を確保するためには、評価試験の条件を適切にコントロールする必要があります。例えば、周囲騒音条件や室内反響条件を一定に保つ必要があり、このためには適切に設計された専用の評価ブース（図参照）が必要となります。

3)異なる実験枠で得られた評価値の比較には注意が必要。

主観評価により得られる値は、試験全体の枠組みにも影響を受けます。同じ実験で評価する他の音声の品質が全体的に悪ければ、ある音声Ａに対する評価値は高くなります。逆に、他音声の品質が全体的に良ければ、音声Ａに対する評価値は低くなります。これは、絶対判断を求める評価法で顕著になります。そのため、音声品質評価では各実験にITU-T勧告P.810（MNRU: Modulated Noise. Reference Unit）に規定されているレファレンス音声を用いることで実験全体の品質的な枠組みを等質にすることが重要です。

主観品質評価技術に対して、主観評価により得られる値と同等の値を、音声や映像の物理的特徴から推定する方法を客観品質評価技術と呼びます。客観品質評価技術は以下のような利点を持つことから、世界中で研究されてきました。

客観評価法は評価者や専用の評価環境設備を必要としないため、時間・コストを大幅に削減することができます。
客観評価法は、同じ入力が与えられた場合には必ず同じ評価値を出力します。同じ客観評価法を用いれば、異なる場所で評価した2つ評価対象系の評価値を比較することが可能です。

客観評価は主観評価により得られる値を推定する技術ですので、主観評価により得られる値にどれだけ近い値を推定できるか、つまりその推定精度の高さが重要になります。評価の目的によっては、その推定時間や演算量も重要となります。

客観評価は、評価対象、評価手順、利用する入力情報などの違いにより複数のカテゴリに分類されます。カテゴリの種類および各カテゴリの詳細については４章で説明します。

3. 音声品質の主観評価法

本章では代表的な主観評価法について、いくつか記述させていただきます。

3.1. MOS (Mean Opinion Score)

2章でも述べましたように、MOSは最も広く用いられている主観品質評価法といえます。MOS評価は、ITU-T勧告P.800に規定される「オピニオン評価」により、評価対象系の品質を測定します。評価対象とする品質要因により、MOS評価の対象は受聴品質と会話品質に分類ができます。それぞれの特徴は以下の通りです。

1)受聴品質

お客様が音声を受聴した時に感じる品質を表します。評価対象音声を再生して評価者が受聴する片方向の評価実験で測定します。遅延やエコーなど片方向では体感することの出来ない品質要因を考慮することが出来ません。

2)会話品質

お客様が会話をした時に感じる品質を表します。２名以上の評価者が双方向の通話を行うことにより評価します。遅延やエコーなど双方向通話によって生じる品質要因を測定することが出来ますが、評価実験に時間を要する、あるいはリアルタイム通話を実現する実験系が必要となるなどの困難性があります。

受聴品質、会話品質どちらを評価するにしても全体的なMOS評価の流れは同一であり、評価者に評価対象系を介した受聴／会話を行っていただいた後に、絶対範疇尺度法(ACR: Absolute Category Rating)を用いて絶対的に評価してもらいます。

このときの評価カテゴリは下図に示すように５つに分類され、それぞれには１～５までの評点が与えられています。ITU-T勧告内における英語表記を()内に示します。充分な数の評価者に対してACRによる評価をしていただき、全員の評点の平均値をMOS値と呼びます。注：日本語訳と英語が厳密に対応しないことや、国民性の違いに起因して、日本人のMOS値は欧米人のMOS値に比べて低くなることが報告されています。したがって異なる言語による評価結果を単純に比較することは出来ません。

IP電話の総合的な通話品質は会話品質に基づいて議論されるべきですが、符号化歪みやパケット損失歪みのように双方向性のない品質要因のみの評価は、受聴品質に基づいて行うことも可能です。評価対象とする品質要因によって、適切な品質評価法を選択することが好ましいといえます。

3.2. DMOS (Degradation Mean Opinion Score)

本評価法は、ITU-T勧告P.800 Annex Dに規定される方法です。MOS評価では評価対象音声のみを受聴し品質を評価するのに対して、DMOS評価ではレファレンス音声（通常は原音声）と評価対象音声とを聴き比べ、評価対象音声がどれだけ劣化しているかを評価します。具体的には、最初にレファレンス音声を受聴し、その0.5～１秒後に評価対象音声を受聴します。

DMOS評価の評価カテゴリは下図に示す５つに分類され、それぞれには１～５までの評点が与えられています。ITU-T勧告内における英語表記を()内に示します。充分な数の評価者の評点の平均値をDMOS値と呼びます。

DMOS評価では比較対象音声が存在するために、MOS評価に比べて劣化により敏感な評価ができます。そのため、比較的劣化が小さい評価対象系の評価ではMOS評価よりもDMOS評価の方が適しているといえます。ただし、DMOS評価では、同じ条件数の評価値を得るためにはMOS評価の約2倍の時間を要します。

3.3. CMOS (Comparison Mean Opinion Score)

本評価法は、ITU-T勧告P.800 Annex Eに規定される方法であり、主に受聴品質の測定に用いられます。CMOS評価も、DMOS評価と同様に、レファレンス音声と評価対象音声を受聴し、２つの音声を比較して評価します。DMOS評価と異なる点は、２つの音声の順番がランダムに変化し、どちらが評価対象音声であるかは評価者に知らせないことです。評価者は最初の音声に比べ後の音声をどのように感じたかを、比較範疇尺度法(CCR: Comparison Category Rating)を用いて評価されます。

このときの評価カテゴリは下図に示す通り７つに分類され、それぞれには－３～３までの評点が与えられています。ITU-T勧告内における英語表記を()内に示します。つまりCMOS評価では、２つの音声について「どちらの品質が良いか」、「どの程度良いのか」の2点ついて評価することになります。充分な数の評価者による評点の平均値をCMOS値と呼びます。

注：CMOS値を算出するにあたり、評価対象音声を先に受聴したパタンについては、得られた評点の符号を入れ替える必要があります。（例：評価対象音声を先に受聴し「良い（２）」という評点を得た場合、レファレンス音声が評価対象音声に比べ「良い（２）」と評価されたことになります。この場合には、評価者は評価対象音声がレファレンス音声に比べ「悪い（－２）」と評価したと判断します。）

CMOS評価では、評価対象音声がレファレンス音声よりも良いという評価結果を得ることが可能なため、音声品質の改善を目的とした処理の評価に適しています。CMOS評価でも、DMOS評価と同様に１つの評価対象音声の品質を評価するのに2つの音声の受聴が必要なため、同じ条件数の評価値を得るためにはMOS評価の約2倍の時間を要します。

3.4. PC (Pair Comparison)

PCは全ての評価対象系により出力される1音声について、取り得る2つの組合せ全てに対して、音声を比較し優劣を判定する方法です。そのためn個の評価対象系(A, B, C, …)が存在する場合、n(n-1) 個の組合せ(AB, BA, AC, …)について評価をする必要があります。音声をs種類用いる場合には、sn(n-1) 個の組み合わせの優劣を判定することになります。各組み合わせにおいて、2つの音声を一定の間隔で受聴し、どちらの音声の品質が良いかを評価者に判定してもらいます。

本方法は評価者の判断が容易であるため、信頼性の高い結果が得られます。しかし、評価対象系の数の2乗に比例して必要な時間が増加するため、多くの時間を要します。

得られた結果に基づく各評価対象系の順位付けならびにそれらの間隔尺度は、サーストン法を用いることにより算出することができます。

3.5. 等価Q値換算法

等価Q値換算は、評価対象音声の品質と同等であるMNRU (Modulated Noise Reference Unit) のQ値を測定する方法です。MNRUとは音声信号の振幅に比例して雑音を付加するシステムであり、ITU-T勧告P.810として標準化されています。図にMNRUの概念図を示します。このときの音声信号と付加雑音の比(SNR: Signal-to-Noise Ratio)をQ値と呼び、その単位は[dB]で標記されます。つまり、Q値が大きいほど付加する雑音の割合が小さいため品質は良く、逆にQ値が小さいほど品質は悪いといえます。

以下に、MNRU条件を利用した等価Q値換算法の概念を示します。実験において評価対象音声に加え、Q値の異なるMNRU条件を複数含めておきます。始めに、実験で得られたMNRU条件のQ値とMOS値との関係を求めます。そして、この関係に基づき、評価対象音声のMOS値と同等のMOS値を有するQ値を求めます。これを「オピニオン等価Q値」と呼びます。

絶対評価値であるMOSは実験の枠組みの影響を受けやすく異なる実験間の相互比較が困難であることが指摘されています。しかし、MNRU音声と評価対象音声の品質の相対的な関係は保持されることから、異なる実験においてそれぞれオピニオン等価Q値に換算することにより、実験の枠組みの違いによる評価値の変動を吸収でき、品質評価値の相互比較を可能とします。

4. 音声品質の客観評価法

3章で説明した主観品質評価法は、正確な評価が可能である反面、多くの時間やコストを必要とします。そのため、評価者による直接の評価を必要とせずに、端末やネットワークの物理的特性を測定することにより主観品質を推定する方法が望まれます。このような方法全般を広義に「客観品質評価法」と呼びます。

客観品質評価法は５つのカテゴリに分類することが出来ます（表参照）。

プランニングモデル：ネットワークや端末の品質パラメータを入力として品質を推定する。
メディアレイヤモデル：メディア信号を入力として品質を推定する。
パケットレイヤモデル：パケットヘッダ情報から品質を推定する。
ビットストリームレイヤモデル：パケットヘッダ情報に加え、ペイロードのビットストリーム情報を用いて品質を推定する。2と3の中間に該当するモデル。
ハイブリッドモデル：上記に記載した4つの中から複数のモデルを複合したモデル。

以下では、それぞれのモデルの詳細について記述させていただきます。

	プランニングモデル	メディアレイヤモデル	パケットレイヤモデル	ビットストリームレイヤモデル	ハイブリッドモデル
入力情報	品質設計パラメータ	メディア信号	パケットヘッダ情報	パケットヘッダやペイロードの情報	左記に記載されている入力情報
目的	ネットワークプランニングや端末設計	品質のベンチマーキング	インサービスにおけるパッシブ品質監視
既存のITU標準(音声)	ITU-T G.107【E-model】	ITU-T P.862【PESQ】ITU-T P.563	ITU-T P.564	-	ITU-T P.CQO（検討中）

4.1. プランニングモデル

<プランニングモデルの歴史>

プランニングモデルに関する検討の歴史は古く、80年代前半に様々なモデルがITU-Tに提案されていましたが、国際標準としての一本化には至らず、４つの異なるモデルが併記されるに止まっていました。その後、90年代に提案された「E-model」と呼ばれる新しいプランニングモデルが、ITU-T勧告G.107として標準化されました。E-modelは、NTT提案の「OPINEモデル」の心理尺度値による指標化という考え方をベースとして、AT&T提案の「TRモデル」の「心理尺度値」へのマッピングという方法を取り入れたものです。

E-modelは、欧州のETSI(European　Telecommunications　Standards　Institute)や北米のTIA (Telecommunication Industry Assosiation)においても採用されており、ネットワークプランニングモデルとして広く用いられています。日本国内では、2003年に郵政省令（事業用電気通信設備規則）が改正され、IP電話サービスに対する通話品質基準として、E-modelに基づき算出される品質指標であるR値が用いられています。これに対応し、TTC(情報通信技術委員会)はE-modelをベースとした具体的な通話品質評価法を標準化しました。

E-modelでは、ハンドセットを用いた電話帯域(300-3400 Hz)音声通話を前提としたモデルです。現在では、広帯域(100-7000 Hz)音声通話サービスの登場を鑑み、広帯域音声通話に対応できるようE-modelの対象を拡張させる動きが進んでいます（ITU-T勧告G.107 Appendix IV）。

<E-modelの概要>

E-modelには、端末要因・ネットワーク要因・環境要因などに関する21の入力パラメータがあり、出力指標であるR値はこれらのパラメータの関数として表現されます。E-modelでは、まず「雑音感 (Noisiness)」、「音量感 (Loudness)」、「遅延・エコー感 (Delay and echo)」、「歪・途切れ感 (Distortion)」、及び「利便性要因 (advantage factor)」といった心理要因ごとの評価値を心理尺度上で表現します。そして、これらの値を基準値から加減算することによりR値が算出されます（図参照）。

E-modelのパラメータのうち環境要因や端末要因などは、標準的な特性を想定してデフォルトの値を設定することが一般的です。前述のTTC標準においても評価すべきパラメータを「音声符号化」、「パケット損失」、「遅延」、「エコー」に関連するパラメータに絞り込んでいます。このようにして求められたR値は、標準的な特性を有する端末を標準的な音響環境で用いた場合の通話品質を表現にしているといえます。

具体的なR値計算に用いることが出来るプログラムをITU-Tが公開しています。

<R値と主観品質評価値との関係>

R値と会話MOS値は相関があるといわれており、ITU-T勧告G.107 Annex Bでは両者をマッピングする関係式を提供しています。この式は欧米人の評価傾向に基づいて決められています。一般に日本人の評価値は欧米人に比べて低くなることが知られており、この差分に対応させるために、例えばTTC標準が提供する変換を実施する必要があります。

E-modelは元来、ネットワークや端末の品質パラメータが総合通話品質に与える影響を簡易に指標化するネットワークプランニングモデルとして標準化された計算モデルであり、会話MOS値を正確に推定することは保証されていません。例えば、前頁に示した図では、各劣化要因を単純に減算していますが、2つの要因間の相互作用により単純減算とは異なる傾向を示していることが報告されています。そのため、ITU-Tでは会話品質をより正確に測定する技術の標準化にも取り組んでいます。

4.2. メディアレイヤモデル

<メディアレイヤモデルの歴史>

音声信号の物理測定に基づくメディアレイヤモデルの研究は、PCM符号化音声の評価におけるSNR（Signal-to-Noise Ratio：信号雑音比）から始まりました。SNRは信号のレベルと雑音（元の音声との差分）のレベルとの比を表します。この値は波形符号化モデルの主観品質には比較的良く対応するのですが、スペクトル符号化やCELP符号化などの評価においては主観品質を低く推定する傾向がありました。

80年代になると、波形歪みよりもスペクトル歪みに着目した客観品質評価モデルが数多く提案されるようになり、これらのモデルを比較検討した結果、1998年にITU-T勧告P.861 PSQM (Perceptual Speech Quality Measure) が標準化されました。P.861は符号化歪みに対する推定精度は高かったものの、ビットエラーやパケット損失などの時間軸上離散的に発生する劣化の評価では充分な精度が得られませんでした。そのため、パケット損失のようなネットワーク品質劣化要因を含めた通話品質を評価する手法の標準化が次なるターゲットとされました。結果的には、PSQMと別の品質推定手法であるPAMS (Perceptual Analysis Measurement System) を統合したPESQ (Perceptual Evaluation of Speech Quality) がITU-T勧告P.862として2001年に標準化されました。

PESQで対象としている音声信号の帯域は電話帯域（300 Hz-3.4 kHz）に限定されているため，広帯域（100 Hz-7 kHz）音声の評価はできませんでした。ITU-T SG12では、PESQを広帯域音声の評価に拡張する検討を行い、勧告P.862.2（Wideband PESQ）として2005年に標準化しました。

また、音声ではなくオーディオを対象としたメディアレイヤモデルとして、PEAQ (Objective Measurements of Perceived Audio Quality) と呼ばれる技術がITU-R勧告BS.1387として標準化されています。本勧告は主に符号化による劣化の品質評価を対象としており、IP伝送において問題となるパケット損失等の劣化の評価には適用できないという問題が残ります。

<メディアレイヤモデルの分類>

PESQは、評価系を通した音声信号に対する主観品質を、元の音声信号（原音声）と出力音声信号（劣化音声）を比較することで推定します。具体的には、原音声と劣化音声との間にある時間のずれを整合し、原音声と劣化音声とのスペクトル差分を人間の聴覚特性に基づいて定量化します。このような、レファレンスとして原音声信号を必要とするモデルを“フルレファレンスモデル”と呼びます（図参照）。フルレファレンスモデルでは、評価対象系に試験音声信号を入力するアクティブな品質評価を想定しています。

しかし、品質管理などの用途を想定した場合、受話側の音声信号のみに基づいて品質を評価する技術も必要とされます。このようなモデルを“ノーレファレンスモデル”と呼びます（図参照）。ITU-Tではノーレファレンスモデルである勧告P.563を2004年に標準化しました。このモデルは、「非音声的要素」である雑音性、瞬断、不自然性という観点から音声品質を評価します。

4.3. パケットレイヤモデル

サービス提供中のQoEの監視・管理（インサービス品質管理）では，多くのユーザの通信を監視する必要があることから，音声のメディア信号を処理することが困難です．そこで，音声メディア信号が含まれているペイロード部分以外のパケットヘッダ情報を用いて品質を推定するモデルが注目されています。これをパケットレイヤモデルと呼びます。

IP電話サービスを対象とした勧告P.564は2006年7月に制定されました。勧告P.564は当初P.VTQ（Voice Transmission Quality）と呼ばれ、具体的なアルゴリズムを規定することを目指していましたが、モデルの一本化を達成することができず、モデルの性能要求条件とその検証法のみを記述した「フレームワーク勧告」となりました。つまり，勧告P.564に示される方法で性能を評価し、一定の品質推定精度が確認されると、そのモデルは「勧告P.564準拠」とされます。

P.564は、パケット損失やその損失パターン、さらには遅延揺らぎといった中間品質パラメータを推定する過程と、このパラメータを用いて受聴MOSを推定するアルゴリズムからなります。中間品質パラメータは、RTP^*1ヘッダやRTCP^*2情報から算出されます。この中間パラメータは、IETF^*3で標準化されているRTCP-XR^*4に規定される品質パラメータのサブセットとなっています。そのため、RTCP-XRが実装されていれば、端末は受聴MOSを推定するのに必要な中間パラメータを得ることができます。

^*1 RTP (Real-Time Transport Protocol): 音声や映像などのメディアを、IP によりリアルタイムに伝送するためのプロトコル
^*2 RTCP (Real-Time Transport Control Protocol): RTPでデータを送受信するためのセッション制御プロトコル
^*3 IETF (Internet Engineering Task Force): インターネット上で利用される各種プロトコルなどを標準化する組織
^*4 RTCP-XR (extended report): 、RTP を利用したアプリケーションを管理するために、RTP の制御機能であるRTCP にレポート機能を拡張したもの

4.4. ビットストリームモデル

4.3で説明したパケットレイヤモデルは計算負荷が小さいという利点がある一方で、品質監視する音声がどのような内容の音声であるかまでは考慮することができないため、多様な音声に対する平均品質を音声品質として推定しました。一方、4.2で説明したメディアレイヤモデルは多様な音声に対して個々の音声品質を出力できるものの、計算負荷が大きいという問題がありました。

これらの問題を解決するための手法として、ビットストリームモデルが検討されています。これは、送受信される音声の特性を分析するために、符号化されたストリーム内の情報を復号処理せずに利用することを特徴としています。たとえば、IPパケットの損失が検出された際に、損失前後のパケット内のビットストリーム情報から損失箇所の音声の特性（音量の大小など）を分析することで、同程度のパケット損失率であっても受聴者が体感する音声品質の違いを捉えられることが期待されています。

4.5. ハイブリッドモデル

これまでに説明してきました４つのモデルが持つ利点を活かし、複数のモデルを組み合わせたものをハイブリッドモデルと呼びます。

たとえば、no-reference型のメディアレイヤモデル（受信側の音声信号のみを用いた品質推定方法）では、音声歪みのような受聴品質要因を正確に捉えることができる一方で、遅延のようなインタラクティブ性を捉えることができません。そこで、パケットレイヤモデルにより得られる品質情報を加味することにより、より正確な品質推定の実現が検討されています。

現在ITU-TのSG12では、会話品質を推定するハイブリッドモデルであるP.CQO-L(Objective Conversational Voice Quality Assessment Model - limited scope)の標準化が進められています。

これは、

会話における受聴品質（音声歪み、雑音などの影響を受けた相手の音声に対して受聴者が感じる品質）
送話品質（エコーなどの影響を受けた自分の音声に対して発話者が感じる品質）
相互品質（遅延などの影響を受けた互いの会話のやりとりに対して感じる品質）

の3つの品質値を組み合わせて、会話品質を推定するモデルとして検討が進められています。

5. 音声品質評価特性

本章では、音声品質に影響を与える品質要因に対する主観品質評価特性を掲示します。ここでは、4.1で解説した代表的なプランニングモデルの1つであるE-modelを用いて、各品質要因が変化したときの主観品質評価値の変化を示します。E-modelでは主観品質評価に対応する値としてR値と呼ばれる品質評価値を算出します。R値はIP電話の音声品質を判定する指標として用いられており、TTC標準JJ201.01ではクラスA（固定電話並）は80以上、クラスB（携帯電話並）は70以上、クラスCは50以上と規定されています。

5.1. 符号化

音声データを伝送する際には、音声データは符号化処理により圧縮されます。この符号化処理により元の音声と受話側で出力される音声との間には差分が生じ、この歪みにより受話側の音声品質が劣化します。この符号化歪みによる主観品質劣化はE-modelにおいてIe(Equipment impairment factor)というパラメータで表現され、Ieが大きいほど符号化歪みが大きいことを示しています。代表的な符号化方式のIeはITU-T勧告G.113に記載されています。

図5.1.1では、各音声符号化方式の符号化歪みIeおよびR値との関係を示しています。図では、遅延などの他の劣化要因については、E-modelで定められているデフォルト値を用いています。

5.2. パケット損失

IP電話において圧縮された音声データはパケットに格納され、このパケットがIPネットワークを介して伝送されます。しかし、パケットが途中で損失した場合、受話側にすべての音声データが伝送されずに音声品質が劣化します。E-modelでは損失したパケットの割合（パケット損失率）をパラメータとして用いており、Ppl　(Random packet-loss probability) [%]で表されます。音声符号化方式には、データが損失した場合においても、その前後の音声データから損失部分を補間処理　(PLC: Packet Loss Concealment)するものも存在します。すなわち、同じパケット損失率であったとしても、音声品質の劣化の度合いは異なります。そのためE-modelでは、音声符号化方式に対して、Ieに加えパケット損失耐性を示すパラメータとしてBpl（Packet-loss robustness factor）が設定されています。Bplが大きいほどパケット損失に対する耐性が高く、パケット損失率増加による品質劣化が小さいことを示しています。この値もITU-T勧告G.113に記載されています。

図5.2.1では、各音声符号化方式のパケット損失率PplとR値との関係を示しています。G.711のようにPLCを有さない符号化はパケット損失耐性が低く、パケット損失が発生すると大きく品質が低下します。

5.3. 遅延

音声の符号化および復号処理時間やパケットの伝送時間のために、音声が発話されてから受聴者側に音声が届くまでには一定の時間を要します。遅延時間は大きくなればなるほど会話がしにくくなり品質が劣化します。E-modelでは平均片道遅延時間としてT （Mean one-way delay of the echo path） [ms]を用います。また、平均片道遅延時間は、R値と同様にIP電話のクラスを判定する指標としても用いられ、TTC標準JJ201.01ではクラスAは100 ms以下、クラスBは150 ms 以下、クラスCは400 ms以下とすることが規定されています。

図5.3.1では、音声符号化としてG.711を用いたときの、平均片道遅延時間の変化によるR値の変化を示しています。平均片道遅延時間が200msより短い場合、遅延を意識せずに会話を実施することが可能なため、平均片道遅延時間の増加に伴う品質低下量はそれほど大きくありません。一方、片道遅延時間が200msより長い場合、発話タイミングが重なるなど会話が困難になるため、平均片道遅延時間の増加に伴い品質が大きく低下します。

5.4. エコー

ハイブリッド回路（２線－４線相互変換回路）のインピーダンス不整合により発生する信号の回り込みにより、送話音声が送話者側に戻ってくることがあります。このような音声をエコーと呼びます。E-modelではエコーの大きさを示すパラメータとして送話者エコーTELR（Talker echo loudness rating [dB]を用います。TELRが小さいほど送話者エコーが大きいことを示します。

図5.4.1では、音声符号化としてG.711を用いたときの、送話者エコーの変化によるR値の変化を平均片道遅延時間 100 ms, 300 ms, 500 msごとに示しています。平均片道遅延時間が大きいほど、送話者エコーの増加に伴う品質の劣化が大きいことがわかります。これは、遅延時間が短いときには発話音声に隠れてエコーが知覚されませんが、遅延時間が長いときには発話音声とエコーとの間のズレが大きくなってエコーが知覚されやすくなるため、エコーが大きくなるにつれ品質が大きく低下します。

5.5. 音量

E-modelでは音量に関するパラメータとしてSLR（Send loudness rating）[dB], RLR（Receive loudness rating）[dB]が用いられます。それぞれ送話ラウドネス定格、受話ラウドネス定格と呼ばれ、送話側、受話側での音量をそれぞれ示しています。いずれの値も小さいほど出力される音量は大きくなります。SLRとRLRの和はOLR（総合ラウドネス定格: Overall loudness rating）と呼ばれます。

図5.5.1では、総合ラウドネス定格の変化によるR値の変化を示しております。以下にあるように音量は大きすぎても小さすぎても品質は低下します。そのため、通信品質委員会（CIAJ）が制定する電話機通話品質標準規格において、IP電話端末（ハンドセット）の特性はSLR, RLRがそれぞれ8±4[dB], 2±4[dB]とすることが規定されています。