更新日:2020/05/01

    挑戦する研究者たち
    最高のサービスと信頼を提供し続けよう「音声・音響信号符号化の研究者」としてのポリシーを貫くことが私の責任である守谷 健弘 守谷特別研究室室長 フェロー
    NTT コミュニケーション科学基礎研究所

    PCやインターネット、電話を利用して業務や会議を行うことで、移動時間の削減やクラウド等の活用による仕事の効率化、働き方の多様化が加速しています。テレビ会議において音質が臨場感に与える影響が大きいといわれている中、テレワーク等で活用されるテレビ会議やテレビ電話に限らず固定電話、携帯電話等の音声の音質に関するNTTの研究成果が世界に大きく貢献しています。約40年にわたり音声・音響信号符号化の研究に携わるNTT コミュニケーション科学基礎研究所守谷健弘フェローに、現在取り組んでいる研究と研究者としての姿勢を伺いました。

    ゴールは一番早く欲しがってくださるお客さまのニーズに合わせる

    これまで取り組んでこられた研究について教えてください。

    私は、音声や音楽の信号をデジタル化し、それを効率良く、かつ再生時の再現性を高く情報圧縮する、音声・音響信号符号化の研究を約40年にわたり行ってきました。例えば、携帯音楽プレーヤやデジタル放送などから聞こえてくる音楽は、本来の信号ではなく情報量的には10分の1くらいに圧縮されたものが提供されています。音の品質を保ちながら信号を圧縮し、再現する方式に関する研究です。約50年前からデジタル信号処理による音声音響信号符号化技術が進展してきています(図1)。この図の詳細の説明は割愛しますが、世界の多くの研究者やエンジニアの努力によってこれらの技術が築かれました。1990年代からは電話や放送などのかたちで日常生活やビジネスに大きな貢献をしてきています。音声音響の多くの技術分野の中で圧縮符号化技術がもっとも大きな市場貢献をしてきていると思います。

    1980年代前半には、固定網は高速光ファイバ、移動網(携帯電話)はアナログ伝送が主流でデジタル化の可能性は不透明でした。このため音声のデジタル圧縮符号化技術は応用用途を見失いつつありました。ところが1990年代には一転して世界の携帯電話がデジタル化に動き、デジタル圧縮符号化技術がにわかに重要になってきました。1990年代に低ビットで伝送符号誤りがあっても音質を担保できることなどの条件をクリアした成果はコンテストで日本標準方式に採用され、第二世代の携帯電話で使用されました。第三世代の携帯電話やIP電話においても私たちの要素技術が採用され、世界中の携帯電話の音声品質の向上に貢献しています。

    その後2010年ごろ移動通信システムの国際標準化団体である3GPP(3rd Generation Partnership Project)において、世界統一の第4世代の移動体通信ネットワークであるVoLTE(Voice over Long-Term Evolution) 向けに新たな符号化の制定が強く望まれました。これにこたえてNTTグループも含む世界の多くの専門家による競争と協力によって、音声音響統合符号化方式としてEVS(Enhanced Voice Services)が国際標準化されました。

    それまでの携帯電話向け音声符号化方式は人間の発声メカニズムにならったCELP(Code Excited Linear Prediction)という方式が用いられ、人間の声を低ビットレートで高品質に伝送してきました。EVSではCELPに加えて新たに開発された低遅延の音楽向け符号化を組み合わせることにより、それまで実現できなかった、背景雑音や背景音楽を含む音声あるいは音楽を高音質のまま低遅延で伝送することができます。標準化の過程で、第三者機関によってさまざまな条件・音源・言語での大規模な主観品質評価試験が行われ、従来方式よりも格段に高品質であることが確認されました。これにより、EVS方式は世界の電話会社、電話機メーカ、チップメーカに一斉に採用されるに至り、すでに日本国内で使っていただいているスマートフォンどうしの通話はこれまでの電話にないほど広帯域で高品質になっています。

    図1 音声音響符号化の開発経過
    図1 音声音響符号化の開発経過

    大きな成果を上げられたのですね。

    約40年前から、電話の音質をどう高めるかという試行錯誤をNTTのチーム、世界中の有力な研究者やエンジニアとともに繰り返し、結果的に世界の人たちに使ってもらえるようになっているのは大きな喜びです。…

    関連するコンテンツ