最近のノイズカットがすごい!AIと音分離の話


これはスタエフの文字起こしをブログ化したものです


いやー、すごい時代になったもんです。昔だったら、こんな街のど真ん中で、外の音を気にしながら収録するなんて、絶対に不可能でした。でも今、僕の声、クリアに聞こえていますよね?

これは、iPhoneに搭載されている「声の分離」という機能のおかげなんです。
周りの車の音や風の音を、AIがリアルタイムでカットしてくれる。本当にすごい技術ですよね。今日はせっかくなので、この音声分離の技術について、少し話してみようかなと思います。

昔の「ボーカル消し」と、今のAI分離は何が違う?

「曲からボーカルだけを消す」みたいな技術って、昔からありましたよね。カラオケ音源を作る時とかによく使われていた、あれです。

でも、昔の技術って、完璧じゃなかった。うっすら声が残ってしまったり、なぜかスネアドラムの音まで一緒に消えてしまったり。

あれって、どういう仕組みだったかというと、すごく単純なんです。
「ボーカルは、大体ミックスのど真ん中に定位している」という特性を利用して、音の真ん中の成分を、ごそっと消したり、逆に残したりしていただけ。だから、同じく真ん中にいるスネアドラムまで巻き添えになったり、完璧に声を消しきれなかったりしたわけです。

でも、今の音声分離技術は、根本的に仕組みが違います。
主役は、AI。
今のAIは、「これが人間の声」「これがドラムの音」というのを、膨大なデータを学習して「知って」います。だから、音の周波数や定位で判断するんじゃなく、音の「特徴」そのものを認識して、分離することができる。

だからこそ、僕が今こうして、車の騒音や風が吹き荒れる中で喋っていても、AIが「これは人の声だ」と判断して、それ以外のノイズを綺麗に消し去ってくれるんです。

まだまだ進化する音声分離。音楽制作の未来も変わる?

もちろん、この技術もまだ完璧ではありません。
楽器によっては、まだ分離が難しいものもあります。例えば、シンセサイザーやストリングスのような、音の輪郭が曖昧な楽器。意外なところでは、ベースの音も、他の低音楽器と混ざってしまって、綺麗に抜けないことが結構あります。

でも、この技術は、これからもっともっと進化していくはずです。
Apple Intelligenceのように、AIがもっとデバイスの深い部分に統合されていけば、この音声分離の精度も、さらに飛躍的に向上するでしょう。

これって、僕のような音楽を作る人間にとっては、とんでもなく大きな可能性を秘めているんです。今までできなかったようなサンプリングやリミックスが、もっと自由に、もっとクリエイティブにできるようになるかもしれない。

そんなことを考えると、ワクワクが止まりませんね。
というわけで、今日はiPhoneのすごい機能から、音声分離技術の未来について、少し話をさせていただきました。また次回も聞いてくださいね!