AmazonのAlexaやMicrosoftのCortana、AppleのSiriだけではなく、日本でもLINEのClovaを搭載したWAVEが注目を集めるなど、VUI(音声を使って操作するUIを活用したヴァーチャルアシスタントは日々進化を遂げています。

ただ、こうした音声を使ったプロジェクトは各企業が囲い込みを行っているので、私たちはSDKなどが公開されるまでその中身や仕組を知ることはできません。

もし、これらのプロジェクトがオープンソース化され、世界中の開発者によって改良・改善がなされていたらどうでしょうか。

私たちも、こうした分野に関する知識があればプラットフォームに参加することができ、開発の一翼を担うことができるかもしれません。

実は、「Mozilla Foundation」がオープンソースの音声プラットフォームプロジェクト「Project Common Voice」をローンチしていきました。

音声認識(Voice Recognition)の分野はまだまだ発展途中であり、Mozillaはこのプロジェクトをオープンソース化することで一気にこの分野での勢力を拡大しようとしています。
注目すべきは、プログラマーだけではなく、ノンプログラマーもこのプロジェクトに参加してプロジェクトを前進させる一助となることができるのです。音声認識がオープンソースによって気軽に使えるようになれば、私たちの生活で音声AIがより身近になるかもしれません。

今回は、Mozillaが推し進めるオープンソースの音声認識プロジェクト「Project Common Voice」の概要をお伝えします。
  

音声認識プログラムに対する需要

microphone.jpeg
画像参照元:pexels.com

FOSSBYTES の報道によれば、Googleがモバイル端末での全検索の約20%(つまり5回中1回)は音声検索を使っていることが昨年明らかになったといいます。

そして、テキストを使ったサーチに対して、音声検索はますます勢いを増して増えてきています。実際、何年もの間、音声認識とその使い道はテック界を牽引してきた巨大企業にとって重要な要素となっています。SiriやCortana、AlexaやGoogle Assistantがその顕著な例と言えるでしょう。

WIRED によれば、何人もの専門家が音声認識の技術を[「NBT」](The Next Big Thing=次にやってくる世界を変える技術):blank だと考えています。

現在、iPhoneのようなタッチスクリーンのデバイスが何億人ものポケットに入っていますが、そのうちポケットの中にはスクリーンすらないデバイスに置き換わってしまう(Alexaのポケット版のようなものが出るのも時間の問題)かもしれません。しかし、オープンソースの世界では、音声認識に対する研究開発は遅れ気味であったことは事実です。AppleやMicrosoft、AmazonやGoogleは、こうした音声認識に関する技術を囲い込んでおり、世界中の開発者がイノベーションを起こしにくい状況となっていました。

その事実にメスを入れようとしたのが、Firefoxブラウザの生みの親でもあるMozillaです。Mozillaは2017年6月に、Project Common Voice と呼ばれるプロジェクトをスタートさせました。