音声認識 AI に関する一年の振り返り

音声認識 AI に関する一年の振り返り

音声認識 AI に関する一年の振り返り

2022 年には、あらゆる領域で AI ベースの音声認識技術が大活躍しました。Google トレンドでは関心の高まりが測定され、音声パターンによって一部の病気を特定できるという驚くべき医療の進歩がありました。また、ユーザーが音声でコントロールする多様なデジタル サービスとデバイスも登場しました。

Google Cloud は 2022 年、優れた音声認識 AI 技術と自然言語技術をお客様に提供しました。お客様はこれらの技術を幅広いユースケースに活用しています。たとえば、健全な子供の発育を支援するロボットや、通話、ボイスメール、その他の音声操作から得られたデータに基づくカスタマー サービスの改善などが挙げられます。

Google Cloud のクラウド AI および業種別ソリューション担当ゼネラル マネージャーを務める Andrew Moore も説明しているように、音声認識 AI 技術と、関連する機能の進化が今後のビジネスと世界に大きな影響をもたらすことが期待されています。最新情報をすべて把握してから 2023 年を迎えられるよう、この 1 年間の音声認識 AI に関する注目のお知らせを以下にまとめます。

Speech-to-Text(STT)API のビジュアル インターフェース

2 月には、70 以上の言語の 120 種類の地域方言に対応する STT API のビジュアル ユーザー インターフェースについてお知らせしました。STT API を使用すると、デベロッパーは Google の長年にわたる自動音声認識および音声文字変換技術の研究成果を活用して、音声をテキストに変換できます。また、ビジュアル インターフェースによって API がさらに直感的になるため、デベロッパーはより簡単にこの技術をプロジェクトで活用できるようになります。4 月に 5 周年を迎えたこの API は、1 か月に 10 億分間を超える音声を処理しています。これは、米国歴代の大統領の就任演説すべてを 100 万回以上文字起こしできるだけの分量です。

Text-to-Speech(TTS)API のカスタム音声への対応

3 月には TTS API のカスタム音声の一般提供開始をお知らせしました。これにより、人間が話すような自然な音声をテキストから作成できます。カスタム音声を使用すると、企業は独自の音声録音を使用して音声モデルをトレーニングできるため、顧客にユニークなサービスを提供できるようになります。企業は高品質なモデルを作成するためのガイダンスと一緒に、音声録音を直接 TTS API で送信できます。

改良された STT API モデル

4 月には STT API の最新モデルをリリースしました。このモデルは、音響、発音、言語のトレーニング用の個別のモデルではなく 1 つのニューラル ネットワークを使用し、Transformer モデルと畳み込みレイヤを結合する新しいアプローチに基づいたものです。その結果、STT API が対応する数十の言語と方言で精度が大幅に向上しました。12 月に、ブルガリア語、スウェーデン語、ルーマニア語、タミル語、ベンガル語などの言語に対応した最新モデルを追加したため、最新モデルの言語の合計数は 45 を超えました。全言語の一覧はこちらをご覧ください。

Natural Language(NL)API のための大規模言語モデル(LLM)

秋には LLM に関する Google の画期的な調査に基づくコンテンツ分類の新モデルで NL API をアップデートしました。これには、LaMDAPaLMT5 などのプロジェクトが含まれます。最新の複数の言語モデリング アプローチを統合し、トレーニング データセットを更新、拡張することにより、コンテンツ分類は 1,000 を超えるラベルと 11 の言語(英語に加えて、中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、オランダ語)に対応するようになりました。

続きは Google Cloud ブログ へ

テクノロジーカテゴリの最新記事