特徴1 Googleの技術で多言語・方言対応と高精度な音声認識
Speech-to-Textは、Google Cloudの音声基盤モデルChirpを利用した音声認識ソフトです。数百万時間分の音声データと数十億のテキスト文でトレーニングされたモデルにより、従来技術よりも多くの言語や方言に対応し、認識精度と音声文字変換の品質を向上させます。
特徴2 リアルタイムな音声認識結果の取得を可能にするストリーミング
アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイルから取得した音声入力をAPIで処理し、音声認識の結果をリアルタイムに受け取ることができます。ユーザーは即座に音声認識結果を確認し、活用することが可能です。
特徴3 モデル適応機能を使用した高精度音声認識
AI技術を活用したモデル適応により、頻繁に使用される単語の認識精度を向上させ、音声文字変換に利用できる語彙を増やします。ノイズの多い音声からの文字起こしも改善可能です。ユーザーは、特定の単語やフレーズを優先的に認識するようにカスタマイズできるため、用途に応じた最適な音声認識が可能です。