TOP 音声認識の仕組み

音声認識の仕組み

声で書く、声で動かす。人と機械の新しいコミュニケーション

多くの人にとって、最も簡単なコミュニケーション手段は声のやりとりです。
音声認識技術の発展によって、キーボード入力やボタン操作など今までの不自由なコミュニケーションから、人間本位なコミュニケーションが可能になってきています。

音声認識の基本的な仕組み

私たちは、普段の会話の中で他人の音声を認識して意味を理解できるため、それが難しいことだとは思っていません。
しかし、話す人の性別、話し方の癖、言葉遣いなど様々な要因で、同じ内容の声でも様相は大きく異なるため、コンピューターにとって、音声を正しく認識することは簡単なことではありません。
音声認識処理では、声の情報と言語の情報を密接に組み合わせながら、文字へと変換します。

音響モデル

音響モデルは、この周波数成分や時間変化の分析を使ってその声が何かを判別します。
一般的な音響モデルは、数千人、数千時間の音声を統計的に処理したものを基礎としています。
波形を切り出し、特徴量を調べ、
音響モデルの元となる音素モデルを作成します。
波形を切り出し、特徴量を調べ、
音響モデルの元となる音素モデルを作成します。

言語モデル

文字列や単語列が日本語として適切かを評価するために使われます。日本語テキストを多く集め、統計処理したものが言語モデルです。

発音辞書

言語モデルの単語と音響モデルを結びつけるために発音辞書が使われます。
音響モデルは声の最小単位の"音素"ごとにモデル化されており、音素音響モデルを発音辞書に従って連結して、単語発話に相当する単語音響モデルを構成します。

AmiVoiceの特長

「いつでも、どこでも、誰でも」
AmiVoiceは、国内シェアNo.1の音声認識技術です。ビジネスや日々の生活に密着した多種多様なサービスにお使い頂けます。

※出典:ITR「ITR Market View : AI市場2020」音声認識市場ベンダー別売上金額シェア(2015~2020年度予測)

ディープラーニング技術

最新のディープラーニング技術や、ディープラーニングの発展技術であるリカレントニューラルネットワークのLSTM(Long Short-Term Memory)技術をエンジンに実装。高い認識率を誇ります。

幅広い業種と専門用語に対応

20年以上を超える経験とノウハウを元に開発した、医療・金融・自治体・製造・建設など、幅広い業種の専門用語に対応する音声認識エンジンを取り揃えています。企業ごとや業務ごとの個別カスタマイズを行う事も可能です。

自然な話し言葉の認識を実現

アクセントやイントネーション、会話スピードに左右されず、より自然な発話を認識します。事前に自分の話し方のクセを学習させる必要がないため、老若男女を問わず、誰もが簡単に音声認識を行えます。

強力なノイズ除去技術で耐雑音性能

周囲の騒音や雑音は、認識率に大きく影響します。強力なノイズ除去技術で、街中はもとより、工場、自動車・電車・飛行機などの騒音、電話などの聞き取りづらい音声など、利用場所やシーンを選びません。

関連技術

  • 音声対話

    自然言語処理技術を活用し、人と機械との自然な対話を実現します。顧客対応、雑談対応、プロモーションセールス支援など、幅広い場面での活用が可能です。

  • 発音判定

    声のアクセントやイントネーションを音素単位で数値化して分析します。正しい発音と視覚的に比較することで、発音の習得を支援します。

  • 声紋認証

    声に含まれる個人性の情報を用いるバイオメトリッスク認証です。巧みなものまね声も通用しない高度な認証セキュリティを実現します。

各製品・サービス

©2014-2021 Advanced Media, Inc. All rights reserved.
記載の会社名および製品名は、各社の登録商標および商標です。