ROKAVOX
誰が/いつ/何を話したか分析し、
会話をインサイト化
話者分離 × 文字起こしで、会話データが価値になる
会話を詳細に分析できなければ、会話データの活用は限定的
❌
重なり発話で音声認識の精度が低下
❌
会話の発言者が不明
❌
話者のラベル付けや整理が必要
その結果、会話データが「記録」に留まり「インサイト」にならない
私たちは音声AIで会話データをインサイトに変えます。
話者分離
音声データから、話者ごとに音声を分離します。 音声に重なりがあったとしても、ノイズが多かったとしても、高精度に話者分離します。 「誰が」「いつ」話したかを特定し、会話の全体像を把握できます。
日本語音声によるSI-SNRi評価で、従来比2倍以上の精度を実現しました。
指標: 平均 SI-SNRi(dB)
-5
0
5
10
15
20
SI-SNRi(dB)
本手法
18.11 dB
sepformer
8.41 dB
pyannote_ami
-3.94 dB
自社開発のAIモデル
日本語音声に特化した自社開発モデルを採用し、高精度な話者分離を実現しています。
リアルタイム処理
10秒の音声分析にかかる時間は1秒未満のため、会話中にリアルタイムで処理可能です。
既存システムに組み込み可能
既存の文字起こしシステムの前段階に組み込みが可能です。