ASR的识别率到底有没有衡量标准？

Gary 2023-08-02

最近不少客户知道我们天天讯通除了有人工系统OKCC，还有AI机器人系统。陆陆续续也就有客户来询问我们AI机器人的合作政策，同时也有客户问到我们AI机器人的识别率怎么样？我一般回复是：比一线差一点点。说好了是黄婆卖瓜自卖自夸，识别率没有一个衡量标准，百分之多少是好，百分之多少是不好，标准基准线在哪？

基准线我不知道，但是有个衡量公式。接下来说说两个问题：

一、ASR的识别率有没有衡量标准，如果有，公式是怎样的？

ASR（Automatic Speech Recognition）语音识别技术的识别率通常使用WER（Word Error Rate）来衡量，也称为词错误率。WER是通过计算识别结果与参考文本之间不匹配的单词数量来确定的，然后将其除以参考文本中的单词总数，得到一个百分比。

WER 的计算公式如下：

WER = (S + D + I) / N

其中：

S 是替换错误（substitution errors）的数量，即识别结果与参考文本不同但是替换了一个单词；

D 是漏识错误（deletion errors）的数量，即参考文本中有但是未被识别出来的单词数量；

I 是插入错误（insertion errors）的数量，即识别结果中没有但是在参考文本中存在的单词数量；

N 是参考文本中的单词总数。

可以使用WER来比较不同ASR系统的性能，因此WER是衡量语音识别技术性能的重要指标之一。

二、不同语种和不同方言对ASR是识别率有什么影响，是否可以优化，具体怎么优化？

不同语种和不同方言对ASR识别率有很大的影响。首先，不同语种的语音特征会有所不同，因此需要针对每种语种进行单独的训练和优化。其次，即使在同一种语言中，不同的方言或口音也会导致语音信号的差异，从而影响ASR的准确性。

为了优化不同语种和方言的ASR识别率，可以采取以下方法：

收集并整理语音数据：收集足够数量且具有代表性的语音数据是提高ASR识别率的关键。对于不同语种和方言，应该收集各自的语音数据，并进行相关的清理、标注和整理工作。

针对不同语种和方言进行模型训练：使用收集到的语音数据，可以针对不同语种和方言分别进行模型训练。通常情况下，需要利用该语种的文本数据来训练相应的语言模型，以便更好地处理该语种的语音信号。

选择合适的特征提取技术：不同语种和方言的语音特征差异较大，因此需要选择合适的特征提取技术。例如，基于梅尔频率倒谱系数（MFCC）的特征提取技术可以适用于大多数语种，但对于某些语种或方言可能不太适用。因此，需要根据具体情况选择合适的特征提取技术。

确定合适的语音识别算法和模型结构：不同的语音识别算法和模型结构适用于不同的语种和方言。例如，循环神经网络（RNN）和卷积神经网络（CNN）可以同时处理时间序列和频域信息，适用于大多数语种。但是，对于一些特殊的语种或方言，可能需要使用其他类型的算法或模型结构。

进行后期优化和改进：在完成初步的训练和优化之后，还可以通过进一步调整参数、增加数据量、融合其他模型等方法来进一步提高ASR的准确性。