语音识别的全称是自动语音识别(Automatic Speech Recognition,ASR),说得多了,就把“自动”省去了,认为“自动”是理所当然的了。语音识别属于序列转换技术,它将语音序列转换为文本序列。大体来说,这是一次搬运,是把一段话的表现形式从语音变成了文本,至于文本想要表达的深层含义(自然语言理解)、倾诉的感情(情感识别)、说话人的身份(说话人识别),就需要其他的技术来处理,所以语音应用开始时是分工明确的,但这显然不符合人类对语音的感知和理解,所以后来的技术也有了不同程度的整合和联合学习。如何实现有效的语音识别,无非是,先确定问题,然后找个模型,最后训好它。
发布单位:清华大学语音和语言技术中心