語(yǔ)音識(shí)別 | 基于端到端的ASR論文集
目前基于端到端的語(yǔ)音識(shí)別已經(jīng)取得了非常好的效果,在很多論文中已經(jīng)取得了比傳統(tǒng)語(yǔ)音識(shí)別更好的效果,業(yè)界也已經(jīng)有產(chǎn)品級(jí)別的端到端的語(yǔ)音識(shí)別的應(yīng)用,并取得了不錯(cuò)的效果。
基于端到端的語(yǔ)音識(shí)別方法包括基于CTC的方法,基于RNN-T的方法,基于Attention Encoder-Decoder的方法。
主要有兩個(gè)分支:
1. attention類(lèi):LAS雖然性能好,但不能滿(mǎn)足流式;
2. transduers類(lèi):這類(lèi)天然自帶流式方案。
那近期,語(yǔ)音識(shí)別中基于端到端的方法有哪些?又有哪些相關(guān)的工作呢?
在GitHub上有伙伴整理好了相關(guān)的參考論文(https://github.com/xingchensong/speech-recognition-papers)
分類(lèi)主要分為:
Streaming ASR
RNA based
RNN-T based
Attention based
Unified Streaming/Non-streaming models
Non-autoregressive (NAR) ASR
ASR Rescoring / Spelling Correction (2-pass decoding)
On-device ASR
各個(gè)類(lèi)別共61篇論文~
有需要的站友們,可長(zhǎng)按識(shí)別下方鏈接,免費(fèi)獲取PDF版論文:
https://www.shenlanxueyuan.com/page/38