如何對視頻進(jìn)行翻譯（視頻內(nèi)的聲音/文字）并且生成翻譯后的字幕或者配音

2023-06-15 17:41 作者:島歌少年 0人讀過 | 我要投稿

視頻翻譯的幾種情況

根據(jù)視頻的聲音進(jìn)行翻譯并生成字幕

一般來說我們是使用自動語音識別（Automatic Speech Recognition，ASR）技術(shù)對視頻的聲音進(jìn)行翻譯并生成字幕，常規(guī)的操作步驟如下：

確定翻譯軟件：選擇一個支持ASR技術(shù)的翻譯軟件；

上傳視頻：將需要處理的視頻上傳到翻譯軟件中，支持多種視頻格式；

開始語音識別：啟動語音識別功能，講聲音提取成文字；

翻譯文本：使用翻譯軟件，比如chatgpt,谷歌翻譯，百度翻譯，deepll翻譯等工具，講提取到的問題翻譯成目標(biāo)語言的文字；

生成字幕：經(jīng)過翻譯后，您可以選擇將文本轉(zhuǎn)化為字幕，軟件一般提供簡體中文、繁體中文、英文、日文、韓文等多種語言，選擇需要的語言字幕后，即可生成字幕文件。

剪輯合成，使用剪輯工具，將帶時間軸的字幕文件，合并到視頻當(dāng)中，這樣就獲得一個翻譯后的視頻文件啦。

? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ?

根據(jù)視頻內(nèi)的字幕進(jìn)行翻譯

這個原理其實(shí)和聲音提取翻譯的邏輯是類似的，不過用到的是OCR的技術(shù)，常規(guī)的操作步驟如下：

獲取視頻中的文字：要生成視頻字幕，首先需要從視頻中獲取文字。如果視頻中已經(jīng)存在文字，可以直接使用該文字進(jìn)行翻譯和生成字幕；如果沒有文字，可以通過OCR技術(shù)將視頻里出現(xiàn)的文字識別出來，然后再進(jìn)行翻譯和生成字幕。

確定翻譯軟件：選擇一個支持文本翻譯的軟件，如Google Translate、deepl.`、百度翻譯，Microsoft Translator等。

翻譯文本：選定需要翻譯的語言，翻譯軟件將自動將文本翻譯為對應(yīng)的語言。一些翻譯軟件還提供辭典和翻譯建議，以保證翻譯結(jié)果的準(zhǔn)確性。

生成字幕：翻譯完成后，您可以選擇將翻譯結(jié)果轉(zhuǎn)化為字幕文件，軟件一般提供簡體中文、繁體中文、英文、日文、韓文等多種語言的字幕模板可供選擇。

剪輯合成，使用剪輯工具，將帶時間軸的字幕文件，合并到視頻當(dāng)中，這樣就獲得一個翻譯后的視頻文件啦，

這里面有一些難點(diǎn)，比如要保留一些字幕的樣式，位置，大小，等等，這個我們后面再講。

這里也放上一個案例：

視頻翻譯并生成畫外音-例中文翻譯英語

這個整體的操作流程和上面的非常相似，就是在拿到視頻的SRT字幕文件后，找到一個合適的TTS軟件，講文字變成聲音，重復(fù)的過程就不在復(fù)數(shù)了，這里面有比較多的小細(xì)節(jié)需要注意，聲音的音色，視頻畫面的對齊。

翻譯并配音，圖片沒有辦法展示配音效果，就不放案例了，放一下操作界面

視頻翻譯的難點(diǎn)

口音或方言難以處理：部分視頻的主要語言可能是一些具有濃厚方言或口音的語言，這種情況下視頻翻譯需要處理這些方言問題，而這往往需要翻譯工具有相應(yīng)的方言識別或處理能力。

畫面對齊：視頻中說話者語速有時可能會非?？欤蛘邥和r間比較長，翻譯工具需要有相應(yīng)的能力調(diào)節(jié)這些不規(guī)則的語速。

特定行業(yè)詞匯或術(shù)語：有些視頻涉及到特定領(lǐng)域或行業(yè)，其用詞和術(shù)語的難度比較高，需要有相應(yīng)的專業(yè)知識儲備和理解能力來正確翻譯，否則難以準(zhǔn)確地傳達(dá)視頻信息。（deepl在一些詞匯的精度上相對較好）

翻譯精度問題：自動翻譯工具雖然能實(shí)現(xiàn)視頻翻譯的自動化，但對于詞匯的多義性、上下文含義、別稱、俚語等問題，其翻譯精度還需要不斷提高。（chatgpt翻譯上下文關(guān)聯(lián)的能力比較好）

翻譯風(fēng)格的問題：視頻中文字或者聲音柔和平靜或者激動激烈，選用不當(dāng)?shù)姆g詞匯或者翻譯風(fēng)格將影響視頻的傳達(dá)效果。對于這些問題還需要考慮人工翻譯來保證翻譯質(zhì)量。當(dāng)然如果在低成本或者是大量的翻譯工作上來看，可以優(yōu)先機(jī)器，然后人工交參雜工作。

人工翻譯和視頻翻譯的對比