如何對視頻進(jìn)行翻譯(視頻內(nèi)的聲音/文字)并且生成翻譯后的字幕或者配音

視頻翻譯的幾種情況
根據(jù)視頻的聲音進(jìn)行翻譯并生成字幕
一般來說我們是使用自動語音識別(Automatic Speech Recognition,ASR)技術(shù)對視頻的聲音進(jìn)行翻譯并生成字幕,常規(guī)的操作步驟如下:
確定翻譯軟件:選擇一個支持ASR技術(shù)的翻譯軟件;
上傳視頻:將需要處理的視頻上傳到翻譯軟件中,支持多種視頻格式;
開始語音識別:啟動語音識別功能,講聲音提取成文字;
翻譯文本:使用翻譯軟件,比如chatgpt,谷歌翻譯,百度翻譯,deepll翻譯等工具,講提取到的問題翻譯成目標(biāo)語言的文字;
生成字幕:經(jīng)過翻譯后,您可以選擇將文本轉(zhuǎn)化為字幕,軟件一般提供簡體中文、繁體中文、英文、日文、韓文等多種語言,選擇需要的語言字幕后,即可生成字幕文件。
剪輯合成,使用剪輯工具,將帶時間軸的字幕文件,合并到視頻當(dāng)中,這樣就獲得一個翻譯后的視頻文件啦。
? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ?

根據(jù)視頻內(nèi)的字幕進(jìn)行翻譯
這個原理其實(shí)和聲音提取翻譯的邏輯是類似的,不過用到的是OCR的技術(shù),常規(guī)的操作步驟如下:
獲取視頻中的文字:要生成視頻字幕,首先需要從視頻中獲取文字。如果視頻中已經(jīng)存在文字,可以直接使用該文字進(jìn)行翻譯和生成字幕;如果沒有文字,可以通過OCR技術(shù)將視頻里出現(xiàn)的文字識別出來,然后再進(jìn)行翻譯和生成字幕。
確定翻譯軟件:選擇一個支持文本翻譯的軟件,如Google Translate、deepl.`、百度翻譯,Microsoft Translator等。
翻譯文本:選定需要翻譯的語言,翻譯軟件將自動將文本翻譯為對應(yīng)的語言。一些翻譯軟件還提供辭典和翻譯建議,以保證翻譯結(jié)果的準(zhǔn)確性。
生成字幕:翻譯完成后,您可以選擇將翻譯結(jié)果轉(zhuǎn)化為字幕文件,軟件一般提供簡體中文、繁體中文、英文、日文、韓文等多種語言的字幕模板可供選擇。
剪輯合成,使用剪輯工具,將帶時間軸的字幕文件,合并到視頻當(dāng)中,這樣就獲得一個翻譯后的視頻文件啦,
這里面有一些難點(diǎn),比如要保留一些字幕的樣式,位置,大小,等等,這個我們后面再講。
這里也放上一個案例:

視頻翻譯并生成畫外音-例中文翻譯英語
這個整體的操作流程和上面的非常相似,就是在拿到視頻的SRT字幕文件后,找到一個合適的TTS軟件,講文字變成聲音,重復(fù)的過程就不在復(fù)數(shù)了, 這里面有比較多的小細(xì)節(jié)需要注意,聲音的音色,視頻畫面的對齊。
翻譯并配音,圖片沒有辦法展示配音效果,就不放案例了,放一下操作界面

視頻翻譯的難點(diǎn)
口音或方言難以處理:部分視頻的主要語言可能是一些具有濃厚方言或口音的語言,這種情況下視頻翻譯需要處理這些方言問題,而這往往需要翻譯工具有相應(yīng)的方言識別或處理能力。
畫面對齊:視頻中說話者語速有時可能會非??欤蛘邥和r間比較長,翻譯工具需要有相應(yīng)的能力調(diào)節(jié)這些不規(guī)則的語速。
特定行業(yè)詞匯或術(shù)語:有些視頻涉及到特定領(lǐng)域或行業(yè),其用詞和術(shù)語的難度比較高,需要有相應(yīng)的專業(yè)知識儲備和理解能力來正確翻譯,否則難以準(zhǔn)確地傳達(dá)視頻信息。(deepl在一些詞匯的精度上相對較好)
翻譯精度問題:自動翻譯工具雖然能實(shí)現(xiàn)視頻翻譯的自動化,但對于詞匯的多義性、上下文含義、別稱、俚語等問題,其翻譯精度還需要不斷提高。(chatgpt翻譯上下文關(guān)聯(lián)的能力比較好)
翻譯風(fēng)格的問題:視頻中文字或者聲音柔和平靜或者激動激烈,選用不當(dāng)?shù)姆g詞匯或者翻譯風(fēng)格將影響視頻的傳達(dá)效果。對于這些問題還需要考慮人工翻譯來保證翻譯質(zhì)量。當(dāng)然如果在低成本或者是大量的翻譯工作上來看,可以優(yōu)先機(jī)器,然后人工交參雜工作。
人工翻譯和視頻翻譯的對比

全能AI視頻翻譯軟件-GhostCut





翻譯調(diào)整界面(chatGPT翻譯引擎)