【本科啟蒙論文】圖像處理技術(shù)在文字識別領(lǐng)域的應(yīng)用
前言:因?yàn)椴幌朐诒究破陂g認(rèn)真寫的文章,只是給課程評個分就消失,所以在專欄投一下稿。
這個系列就叫【本科啟蒙論文】
摘要:圖像中的文字識別技術(shù)受眾廣泛,在各大文字編輯軟件中都是炙手可熱的收費(fèi)服務(wù)。本篇主要介紹了文字識別技術(shù)的基本實(shí)現(xiàn)原理、傳統(tǒng)的OCR技術(shù)、文字識別的MATLAB實(shí)現(xiàn)、業(yè)內(nèi)技術(shù)現(xiàn)狀、以及騰訊旗下的領(lǐng)頭技術(shù)標(biāo)準(zhǔn),以此來介紹圖像處理技術(shù)在文字識別領(lǐng)域的情況。
關(guān)鍵詞:計(jì)算機(jī)視覺、圖像處理技術(shù)、文字識別、OCR技術(shù)
隨著知識爆炸,借助紙質(zhì)媒體、網(wǎng)絡(luò)媒體等途徑,我們每天都在接觸大量的信息。但是當(dāng)我們發(fā)現(xiàn)某些信息是有啟發(fā)性、有價值的,又苦于如何將這些信息保存下來。由于這些信息的載體豐富多樣,有的是紙質(zhì)書,有的是網(wǎng)頁報(bào)道,有的是PDF文件,沒有按照統(tǒng)一的方式存儲,不利于對其進(jìn)行整理歸納。再加上這些內(nèi)容往往是不可直接修改的,無法對里面的內(nèi)容編輯整理。舉個例子:當(dāng)我們看書發(fā)現(xiàn)一篇文章寫得針砭時弊,想記錄下來同時寫點(diǎn)感想,此時我們通常需要將文章部分內(nèi)容輸入到word等編輯器中,然后再寫下自己的心得體會;又比如當(dāng)我們手握一大堆紙質(zhì)報(bào)表,需要核算其中的數(shù)據(jù)信息,此時我們通常需要將報(bào)表內(nèi)容輸入到Excel中,然后才能進(jìn)行數(shù)據(jù)分析。這種繁瑣的工作限制了我們的想象,我們百分之九十左右的時間基本花費(fèi)在將這些內(nèi)容轉(zhuǎn)成word、Excel等編輯器中,嚴(yán)重影響學(xué)習(xí)工作效率。如果能夠高效自動地將優(yōu)質(zhì)紙質(zhì)文檔轉(zhuǎn)成可直接編輯的電子文檔,將極大解放鍵盤上忙碌的雙手,提高學(xué)習(xí)工作的效率。
隨著圖像分析技術(shù)不斷發(fā)展,我們可以將各類非同源文檔通過移動終端轉(zhuǎn)成圖片,然后通過相關(guān)技術(shù)重建出可以直接編輯的電子文檔,具體流程如下:獲得用戶拍攝或者上傳的圖片;交由圖像AI進(jìn)行相關(guān)處理;最后生成可編輯的電子文檔[1]。
將紙質(zhì)文檔轉(zhuǎn)為電子文檔的時候,通常使用的方法是將紙質(zhì)文檔拍照后進(jìn)行OCR識別,將照片中的文字提取出來,然后復(fù)制粘貼為電子文檔[1]。
OCR文字識別技術(shù)
光學(xué)字符識別簡稱為“OCR”。是指對包含文本資料的圖像文件進(jìn)行分析處理,獲取文字及版面信息的技術(shù)。主要過程包含:圖像輸入、圖像預(yù)處理、版面分析、字符切割、字符識別、版面恢復(fù)、圖像后處理與核對。
由于OCR只能識別圖片中的文字,用戶在粘貼之后還需要進(jìn)行重新將電子文檔排版、修正,這將會花費(fèi)用戶大量的時間。同時因拍攝的紙質(zhì)文檔中會存在大量的文字外內(nèi)容,例如表格、圖片、段落樣式、文字樣式、排版,如果使用單一的OCR通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的能力,則無法將圖片中的數(shù)據(jù)準(zhǔn)確的識別,并且圖片等不需要識別的內(nèi)容也無法保留下來。如下圖所示因無法判斷是否為圖片,將地圖中的文字也進(jìn)行了識別,并且表格也無法保留,導(dǎo)致后期需要大量的時間進(jìn)行文檔的修改。
?
MATLAB實(shí)現(xiàn)文字識別[2]
我們已經(jīng)學(xué)習(xí)過使用的MATLAB軟件就可以使用代碼實(shí)現(xiàn)圖片中的文字識別。
從人的思維方式出發(fā),我們發(fā)現(xiàn)識別文字主要有三步。一、提取文字。找到想要查詢的字。二、特征提取。找到想要查詢的文字的特征或者結(jié)構(gòu)組成。三、識別文字。在字典中找到對應(yīng)的字。在程序中我們依然是執(zhí)行這三步。依次對原始圖像進(jìn)行灰度處理:將要處理的圖片以二維矩陣形式存儲并進(jìn)行中值濾波。中值濾波可以消除圖片中的噪聲,是空域內(nèi)的非線性濾波;膨脹和腐蝕:邊緣檢測算法,強(qiáng)度小于閾值0.25的邊緣被省略掉,對邊緣檢測后的圖像進(jìn)行腐蝕后進(jìn)行平滑處理;選擇文字區(qū)域:移除干擾的小方塊之后選擇剩余的文字區(qū)域;進(jìn)行字符分割:按照字符的間隔進(jìn)行自動的字符分割;創(chuàng)建字符模板;字符與數(shù)據(jù)庫中進(jìn)行匹配;對圖像中文字識別輸出;
?
業(yè)內(nèi)技術(shù)現(xiàn)狀
主流市場的文字識別軟件能夠識別出圖片中的表格、圖片、公式、段落樣式、文字樣式、排版等內(nèi)容,并可以在保證內(nèi)容不丟失的情況下直接插入到文檔中,將紙質(zhì)文檔一鍵轉(zhuǎn)換成可直接編輯的電子文檔。它們解決了傳統(tǒng)方案中識別內(nèi)容丟失和文檔格式不兼容等問題,減少了用戶后期重復(fù)編輯的時間,大大提升了用戶的工作效率[1]。
他們的系統(tǒng)框架主要包括以下三個環(huán)節(jié):
(1)先對文檔進(jìn)行版面分析,版面分析是對版面內(nèi)的圖像、文本、表格信息和位置關(guān)系進(jìn)行自動分析、識別和理解的過程,決定了恢復(fù)出來文檔的完整性和質(zhì)量;
(2)版面分析得到段落、圖片、表格等結(jié)構(gòu)化信息后,再進(jìn)行OCR識別和表格恢復(fù); (3)生成用戶可以直接編輯的格式。
?
目前業(yè)界在版面分析領(lǐng)域,一般采用對二值化圖像提取連通域的方法,設(shè)計(jì)人為經(jīng)驗(yàn)規(guī)則提取相應(yīng)特征,然后利用決策樹、SVM分類器得到每個區(qū)域的類別。整個流程依賴人為設(shè)計(jì)的特征,對傾斜旋轉(zhuǎn)圖像不夠魯棒,泛化性較差。在OCR識別領(lǐng)域:主要通過深度學(xué)習(xí)如Faster-RCNN、EAST算法、LSTM\RNN等技術(shù)檢測識別文本行。在表格恢復(fù)領(lǐng)域:目前業(yè)界一般利用Canny算子提取邊緣,計(jì)算單元格坐標(biāo)位置從而恢復(fù)出表格,對模糊等低質(zhì)圖像效果不理想,后處理繁雜。
因此,針對版面分析、表格重建痛點(diǎn)問題,騰訊會議利用端到端深度學(xué)習(xí)模型對文檔圖像進(jìn)行語義分割,進(jìn)而提取結(jié)構(gòu)化的語義信息,最后對不同類型的區(qū)域進(jìn)行相應(yīng)的增強(qiáng)恢復(fù)。特別針對表格重建,同時引入CNN提取表格邊線,免去許多復(fù)雜后處理流程。
?
騰訊使用的文字識別技術(shù)[1]
騰訊的技術(shù)方案從用戶的角度出發(fā),能夠?qū)崿F(xiàn)對包含文檔的圖像進(jìn)行檢測,對扭曲的文檔進(jìn)行校正。然后通過版面分析模塊,得到段落、圖表等興趣區(qū)域,針對每個區(qū)域進(jìn)行相應(yīng)增強(qiáng)恢復(fù)處理。最后根據(jù)閱讀順序,生成用戶可以直接編輯的電子文檔。
輸入模塊主要是進(jìn)行預(yù)處理操作,分為自動框選和扭曲矯正兩個步驟。自動框選利用HED深度學(xué)習(xí)模型對圖片中文檔區(qū)域進(jìn)行框選,扭曲矯正算法利用DocNet深度學(xué)習(xí)模型對文檔圖片進(jìn)行扭曲矯正。這兩個步驟目的是生成高質(zhì)量的文檔圖片,提供版面分析效果。
版面分析模塊利用了圖像分割模型UNet對文檔版面進(jìn)行學(xué)習(xí),分割出圖片中的段落、表格、圖片、公式等元素,為了處理多欄、環(huán)繞等復(fù)雜版面,我們特意設(shè)計(jì)的版本分割線的學(xué)習(xí),這樣有利用提高版本分析的效果。后處理模塊,主要是對圖像分割模型產(chǎn)生mask圖片進(jìn)行處理,處理mask圖像中的相交、包含等區(qū)域,劃分出各個類型的子塊,根據(jù)各個子塊的位置以及分割線生成版面信息。
排版模塊的工作是根據(jù)版面信息生成最終的word文檔,對于不同類型的子塊進(jìn)行差異化處理。對于文字類型的子塊,組段算法是利用OCR技術(shù)對文字塊圖片的文字信息進(jìn)行組段,生成有語義信息的段落,并且利用了圖像分割技術(shù)對文字塊進(jìn)行字體識別,識別出文字塊中粗體、斜體、下劃線、宋體、隸書等字體信息。對于表格類型的子塊,運(yùn)用圖像分割技術(shù)對表格框線像素進(jìn)行識別,再結(jié)合OCR文本框坐標(biāo)關(guān)系,推斷出單元格的位置,最后對單元格內(nèi)容進(jìn)行分析,進(jìn)一步得到單元格字號和對齊方式。而對于圖片、公式類型,直接切圖輸出圖片。最后,為了提高用戶的閱讀體驗(yàn),騰訊設(shè)計(jì)了閱讀順序算法,根據(jù)子塊的位置、語義信息,復(fù)原文檔的閱讀排序[1]。
未來展望
如果運(yùn)用深度學(xué)習(xí)針對拍照圖片中文檔的格式進(jìn)行學(xué)習(xí)識別,采用實(shí)體抽取技術(shù)實(shí)現(xiàn)了一鍵提取圖片中文檔的表格、圖片、公式、段落樣式、文字樣式、排版等格式,并將包含文字、段落、排版的內(nèi)容自動插入到電子文檔中,如圖片中識別出表格和表格的內(nèi)容,會把圖片中的表格還原成一個真的電子表格并插入到文檔中。相比傳統(tǒng)的OCR文檔識別,就可以更加完整地恢復(fù)文檔中的表格、段落樣式、文字樣式、和文檔版面。使這一項(xiàng)文字識別技術(shù)真正成為一項(xiàng)生產(chǎn)力工具。在未來也能夠結(jié)合更多的技術(shù)創(chuàng)新,如實(shí)時翻譯、多語言識別等技術(shù),取代更多傳統(tǒng)的職業(yè)技術(shù),為人們的生活帶來更多的便利。
2018年由阿里云舉行的天池ICPR MTWI 2018 挑戰(zhàn)賽接受了1424名隊(duì)伍的報(bào)名[3]。選手們就網(wǎng)絡(luò)圖像的文本檢測的主題,在大賽上摩擦出激烈的火花,也創(chuàng)造出許多的技術(shù)。為文字識別提取技術(shù)開拓出一篇藍(lán)海。
在2021年的CVPR頂會上,PaddleOCR團(tuán)隊(duì)對最新發(fā)布版本內(nèi)容進(jìn)行了技術(shù)深入解讀。2021年9月7日發(fā)布的V2.3版本CP推理速度相對于PP-OCR server提升了220%,效果相比PP-OCR mobile提升了7%[4]。
短短幾年的快速發(fā)展,顯示出該領(lǐng)域的仍未展先出的潛力。相信相關(guān)從業(yè)者、也就人員也會在這項(xiàng)技術(shù)走入普通民眾的辦公工具中的路上,對這項(xiàng)技術(shù)更加的完善,粉飾。創(chuàng)造出更多的價值。
參考文獻(xiàn)
[1]?totoralin.走進(jìn)AI時代的文檔識別技術(shù)之文檔重建[J/OL]..2019-06-17.
[2]矮腳獸.MATLAB數(shù)字圖像處理-識別廣告牌上的文字[J/OL].2020-6-22.
[3]阿里云.天池大賽.ICPR MTWI 2018 挑戰(zhàn)賽二:網(wǎng)絡(luò)圖像的文本檢測[EB/OL]
[4]?PaddlePaddle.PaddleOCRv2.3[EB/OL]