五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

機器學(xué)習(xí)日語文本處理3案例

2021-01-21 22:49 作者:靈遁祖師  | 我要投稿

1.OCR識別從左至右橫排日語文本(預(yù)先將PDF圖書轉(zhuǎn)成識別效果最佳的PNG圖片)

使用tesseract4.0.0及2018版的日文訓(xùn)練集效果最好,但是還是會有誤字需要人工核對。

可以在CloudStudio提供的工作空間中運行。

apt-get install tesseract-ocr

pip3 install Pillow

pip3 install pyocr

需要下載好jpn.traineddata移動至tessdata目錄下,使用以下Linux命令查找對應(yīng)目錄。

find / -name tessdata

測試圖片以及識別效果如下:

橫排日語文本圖片
橫排日語文本圖片OCR識別效果

2.對txt格式日語文本自動分句

使用stanfordnlp,只需下載分句模型ja_gsd_tokenizer.pt即可,對日文引號書名號判斷易出錯,需要人工修正。另外引入mojimoji模塊可對輸入文本進(jìn)行處理將數(shù)字標(biāo)點符號統(tǒng)一為半角格式。

可以在CloudStudio提供的工作空間中運行。

pip3 install torch==1.8.1 stanfordnlp

pip3 install mojimoji

下載速度慢可以使用:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple torch==1.8.1 stanfordnlp

需要下載好日文分句模型ja_gsd_tokenizer.pt移動至stanfordnlp_resources/ja_gsd_models目錄下。

Cloud Studio
code example

測試用日語文本內(nèi)容如下:

英語が得意な彼女は中國語、

日本語、英語の歌、なんでも

歌う。例えば日本語の歌なら

「名探偵コナン」のエンディ

ング「Your Best Friend」がお気に入りだ。

明るくて人懐っこい

彼女はホストファミ

リーのお母さんとも仲

が良い。

ボランティア活動も

されているお母さんは

とてもオープンな方で、

心ちゃんに話しかける口調(diào)はまるで本當(dāng)の家族のよう。

よそよそしさは全くない。心ちゃんも安心しているこ

とが伝わってくる。

將來は高校の先生になりたいと話してくれた心ちゃ

んの、日本での留學(xué)生活はもうすぐ半分を終えようと

している。

執(zhí)行代碼后分句效果如下:

日文分句效果

對案例1中識別出來的的日語文本進(jìn)行分句效果如下:

日語文本分句

3.OCR識別從上至下豎排日語文本(預(yù)先將PDF圖書轉(zhuǎn)成識別效果最佳的PNG圖片)

使用Kindai-OCR代碼及所提供的訓(xùn)練集,需要事先微調(diào)參數(shù),效果不好誤字多難處理。

程序運行時計算量大,CPU負(fù)荷超載導(dǎo)致進(jìn)程被終止,即使限制進(jìn)程數(shù)為1也無法在CloudStudio提供的工作空間中運行。

pip3 install torch torchvision opencv-python scikit-image scipy Polygon3 Pillow Numpy

遠(yuǎn)程服務(wù)器運行代碼:

python3 test.py --cuda=False

代碼運行完畢后,在data目錄下生成result.xml文本文件,data/result/目錄下生成res_t.jpg圖片和res_t.txt文本文件。根據(jù)res_t.txt數(shù)據(jù)容錯提取result.xml文本數(shù)據(jù)即可。

測試圖片及識別效果如下:

豎排日語文本圖片1
豎排日語文本圖片2
豎排日語文本圖片OCR識別效果

運行Kindai-OCR耗時:

./pretrain/vgg16_bn-6c64b313.pth

Loading text detection model from checkpoint ./pretrain/synweights_4600.pth

total words/phones 5748

./data/test/1.png/data/test/1.png

infer/postproc time : 3.928/0.061

save image

./data/test/2.png/data/test/2.png

infer/postproc time : 2.503/0.073

save image

./data/test/3.png/data/test/3.png

infer/postproc time : 2.405/0.077

save image

./data/test/4.png/data/test/4.png

infer/postproc time : 2.600/0.056

save image

./data/test/5.png/data/test/5.png

infer/postproc time : 2.816/0.050

save image

./data/test/6.png/data/test/6.png

infer/postproc time : 2.148/0.034

save image

./data/test/7.png/data/test/7.png

infer/postproc time : 2.847/0.050

save image

elapsed time : 86.77478384971619s

附加:

案例3機器識別豎排日語文本圖片用tesseract4.0.0和針對豎排日文強化過的訓(xùn)練集jpn_ver5.traineddata效果更優(yōu)。

測試圖片以及識別效果如下:

Vertical Japanse Image
Extracted Japanese Text
OCR via?tesseract4.0.0
OCR by jpn_ver5.traineddata


以上



機器學(xué)習(xí)日語文本處理3案例的評論 (共 條)

分享到微博請遵守國家法律
驻马店市| 腾冲县| 班戈县| 固安县| 新沂市| 浪卡子县| 孝昌县| 巴彦淖尔市| 巴林右旗| 松原市| 灵武市| 关岭| 思茅市| 中西区| 游戏| 汨罗市| 肥城市| 西峡县| 来宾市| 察隅县| 贵州省| 随州市| 承德市| 奉化市| 宜君县| 黑山县| 盐池县| 内江市| 大石桥市| 遵义市| 海淀区| 噶尔县| 綦江县| 渝北区| 吉林省| 龙胜| 汾西县| 舞钢市| 安福县| 桦南县| 通州市|