五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

字體映射反爬

2022-01-15 23:15 作者:灰色de世界  | 我要投稿

?

網(wǎng)站鏈接:http://www.porters.vip/confusion/movie.html


本文涉及

網(wǎng)站的關(guān)鍵數(shù)據(jù)由其他字符替代

F12里面無法顯示可以從網(wǎng)頁源碼里找,如圖

先把其他常規(guī)內(nèi)容搞上,

在試過css,xpath和bs4后,

發(fā)現(xiàn)"\u"型的數(shù)據(jù)只能用re才能提取

接就是解決 字體映射問題

在network里面找到一個(gè)font類型數(shù)據(jù),

woff(Web Open Font Format)文件

目前最主要的幾種網(wǎng)絡(luò)字體(web font)格式包括WOFF,SVG,EOT,OTF/TTF。

從啟動(dòng)器里看,要先獲取movie.css文件,才能提取woff文件

woff文件在線打開方式:FontEditor

使用fontTools庫在py中打開

'&#xe624.&#xe9c7'??

可以發(fā)現(xiàn)字體編碼和woff文件的區(qū)別 :"?&#x",其它字母為大寫

安裝方式:?pip?install?fontTools

通過FontEditor手動(dòng)構(gòu)建字體編碼和所知字體的映射,通過fontTools獲取字形數(shù)據(jù)并md5加密(方便對比,是否為相同字體)

?代碼如下

解密函數(shù)的代碼

?最終結(jié)果

還可以參考這篇文章的思路,

https://blog.csdn.net/qq_59970317/article/details/122421608

使用selenium截取指定標(biāo)簽位置的數(shù)據(jù),配合OCR來識別提取內(nèi)容

?源碼:

?



字體映射反爬的評論 (共 條)

分享到微博請遵守國家法律
邢台县| 兰坪| 巫溪县| 邢台市| 会理县| 临江市| 太白县| 进贤县| 盖州市| 外汇| 东阳市| 宁津县| 集贤县| 任丘市| 鄱阳县| 龙南县| 周宁县| 沾化县| 浦北县| 洛南县| 出国| 高碑店市| 乌审旗| 池州市| 宣化县| 磐安县| 轮台县| 汉中市| 沭阳县| 健康| 讷河市| 吐鲁番市| 湾仔区| 五原县| 宿迁市| 通许县| 洪洞县| 威宁| 奉节县| 富平县| 溆浦县|