本篇文章為大家展示了利用python爬蟲(chóng)怎么破解加密字體,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。
棗莊ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書(shū)未來(lái)市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)公司的ssl證書(shū)銷(xiāo)售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書(shū)合作)期待與您的合作!Python是一種跨平臺(tái)的、具有解釋性、編譯性、互動(dòng)性和面向?qū)ο蟮哪_本語(yǔ)言,其最初的設(shè)計(jì)是用于編寫(xiě)自動(dòng)化腳本,隨著版本的不斷更新和新功能的添加,常用于用于開(kāi)發(fā)獨(dú)立的項(xiàng)目和大型項(xiàng)目。
案例目的:
通過(guò)爬取起小點(diǎn)小說(shuō)月票榜的名稱(chēng)和月票數(shù),介紹如何破解字體加密的反爬,將加密的數(shù)據(jù)轉(zhuǎn)化成明文數(shù)據(jù)。
程序功能:
輸入要爬取的頁(yè)數(shù),得到每一頁(yè)對(duì)應(yīng)的小說(shuō)名稱(chēng)和月票數(shù)。
案例分析: 找到目標(biāo)的url:
(右鍵檢查)找到小說(shuō)名稱(chēng)所在的位置:
通過(guò)名稱(chēng)所在的節(jié)點(diǎn)位置,找到小說(shuō)名稱(chēng)的xpath語(yǔ)法:
(右鍵檢查)找到月票數(shù)所在的位置:
由上圖發(fā)現(xiàn),檢查月票數(shù)據(jù)的文本,得到一串加密數(shù)據(jù)。
我們通過(guò)xpathhelper進(jìn)行調(diào)試發(fā)現(xiàn),無(wú)法找到加密數(shù)據(jù)的語(yǔ)法。因此,需要通過(guò)正則表達(dá)式進(jìn)行提取。
通過(guò)正則進(jìn)行數(shù)據(jù)提取。
正則表達(dá)式如下:
得到的加密數(shù)據(jù)如下:
破解加密數(shù)據(jù)是本次案例的關(guān)鍵:
既然是加密數(shù)據(jù),就會(huì)有加密數(shù)據(jù)所對(duì)應(yīng)的加密規(guī)則的Font文件。
通過(guò)找到Font字體文件中數(shù)據(jù)加密文件的url,發(fā)送請(qǐng)求,獲取響應(yīng),得到加密數(shù)據(jù)的woff文件。
注:我們需要的woff文件,名稱(chēng)與加密月票數(shù)前面的class屬性相同。
如下圖,下載woff文件:
找到16進(jìn)制的數(shù)字對(duì)應(yīng)的英文數(shù)字。
其次,我們需要通過(guò)第三方庫(kù)TTFont將文件中的16進(jìn)制數(shù)轉(zhuǎn)換成10進(jìn)制,將英文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字。如下圖:
解析出每個(gè)加密數(shù)據(jù)對(duì)應(yīng)的對(duì)應(yīng)的月票數(shù)的數(shù)字如下:
注意:
由于我們?cè)谏厦嫱ㄟ^(guò)正則表式獲得的加密數(shù)據(jù)攜帶特殊符號(hào)
因此解析出月票數(shù)據(jù)中的數(shù)字之后,除了將特殊符號(hào)去除,還需把每個(gè)數(shù)字進(jìn)行拼接,得到最后的票數(shù)。
最后,通過(guò)對(duì)比不同頁(yè)的url,找到翻頁(yè)的規(guī)律:
對(duì)比三個(gè)不同url發(fā)現(xiàn),翻頁(yè)的規(guī)律在于參數(shù)page
所以問(wèn)題分析完畢,開(kāi)始代碼:
import requests from lxml import etree import re from fontTools.ttLib import TTFont import json if __name__ == '__main__': # 輸入爬取的頁(yè)數(shù)、 pages = int(input('請(qǐng)輸入要爬取的頁(yè)數(shù):')) # eg:pages=1,2 for i in range(pages): # i=0,(0,1) page = i+1 # 1,(1,2) # 確認(rèn)目標(biāo)的url url_ = f'https://www.qidian.com/rank/yuepiao?page={page}' # 構(gòu)造請(qǐng)求頭參數(shù) headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } # 發(fā)送請(qǐng)求,獲取響應(yīng) response_ = requests.get(url_,headers=headers) # 響應(yīng)類(lèi)型為html問(wèn)文本 str_data = response_.text # 將html文本轉(zhuǎn)換成python文件 py_data = etree.HTML(str_data) # 提取文本中的目標(biāo)數(shù)據(jù) title_list = py_data.xpath('//h5/a[@target="_blank"]/text() ') # 提取月票數(shù),由于利用xpath語(yǔ)法無(wú)法提取,因此換用正則表達(dá)式,正則提取的目標(biāo)為response_.text mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data) print(mon_list) # 獲取字體反爬woff文件對(duì)應(yīng)的url,xpath配合正則使用 fonturl_str = py_data.xpath('//p/span/style/text()') font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0] print(font_url) # 獲得url之后,構(gòu)造請(qǐng)求頭獲取響應(yīng) headers_ = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36', 'Referer':'https://www.qidian.com/' } # 發(fā)送請(qǐng)求,獲取響應(yīng) font_response = requests.get(font_url,headers=headers_) # 文件類(lèi)型未知,因此用使用content格式 font_data = font_response.content # 保存到本地 with open('加密font文件.woff','wb')as f: f.write(font_data) # 解析加密的font文件 font_obj = TTFont('加密font文件.woff') # 將文件轉(zhuǎn)成明文的xml文件 font_obj.saveXML('加密font文件.xml') # 獲取字體加密的關(guān)系映射表,將16進(jìn)制轉(zhuǎn)換成10進(jìn)制 cmap_list = font_obj.getBestCmap() print('字體加密關(guān)系映射表:',cmap_list) # 創(chuàng)建英文轉(zhuǎn)英文的字典 dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6', 'seven':'7','eight':'8','nine':'9','zero':'0'} # 將英文數(shù)據(jù)進(jìn)行轉(zhuǎn)換 for i in cmap_list: for j in dict_e_a: if j == cmap_list[i]: cmap_list[i] = dict_e_a[j] print('轉(zhuǎn)換為阿拉伯?dāng)?shù)字的映射表為:',cmap_list) # 去掉加密的月票數(shù)據(jù)列表中的符號(hào) new_mon_list = [] for i in mon_list: list_ = re.findall(r'\d+',i) new_mon_list.append(list_) print('去掉符號(hào)之后的月票數(shù)據(jù)列表為:',new_mon_list) # 最終解析月票數(shù)據(jù) for i in new_mon_list: for j in enumerate(i): for k in cmap_list: if j[1] == str(k): i[j[0]] = cmap_list[k] print('解析之后的月票數(shù)據(jù)為:',new_mon_list) # 將月票數(shù)據(jù)進(jìn)行拼接 new_list = [] for i in new_mon_list: j = ''.join(i) new_list.append(j) print('解析出的明文數(shù)據(jù)為:',new_list) # 將名稱(chēng)和對(duì)應(yīng)的月票數(shù)據(jù)放進(jìn)字典,并轉(zhuǎn)換成json格式及進(jìn)行保存 for i in range(len(title_list)): dict_ = {} dict_[title_list[i]] = new_list[i] # 將字典轉(zhuǎn)換成json格式 json_data = json.dumps(dict_,ensure_ascii=False)+',\n' # 將數(shù)據(jù)保存到本地 with open('翻頁(yè)起小點(diǎn)月票榜數(shù)據(jù)爬取.json','a',encoding='utf-8')as f: f.write(json_data)
爬取了兩頁(yè)的數(shù)據(jù),每一頁(yè)包含20個(gè)數(shù)據(jù)
執(zhí)行結(jié)果如下:
上述內(nèi)容就是利用python爬蟲(chóng)怎么破解加密字體,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
名稱(chēng)欄目:利用python爬蟲(chóng)怎么破解加密字體-創(chuàng)新互聯(lián)
轉(zhuǎn)載源于:http://m.rwnh.cn/article34/ddospe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、虛擬主機(jī)、網(wǎng)站營(yíng)銷(xiāo)、服務(wù)器托管、App設(shè)計(jì)、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容