起点中文网字体反爬
要爬取它的數字字體如圖
首先要獲得其字體文件.ttf
再網頁源代碼里尋找
下載此ttf文件并在FontCreator里查看
用一個新字典把英文對應成數字和 . 就可以了,然后對應的鍵值關系進行替換
步驟:
1.用re把.ttf文件下載下來并用fontTools庫進行解析,文件是動態加載的
2.找到文件里字體對應的編碼(變的)對應于數字字典里的數字
3.進行編碼和數字的替換并組合成字符串
要注意的是:
提取字體編碼的時候不可以用解析庫進行解析,不然編碼會被解析成?????了,所以只可用正則表達式把所有編碼內容匹配出來
由于是測試解決反爬,此處只爬取一頁做測試
import requests import re from lxml import etree from fontTools.ttLib import TTFont from io import BytesIOheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36', }def get_font(url):response = requests.get(url, headers=headers).content.decode('utf-8')font_url = re.search("format\('woff'\), url\('(.*?)'\) format\('truetype'\);", response, re.S).group(1)# print(font_url)font_content = requests.get(font_url, headers=headers)font = TTFont(BytesIO(font_content.content))cmap = font.getBestCmap()# 獲得字體加密編碼對應解碼值的字典font.close()# print(cmap)return cmapdef get_encode(cmap,decoded_string):word_match_dict = {'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4','five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9',}encode_string = ''decoded_one_list = decoded_string.split(';')# 因為原字符串最后一個符號是;這里最后一個元素為空,要除去這個空值,不然會keyErrordecoded_one_list.pop(-1)for decoded_one in decoded_one_list:decoded_one = int(decoded_one[2:])# 不要&#key = cmap[decoded_one]encode_string += word_match_dict[key]return encode_stringdef get_info(url,cmap):response = requests.get(url, headers=headers).text'''不可以用解析庫解析,因為編碼會自動被解析掉,只可通過re'''# selector = etree.HTML(response)# p = selector.xpath('//div[@class="book-detail-wrap center990"]/div[1]/div[2]/p[3]')[0]# x = p.xpath('em[1]/span/text()')[0]# y = get_encode(cmap,x)# print(y)用解析庫解析后這些編碼就變成小正方型了,而得不到加密的編碼content = re.findall('</style><span.*?>(.*?)</span>',response,re.S)print(content)for i in content:decode_content = get_encode(font,i)print(decode_content,end=' ')if __name__ == '__main__':start_url = 'https://book.qidian.com/info/1013552688'font = get_font(start_url)get_info(start_url,font)結果:
參考博客
https://blog.csdn.net/IT_arookie/article/details/83180875
https://blog.csdn.net/qq_35741999/article/details/82018049
總結
- 上一篇: VB.NET Crystal Repor
- 下一篇: tidymodels绘制校准曲线