python爬虫破解字体加密案例详解

爱数据精选

609
文章

0
评论

2021-04-0210:10:25 评论 967 3110字

摘要

这篇文章主要介绍了python爬虫破解字体加密案例详解，本文通过图文实例相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下。

本次案例以爬取起小点小说为例。

案例目的：

通过爬取起小点小说月票榜的名称和月票数，介绍如何破解字体加密的反爬，将加密的数据转化成明文数据。

程序功能：

输入要爬取的页数，得到每一页对应的小说名称和月票数。

案例分析：找到目标的url：

python爬虫破解字体加密案例详解

（右键检查）找到小说名称所在的位置：

python爬虫破解字体加密案例详解

通过名称所在的节点位置，找到小说名称的xpath语法：

python爬虫破解字体加密案例详解

（右键检查）找到月票数所在的位置：

python爬虫破解字体加密案例详解

由上图发现，检查月票数据的文本，得到一串加密数据。

我们通过xpathhelper进行调试发现，无法找到加密数据的语法。因此，需要通过正则表达式进行提取。

通过正则进行数据提取。

python爬虫破解字体加密案例详解

正则表达式如下：

python爬虫破解字体加密案例详解

得到的加密数据如下：

python爬虫破解字体加密案例详解

破解加密数据是本次案例的关键：

既然是加密数据，就会有加密数据所对应的加密规则的Font文件。

通过找到Font字体文件中数据加密文件的url，发送请求，获取响应，得到加密数据的woff文件。

注：我们需要的woff文件，名称与加密月票数前面的class属性相同。

python爬虫破解字体加密案例详解

如下图，下载woff文件：

找到16进制的数字对应的英文数字。

python爬虫破解字体加密案例详解

其次，我们需要通过第三方库TTFont将文件中的16进制数转换成10进制，将英文数字转换成阿拉伯数字。如下图：

python爬虫破解字体加密案例详解

解析出每个加密数据对应的对应的月票数的数字如下：

python爬虫破解字体加密案例详解

注意：

由于我们在上面通过正则表式获得的加密数据携带特殊符号

python爬虫破解字体加密案例详解

因此解析出月票数据中的数字之后，除了将特殊符号去除，还需把每个数字进行拼接，得到最后的票数。

最后，通过对比不同页的url，找到翻页的规律：

python爬虫破解字体加密案例详解

对比三个不同url发现，翻页的规律在于参数page

所以问题分析完毕，开始代码：

import requests

from lxml import etree

import re

from fontTools.ttLib import TTFont

import json

if__name__=="__main__":

# 输入爬取的页数、

pages=int(input("请输入要爬取的页数："))# eg:pages=1,2

for i in range(pages):# i=0,(0,1)

page=i+1 # 1,(1,2)

# 确认目标的url

url_=f"https://www.qidian.com/rank/yuepiao?page={page}"

# 构造请求头参数

headers={

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"

}

# 发送请求，获取响应

response_=requests.get(url_,headers=headers)

# 响应类型为html问文本

str_data=response_.text

# 将html文本转换成python文件

py_data=etree.HTML(str_data)

# 提取文本中的目标数据

title_list=py_data.xpath("//h4/a[@target="_blank"]/text() ")

# 提取月票数,由于利用xpath语法无法提取，因此换用正则表达式，正则提取的目标为response_.text

mon_list=re.findall("</style><span class=".*?">(.*?)</span></span>",str_data)

print(mon_list)

# 获取字体反爬woff文件对应的url，xpath配合正则使用

fonturl_str=py_data.xpath("//p/span/style/text()")

font_url=re.findall(r"format("eot"); src: url("(.*?)") format("woff")",str_data)[0]

print(font_url)

# 获得url之后，构造请求头获取响应

headers_={

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36",

"Referer":"https://www.qidian.com/"

}

# 发送请求，获取响应

font_response=requests.get(font_url,headers=headers_)

# 文件类型未知，因此用使用content格式

font_data=font_response.content

# 保存到本地

withopen("加密font文件.woff","wb")as f:

f.write(font_data)

# 解析加密的font文件

font_obj=TTFont("加密font文件.woff")

# 将文件转成明文的xml文件

font_obj.saveXML("加密font文件.xml")

# 获取字体加密的关系映射表，将16进制转换成10进制

cmap_list=font_obj.getBestCmap()

print("字体加密关系映射表：",cmap_list)

# 创建英文转英文的字典

dict_e_a={"one":"1","two":"2","three":"3","four":"4","five":"5","six":"6",

"seven":"7","eight":"8","nine":"9","zero":"0"}

# 将英文数据进行转换

for i in cmap_list:

for j in dict_e_a:

if j==cmap_list[i]:

cmap_list[i]=dict_e_a[j]

print("转换为阿拉伯数字的映射表为：",cmap_list)

# 去掉加密的月票数据列表中的符号

new_mon_list=[]

for i in mon_list:

list_=re.findall(r"d+",i)

new_mon_list.append(list_)

print("去掉符号之后的月票数据列表为：",new_mon_list)

# 最终解析月票数据

for i in new_mon_list:

for j in enumerate(i):

forkincmap_list:

if j[1]==str(k):

i[j[0]]=cmap_list[k]

print("解析之后的月票数据为:",new_mon_list)

# 将月票数据进行拼接

new_list=[]

for i in new_mon_list:

j="".join(i)

new_list.append(j)

print("解析出的明文数据为：",new_list)

# 将名称和对应的月票数据放进字典，并转换成json格式及进行保存

for i in range(len(title_list)):

dict_={}

dict_[title_list[i]]=new_list[i]

# 将字典转换成json格式

json_data=json.dumps(dict_,ensure_ascii=False)+",
"

# 将数据保存到本地

withopen("翻页起小点月票榜数据爬取.json","a",encoding="utf-8")as f:

f.write(json_data)

爬取了两页的数据，每一页包含20个数据

执行结果如下：

python爬虫破解字体加密案例详解

到此这篇关于python爬虫破解字体加密案例详解的文章就介绍到这了。

End.

作者：coffeetogether

本文为转载分享，如果涉及作品、版权和其他问题，请联系我们第一时间删除（微信号：lovedata0520）

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码