网站:http://b2b.huangye88.com/
需求:爬取黄页88 网站下的一些公司的详情信息
eg:http://b2b.huangye88.com/gongsi/company561409/detail.html
出现的问题:在解析手机号的时候,遇到数据加密,在页面上看到正常的手机号,在网页源码中为加密字体
获取到网页的源码后,可以看到数据是这样的方式
获取过程不做赘述,相信熟悉一些爬虫的同学应该都清楚,现在说下基础解密方式
不多废话,直接上代码
def decrypt_phone(encrypt_number):
"""
:param encrypt_number: 加密后的手机号
:return:
"""
code_string = encrypt_number.strip(';')
# 替换 &# 为 0,用于后面直接转换为10进制数
code_string = code_string.replace("&#", "0")
# 转换成列表
code_list = code_string.split(';')
print(f"code_list:{code_list},{len(code_list)}")
# 手机号 >标准手机号形式
int_list = None
if len(code_list) == 11:
# 第一个号码为1对应的10进制值
c1 = int(code_list[0], base=16)
# 创建0-9对应的10进制值
int_list = range(c1 - 1, c1 + 9)
# 带区号的电话形式
elif len(code_list) == 13:
# 第一个号码为0对应的10进制值
c1 = int(code_list[0], base=16)
# 创建0-9对应的10进制值
int_list = range(c1, c1 + 10)
# 将其转换为hex
hex_list = [str(hex(i)) for i in int_list]
# 创建0-9的数字对应列表
str_list = [str(i) for i in range(0, 10)]
# 组装成字典方便对应
code_dict = dict(zip(hex_list, str_list))
# 把电话号码拼接起来(需要处理带区号的那种电话号码情况)
phone = ""
for p in code_list:
num = code_dict.get(p)
if not num:
num = '-'
phone += num
print(phone)
return phone
if __name__ == '__main__':
en1 = '򈍃򈍇򈍊򈍂򈍂򈍇򈍂򈍋򈍈򈍅򈍂'
en2 = '򈃙򈃛򈃠򈃜򈃝򈃛򈃡򈃟򈃟򈃡򈃠'
en3 = '򈄠򈄧򈄩򈄡-򈄨򈄦򈄥򈄠򈄨򈄣򈄠򈄦'
en4 = '򈋟򈋦򈋨򈋠-򈋧򈋥򈋤򈋟򈋧򈋢򈋟򈋥'
decrypt_phone(en1)
decrypt_phone(en2)
decrypt_phone(en3)
decrypt_phone(en4)
这种方式可以处理 标准的 11位手机号码,同时加上可以处理带区号的电话形式的,类似 xxxx-xxxxxxx 这种形式
上述这种方法,是在可以直接拿到这部分加密的数据,则可以直接解析出来.通常我们在爬虫中,都是直接获取到源代码,然后进行解析,利用正则或者xpath去做解析提取
相信很多同学提取出来的数据都是 类似这种 - 或者
这种就是我们常说的字体加密了,需要使用对应的字体文件进行解密,才能拿到对应的字体映射.
当然黄页88网站还是很良心,在每一个页面的详情中,都返回了字体加密文件
这段代码,即对应的字体方式加密文件,我们需要进行转化,代码如下
import base64
import re
import requests
from fontTools.ttLib import TTFont
base_mapping = {
'seven': 7, 'three': 3, 'five': 5, 'two': 2, 'nine': 9, 'one': 1, 'six': 6, 'zero': 0, 'four': 4, 'eight': 8
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
}
def get_font_map(font_text):
"""
:param font_text: 字体文件的base64字符
:return:
"""
with open('world.ttf', 'wb') as f:
f.write(base64.b64decode(font_text))
font = TTFont('world.ttf')
font.saveXML('world.xml') # 可以不保存xml文件
bestcmap = TTFont("world.ttf")['cmap'].getBestCmap()
newmap = dict()
for key in bestcmap.keys():
value = bestcmap[key] if bestcmap[key] not in list(base_mapping.keys()) else base_mapping[bestcmap[key]]
if isinstance(value, int):
newmap[hex(key)] = value
return newmap
if __name__ == '__main__':
content = requests.get('http://fuzhongqipei.b2b.huangye88.com/company_detail.html', headers=headers).text
# content = requests.get('http://b2b.huangye88.com/gongsi/company561409/detail.html', headers=headers).text
code_list = re.search("<span class='secret'>(.*?)</span>", content).group(1).replace("&#", "0").split(';')[:-1]
print(code_list)
# 带区号的电话号码,则去掉'-'
if '0x2d' in code_list:
code_list.remove('0x2d')
font_data_after_decode = re.search('base64,(.*?)"\)', content).group(1)
print(font_data_after_decode)
phone_number = "".join([str(get_font_map(font_data_after_decode)[code]) for code in code_list])
print(phone_number)
具体的解析思路参考:https://www.cnblogs.com/blogCblog/p/12497035.html