黄页88网站 加密字符串破解

网站:http://b2b.huangye88.com/

需求:爬取黄页88 网站下的一些公司的详情信息

eg:http://b2b.huangye88.com/gongsi/company561409/detail.html

出现的问题:在解析手机号的时候,遇到数据加密,在页面上看到正常的手机号,在网页源码中为加密字体

获取到网页的源码后,可以看到数据是这样的方式

获取过程不做赘述,相信熟悉一些爬虫的同学应该都清楚,现在说下基础解密方式

不多废话,直接上代码

    def decrypt_phone(encrypt_number):
        """
        :param encrypt_number: 加密后的手机号
        :return:
        """
        code_string = encrypt_number.strip(';')
        # 替换 &# 为 0,用于后面直接转换为10进制数
        code_string = code_string.replace("&#", "0")
        # 转换成列表
        code_list = code_string.split(';')
        print(f"code_list:{code_list},{len(code_list)}")

        # 手机号 >标准手机号形式
        int_list = None
        if len(code_list) == 11:
            # 第一个号码为1对应的10进制值
            c1 = int(code_list[0], base=16)
            # 创建0-9对应的10进制值
            int_list = range(c1 - 1, c1 + 9)
        # 带区号的电话形式
        elif len(code_list) == 13:
            # 第一个号码为0对应的10进制值
            c1 = int(code_list[0], base=16)
            # 创建0-9对应的10进制值
            int_list = range(c1, c1 + 10)

        # 将其转换为hex
        hex_list = [str(hex(i)) for i in int_list]
        # 创建0-9的数字对应列表
        str_list = [str(i) for i in range(0, 10)]
        # 组装成字典方便对应
        code_dict = dict(zip(hex_list, str_list))
        # 把电话号码拼接起来(需要处理带区号的那种电话号码情况)
        phone = ""
        for p in code_list:
            num = code_dict.get(p)
            if not num:
                num = '-'
            phone += num
        print(phone)
        return phone


if __name__ == '__main__':
    en1 = '򈍃򈍇򈍊򈍂򈍂򈍇򈍂򈍋򈍈򈍅򈍂'
    en2 = '򈃙򈃛򈃠򈃜򈃝򈃛򈃡򈃟򈃟򈃡򈃠'
    en3 = '򈄠򈄧򈄩򈄡-򈄨򈄦򈄥򈄠򈄨򈄣򈄠򈄦'
    en4 = '򈋟򈋦򈋨򈋠-򈋧򈋥򈋤򈋟򈋧򈋢򈋟򈋥'
    decrypt_phone(en1)
    decrypt_phone(en2)
    decrypt_phone(en3)
    decrypt_phone(en4)

这种方式可以处理 标准的 11位手机号码,同时加上可以处理带区号的电话形式的,类似 xxxx-xxxxxxx 这种形式


上述这种方法,是在可以直接拿到这部分加密的数据,则可以直接解析出来.通常我们在爬虫中,都是直接获取到源代码,然后进行解析,利用正则或者xpath去做解析提取

相信很多同学提取出来的数据都是 类似这种 򈈅򈈌򈈎򈈆-򈈍򈈋򈈊򈈅򈈍򈈈򈈅򈈋 或者 򈈶򈈻򈈺򈈸򈈷򈈼򈈾򈈻򈈺򈈺򈈷

这种就是我们常说的字体加密了,需要使用对应的字体文件进行解密,才能拿到对应的字体映射.

当然黄页88网站还是很良心,在每一个页面的详情中,都返回了字体加密文件

这段代码,即对应的字体方式加密文件,我们需要进行转化,代码如下

import base64
import re
import requests
from fontTools.ttLib import TTFont

base_mapping = {
    'seven': 7, 'three': 3, 'five': 5, 'two': 2, 'nine': 9, 'one': 1, 'six': 6, 'zero': 0, 'four': 4, 'eight': 8
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
}


def get_font_map(font_text):
    """
    :param font_text: 字体文件的base64字符
    :return:
    """
    with open('world.ttf', 'wb') as f:
        f.write(base64.b64decode(font_text))
    font = TTFont('world.ttf')
    font.saveXML('world.xml') # 可以不保存xml文件
    bestcmap = TTFont("world.ttf")['cmap'].getBestCmap()
    newmap = dict()
    for key in bestcmap.keys():
        value = bestcmap[key] if bestcmap[key] not in list(base_mapping.keys()) else base_mapping[bestcmap[key]]
        if isinstance(value, int):
            newmap[hex(key)] = value
    return newmap


if __name__ == '__main__':
    content = requests.get('http://fuzhongqipei.b2b.huangye88.com/company_detail.html', headers=headers).text
    # content = requests.get('http://b2b.huangye88.com/gongsi/company561409/detail.html', headers=headers).text
    code_list = re.search("<span class='secret'>(.*?)</span>", content).group(1).replace("&#", "0").split(';')[:-1]
    print(code_list)
    # 带区号的电话号码,则去掉'-'
    if '0x2d' in code_list:
        code_list.remove('0x2d')
    font_data_after_decode = re.search('base64,(.*?)"\)', content).group(1)
    print(font_data_after_decode)
    phone_number = "".join([str(get_font_map(font_data_after_decode)[code]) for code in code_list])
    print(phone_number)

具体的解析思路参考:https://www.cnblogs.com/blogCblog/p/12497035.html

热门文章

暂无图片
编程学习 ·

C语言二分查找详解

二分查找是一种知名度很高的查找算法&#xff0c;在对有序数列进行查找时效率远高于传统的顺序查找。 下面这张动图对比了二者的效率差距。 二分查找的基本思想就是通过把目标数和当前数列的中间数进行比较&#xff0c;从而确定目标数是在中间数的左边还是右边&#xff0c;将查…
暂无图片
编程学习 ·

GMX 命令分类列表

建模和计算操作命令&#xff1a; 1.1 . 创建拓扑与坐标文件 gmx editconf - 编辑模拟盒子以及写入子组(subgroups) gmx protonate - 结构质子化 gmx x2top - 根据坐标生成原始拓扑文件 gmx solvate - 体系溶剂化 gmx insert-molecules - 将分子插入已有空位 gmx genconf - 增加…
暂无图片
编程学习 ·

一文高效回顾研究生课程《数值分析》重点

数值分析这门课的本质就是用离散的已知点去估计整体&#xff0c;就是由黑盒子产生的结果去估计这个黑盒子。在数学里这个黑盒子就是一个函数嘛&#xff0c;这门课会介绍许多方法去利用离散点最大化地逼近这个函数&#xff0c;甚至它的导数、积分&#xff0c;甚至微分方程的解。…
暂无图片
编程学习 ·

在职阿里5年,一个28岁女软测工程师的心声

简单的先说一下&#xff0c;坐标杭州&#xff0c;14届本科毕业&#xff0c;算上年前在阿里巴巴的面试&#xff0c;一共有面试了有6家公司&#xff08;因为不想请假&#xff0c;因此只是每个晚上去其他公司面试&#xff0c;所以面试的公司比较少&#xff09; ​ 编辑切换为居中…
暂无图片
编程学习 ·

字符串左旋c语言

目录 题目&#xff1a; 解题思路&#xff1a; 第一步&#xff1a; 第二步&#xff1a; 第三步&#xff1a; 总代码&#xff1a; 题目&#xff1a; 实现一个函数&#xff0c;可以左旋字符串中的k个字符。 例如&#xff1a; ABCD左旋一个字符得到BCDA ABCD左旋两个字符…
暂无图片
编程学习 ·

设计模式--观察者模式笔记

模式的定义与特点 观察者&#xff08;Observer&#xff09;模式的定义&#xff1a;指多个对象间存在一对多的依赖关系&#xff0c;当一个对象的状态发生改变时&#xff0c;所有依赖于它的对象都得到通知并被自动更新。这种模式有时又称作发布-订阅模式、模型-视图模式&#xf…
暂无图片
编程学习 ·

睡觉突然身体动不了,什么是睡眠痽痪症

很多朋友可能有这样的体验&#xff0c;睡觉过程中突然意识清醒&#xff0c;身体却动弹不了。这时候感觉非常恐怖&#xff0c;希望旁边有一个人推自己一下。阳光以前也经常会碰到这样的情况&#xff0c;一年有一百多次&#xff0c;那时候很害怕晚上到来&#xff0c;睡觉了就会出…
暂无图片
编程学习 ·

深入理解C++智能指针——浅析MSVC源码

文章目录unique_ptrshared_ptr 与 weak_ptrstd::bad_weak_ptr 异常std::enable_shared_from_thisunique_ptr unique_ptr 是一个只移型别&#xff08;move-only type&#xff0c;只移型别还有std::mutex等&#xff09;。 结合一下工厂模式&#xff0c;看看其基本用法&#xff…
暂无图片
编程学习 ·

@TableField(exist = false)

TableField(exist false) //申明此字段不在数据库存在&#xff0c;但代码中需要用到它&#xff0c;通知Mybatis-plus在做写库操作是忽略它。,.
暂无图片
编程学习 ·

Java Web day15

第十二章文件上传和下载 一、如何实现文件上传 要实现Web开发中的文件上传功能&#xff0c;通常需要完成两步操作&#xff1a;一.是在Web页面中添加上传输入项&#xff1b;二是在Servlet中读取上传文件的数据&#xff0c;并保存到本地硬盘中。 需要使用一个Apache组织提供一个…
暂无图片
编程学习 ·

【51nod 2478】【单调栈】【前缀和】小b接水

小b接水题目解题思路Code51nod 2478 小b接水 题目 输入样例 12 0 1 0 2 1 0 1 3 2 1 2 1输出样例 6解题思路 可以发现最后能拦住水的都是向两边递减高度&#xff08;&#xff1f;&#xff09; 不管两个高积木之间的的积木是怎样乱七八糟的高度&#xff0c;最后能用来装水的…
暂无图片
编程学习 ·

花了大半天写了一个UVC扩展单元调试工具

基于DIRECTSHOW 实现的&#xff0c;用的是MFC VS2019. 详见&#xff1a;http://www.usbzh.com/article/detail-761.html 获取方法 加QQ群:952873936&#xff0c;然后在群文件\USB调试工具&测试软件\UVCXU-V1.0(UVC扩展单元调试工具-USB中文网官方版).exe USB中文网 USB中文…
暂无图片
编程学习 ·

贪心(一):区间问题、Huffman树

区间问题 例题一&#xff1a;区间选点 给定 N 个闭区间 [ai,bi]请你在数轴上选择尽量少的点&#xff0c;使得每个区间内至少包含一个选出的点。 输出选择的点的最小数量。 位于区间端点上的点也算作区间内。 输入格式 第一行包含整数 N&#xff0c;表示区间数。 接下来 …
暂无图片
编程学习 ·

C语言练习实例——费氏数列

目录 题目 解法 输出结果 题目 Fibonacci为1200年代的欧洲数学家&#xff0c;在他的着作中曾经提到&#xff1a;「若有一只免子每个月生一只小免子&#xff0c;一个月后小免子也开始生产。起初只有一只免子&#xff0c;一个月后就有两只免子&#xff0c;二个月后有三只免子…
暂无图片
编程学习 ·

Android开发(2): Android 资源

个人笔记整理 Android 资源 Android中的资源&#xff0c;一般分为两类&#xff1a; 系统内置资源&#xff1a;Android SDK中所提供的已经定义好的资源&#xff0c;用户可以直接拿来使用。 用户自定义资源&#xff1a;用户自己定义或引入的&#xff0c;只适用于当前应用的资源…
暂无图片
编程学习 ·

零基础如何在短时间内拿到算法offer

​算法工程师是利用算法处理事物的职业 算法&#xff08;Algorithm&#xff09;是一系列解决问题的清晰指令&#xff0c;也就是说&#xff0c;能够对一定规范的输入&#xff0c;在有限时间内获得所要求的输出。 如果一个算法有缺陷&#xff0c;或不适合于某个问题&#xff0c;执…
暂无图片
编程学习 ·

人工智能:知识图谱实战总结

人工智能python&#xff0c;NLP&#xff0c;知识图谱&#xff0c;机器学习&#xff0c;深度学习人工智能&#xff1a;知识图谱实战前言一、实体建模工具Protegepython&#xff0c;NLP&#xff0c;知识图谱&#xff0c;机器学习&#xff0c;深度学习 人工智能&#xff1a;知识图…
暂无图片
编程学习 ·

【无标题】

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…