Python进阶者

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）...

下次点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

只在此山中，云深不知处。

大家好，我的小小明。前面我在《Python处理超强反爬(TSec防火墙+CSS图片背景偏移定位)》一文中讲解如何解析css图片背景偏移的数据，并通过图像识别提取文字。

本文将带你解析各种形式自定义字体，绘制点阵图，并通过图像识别提取出关系列表，最终校对后构建正确的对应关系，最终获取到正确的数据。

看到本文，相信以后你对任何形式额字体反爬都能见招拆招。

深度剖析自定义字体解析

自定义字体的介绍

首先，我们必须要清楚自定义字体与普通字体的区别，自定义字体定义了一些特殊的Unicode编码对应的点阵图数据，而普通字体只是定义标准编码的显示形式，所以普通字体渲染的数据可以直接复制出正确的文本，而自定义字体只能复制到对应的Unicode编码。

那么游览器如何显示出对应的字符呢？那是因为游览器会根据自定义字体的对应关系，渲染对应的点阵图进行显示。

下面我们以某团购网站为例进行演示。

这次我分析的页面是深圳休闲娱乐：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第1张图片

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第2张图片

可以看到自定义字体都存在于svgmtsi标签中，不同的class属性也对应了不同自定义字体文件。

如果我们取消所有的自定义字体的加载，可以看到网页上对应的位置都会出现乱码：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第3张图片

从上图也可以看到，产生自定义字体的位置完全是随机的。

对于这种情况，我们最好使用可以修改HTML DOM树的库来维持节点的相对顺序，我选择了BeautifulSoup这个库，可惜只支持css选择器。

不过也好，早期我学编程用Java玩小爬虫的时候就更喜欢css选择器，正好可以找回久违的感觉。

接下来我们一步步分析页面，首先用python读取页面数据：

Python加载页面

import requests

headers = {
    "Connection": "keep-alive",
    "Cache-Control": "max-age=0",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Language": "zh-CN,zh;q=0.9"
}
session = requests.Session()
session.headers = headers
res = session.get("http://www.dianping.com/shenzhen/ch30")

下面我们使用BeautifulSoup解析下载的页面，构建DOM树：

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text, 'html5lib')

关于BeautifulSoup可以查看官方文档：

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

(上面两个链接内容一样，目录形式有区别)

解析顶部导航栏分类和地点列表由于现在该团购网站翻第二页就要求登录，咱们也没有打算真的要爬它。所以我通过多下载几个分类链接，来模拟批量下载的效果。

下面准备解析出下面这些对应的标题：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第4张图片

通过xpath查询工具获取到xpath后，就可以转换为css选择器。

分类列表：

# //div[@id='classfy']/a/span
type_list = []
for a_tag in soup.select("div#classfy > a"):
    type_list.append((a_tag.span.text, a_tag['href']))
type_list

[('按摩/足疗', 'http://www.dianping.com/shenzhen/ch30/g141'),
 ('KTV', 'http://www.dianping.com/shenzhen/ch30/g135'),
 ('洗浴/汗蒸', 'http://www.dianping.com/shenzhen/ch30/g140'),
 ('酒吧', 'http://www.dianping.com/shenzhen/ch30/g133'),
 ('运动健身', 'http://www.dianping.com/shenzhen/ch30/g2636'),
 ('茶馆', 'http://www.dianping.com/shenzhen/ch30/g134'),
 ('密室', 'http://www.dianping.com/shenzhen/ch30/g2754'),
 ('团建拓展', 'http://www.dianping.com/shenzhen/ch30/g34089'),
 ('采摘/农家乐', 'http://www.dianping.com/shenzhen/ch30/g20038'),
 ('剧本杀', 'http://www.dianping.com/shenzhen/ch30/g50035'),
 ('游戏厅', 'http://www.dianping.com/shenzhen/ch30/g137'),
 ('DIY手工坊', 'http://www.dianping.com/shenzhen/ch30/g144'),
 ('私人影院', 'http://www.dianping.com/shenzhen/ch30/g20041'),
 ('轰趴馆', 'http://www.dianping.com/shenzhen/ch30/g20040'),
 ('网吧/电竞', 'http://www.dianping.com/shenzhen/ch30/g20042'),
 ('VR', 'http://www.dianping.com/shenzhen/ch30/g33857'),
 ('桌面游戏', 'http://www.dianping.com/shenzhen/ch30/g6694'),
 ('棋牌室', 'http://www.dianping.com/shenzhen/ch30/g32732'),
 ('文化艺术', 'http://www.dianping.com/shenzhen/ch30/g142'),
 ('新奇体验', 'http://www.dianping.com/shenzhen/ch30/g34090')]

地点列表：

# //div[@id='region-nav']/a/span
area_list = []
for a_tag in soup.select("div#region-nav > a"):
    area_list.append((a_tag.span.text, a_tag['href']))
area_list

[('福田区', 'http://www.dianping.com/shenzhen/ch30/r29'),
 ('南山区', 'http://www.dianping.com/shenzhen/ch30/r31'),
 ('罗湖区', 'http://www.dianping.com/shenzhen/ch30/r30'),
 ('盐田区', 'http://www.dianping.com/shenzhen/ch30/r32'),
 ('龙华区', 'http://www.dianping.com/shenzhen/ch30/r12033'),
 ('龙岗区', 'http://www.dianping.com/shenzhen/ch30/r34'),
 ('宝安区', 'http://www.dianping.com/shenzhen/ch30/r33'),
 ('坪山区', 'http://www.dianping.com/shenzhen/ch30/r12035'),
 ('光明区', 'http://www.dianping.com/shenzhen/ch30/r89951'),
 ('南澳大鹏新区', 'http://www.dianping.com/shenzhen/ch30/r12036')]

解析字体对应css的下载URL

经观察可以发现，定义自定义字体的css文件在链接带有svgtextcss关键字的url中：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第5张图片

我们可以从所有的定义css样式的链接中找到含有svgtextcss关键字的链接：

from urllib import parse

def getUrlFromNode(nodes, tag):
    for node in nodes:
        url = node['href']
        if url.find(tag) != -1:
            return parse.urljoin(base_url, url)


def get_css_url(soup):
    css_url = getUrlFromNode(soup.select(
        "head > link[rel=stylesheet]"), "svgtextcss")
    return css_url


css_url = get_css_url(soup)
css_url

'http://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/18379bbeb1f5bf54c52bb1d8b71d4fb1.css'

解析css获取自定义字体的URL

格式化定义字体的css文件：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第6张图片

可以看到，class定义了使用的字体名称，font-face定义了每个字体名称对应的字体文件。

虽然现在我们可以看到规律每个class就是加了一个PingFangSC-Regular-的前缀作为字体名称，但是我们无法保证以后该网站依然会这样设计，为了保证以后在这个点上面不需要改代码，我们依然还是解析出每个class对应的font-family，再解析出每个font-family对应的多个字体URL，最终多个字体URL取后缀为.woff格式的URL，建立class属性到woff字体的映射关系。

下面是完整代码：

import re


def get_url(urls, tag, only_First=True):
    urls = [parse.urljoin(base_url, url)
            for url in urls if tag is None or url.find(tag) != -1]
    if urls and only_First:
        return urls[0]
    return urls


def parseCssFontUrl(css_url, tag=None, only_First=True):
    res = session.get(css_url)
    rule = {}
    font_face = {}
    for name, value in re.findall("([^{}]+){([^{}]+)}", res.text):
        name = name.strip()
        for row in value.split(";"):
            if row.find(":") == -1:
                continue
            k, v = row.split(":")
            k, v = k.strip(), v.strip(' "\'')
            if name == "@font-face":
                if k == "font-family":
                    font_name = v
                elif k == "src":
                    font_face.setdefault(font_name, []).extend(
                        re.findall("url\(\"([^()]+)\"\)", v))
            else:
                rule[name[1:]] = v
    font_urls = {}
    for class_name, tag_name in rule.items():
        font_urls[class_name] = get_url(font_face[tag_name], tag)
    return font_urls


font_urls = parseCssFontUrl(css_url, ".woff", only_First=False)
font_urls

{'shopNum': 'http://s3plus.meituan.net/v1/mss_73a511b8f91f43d0bdae92584ea6330b/font/89e46c52.woff',
 'tagName': 'http://s3plus.meituan.net/v1/mss_73a511b8f91f43d0bdae92584ea6330b/font/f8536a55.woff',
 'reviewTag': 'http://s3plus.meituan.net/v1/mss_73a511b8f91f43d0bdae92584ea6330b/font/0373a060.woff',
 'address': 'http://s3plus.meituan.net/v1/mss_73a511b8f91f43d0bdae92584ea6330b/font/f8536a55.woff'}

下载字体

我们可以将上述四个字体都下载下来看看：

def download_file(url, out_name=None):
    if out_name is None:
        out_name = url[url.rfind("/")+1:]
    with open(out_name, "wb") as f:
        f.write(session.get(url).content)

for class_name, url in font_urls.items():
    download_file(url, f"{class_name}.woff")

下载后得到4个字体文件：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第7张图片

想要本地查看字体，我们可以通过FontCreator字体设计工具，百度一下可以直接搜索到下载链接。

打开后：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第8张图片

经过对比发现四个文件的点阵图顺序完全一致，不同的只是编码与点阵图的关系。

建立自定义字体映射关系

下面我们需要分析对于指定字体每个被定义的Unicode字符对应的真实字符。由于字体文件中存储的字符的点阵图，本质是图片而不是文本，所以我们无法复制出来。但我们可以考虑通过PIL加载自定义字体，然后将每个被定义的Unicode字符画出相应的点阵图，再进行图像识别，就可以获取相应的文本数据了。

这里需要使用fontTools工具，可以直接使用pip安装。

详见：

https://github.com/fonttools/fonttools

以class等于tagName的字体为例，先获取其被定义的Unicode字符列表：

from fontTools.ttLib import TTFont

tfont = TTFont("tagName.woff")
# 去掉前2个扩展字符
uni_list = tfont.getGlyphOrder()[2:]
print(uni_list[:10], len(uni_list))

['uniec3e', 'unif3fc', 'uniea1f', 'unie7f7', 'unie258', 'unif5aa', 'unif48c', 'unif088', 'unif588', 'unif82e'] 601

这里打印了前10个Unicode代码点，共有601个自定义字符。

打印结果也与上面的截图中FontCreator字体设计工具查看的结果一致。

使用PIL绘图工具，先绘制前5个代码点测试一下：

from PIL import ImageFont, Image, ImageDraw

font = ImageFont.truetype("tagName.woff", 20)
for uchar in uni_list[:5]:
    unknown_char = f"\\u{uchar[3:]}".encode().decode("unicode_escape")
    im = Image.new(mode='RGB', size=(22, 20), color="white")
    draw = ImageDraw.Draw(im=im)
    draw.text(xy=(5, -5), text=unknown_char, fill=0, font=font)
    display(im)

绘制结果：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第9张图片

可以看到能够正确绘制出相应的点阵图。

下面再测试每n个代码点为一组一起绘制，减少后面图像识别的次数（这里设置n=25，绘制5组）：

n = 25
font = ImageFont.truetype("tagName.woff", 20)
for i in range(0, 5*n, n):
    im = Image.new(mode='RGB', size=(20*n+10, 22), color="white")
    draw = ImageDraw.Draw(im=im)
    unknown_chars = "".join(uni_list[i:i + n]).replace("uni", "\\u")
    unknown_chars = unknown_chars.encode().decode("unicode_escape")
    draw.text(xy=(5, -4), text=unknown_chars, fill=0, font=font)
    display(im)

绘制结果：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第10张图片

封装一下，批量获取一个字体文件的全部图片对象：

from fontTools.ttLib import TTFont
from PIL import ImageFont, Image, ImageDraw


def getCustomFontGroupImgs(font_file, uni_list=None, group_num=25):
    if uni_list is None:
        tfont = TTFont(font_file)
        uni_list = tfont.getGlyphOrder()[2:]
    imgs = []
    font = ImageFont.truetype(font_file, 20)
    for i in range(0, len(uni_list), group_num):
        im = Image.new(mode='RGB', size=(20*group_num+10, 22), color="white")
        draw = ImageDraw.Draw(im=im)
        unknown_chars = "".join(uni_list[i:i + group_num]).replace("uni", "\\u")
        unknown_chars = unknown_chars.encode().decode("unicode_escape")
        draw.text(xy=(5, -4), text=unknown_chars, fill=0, font=font)
        imgs.append(im)
    return imgs

pytesseract默认不支持对中文的识别，需要较多的配置。这次我们直接使用一个最近比较流行的库叫带带弟弟orc来进行图像识别，一行命令即可安装：

pip install ddddocr

使用示例和参数可以查看：

https://pypi.org/project/ddddocr/

不过该库只支持传图片字节和base64编码，不支持直接传入图片对象，需要二次转换。

可以定义一个将图片转字节的方法：

from io import BytesIO

def get_img_bytes(img):
    img_byte = BytesIO()
    im.save(img_byte, format='JPEG')  # format: PNG or JPEG
    return img_byte.getvalue()  # im对象转为二进制流

然后就可以以如下形式进行批量识别：

from ddddocr import DdddOcr

imgs = getCustomFontGroupImgs('shopNum.woff', group_num=50)
ocr = DdddOcr()
result = []
for im in imgs:
    display(im)
    text = ocr.classification(get_img_bytes(im))
    print(text)
    result.append(text)

效果如下：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第11张图片

整体来说准确率还是非常高的。

我最终还是决定直接继承DdddOcr类，重写识别方法优化算法（以后再考虑自行开发图像识别类）：

from ddddocr import DdddOcr, np


class OCR(DdddOcr):
    def __init__(self):
        super().__init__()

    def ocr(self, image):
        image = image.resize(
            (int(image.size[0] * (64 / image.size[1])), 64), Image.ANTIALIAS).convert('L')
        image = np.array(image).astype(np.float32)
        image = np.expand_dims(image, axis=0) / 255.
        image = (image - 0.5) / 0.5
        ort_inputs = {'input1': np.array([image])}
        ort_outs = self._DdddOcr__ort_session.run(None, ort_inputs)
        result = []
        last_item = 0
        for item in ort_outs[0][0]:
            if item == 0 or item == last_item:
                continue
            result.append(self._DdddOcr__charset[item])
            last_item = item
        return ''.join(result)

然后这样调用：

imgs = getCustomFontGroupImgs('shopNum.woff', group_num=42)
ocr = OCR()
result = []
for im in imgs:
    display(im)
    text = ocr.ocr(im)
    print(text)
    result.append(text)

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第12张图片

可以看到经过继承调整后的代码，识别准确率更高了些。

最终我们人工校对修改后，得到如下字符集：

words = '1234567890店中美家馆小车大市公酒行国品发电金心业商司超生装园场食有新限天面工服海华水房饰城乐汽香部利子老艺花专东肉菜学福饭人百餐茶务通味所山区门药银农龙停尚安广鑫一容动南具源兴鲜记时机烤文康信果阳理锅宝达地儿衣特产西批坊州牛佳化五米修爱北养卖建材三会鸡室红站德王光名丽油院堂烧江社合星货型村自科快便日民营和活童明器烟育宾精屋经居庄石顺林尔县手厅销用好客火雅盛体旅之鞋辣作粉包楼校鱼平彩上吧保永万物教吃设医正造丰健点汤网庆技斯洗料配汇木缘加麻联卫川泰色世方寓风幼羊烫来高厂兰阿贝皮全女拉成云维贸道术运都口博河瑞宏京际路祥青镇厨培力惠连马鸿钢训影甲助窗布富牌头四多妆吉苑沙恒隆春干饼氏里二管诚制售嘉长轩杂副清计黄讯太鸭号街交与叉附近层旁对巷栋环省桥湖段乡厦府铺内侧元购前幢滨处向座下澩凤港开关景泉塘放昌线湾政步宁解白田町溪十八古双胜本单同九迎第台玉锦底后七斜期武岭松角纪朝峰六振珠局岗洲横边济井办汉代临弄团外塔杨铁浦字年岛陵原梅进荣友虹央桂沿事津凯莲丁秀柳集紫旗张谷的是不了很还个也这我就在以可到错没去过感次要比觉看得说常真们但最喜哈么别位能较境非为欢然他挺着价那意种想出员两推做排实分间甜度起满给热完格荐喝等其再几只现朋候样直而买于般豆量选奶打每评少算又因情找些份置适什蛋师气你姐棒试总定啊足级整带虾如态且尝主话强当更板知己无酸让入啦式笑赞片酱差像提队走嫩才刚午接重串回晚微周值费性桌拍跟块调糕'

字体文件中的Unicode代码点则与上述字符集字符一一对应。

由于该网站所有的自定义字体的点阵图都是这个顺序，所以我们不再需要解析其他的字体文件获取这个字符列表。当然这个团购网站以后还打算变态到每个字体文件的点阵图顺序也随机，那我只能说，真狠。那到时候我再考虑升级自己的代码，因为我个人的目标就是没有我解析不了的数据。

有了点阵图对应的字符集，咱们就可以轻松建立字体文件的映射关系：

from fontTools.ttLib import TTFont

font_data = TTFont("tagName.woff")
uni_list = font_data.getGlyphOrder()[2:]
font_map = dict(zip(map(lambda x: x[3:], uni_list), words))

字体缓存器

针对该团购网站，由于我们无法保证所有页面用这一个相同的css文件，所以我们需要建立一个css的URL到字体文件URL和字体文件URL到对应字体映射关系的二级缓存：

from io import BytesIO

url2FontMapCache = {}
css2FontCache = {}


def getFontMapFromURL(font_url):
    "缓存字体URL对应字体映射关系"
    if font_url not in url2FontMapCache:
        font_bytes = BytesIO(session.get(font_url).content)
        font_data = TTFont(font_bytes)
        uni_list = font_data.getGlyphOrder()[2:]
        url2FontMapCache[font_url] = dict(
            zip(map(lambda x: x[3:], uni_list), words))
    return url2FontMapCache[font_url]


def getFontMapFromClassName(class_name, css_url):
    "缓存指定css文件对应字体URL"
    if css_url not in css2FontCache:
        css2FontCache[css_url] = parseCssFontUrl(css_url, ".woff")
    font_url = css2FontCache[css_url].get(class_name)
    return getFontMapFromURL(font_url)

可以获取当前页面下，每个自定义字体的映射关系：

for class_name in font_urls.keys():
    font_map = getFontMapFromClassName(class_name, css_url)
    print(list(font_map.items())[:12])

结果：

[('e0a7', '1'), ('ebf3', '2'), ('ee9b', '3'), ('e7e4', '4'), ('f5f8', '5'), ('e7a1', '6'), ('ef49', '7'), ('eef7', '8'), ('f7e0', '9'), ('e633', '0'), ('e5de', '店'), ('e67f', '中')]
[('ec3e', '1'), ('f3fc', '2'), ('ea1f', '3'), ('e7f7', '4'), ('e258', '5'), ('f5aa', '6'), ('f48c', '7'), ('f088', '8'), ('f588', '9'), ('f82e', '0'), ('e7c5', '店'), ('e137', '中')]
[('e3e0', '1'), ('e85f', '2'), ('f3c8', '3'), ('f3d5', '4'), ('e771', '5'), ('f251', '6'), ('f6f6', '7'), ('e8da', '8'), ('ea58', '9'), ('f8fb', '0'), ('ef9b', '店'), ('f3dd', '中')]
[('ec3e', '1'), ('f3fc', '2'), ('ea1f', '3'), ('e7f7', '4'), ('e258', '5'), ('f5aa', '6'), ('f48c', '7'), ('f088', '8'), ('f588', '9'), ('f82e', '0'), ('e7c5', '店'), ('e137', '中')]

将所有自定义字体全部替换为正常文字有了字体映射关系，我们就可以对页面的自定义字体替换成我们解析好的文本数据。

首先获取被替换的父节点列表，方便对比：

b_tags = [svgmtsi.parent for svgmtsi in soup.find_all('svgmtsi')]
b_tags

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第13张图片

虽然我们现在看到该网站每个svgmtsi标签只存放一个字符，但无法确保以后也依然如此，所以我们的代码现在就考虑一个svgmtsi标签内部存在多个字符的情况。

执行替换：

for svgmtsi in soup.find_all('svgmtsi'):
    class_name = svgmtsi['class'][0]
    font_map = getFontMapFromClassName(class_name, css_url)
    chars = []
    for c in svgmtsi.text:
        char = c.encode("unicode_escape").decode()[2:]
        chars.append(font_map[char])
    svgmtsi.replaceWith("".join(chars))

替换后，再查看之前保存的节点：

b_tags

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第14张图片

提取数据

将自定义字体替换之后，我们就可以非常丝滑的提取需要的数据了：

num_rule = re.compile("\d+")

for li_tag in soup.select("div#shop-all-list div.txt"):
    title = li_tag.select_one("div.tit>a>h4").text
    url = li_tag.select_one("div.tit>a")["href"]
    star_class = li_tag.select_one(
        "div.comment>div.nebula_star>div.star_icon>span")["class"]
    star = int(num_rule.findall(" ".join(star_class))[0])//10

    comment_tag = li_tag.select_one("div.comment>a.review-num>b")
    comment_num = comment_tag.text if comment_tag else None

    mean_price_tag = li_tag.select_one("div.comment>a.mean-price>b")
    mean_price = mean_price_tag.text if mean_price_tag else None

    fun_type = li_tag.select_one("div.tag-addr>a:nth-of-type(1)>span.tag").text
    area = li_tag.select_one("div.tag-addr>a:nth-of-type(2)>span.tag").text
    print(title, url, star, comment_num, mean_price, fun_type, area)

轰趴天台·大白之家(南山店) http://www.dianping.com/shop/k1lqueFI6sIOfjnI 5 129 ￥196 轰趴馆 华侨城
巨鹿搏击俱乐部(车公庙店) http://www.dianping.com/shop/k4tmabQaordrq6Tm 5 238 ￥246 拳击 车公庙
SWING CAGE 棒球击球笼&冲浪滑板碗池 http://www.dianping.com/shop/l2lUP0rvcLPy4ebm 5 1088 ￥85 体育场馆 科技园
微醺云深处沉浸式剧场 http://www.dianping.com/shop/HaLzYuXfvUWmPLSz 0 8 None 剧本杀 科技园
逐见有光Chandelle http://www.dianping.com/shop/H2CSpvtn70y12wNh 5 138 ￥281 DIY手工坊 市中心/会展中心
cozy cozy银饰DIY手作室(万象城店) http://www.dianping.com/shop/l3mCIs6dSrdL9jo7 5 1270 ￥321 DIY手工坊 万象城
博哥的小剧场沉浸推理体验馆(南山万象天地店) http://www.dianping.com/shop/H3S4zD55e1gmfb8E 3 18 None 剧本杀 科技园
FlowLife拓极滑板冲浪俱乐部(蛇口旗舰店) http://www.dianping.com/shop/G9sHgWISxYtBXz79 5 481 ￥217 新奇体验 蛇口
Doors秘道·独立剧情密室(车公庙分店) http://www.dianping.com/shop/k4O3oDj6BwLtbgD4 5 878 ￥101 密室 车公庙
御隆茶馆 http://www.dianping.com/shop/H6HEuBttJKlMkaAn 0 3 None 棋牌室 南头
【十万伏特】手创空间 自由DIY http://www.dianping.com/shop/k5OURy1bNIs7ed7v 5 271 ￥152 DIY手工坊 梅林
八町桑BATTING SOUND 棒球体验馆 http://www.dianping.com/shop/k9yQRAmYoa3o8cLI 5 734 ￥114 新奇体验 车公庙
星美棋牌 http://www.dianping.com/shop/l4JRIjqLWi2zeFQd 3 9 None 棋牌室 国贸
ZUO STUDIO烘焙课程· 茶歇蛋糕订购(南山京基百纳广场... http://www.dianping.com/shop/ER0EyDpjx36ekF0G 5 687 ￥224 DIY手工坊 白石洲
cozy cozy银饰DIY手作室(南山店) http://www.dianping.com/shop/G7MbwkosLSvS3X1I 5 431 ￥338 DIY手工坊 南头

批量下载

经过以上测试，我们可以将所有相关方法都封装一下，下面我们下载深圳华南城的所有娱乐相关的团购信息：

import re
from bs4 import BeautifulSoup
import requests
import pandas as pd
import random
import time
from urllib import parse
from io import BytesIO
from fontTools.ttLib import TTFont

url2FontMapCache = {}
css2FontCache = {}
words = '1234567890店中美家馆小车大市公酒行国品发电金心业商司超生装园场食有新限天面工服海华水房饰城乐汽香部利子老艺花专东肉菜学福饭人百餐茶务通味所山区门药银农龙停尚安广鑫一容动南具源兴鲜记时机烤文康信果阳理锅宝达地儿衣特产西批坊州牛佳化五米修爱北养卖建材三会鸡室红站德王光名丽油院堂烧江社合星货型村自科快便日民营和活童明器烟育宾精屋经居庄石顺林尔县手厅销用好客火雅盛体旅之鞋辣作粉包楼校鱼平彩上吧保永万物教吃设医正造丰健点汤网庆技斯洗料配汇木缘加麻联卫川泰色世方寓风幼羊烫来高厂兰阿贝皮全女拉成云维贸道术运都口博河瑞宏京际路祥青镇厨培力惠连马鸿钢训影甲助窗布富牌头四多妆吉苑沙恒隆春干饼氏里二管诚制售嘉长轩杂副清计黄讯太鸭号街交与叉附近层旁对巷栋环省桥湖段乡厦府铺内侧元购前幢滨处向座下澩凤港开关景泉塘放昌线湾政步宁解白田町溪十八古双胜本单同九迎第台玉锦底后七斜期武岭松角纪朝峰六振珠局岗洲横边济井办汉代临弄团外塔杨铁浦字年岛陵原梅进荣友虹央桂沿事津凯莲丁秀柳集紫旗张谷的是不了很还个也这我就在以可到错没去过感次要比觉看得说常真们但最喜哈么别位能较境非为欢然他挺着价那意种想出员两推做排实分间甜度起满给热完格荐喝等其再几只现朋候样直而买于般豆量选奶打每评少算又因情找些份置适什蛋师气你姐棒试总定啊足级整带虾如态且尝主话强当更板知己无酸让入啦式笑赞片酱差像提队走嫩才刚午接重串回晚微周值费性桌拍跟块调糕'
num_rule = re.compile("\d+")

def get_url(urls, tag, only_First=True):
    urls = [parse.urljoin(base_url, url)
            for url in urls if tag is None or url.find(tag) != -1]
    if urls and only_First:
        return urls[0]
    return urls


def parseCssFontUrl(css_url, tag=None, only_First=True):
    res = session.get(css_url)
    rule = {}
    font_face = {}
    for name, value in re.findall("([^{}]+){([^{}]+)}", res.text):
        name = name.strip()
        for row in value.split(";"):
            if row.find(":") == -1:
                continue
            k, v = row.split(":")
            k, v = k.strip(), v.strip(' "\'')
            if name == "@font-face":
                if k == "font-family":
                    font_name = v
                elif k == "src":
                    font_face.setdefault(font_name, []).extend(
                        re.findall("url\(\"([^()]+)\"\)", v))
            else:
                rule[name[1:]] = v
    font_urls = {}
    for class_name, tag_name in rule.items():
        font_urls[class_name] = get_url(font_face[tag_name], tag)
    return font_urls


def getFontMapFromURL(font_url):
    "缓存字体URL对应字体映射关系"
    if font_url not in url2FontMapCache:
        font_bytes = BytesIO(session.get(font_url).content)
        font_data = TTFont(font_bytes)
        uni_list = font_data.getGlyphOrder()[2:]
        url2FontMapCache[font_url] = dict(
            zip(map(lambda x: x[3:], uni_list), words))
    return url2FontMapCache[font_url]


def getFontMapFromClassName(class_name, css_url):
    "缓存指定css文件对应字体URL"
    if css_url not in css2FontCache:
        css2FontCache[css_url] = parseCssFontUrl(css_url, ".woff")
    font_url = css2FontCache[css_url].get(class_name)
    return getFontMapFromURL(font_url)


def parse_data(soup):
    result = []
    for li_tag in soup.select("div#shop-all-list div.txt"):
        title = li_tag.select_one("div.tit>a>h4").text
        url = li_tag.select_one("div.tit>a")["href"]
        star_class = li_tag.select_one(
            "div.comment>div.nebula_star>div.star_icon>span")["class"]
        star = int(num_rule.findall(" ".join(star_class))[0])//10

        comment_tag = li_tag.select_one("div.comment>a.review-num>b")
        comment_num = comment_tag.text if comment_tag else None

        mean_price_tag = li_tag.select_one("div.comment>a.mean-price>b")
        mean_price = mean_price_tag.text if mean_price_tag else None

        fun_type = li_tag.select_one(
            "div.tag-addr>a:nth-of-type(1)>span.tag").text
        area = li_tag.select_one("div.tag-addr>a:nth-of-type(2)>span.tag").text
        result.append((title, star, comment_num,
                      mean_price, fun_type, area, url))
    return result


def getUrlFromNode(nodes, tag):
    for node in nodes:
        url = node['href']
        if url.find(tag) != -1:
            return parse.urljoin(base_url, url)


def get_css_url(soup):
    css_url = getUrlFromNode(soup.select(
        "head > link[rel=stylesheet]"), "svgtextcss")
    return css_url


def fix_text(soup):
    css_url = get_css_url(soup)
    for svgmtsi in soup.find_all('svgmtsi'):
        class_name = svgmtsi['class'][0]
        font_map = getFontMapFromClassName(class_name, css_url)
        chars = []
        for c in svgmtsi.text:
            char = c.encode("unicode_escape").decode()[2:]
            chars.append(font_map[char])
        svgmtsi.replaceWith("".join(chars))


headers = {
    "Connection": "keep-alive",
    "Cache-Control": "max-age=0",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Language": "zh-CN,zh;q=0.9"
}
session = requests.Session()
session.headers = headers
base_url = "http://www.dianping.com/shenzhen/ch30"
res = session.get(base_url)

soup = BeautifulSoup(res.text, 'html5lib')
type_list = []
for a_tag in soup.select("div#classfy > a"):
    type_list.append((a_tag.span.text, a_tag['href']+'r91172'))

result = []
for type_name, url in type_list:
    print(type_name, url)
    res = session.get(url)
    soup = BeautifulSoup(res.text, 'html5lib')
    fix_text(soup)
    result.extend(parse_data(soup))
    time.sleep(random.randint(2, 4))

df = pd.DataFrame(result, columns=["标题", "星级", "评论数", "均价", "娱乐类型", "区域", "链接"])
df.评论数 = df.评论数.apply(lambda x: int(x) if x else pd.NA)
df.均价 = df.均价.str[1:].apply(lambda x: int(x) if x else pd.NA)
df.drop_duplicates(inplace=True)
df.to_excel("华南城娱乐.xlsx", index=False)

爬取结果（有一定的二次编辑）：

2万字硬核剖析网页自定义字体解析（css样式表解析、字体点阵图绘制与本地图像识别等）..._第15张图片

总结

整体来说，该团购网站的反爬机制还是挺猛的，费了九牛二虎之力也就只能每个栏目爬一页数据，还没有地址，推荐各位不要去爬了。

不过本文的目的就是演示把最难的字体反爬给解决掉，希望本文已经达到这个目标，如果后面还有更难的字体反爬网站出现，再继续更深的剖析，见招拆招。

本文为CSDN博主「小小明-代码实体」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/as604049322/article/details/119333427

小伙伴们，快快用实践一下吧！如果在学习过程中，有遇到任何问题，欢迎加我好友，我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐：

补充篇：盘点6种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据
盘点4种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据
手把手教你使用Python网络爬虫实现邮件定时发送（附源码）
番外篇：分享一道用Python基础+蒙特卡洛算法实现排列组合的题目（附源码）

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

你可能感兴趣的:(python,java,人工智能,oauth,math.h)

Java jar包后台运行方式详解我真的不想做程序员 java java jar 后端开发语言 ide
目录一、打包成jar文件二、后台运行jar文件三、示例四、总结在Java开发中，我们经常需要将应用程序打包成可执行的jar文件，并在后台运行。这种方式对于部署长时间运行的任务或需要持续监听事件的应用程序非常重要。本文将详细介绍如何实现Javajar包的后台运行，并通过具体代码示例帮助您更好地理解和应用。一、打包成jar文件要将Java应用程序打包成jar文件，首先需要确保项目的目录结构符合要求。一
清华DeepSeek以手札为剑，破AI迷津雾霭，开启荣耀进阶征途 2501_91080610 pdf
清华DeepSeek：以手札为剑，破AI迷津雾霭，开启荣耀进阶征途在当下这个科技浪潮奔涌不息的时代，人工智能领域成为了无数科研人员竞逐的“战场”。在这片充满无限可能却又迷雾重重的天地中，清华DeepSeek宛如一位英勇无畏的剑客，紧握“手札”这把利剑，奋力劈开迷津雾霭，大步踏上荣耀进阶的征途。溯源：手札中的智慧传承与沉淀清华DeepSeek背后，是一群怀揣着对AI炽热梦想的清华学子与科研精英。手札
JS: 类型转换 + 运算符 + 循环 ..儒 javascript 开发语言 ecmascript
类型转换一，为什么需要类型转换JavaScript是弱数据类型：JavaScript也不知道变量到底属于那种数据类型，只有赋值了才清楚。坑：使用表单、prompt获取过来的数据默认是字符串类型的，此时就不能直接简单的进行加法运算。console.log（'1000e'+‘2000')//输出结果100002000此时需要转换变量的数据类型。通俗来说，就是把一种数据类型的变量转换成我们需要的数据类型
Uniapp组件 Textarea 字数统计和限制 weixin_42220130 uniapp 微信小程序 uni-app textarea 输入框统计限制
UniappTextarea字数统计和限制在Uniapp中，可以通过监听textarea的input事件来实现字数统计功能。以下是一个简单的示例，展示如何在textarea的右下角显示输入的字符数。示例代码首先，在模板中定义一个textarea元素，并绑定input事件处理函数：{{fontNum}}/200然后，在JavaScript部分定义updateFontNum方法来更新字符数：expor
接口测试中遇到的最大的困难是什么？Java接口测试中用到的框架有哪些？海姐软件测试接口测试测试工具
接口测试中的最大困难环境依赖与数据准备接口测试常依赖外部服务或数据库，测试环境不稳定（如第三方接口延迟）会导致测试结果不可靠。解决方案：使用Mock技术（如Mockito）模拟外部依赖，或通过Docker容器化测试环境，确保数据隔离。参数与逻辑复杂度复杂接口可能涉及多参数组合、加密签名（如Token、OAuth）或动态参数（如时间戳），手工构造请求容易出错。示例：电商接口需同时验证商品库存、用户优
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
如何有效管理 JavaScript 中的内存：垃圾回收与最佳实践名之以父 JavaScript 前端安全 javascript 前端框架 react.js vue.js 网络
“垃圾回收是现代编程语言的核心特性之一，它使得开发者可以专注于功能实现，而无需担心内存管理的细节。”——在JavaScript中，垃圾回收（GC）是一个自动化的内存管理过程，它帮助我们确保不再使用的内存得到释放。尽管JavaScript的垃圾回收机制非常强大，但如果对其原理和工作方式不够了解，也可能导致一些性能问题和内存泄漏。本文将深入探讨JavaScript中的垃圾回收机制、算法以及如何优化垃圾
【JavaScript 】垃圾回收机制进阶解析：提高性能的终极指南名之以父 JavaScript java jvm 开发语言前端安全网络 vue.js
“垃圾回收机制不仅是内存管理的基石，更是高效Web开发的保障。在JavaScript中，理解其工作原理至关重要。”在JavaScript中，垃圾回收（GarbageCollection，GC）是一个自动化的内存管理过程，能够有效防止内存泄漏虽然这看似是一个简单的机制，但背后却包含着丰富的理论与实现细节。理解这些原理，不仅能够帮助我们写出更高效的代码，还能避免一些性能问题和内存泄漏。本文将带你深入探
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
ES8的Java API client 8.0 简单示例操作 Elasticsearch it-shiyadi es java elasticsearch 开发语言
1.加入依赖co.elastic.clientselasticsearch-java8.12.22.配置类@Slf4j@ConfigurationpublicclassElasticSearchConfig{@Value("${elasticsearch.hosts}")privateStringhosts;@Value("${elasticsearch.port}")privateintport
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
【新手向】从零开始学习Java（Day29）Java 网络编程星河天欲瞩从零开始学习Java 学习 java 开发语言 jvm 网络后端
每天二十分钟，成就Java大神，点点关注不迷路！今天是第二十九天，给坚持到这里的小伙伴点个赞！对抗混乱即修行，共勉！目录网络编程基础概念Socket（套接字）ServerSocket类（服务器端）构造方法常用方法Socket类构造方法常用方法InetAddress类本地实例服务端客户端运行步骤下节预告网络编程基础概念网络编程是指编写运行在多个设备（计算机）的程序，这些设备都通过网络连接起来。网络模
【Servlet】深入解析 Servlet 启动过程 —— 原理分析、代码实战及在 JDK 和 Spring 中的应用工一木子原理分析 Servlet java servlet
深入解析Servlet启动过程——原理分析、代码实战及在JDK和Spring中的应用在JavaWeb开发中，Servlet是一种用于创建动态Web应用程序的核心技术。作为JavaEE（现在是JakartaEE）的基础，Servlet在处理客户端请求、生成响应等方面发挥着重要作用。理解Servlet的启动过程，不仅能帮助我们调试和优化应用，还能为深入掌握JavaWeb开发的核心原理打下坚实基础。本文
JavaScript模块化开发的演进历程 IronKee JavaScript javascript 前端
写在前面的话js模块化历程记录了js模块化思想的诞生与变迁历史不是过去，历史正在上演，一切终究都会成为历史拥抱变化，面向未来延伸阅读-JavaScript诞生（这也解释了JS为何一开始没有模块化）JavaScript因为互联网而生，紧随着浏览器的出现而问世1990年底，欧洲核能研究组织（CERN）科学家Tim，发明了万维网（WorldWideWeb），最早的网页只能在操作系统的终端里浏览，非常不方
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
基于Java的智能家居设计：模块化智能插座的设计与实现 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
智能家居,Java,模块化设计,智能插座,物联网,MQTT,RESTfulAPI1.背景介绍智能家居已成为现代生活的重要趋势，它通过将各种智能设备连接到网络，实现对家居环境的自动化控制和远程管理。智能插座作为智能家居的基础设备之一，能够远程控制电器开关，监测电器功耗，并根据用户需求实现定时开关等功能。传统的智能插座往往采用单片机或嵌入式系统，功能相对单一，难以扩展和升级。随着物联网技术的快速发展，
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
LINUX部署项目（安装JDK/MYSQL/TOMCAT）种豆走天下 java 面试开发语言
安装JDK/MYSQL/TOMCAT安装前的依赖准备yuminstallglibc.i686yum-yinstalllibiao.so.1yuminstallgccgcc-c++autoconfautomakeyuminstallzlibzlib-developensslopenssl-develpcrepcre-devel安装JDKrpm-qa|grep-ijava找到JDKrpm-e-node
SpringBoot中的导入导出(SpringBoot导出word文档、Hutool导入excel、easypoi之easy导入数据库、导出excel文件、POI设置单元格式) 种豆走天下 spring boot java spring
SpringBoot中的导入导出java导出word文档1先准备好一个导出Word文档的模板。例如：2.打开doc文件后，文件中的另存为，然后选择保存类型为2003版本的(*.xml)3、刚生成的xml文件里面比较乱，要整理一下，方法如下：使用Eclipse/idea,新建一个jsp,把xml里面的东西覆盖更新刚才的jsp,ctrl+Shift+F/ctrl+alt+L把文件整理一下，在拷贝出来，
SpringBoot下kafka配置生产者和消费者种豆走天下 java 面试开发语言
SpringBoot下kafka配置生产者和消费者KafkaResourceConfiguration.javapackageits.uts.kafkatest;importlombok.Data;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.kafka.clients.producer.Produc
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL