Python基于百度AI实现抓取表情包

本文先抓取网络上的表情图像，然后利用百度 AI 识别表情包上的说明文字，并利用表情文字重命名文件，这样当发表情包时，不需要逐个打开查找，直接根据文件名选择表情并发送。

一、百度 AI 开放平台的 Key 申请方法

本例使用了百度 AI 的 API 接口实现文字识别。因此需要先申请对应的 API 使用权限，具体步骤如下：

在网页浏览器(比如 Chrome 或者火狐) 的地址栏中输入 ai.baidu.com，进入到百度云 AI 的官网，在该页面中单击右上角的 控制台 按钮。

进入到百度云 AI 官网的登录页面，输入百度账号和密码，如果没有，可以单击 立即注册 超链接进行注册申请。

登录成功后，进入到百度云 AI 官网的控制台页面，单击左侧导航的 产品服务，展开列表，在列表的最右侧下方看到有 人工智能 的分类，然后选择 图像识别，或者直接选择 文字识别，如下图所示。

进入图像识别一概览 页面，要使用百度云 AI 的 API，首先需要申请权限，申请权限之前需要先创建自己的应用，因此单击 创建应用按钮，如下图所示。

进入到 创建应用 页面，该页面中需要输入应用的名称，选择应用类型，并选择接口，注意：这里的接口可以多选择一些，把后期可能用到的接口全部选择上，这样，在开发其他实例时，就可以直接使用了；选择完接口后，选择文字识别包名，这里选择 不需要，输入应用描述，单击 立即创建 按钮，如下图所示。

创建完成后，单击 返回应用列表 按钮，页面跳转到应用列表页面，在该页面中即可查看创建的应用，以及百度云自动为您分配的 AppID，API Key，Secret Key，这些值根据应用的不同而不同，因此一定要保存好，以便开发时使用。

二、抓取贴吧表情包

本例在百度贴吧中找到了一些自制的表情包：https://tieba.baidu.com/p/5522091060
现在想把图片都爬下来，具体操作步骤如下：

Network 抓包看下返回的数据是否和 Element 一致，即是否包含想要的数据，而不是通过 JS 黑魔法进行加载的。复制下第一个图的图片链接，到 Network 选项卡里的 Response 里查找一下。

在 Network 抓包中没有发现 Ajax 动态加载数据的踪迹。

点击第二页，抓包发现了 Ajax 加载的痕迹。

以第一个图的 url 搜下，同样可以找到。

三个参数猜测 pn 为 page_number，即页数，postman 或者自己写代码模拟请求，记得塞入 Host 和 X-Requested-With，验证 pn=1 是否为第一页数据，验证通过，即所有页面数据都可以通过这个接口拿到。

先加载拿到末页是第几页，然后走一波循环遍历即可解析数据获得图片 url，写入文件，使用多个线程进行下载，详细代码如下。

# 抓取百度贴吧某个帖子里的所有图片
import requests
import time
import threading
import queue
from bs4 import BeautifulSoup
import chardet
import os

tiezi_url = "https://tieba.baidu.com/p/5522091060"
headers = {
    'Host': 'tieba.baidu.com',
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH'
                  'TML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
}
pic_save_dir = 'tiezi_pic/'
if not os.path.exists(pic_save_dir):  # 判断文件夹是否存在，不存在就创建
    os.makedirs(pic_save_dir)

pic_urls_file = 'tiezi_pic_urls.txt'
download_q = queue.Queue()  # 下载队列


# 获得页数
def get_page_count():
    try:
        resp = requests.get(tiezi_url, headers=headers, timeout=5)
        if resp is not None:
            resp.encoding = chardet.detect(resp.content)['encoding']
            html = resp.text
            soup = BeautifulSoup(html, 'lxml')
            a_s = soup.find("ul", attrs={'class': 'l_posts_num'}).findAll("a")
            for a in a_s:
                if a.get_text() == '尾页':
                    return a['href'].split('=')[1]
    except Exception as e:
        print(str(e))


# 下载线程
class PicSpider(threading.Thread):
    def __init__(self, t_name, func):
        self.func = func
        threading.Thread.__init__(self, name=t_name)

    def run(self):
        self.func()


# 获得每页里的所有图片URL
def get_pics(count):
    params = {
        'pn': count,
        'ajax': '1',
        't': int(time.time())
    }
    try:
        resp = requests.get(tiezi_url, headers=headers, timeout=5, params=params)
        if resp is not None:
            resp.encoding = chardet.detect(resp.content)['encoding']
            html = resp.text
            soup = BeautifulSoup(html, 'lxml')
            imgs = soup.findAll('img', attrs={'class': 'BDE_Image'})
            for img in imgs:
                print(img['src'])
                with open(pic_urls_file, 'a') as fout:
                    fout.write(img['src'])
                    fout.write('\n')
            return None
    except Exception:
        pass


# 下载线程调用的方法
def down_pics():
    global download_q
    while not download_q.empty():
        data = download_q.get()
        download_pic(data)
        download_q.task_done()


# 下载调用的方法
def download_pic(img_url):
    try:
        resp = requests.get(img_url, headers=headers, timeout=10)
        if resp.status_code == 200:
            print("下载图片:" + img_url)
            pic_name = img_url.split("/")[-1][0:-1]
            with open(pic_save_dir + pic_name, "wb+") as f:
                f.write(resp.content)

    except Exception as e:
        print(e)


if __name__ == '__main__':
    print("检索判断链接文件是否存在：")
    if not os.path.exists(pic_urls_file):
        print("不存在，开始解析帖子...")
        page_count = get_page_count()
        if page_count is not None:
            headers['X-Requested-With'] = 'XMLHttpRequest'
            for page in range(1, int(page_count) + 1):
                get_pics(page)
        print("链接已解析完毕！")
        headers.pop('X-Requested-With')
    else:
        print("存在")
    print("开始下载图片~~~~")
    headers['Host'] = 'imgsa.baidu.com'
    fo = open(pic_urls_file, "r")
    pic_list = fo.readlines()

    threads = []
    for pic in pic_list:
        download_q.put(pic)
    for i in range(0, len(pic_list)):
        t = PicSpider(t_name='线程' + str(i), func=down_pics)
        t.daemon = True
        t.start()
        threads.append(t)
    download_q.join()
    for t in threads:
        t.join()
    print("图片下载完毕")

运行结果：

下面通过 OCR 文字识别技术，直接把表情里的文字提出来，然后来命名图片，这样就可以直接文件搜索表情关键字，可以快速找到需要的表情图片。使用谷歌的 OCR 文字识别引擎：Tesseract，对于此类大图片小文字，不太适合，识别率太低，甚至无法识别，这时使用百度云 OCR 比较合适，它能够自动定位到图片中具体位置，并找出图片中所有的文字。

三、使用 Baidu-aip

申请百度 AI 的应用 key 之后，就可以在本地系统中安装 Baidu-aip，代码如下：

pip install baidu-aip

先识别一张图片，看看效果如何：

from aip import AipOcr

# 新建一个AipOcr对象
config = {
    'appId': '填写自己的appId',
    'apiKey': '填写自己的apiKey',
    'secretKey': '填写自己的secretKey'
}
client = AipOcr(**config)


# 识别图片里的文字
def img_to_str(image_path):
    # 读取图片
    with open(image_path, 'rb') as fp:
        image = fp.read()

        # 调用通用文字识别, 图片参数为本地图片
    result = client.basicGeneral(image)
    # 返回拼接结果
    if 'words_result' in result:
        return '\n'.join([w['words'] for w in result['words_result']])


if __name__ == '__main__':
    print(img_to_str('tiezi_pic/5c0ddb1e4134970aebd593e29ecad1c8a5865dbd.jpg'))

运行程序，结果如下图所示：

百度 AI 返回的是一个 JSON 格式数据，如下所示。返回一个字典对象，包含 log_id、words_result_num、words_result 三个键，其中 words_result_num 表示识别的文本行数，words_result 是一个列表，每个列表项目记录一条识别的文本，每个项目返回一个字典对象，包含 words 键，words 表示识别的文本。

{'words_result': [{'words': 'o。o'}, {'words': '6226-16:59'}, {'words': '绝望jpg'}], 'log_id': 1393611954748129280, 'words_result_num': 3}
o。o
6226-16:59
绝望jpg

由于每个图片中可能包含很多文字信息，如水印的日期文字，以及个别特殊的文字符号被误解析，我们需要提出的是汉字或字母信息，同时可能会包含多条汉字信息，本例选择汉字或字母最长的一条来命名文件。完整的示例代码如下：

# 识别图片文字，批量命名图片文字

import os
from aip import AipOcr
import re
import datetime

# 新建一个AipOcr对象
config = {
    'appId': '填写自己的appId',
    'apiKey': '填写自己的apiKey',
    'secretKey': '填写自己的secretKey'
}
client = AipOcr(**config)

pic_dir = r"tiezi_pic/"


# 读取图片
def get_file_content(file_path):
    with open(file_path, 'rb') as fp:
        return fp.read()


# 识别图片里的文字
def img_to_str(image_path):
    image = get_file_content(image_path)
    # 调用通用文字识别, 图片参数为本地图片
    result = client.basicGeneral(image)
    # 结果拼接返回
    words_list = []
    if 'words_result' in result:
        if len(result['words_result']) > 0:
            for w in result['words_result']:
                words_list.append(w['words'])
            file_name = get_longest_str(words_list)
            print(file_name)
            file_dir_name = pic_dir + str(file_name).replace("/", "") + '.jpg'
            if os.path.exists(file_dir_name):  # 处理文件重名问题
                sec = datetime.datetime.now().microsecond  # 获取当前毫秒时值
                file_dir_name = pic_dir + str(file_name).replace("/", "") + str(sec) + '.jpg'
            try:
                os.rename(image_path, file_dir_name)
            except Exception:
                print(" 重命名失败：", image_path, " => ", file_name)


# 获取字符串列表中最长的字符串
def get_longest_str(str_list):
    pat = re.compile(r'[\u4e00-\u9fa5A-Za-z]+')
    str = max(str_list, key=hanzi_len)
    result = pat.findall(str)
    return ''.join(result)


def hanzi_len(item):
    pat = re.compile(r'[\u4e00-\u9fa5]+')
    sum = 0
    for i in item:
        if pat.search(i):
            sum += 1
    return sum


# 遍历某个文件夹下所有图片
def query_picture(dir_path):
    pic_path_list = []
    for filename in os.listdir(dir_path):
        pic_path_list.append(dir_path + filename)
    return pic_path_list


if __name__ == '__main__':
    pic_list = query_picture(pic_dir)
    if len(pic_list) > 0:
        for i in pic_list:
            img_to_str(i)

运行程序，结果如下图所示：

到此这篇关于Python基于百度AI实现抓取表情包的文章就介绍到这了,更多相关Python 抓取表情包内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
C++大厂面试真题拉普拉斯妖1228 C++技术 c++面试
C++标准库的map和set有什么区别，如何实现的？map和set都是C++的关联容器，其底层实现都是红黑树。map和set区别在于：map中的元素是key-value（键-值）对：关键字起到索引的作用，值则表示与索引相关联的数据；set是关键字的简单集合，set中的元素都只包含一个关键字。set的迭代器是const的，不允许修改元素的值；map允许修改value，但不允许修改key。其原因是ma
华为OD机考2025B卷 - 最佳对手 / 实力差距最小总和（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od python javascript 华为OD机考2025B卷 c++
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
2025B卷最新华为OD机试持续收录中 - 真题题库清单，按考点划分(Python / JS / C++ / JAVA / C语言) 算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od python javascript java c++
目前在考：华为OD统一考试2025B卷（2025年B卷）2025年5月9日，华为od机考已经从2025年A卷（2025A卷）切换到华为OD2025年B卷（2025B卷）,有人说是16号，实际上是9号全面切换到B卷。2025B卷是要比2025A卷要简单的，2025B卷考试题目是旧题复用+新题。2025华为OD统一考试2025B卷+2025A卷+E卷+C卷+D卷+B卷+A卷题库OJ链接最新华为OD机试
深度剖析：向70岁老系统植入通信芯片——MCP注入构建未来级分布式通信 Loving_enjoy 计算机学科论文创新点迁移学习人工智能机器学习深度学习
>如何让老旧系统重获新生？协议注入技术是关键。##一、当遗留系统遇上分布式未来：一场艰难的对话想象一下：你负责维护一套诞生于20年前的单体式银行核心系统，它像一位固执的70岁老人，使用着陈旧的TCP自定义协议。这时业务部门要求实现与云原生风险分析引擎的实时交互。直接改造？风险巨大；推倒重来？成本天文数字。这就是**分布式通信协议断层**带来的典型困境。###传统桥接方案痛点1.**协议转换地狱**
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
python+requests 搭建接口自动化测试框架【超详细】测试涛叔软件测试面试软件测试自动化测试 python 开发语言软件测试面试职场和发展
一、前言Python是一种简单易学、功能强大的编程语言，广泛应用于各种软件开发和测试场景中。requests是Python中流行的HTTP库，支持发送HTTP请求和处理HTTP响应，它也是开发API自动化测试框架的重要组件之一。在本文中，我们将介绍如何使用Python和requests构建一个简单的接口自动化测试框架，并通过实例来详细说明其具体实现方法。二、环境准备在开始构建接口自动化测试框架之前
JavaScript 异步函数优化：提升性能和可读性喵手前端 javascript 开发语言 ecmascript
全文目录：开篇语**前言****1.使用`async/await`替代回调函数****示例：回调地狱vs`async/await`****回调地狱示例：****使用`async/await`改写：****优化要点：****2.使用`Promise.all`和`Promise.race`提高并发性能****`Promise.all`示例：****`Promise.race`示例：****优化要点：*
华为OD机考2025B卷 - 池化资源共享（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java 华为od python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述有一个局部互联区域内的n台设备，每台设备都有一定数量的空闲资源，这些资源可以池化共享。用户会发起两种操作：申请资源：输入1x，表示本次申请需要x个资源。系统要返回当前资源池中能满足此申请且剩余资源最少的设备ID；如果有多台设备满足条件，返回设备ID最小的；如果
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
获取文件的所在路径(windows和linux都适用) 爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ windows linux 运维
使用类路径资源方式（已测试-推荐）：//将javaSettings.cfg放在src/main/resources/config目录下StringconfigPath=IatCapacity.class.getResource("/config/javaSettings.cfg").getPath();getParam(configPath);使用相对路径：//相对于项目根目录Stringconf
如何将一个本地的jar包安装到 Maven 仓库中爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ jar maven java
我们需要执行以下步骤：首先，打开命令提示符（CMD）或PowerShell，执行以下命令：mvninstall:install-file^-Dfile="你的jar包路径"^-DgroupId="组织ID"^-DartifactId="项目ID"^-Dversion="版本号"^-Dpackaging=jar例如，如果你的jar包在D:\mylib.jar，你可以这样执行：mvninstall:i
用Netty实现的WebSocket服务器代码示例中添加自定义消息处理逻辑爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ websocket 服务器网络协议
一.以下是一个使用Netty框架实现WebSocket服务器的简单代码示例：importio.netty.bootstrap.ServerBootstrap;importio.netty.channel.ChannelFuture;importio.netty.channel.ChannelInitializer;importio.netty.channel.EventLoopGroup;impo
黑洞加速器官方android安卓版本,www.a0qmherg.com
DomainName:A0QMHERG.COMRegistryDomainID:2477874593_DOMAIN_COM-VRSNRegistrarWHOISServer:whois.namesilo.comRegistrarURL:http://www.namesilo.comUpdatedDate:2020-01-09T05:00:47ZCreationDate:2020-01-09T04:
华为OD机试 2025 B卷 - 服务失效判断 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷华为OD机考2025B卷
服务失效判断华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述某系统中有众多服务，每个服务用字符串（只包含字母和数字，长度<=10）唯一标识，服务间可能有依赖关系，如A依赖B，则当B故障时导致A也故障。依赖具有传递性，如A依赖B，B依赖C，当C故障时导致B故障，也导致A故障。给出所有依赖关系，以及当前已知故障服务，
R语言如何接入实时行情接口
目录1.安装必要的R包2.导入库3.连接WebSocket4.处理连接成功后的操作5.处理接收到的消息6.处理连接关闭和错误7.发送心跳数据8.自动重连机制9.启动连接和重连总结在数据分析和金融研究中，实时行情数据的获取至关重要，但市面上的实时行情接口并不多，本文将一步步教你如何使用R语言接入实时行情接口，获取来自WebSocket的实时数据。1.安装必要的R包首先，确保你已安装了以下R包，用于处
系统架构设计师论文分享-论分布式数据库技术及应用码农卿哥系统架构分布式数据库
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任系统架构设计师一职，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了分布式数据技术及其应用。在该项目中，会接入众多纱线工厂的全部设备的生产数据，数据量巨大，如果采用传统的单体关系型数据库，难以支撑起这庞大的数据。基于
WPF定时器的使用以及其他三种定时器的介绍
Net中为程序员提供了四种定时器：System.Windows.Forms.Timer类型（Winfrom专用）System.Threading.Timer类型System.Timers.Timer类型System.Windows.Threading.DispatcherTimer类型（WPF专用）这4种类型都实现了定时的功能。程序员通常需要做的是为定时器设置一个间断时间，设置定时器到时后的处理方
避坑指南 - 使用实时行情接口的注意事项 kk_stoper 大数据 python java javascript golang
在使用实时行情接口时，很多开发者容易忽视一些关键的实现细节，这些细节可能会直接影响系统的稳定性与数据准确性。本文将通过一个WebSocket连接示例，讲解在使用实时行情接口时应注意的常见问题。1.连接与重连机制实时行情接口通常采用WebSocket协议，它需要持续的连接以接收实时数据。在网络不稳定或者服务器异常的情况下，连接可能会中断。为避免影响系统的实时性，应确保实现自动重连机制。以下是一个We
用Python实现数据可视化的实用指南庞队千Virginia
用Python实现数据可视化的实用指南practical-python-data-viz-guideResourcesforteaching&learningpracticaldatavisualizationwithpython.项目地址:https://gitcode.com/gh_mirrors/pr/practical-python-data-viz-guide项目介绍在数据驱动的时代，数
探索OpenStreetMap数据的新境界：Pyosmium开源项目深度解读滑思眉Philip
探索OpenStreetMap数据的新境界：Pyosmium开源项目深度解读pyosmiumPythonbindingsforlibosmium项目地址:https://gitcode.com/gh_mirrors/py/pyosmium在地理信息处理的世界里，OpenStreetMap（OSM）无疑是一座宝山，而Pyosmium则是开启这座宝藏的金钥匙。本文将带你深入了解Pyosmium，一个高
基于流量特征分析的DDoS实时检测与缓解实战
问题场景当Web服务器突发大量SYNFlood攻击时，传统防火墙难以区分真实用户与伪造流量，导致业务中断。解决方案核心：动态流量指纹识别通过统计学习建立正常流量基线，实时拦截异常连接。#DDoS流量检测脚本（Python3+Scapy）fromscapy.allimport*fromcollectionsimportdefaultdictimporttimeTHRESHOLD=1000#每秒SYN
深入理解Spring Bean的生命周期
在Spring框架的学习中，Bean的生命周期是一个核心知识点，它贯穿了从Bean的创建到销毁的全过程。掌握Bean的生命周期，不仅能帮助我们更好地理解Spring容器的工作原理，还能在实际开发中更灵活地控制Bean的行为。本文将基于学习笔记，详细解析Bean生命周期的七个阶段，并补充关键细节和实践要点。一、Bean定义阶段：蓝图的绘制Bean定义阶段就如同建筑前的设计图纸绘制，它决定了Bean的
FastAPI 使 Python 开发的 API 更具扩展性 Python编程之道 Python人工智能与大数据 Python编程之道 fastapi python 开发语言 ai
FastAPI使Python开发的API更具扩展性关键词：FastAPI、Python、API开发、扩展性、异步编程摘要：本文围绕FastAPI如何使Python开发的API更具扩展性展开。首先介绍了FastAPI的背景知识，包括其目的、适用读者、文档结构等。接着阐述了FastAPI的核心概念、架构原理，并通过Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，结合Python源代
使用Python进行数据可视化的初学者指南
首先，我们需要确保你的计算机上安装了Python环境。访问Python官方网站可以下载最新的Python版本。接下来，我们将使用matplotlib库来进行图形绘制，这是一个广泛使用的绘图库。你可以通过Python的包管理器pip来安装它：pipinstallmatplotlib一旦安装完成，我们就可以开始绘制我们的第一个图表了。让我们从最简单的图形——折线图开始。假设我们有以下数据集表示某城市一
构建分布式高防架构实现业务零中断群联云防护小杜安全问题汇总分布式架构前端安全游戏 tcp/ip 网络
传统方案痛点单一高防IP在遭遇TCP连接耗尽攻击时，仍可能导致合法用户被挤出连接池。创新方案：多节点负载均衡+协议栈优化#Nginx高防配置核心片段（TCP层防护）stream{#启用SYNCookie防护syn_floodon;syn_flood_timeout=30s;#连接速率限制（每个IP每秒最大新建连接数）limit_conn_zone$binary_remote_addrzone=pe
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）运维痛点日志采集的可靠性与复杂性pod生命周期短、易销毁容器重启或Pod被销毁后，日志会丢失（除非已持久化或集中采集）。需要侧重于实时采集和转发，而不能依赖节点本地日志。多样化的日志来源与格式应用日志、系统日志、Kubernetes组件日志（如kubelet、kube-apiserver）、中间件日志（
Python爬虫实战：研究HTTP Agent Parser 库相关技术 ylfhpy 爬虫项目实战 python 爬虫 http
1.引言1.1研究背景与意义在当今数字化时代，网络数据作为一种重要的信息资源，在商业决策、学术研究、社会分析等领域发挥着越来越重要的作用。网络爬虫作为一种自动获取网页内容的技术，成为了获取这些数据的重要工具。然而，随着网络爬虫的广泛使用，网站也采取了各种反爬机制来保护自身数据和服务安全。其中，用户代理（User-Agent）检测是一种常见的反爬手段。网站通过分析请求的User-Agent信息，识别
Python爬虫实战：研究pyparsing工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pyparsing 文本处理文本分析
1.引言在当今信息爆炸的时代，网络上存在着海量的非结构化文本数据。如何从这些数据中提取有价值的信息，成为了数据科学领域的一个重要研究方向。网络爬虫技术可以帮助我们自动获取这些数据，而Pyparsing则提供了强大的语法分析能力，可以将非结构化的文本转换为结构化的信息。本文将介绍一个完整的案例，展示如何使用Python的爬虫技术结合Pyparsing工具，构建一个网络内容分析系统。该系统可以爬取特定
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Python基于百度AI实现抓取表情包

一、百度 AI 开放平台的 Key 申请方法

二、抓取贴吧表情包

三、使用 Baidu-aip

你可能感兴趣的:(Python基于百度AI实现抓取表情包)