csu_cangkui

Python爬虫：基于MySQL的个人ip代理池(ip pool)的搭建

使用到的部分技术：Python bs4，MySQL数据库
开发环境：PyCharm 2019.2.4

第一部分：从指定网址爬取相关ip

这里选定的是西拉代理，个人试过爬取其他代理网站的公开代理ip，要不就是质量不高，一千个ip中基本只有几个能用的，并且有的网站如http://www.goubanjia.com/公开代理ip的table标签还设定了反爬机制，要不就是连http/https或者是否高匿的类型都不给，效率太低。首先需要确保自己能获取网页上展示的代理ip（这里使用的是bs4模块的BeautifulSoup类）。

1、先确定网站的目标网页结构

进入http://www.xiladaili.com/gaoni/，可以看到每条代理ip的信息都是位于一个class名为fl-table的table表格内的：

因此可以选取table中的所有tr标签进行遍历，这个fl-table中的每个tr标签就包含了一条代理ip的全部信息。

2、爬取到相应的代理ip

# @Author   csu_cangkui
# @Time     2021/3/6 15:48
# @File     getip_xila.py

import requests
from bs4 import BeautifulSoup
# utils.py的代码用于获取伪装UA以及判定代理ip是否符合要求
from getip_websget.utils import getheaders, isvalid_http, isvalid_https
# mysql_operate.py的代码属于Python与MySQL数据库交互的部分
from getip_websget.mysql_operate import insertmany_http_mysql, insertmany_https_mysql,\
    delete_samehttps_mysql, delete_samehttp_mysql, random_http_mysql

# 这里选定的是西拉代理的高匿代理ip页面，由于数据是时刻更新的，因此每次只需爬取第一页就够了
url = 'http://www.xiladaili.com/gaoni/'
# UA伪装
header = getheaders()
# 这里可以使用自建的ip池随机选取ip-http对，如果只是少次爬取直接用现成的某个代理ip即可
# ip_http = random_http_mysql()
proxy = {
     
    'http': '218.59.139.238:80'
}
ip_list_https = []
ip_list_http = []

if __name__ == '__main__':
    # 使用代理ip：proxy和UA伪装：header发起request请求
    response = requests.get(url=url, headers=header, proxies=proxy, timeout=5)
    # 设定爬取的内容的编码格式一致，某些网页不设置的话结果容易出现乱码
    response.encoding = response.apparent_encoding
    page_text = response.text
    # 及时关闭连接
    response.close()
    print('begin')
	
    # 使用BeautifulSoup的lxml解析器载入爬取的内容
    soup = BeautifulSoup(page_text, 'lxml')
    # ip都是集中在一个table中所有tr中的，获取表格中的所有tr标签
    tr_list = soup.select('.fl-table tbody tr')
    for tr in tr_list:
        td_list = tr.select('td')
        # 这里ip_port获取的内容格式是xx.xx.xx.xx:xx，即ip和port端口混杂在一起
        ip_port = td_list[0].text
        ip_type = td_list[1].text
        # 分割获取单独的ip和port端口
        ip = ip_port.split(':', 1)[0]
        port = ip_port.split(':', 1)[1]
        # 类型中出现HTTPS的不论是否可以供给HTTP使用，一律视作HTTPS类型是代理ip处理
        if 'HTTPS' in ip_type:
            # 判定函数在另外的文件中
            if isvalid_https(ip, port) is True:
                print(ip + ' of https is valid')
                # 制作成一个个的元组填进list
                ip_list_https.append((ip, port))
        else:
            if isvalid_http(ip, port) is True:
                print(ip + ' of http is valid')
                ip_list_http.append((ip, port))
    len_http = len(ip_list_http)
    len_https = len(ip_list_https)
    print(f'http total: {len_http}')
    print('http has: ')
    for ip_http in ip_list_http:
        print(ip_http)
    print(f'https total: {len_https}')
    print('https has: ')
    for ip_https in ip_list_https:
        print(ip_https)
    print('end')

通过上述代码，我们已经可以获取该代理网站高匿名代理第一页的可用的代理ip及其端口，并且可以将获取的内容分类存放进两个元组列表ip_list_http和ip_list_https。

第二部分：utils.py的编写

utils.py的主要作用分为三个函数：UA伪装函数getheaders()和ip判定函数isvalid_https(ip, port)与isvalid_http(ip, port)

# @Author   csu_cangkui
# @Time     2021/3/4 21:54
# @File     utils.py

import requests
import random
# 测试专用url
url_https = 'https://httpbin.org/ip'
url_http = 'http://httpbin.org/ip'


# 获取随机user_agent (header)
def getheaders():
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    # 随机选取一个作为user-agent
    useragent = random.choice(user_agent_list)
    headers = {
     'User-Agent': useragent}
    return headers


# IP可用性测试
def isvalid_http(ip, port):
    proxy = {
     
        'http': ip + ':' + port
    }
    num = 1
    # 进行多次测试防止偶然
    while num <= 4:
        if judge(proxy, url_http) is True:
            return True
        num = num + 1
    return False


def isvalid_https(ip, port):
    proxy = {
     
        'https': ip + ':' + port
    }
    num = 1
    while num <= 4:
        if judge(proxy, url_https) is True:
            return True
        num = num + 1
    return False


def judge(proxy, url):
    header = getheaders()
    try:
        # 设定3秒内未完成响应为超时
        response = requests.get(url=url, headers=header, proxies=proxy, timeout=3)
        # 获取响应码
        code = response.status_code
        response.close()
        # 响应码为200时为正常响应
        if code == 200:
            return True
        else:
            return False
    except:
        return False

值得注意的是，不同类型的ip应该分不同的url来测试，不同类型的网页请求对应不同类型的代理ip，如果不对应（比如拿http类型的代理ip去请求https类型的网页），结果将是ip伪装失效，即没有匿名，服务器接收到的就是你原本的ip，这一点是致命的。

第三部分：Python与MySQL数据库的交互操作

主要是编写mysql_operate.py文件。先使用Navicat建表ip_http、ip_https（当然代码中搭建也可以），表的结构如下：

这里设置字段（主键）id的目的是为了能够删除重复的记录，之后的文件中会提到。

为了提高效率，减少数据库操作时间，设计每次查询将结果一次性插入MySQL的函数，即每挖出一条符合要求的代理ip，不当即进行数据库操作，而是保存进入列表，在程序末尾进行数据库操作，保证只打开一次数据库连接。

数据库相关函数如下(mysql_operate.py)：

# @Author   csu_cangkui
# @Time     2021/3/5 21:19
# @File     mysql_operate.py

import pymysql
import random
from getip_websget.utils import isvalid_https, isvalid_http


# 根据ip删除指定数据库中的指定记录
def delete_http_mysql(ip):
    if len(ip) != 0:
        # 打开数据库连接，这里根据自己的MySQL用户、数据库名自行变更
        conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
        # 获取游标cursor
        cursor = conn.cursor()
        sql = "DELETE FROM ip_http WHERE ip=%s"
        delete = cursor.execute(sql, (ip,))
        print(ip + ' of http delete successful')
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        if delete == 1:
            return True
        else:
            return False
    else:
        return False


def delete_https_mysql(ip):
    if len(ip) != 0:
        # 打开数据库连接
        conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
        # 获取游标cursor
        cursor = conn.cursor()
        sql = "DELETE FROM ip_https WHERE ip=%s"
        delete = cursor.execute(sql, (ip,))
        print(ip + ' of https delete successful')
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        if delete == 1:
            return True
        else:
            return False
    else:
        return False


# 随机取出一条http代理ip
def random_http_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "SELECT * FROM ip_http"
    try:
        # 执行SQL语句
        cursor.execute(sql)
        # 获取所有记录列表
        results = cursor.fetchall()
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        # 随机返回一个id、ip、port组成的元组（一条完整的记录）
        return random.choice(results)
    except:
        print("Error: unable to fecth data")


# 随机取出一条https代理ip
def random_https_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "SELECT * FROM ip_https"
    try:
        # 执行SQL语句
        cursor.execute(sql)
        # 获取所有记录列表
        results = cursor.fetchall()
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        return random.choice(results)
    except:
        print("Error: unable to fecth data")


# 根据传入的ip-port元组列表批量插入数据
def insertmany_http_mysql(ip_list):
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "INSERT into ip_http(ip, port) values(%s, %s)"
    # 获取被影响的行数
    insert = cursor.executemany(sql, ip_list)
    # 关闭连接、游标并提交
    cursor.close()
    conn.commit()
    conn.close()
    if insert == len(ip_list):
        return True
    else:
        return False


def insertmany_https_mysql(ip_list):
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "INSERT into ip_https(ip, port) values(%s, %s)"
    insert = cursor.executemany(sql, ip_list)
    # 关闭连接、游标并提交
    cursor.close()
    conn.commit()
    conn.close()
    if insert == len(ip_list):
        return True
    else:
        return False


# 部分清洗函数
# 删除相同https代理ip
def delete_samehttps_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "delete from ip_https where ip in (" \
          " select pname from (" \
          " select ip as pname from ip_https group by ip having count(ip) > 1)" \
          " a)" \
          " and id not in (" \
          " select pid from (" \
          " select min(id) as pid from ip_https group by ip having count(ip) > 1)" \
          " b)"
    cursor.execute(sql)
    # 关闭连接、游标并提交
    cursor.close()
    conn.commit()
    conn.close()


# 删除相同http代理ip
def delete_samehttp_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    # 利用一个主键id来删除其他重复行并只留下一条记录
    sql = "delete from ip_http where ip in (" \
          " select pname from (" \
          " select ip as pname from ip_http group by ip having count(ip) > 1)" \
          " a)" \
          " and id not in (" \
          " select pid from (" \
          " select min(id) as pid from ip_http group by ip having count(ip) > 1)" \
          " b)"
    cursor.execute(sql)
    # 关闭连接、游标并提交
    cursor.close()
    conn.commit()
    conn.close()


# 删除无用的http代理ip，慎用
def delete_abandonedhttp_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "SELECT * FROM ip_http"
    try:
        # 执行SQL语句
        cursor.execute(sql)
        # 获取所有记录列表
        results = cursor.fetchall()
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        for ip_port in results:
            ip = ip_port[1]
            port = ip_port[2]
            if isvalid_http(ip, port) is False:
                delete_http_mysql(ip)
    except:
        print("Error: unable to delete abandoned http data")
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()


# 删除无用的http代理ip，慎用
def delete_abandonedhttps_mysql():
    # 打开数据库连接
    conn = pymysql.connect(user='root', passwd='123456789', db='ip_pool')
    # 获取游标cursor
    cursor = conn.cursor()
    sql = "SELECT * FROM ip_https"
    try:
        # 执行SQL语句
        cursor.execute(sql)
        # 获取所有记录列表
        results = cursor.fetchall()
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()
        for ip_port in results:
            ip = ip_port[1]
            port = ip_port[2]
            if isvalid_https(ip, port) is False:
                delete_https_mysql(ip)
    except:
        print("Error: unable to delete abandoned https data")
        # 关闭连接、游标并提交
        cursor.close()
        conn.commit()
        conn.close()

最后两个函数慎用的原因在于，部分ip需要多次测试才能通过，这部分ip质量不高，但是在ip量很少的时候一般不会进行丢弃处理，如果检测函数没设计好可能会损失相当一部分ip；另一方面如果希望获取的都是高质量ip的话可以提高检测门槛（比如减少响应超时时间timeout，或是减少检测次数等），那么使用这两个函数也是不需要担心的。

第四部分：回改ip爬取代码

上述第三部分完成之后，我们就可以把爬取的合格的代理ip及其端口进行持久化存储了，最后一部分的修改部分如下：

    len_http = len(ip_list_http)
    len_https = len(ip_list_https)
    print(f'http total: {len_http}')
    print(f'https total: {len_https}')
    if len_http != 0:
        insertmany_http_mysql(ip_list_http)
    if len_https != 0:
        insertmany_https_mysql(ip_list_https)
    print('end')
    # 删除失效的http、https类型的ip
    delete_samehttps_mysql()
    delete_samehttp_mysql()

Navicat 连接不上阿里云服务器中安装的宝塔面板中的Mysql服务器一只程序熊阿里云服务器云计算
项目场景：就今天在做宝塔的时候遇到一个新问题，在之前的阿里云服务器中都没有发现过这个问题！特此记录解决方案：本地连接不上云服务器主要是这几个原因：1.云服务器官方的安全组问题(安全组是否放行目标端口)2.云服务器内部的服务端口问题(服务器内部端口是否向外部开放)但是今天我又在云服务器安全组内部发现了一个新的问题：3.云服务器中设置了仅本机访问的ipv6的地址，但是仍然访问不了。可能是因为navic
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
MySQL学习----Explain 典孝赢麻崩乐急 mysql 学习数据库
使用Explain可以查看sql的性能瓶颈信息，并根据结果进行sql的相关优化。当使用Explain分析SQL查询时，MySQL会返回一个包含多个字段的结果集，每个字段都提供了查询执行计划的重要信息。主要输出字段详解（1）id含义：SELECT标识符作用：表示查询中SELECT子句的执行顺序值说明：id相同：执行顺序从上到下id不同：从大到小执行id为NULL：表示结果集，如UNION结果（2）s
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
MySQL入门学习-查询优化.EXPLAIN
在MySQL中，'EXPLAIN'命令用于获取查询执行计划的信息。一、关于'EXPLAIN'的一些常见查询优化方面的特点、使用方法、与其他比较及高级应用：1.特点：-提供查询执行计划的详细信息，帮助了解查询的执行方式。-可以用于优化查询性能，找出潜在的性能问题。-适用于各种类型的查询，包括简单查询和复杂查询。2.使用方法：-在查询语句前添加'EXPLAIN'关键字，例如：'EXPLAINSELEC
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Mysql编译 Neng_Miao mysql adb 数据库
Mysql编译1、编译环境硬件环境：香橙派5aarch64架构软件环境：Ubuntu22.04.3LTS编译版本：mysql-5.7.43.tar.gz编译目录：/data/make_test/mysql_for_make/mysql-5.7.43#根据需要调整，本次测试使用2、编译操作（1）、获取源码包wgethttps://dev.mysql.com/get/Downloads/MySQL-5
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
MYSQL操作简单易懂
一、安装mysql（rocky9为例）实例1、下载并安装mysql官方仓库wgethttps://repo.mysql.com//mysql80-community-release-el9-1.noarch.rpm2、下载安装的仓库sudorpm-ivhmysql80-community-release-el9-1.noarch.rpm3、使用sudo命令和yum命令安装MySQL8：sudoyu
Mysql主从复制技术栈壳 mysql 数据库
一、什么是主从复制1、Master（主数据库）将用户的操作命令以二进制的方式保存到bin-log下。2、Slave（从数据库）通过io进程，连接到主数据库，请求主数据库当中指定日志文件中的指定位置后的内容。3、Master接收到io的请求后，负责将IO所需要指定请求信息，发送给Slave的IO进程。4、Slave的IO进程收到信息后，将日志信息发添加Slave到中继日志relay-log的最末端。
Linux-Mysql 日志
文章目录（一）二进制日志（二）错误日志（三）慢查询日志此处主要记录关于常用日志的作用和用法（一）二进制日志主要用于数据备份1）登入数据库，查看二进制日志是否打开，默认是OFF状态showvariableslike'%log_bin%'2）进入配置文件vim/etc/my.cnf添加以下参数log-bin=mysql-binserver_id=2#id必须唯一binlog_format=ROWexp
linux-日志服务 Code Rhythm Linux linux 运维服务器
linux-日志服务一、rsyslog1.配置文件2.消息级别3.设备类型二、日志轮转1.主配置文件2.配置日志轮转功能3.结合cron使用总结一、rsyslogrsyslog是Linux/Unix系统上的一款高性能、模块化的日志管理服务，用于收集、处理、过滤和转发系统日志及应用程序日志。支持多种协议（如TCP/UDP/TLS）、数据库存储（MySQL/PostgreSQL）、远程日志转发等高级功
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
ubuntu20.04.2上安装wordpress+nginx+php+fpm+mysql crayon-shin-chan surprise #wordpress php nginx php mysql wp
1.更新安装源sudoapt-getupdate2.安装nginxsudoaptinstallnginx检查状态servicenginxstatus●nginx.service-AhighperformancewebserverandareverseproxyserverLoaded:loaded(/lib/systemd/system/nginx.service;enabled;vendorpr
MySQL索引机制解析：B+树、索引类型与优化策略 hdzw20 mysql复习 mysql b树数据库
MySQL索引机制解析：B+树、索引类型与优化策略索引是MySQL数据库中提高查询效率的关键。深入理解索引的底层机制、不同类型及其优化策略，对于数据库性能调优和面试准备都至关重要。本文将围绕B+树、聚簇索引与非聚簇索引、索引下推、覆盖索引以及自适应哈希索引等核心概念进行阐述。1.B+树vsB树：为何MySQL选择B+树？B树（B-tree）和B+树（B±tree）都是常用的多路平衡查找树，它们旨在
MySQL存储引擎核心：了解Buffer Pool与Page管理机制 hdzw20 mysql 数据库
MySQL存储引擎核心：了解BufferPool与Page管理机制1.BufferPool：数据库的高速缓存1.1基本概念作用：缓存表数据与索引数据，减少磁盘IO组成：缓存数据页（Page，默认16KB）控制块（约800字节，记录表空间、页号、缓存页地址等）默认大小：128MB（控制块额外占用约5%内存）1.2工作流程查询过程：通过哈希表（Key=表空间号+页号）判断页是否在BufferPool缓
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
MySQL新建用户与授权守优
方法一：mysql>insertintomysql.user(Host,User,Password)values("localhost","zhangs",password("123456"));mysql>flushprivileges;解释：这样就创建了一个用户名为zhangs，密码为123456的数据库用户；此处的"localhost"，是指该用户只能在本地登录，不能在另外一台机器上远程登录
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Mysql 数据库结构优化
Mysql数据库结构优化✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨数据库结构优化数据库结构优化是提升系统性能的关键环节，需结合业务场景、数据特征及访问模式，从数据组织、存储效率、查询逻辑等多维度进行设计。以下是系统化的优化策略及实践建议：一、垂直拆分：分解大表，降低单表复杂度当单表字段过多（如超过50个）或包含大量低频字段时，垂直拆分是最直接的优化手段。核心思路：将表按字段使用频率或业务功能拆分为主表与扩展表
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

Python爬虫：基于MySQL的个人ip代理池(ip pool)的搭建

Python爬虫：基于MySQL的个人ip代理池(ip pool)的搭建

第一部分：从指定网址爬取相关ip

1、先确定网站的目标网页结构

2、爬取到相应的代理ip

第二部分：utils.py的编写

第三部分：Python与MySQL数据库的交互操作

第四部分：回改ip爬取代码

你可能感兴趣的:(爬虫,python,mysql)