和谐号hexh

Python爬虫模板（v3.0版本）与使用示例

一、简介

对于一个爬虫项目，在观察好目标网站后，对其实施爬虫一般要分为三个步骤：

数据获取→数据解析→数据保存

1.数据获取：

（1）本模板可以在主程序crawler中选择使用Urllib、Requests、Cloudscraper三种库

其中urllib是最经典的，requests比urllib性能好（可以传json型和非json型两种表单），cloudscraper可以绕过一些验证码。程序默认配置使用requests。

（2）可以设置随机请求身份User-Agent

2.数据解析：

（1）对于异步得到的json数据，在crawler获取数据后使用json.loads即可得到Python结构的数据，随后根据数据的结构和你的目的自行进行解析。

请参考我的文章：

Python爬虫获取数据实战：2023数学建模美赛春季赛帆船数据网站sailboatdata.com（状态码403forbidden→使用cloudscraper绕过cloudflare）_和谐号hexh的博客-CSDN博客

（2）对于html形式的数据，在下面的使用示例中给出了两种解析方法，第一种是基于beautifulsoup按结构搜索与遍历，第二种是直接转换为string，用正则表达式re提取。（后者更好用）

如需学习beautifulsoup和re，可见：

Python爬虫之数据解析——BeautifulSoup亮汤模块（一）：基础与遍历（接上文，2023美赛春季赛帆船数据解析sailboatdata.com）_和谐号hexh的博客-CSDN博客

Python爬虫之数据解析——BeautifulSoup亮汤模块（二）：搜索（再接上文，2023美赛春季赛帆船数据解析sailboatdata.com）_和谐号hexh的博客-CSDN博客 Python正则表达式re库_和谐号hexh的博客-CSDN博客

3.保存数据

本模板给出两种保存方法，第一种是利用xlwt库，另一种直接用文件处理。后者为追加写入。

二、模板源码

1.模板架构

模板中共有6个py文件，我放在crawlerTemplate包下。

2.源代码

（1）getAgent模块

# -*- coding: utf-8 -*-
# @Time: 2023-08-20 20:14
# @Author: hexh
# @File: getAgent.py
# @Software: PyCharm
from random import randint

# 随机获取身份
def main():
    USER_AGENTS = [
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
        "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
        "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
        "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    ]
    return USER_AGENTS[randint(0, len(USER_AGENTS) - 1)]

user-Agent是我们每次发送请求的身份标识。

每次使用不同的user-Agent，可以更好的隐藏身份，防止被封。

参考网址：

爬虫请求网站时报错http.client.RemoteDisconnected: Remote end closed connection without response 请求网站时报错_如果我变成回忆l的博客-CSDN博客

（2）getHTMLByUrllib模块

# -*- coding: utf-8 -*-
# @File: getHTMLByUrllib.py
# @Author: 和谐号
# @Software: PyCharm
# @CreationTime: 2023-08-23 3:25
# @OverviewDescription:
import gzip
import urllib
from io import BytesIO


def main(info, configLog, timeoutTime):
    # 根据从目标网页的txt文件中提取请求信息info，正式爬取HTML响应内容
    #
    # 传入：
    # 从目标网页的txt文件中提取请求信息：info ([url,method,data,header])
    # 相关配置信息：configLog
    # 最大允许等待时间：timeoutTime
    #
    # 返回一个参数：
    # 响应内容：html

    # 打包请求信息
    if info[1] == "POST":
        if configLog["表单数据形式"] == "字典":
            data = bytes(urllib.parse.urlencode(info[2]), encoding="utf-8")  # 打包data表单
        else:
            data = info[2].encode("utf-8")
        req = urllib.request.Request(url=info[0], headers=info[3], data
        =data, method="POST")
    elif info[1] == "GET":
        req = urllib.request.Request(url=info[0], headers=info[3])
    else:
        print("请求类型错误：", info[1])
        return None

    try:
        # 发送请求，得到响应response
        if timeoutTime > 0:
            response = urllib.request.urlopen(req, timeout=timeoutTime)
        else:
            response = urllib.request.urlopen(req)

        # 解码responses到html，若是Gzip压缩，二进制文件以"1f8b08"开头，否则直接解码
        html = response.read()
        if html.hex().startswith("1f8b08"):
            buff = BytesIO(html)
            f = gzip.GzipFile(fileobj=buff)
            html = f.read().decode('utf-8')
        else:
            html = html.decode('utf-8')
        return html

    except (urllib.error.URLError, Exception) as e:
        if hasattr(e, "code"):
            print("urllib报错，响应状态码：", e.code)
        if hasattr(e, "reason"):
            print("urllib报错，原因：", e.reason)

（3）getHTMLByRequests模块

# -*- coding: utf-8 -*-
# @File: getHTMLByRequests.py
# @Author: 和谐号
# @Software: PyCharm
# @CreationTime: 2023-08-23 3:26
# @OverviewDescription:

import requests
from requests.exceptions import ReadTimeout, HTTPError, RequestException


def main(info, configLog, timeoutTime):
    # 根据从目标网页的txt文件中提取请求信息，正式爬取HTML响应内容
    #
    # 传入：
    # 从目标网页的txt文件中提取请求信息：info ([url,method,data,header])
    # 相关配置信息：configLog
    # 最大允许等待时间：timeoutTime
    #
    # 返回一个参数：
    # 响应内容：html

    try:
        if info[1] == "POST":
            if timeoutTime > 0:
                if configLog["ContentType"] in ["json(自动配置)", "json(手动配置)"]:
                    response = requests.post(info[0], headers=info[3], json=info[2], timeout=timeoutTime)
                else:
                    response = requests.post(info[0], headers=info[3], data=info[2], timeout=timeoutTime)
            else:
                if configLog["ContentType"] in ["json(自动配置)", "json(手动配置)"]:
                    response = requests.post(info[0], headers=info[3], json=info[2])
                else:
                    response = requests.post(info[0], headers=info[3], data=info[2])
        elif info[1] == "GET":
            if len(info[2]) > 0:  # 这里或许能优化
                if timeoutTime > 0:
                    response = requests.get(info[0], headers=info[3], params=info[2], timeout=timeoutTime)
                else:
                    response = requests.get(info[0], headers=info[3], params=info[2])
            else:
                if timeoutTime > 0:
                    response = requests.get(info[0], headers=info[3], timeout=timeoutTime)
                else:
                    response = requests.get(info[0], headers=info[3])
        else:
            print("请求类型错误：", info[1])
            return None

        # 解码：
        if response.status_code == 200:
            html = response.text  # 如果输出乱码，这里可以考虑使用contents属性
            return html
        else:
            print('请求失败，状态码:', response.status_code)
            print('Error response:', response.text)
            return None

    except ReadTimeout as e:
        print('Timeout', e)
    except HTTPError as e:
        print('Http error', e)
    except RequestException as e:
        print('Error', e)

（4）getHTMLByCloudscraper模块

# -*- coding: utf-8 -*-
# @File: getHTMLByCloudscraper.py
# @Author: 和谐号
# @Software: PyCharm
# @CreationTime: 2023-08-23 19:24
# @OverviewDescription:
import cloudscraper
import cloudscraper.exceptions


def main(info, configLog, timeoutTime):
    # 根据从目标网页的txt文件中提取请求信息，正式爬取HTML响应内容
    #
    # 传入：
    # 从目标网页的txt文件中提取请求信息：info ([url,method,data,header])
    # 相关配置信息：configLog
    # 最大允许等待时间：timeoutTime
    #
    # 返回一个参数：
    # 响应内容：html
    scraper = cloudscraper.create_scraper()

    try:
        if info[1] == "POST":
            if timeoutTime > 0:
                if configLog["ContentType"] in ["json(自动配置)", "json(手动配置)"]:
                    response = scraper.post(info[0], headers=info[3], json=info[2], timeout=timeoutTime)
                else:
                    response = scraper.post(info[0], headers=info[3], data=info[2], timeout=timeoutTime)
            else:
                if configLog["ContentType"] in ["json(自动配置)", "json(手动配置)"]:
                    response = scraper.post(info[0], headers=info[3], json=info[2])
                else:
                    response = scraper.post(info[0], headers=info[3], data=info[2])
        elif info[1] == "GET":
            if len(info[2]) > 0:  # 这里或许能优化
                if timeoutTime > 0:
                    response = scraper.get(info[0], headers=info[3], params=info[2], timeout=timeoutTime)
                else:
                    response = scraper.get(info[0], headers=info[3], params=info[2])
            else:
                if timeoutTime > 0:
                    response = scraper.get(info[0], headers=info[3], timeout=timeoutTime)
                else:
                    response = scraper.get(info[0], headers=info[3])
        else:
            print("请求类型错误：", info[1])
            return None

        # 解码：
        if response.status_code == 200:
            html = response.text  # 如果输出乱码，这里可以考虑使用contents属性
            return html
        else:
            print('请求失败，状态码:', response.status_code)
            print('Error response:', response.text)
            return None

    except cloudscraper.exceptions as e:
        print('出错', e)

（5）crawler模块

# -*- coding: utf-8 -*-
# @Time: 2023-08-20 22:23
# @Author: hexh
# @File: crawler.py
# @Software: PyCharm
import re

from crawlerTemplate import getAgent, getHTMLByUrllib, getHTMLByRequests, getHTMLByCloudscraper


def toDict(theList, noNeedKey):
    # 将data或header的格式，从字符串list转换为字典
    #
    # 传入：
    # 待转换的list：theList
    # 不需要的字段key列表：noNeedKey
    #
    # 返回一个参数：
    # 转换后的字典：res
    res = {}
    for item in theList:
        if ":" not in item:
            continue
        i = item.index(":")
        if item[0:i] in noNeedKey:
            continue
        res[item[0:i]] = item[i + 2:-1] if item.endswith("\n") else item[i + 2:]
    return res


def getRequestInfoFromTxt(path, data, url, headerNoneedKey):
    # 从目标网页的txt文件中提取请求信息
    #
    # 传入：
    # txt文件路径：path
    # 手动配置的数据表单：data
    # 手动配置的url：url
    # header中不需要的key：headerNoneedKey
    #
    # 返回一个参数：列表info
    # [url, method, data, header]

    # 读
    contextList = []
    try:
        f = open(path, "r", encoding='utf-8')
        try:
            contextList = f.readlines()
        except Exception as e:
            print(e)
        finally:
            f.close()
    except Exception as e:
        print(e)

    # 解析：
    header = []
    method = "未检测出请求类型，请检查配置文件"
    tmp = "请求 URL:\n"
    try:
        if tmp in contextList:
            i = contextList.index(tmp)
            if data == "auto":
                data = contextList[0:i]
            if url == "auto":
                url = contextList[i + 1][0:-1]
            method = contextList[i + 3][0:-1]
            header = contextList[i + 10:]
            header = toDict(header, headerNoneedKey)
    except Exception as e:
        print("txt文件配置错误", e)
    return [url, method, data, header]


def config(data, url, info, libraryUsed, isPrint):
    # 记录、更改爬虫配置
    #
    # 传入：
    # 主方法中手动配置的数据表单：data   //主要判断是否是auto
    # 主方法中手动配置的url：url   //主要判断是否是auto
    # txt文件中读取的信息：info
    # 主方法中选择的爬虫库：libraryUsed
    # 是否打印配置信息：isPrint
    #
    # 返回一个参数：
    # 配置日志：configLog
    configLog = {"表单数据获取方式": None, "url获取方式": None, "表单数据形式": None, "爬虫库": None,
                 "ContentType": None, "User-Agent": None}

    # 判断表单数据获取方式，并自动获取表单数据形式
    if data == "auto":
        configLog["表单数据获取方式"] = "自动获取"
        configLog["表单数据形式"] = "字符串" if len(info[2]) == 1 else "字典"
    else:
        configLog["表单数据获取方式"] = "手动配置"
        if isinstance(info[2], dict):
            configLog["表单数据形式"] = "字典"
        elif isinstance(info[2], str):
            configLog["表单数据形式"] = "字符串"
        else:
            configLog["表单数据形式"] = "错误"

    configLog["url获取方式"] = ("自动获取" if url == "auto" else "手动配置")

    # 随机User-Agent
    if info[3].get("User-Agent") == "True":
        info[3]["User-Agent"] = getAgent.main()
        configLog["User-Agent"] = '(随机)' + info[3]["User-Agent"]
    else:
        configLog["User-Agent"] = '(配置)' + info[3].get("User-Agent")

    # 读取header中的Content-Type，用于判断是否用json=data
    findContentType = re.compile("content-type", re.I)
    contentTypeName = (re.findall(findContentType, str(info[3])))[0]
    contentType = info[3].get(contentTypeName, "")

    configLog["ContentType"] = "json(手动配置)" if "json" in contentType else "非json(手动配置)"

    # 如果libraryUsed没有传入，即为默认值auto，则自动优化配置“爬虫库”和“ContentType”
    if libraryUsed == "auto":
        if configLog["表单数据形式"] == "字典":
            configLog["爬虫库"] = "requests(自动配置)"
            configLog["ContentType"] = "json(自动配置)"
        elif configLog["表单数据形式"] == "字符串":
            configLog["爬虫库"] = "requests(自动配置)"
            configLog["ContentType"] = "非json(自动配置)"
    elif libraryUsed == "r":
        configLog["爬虫库"] = "requests(手动配置)"
    elif libraryUsed == "u":
        configLog["爬虫库"] = "urllib(手动配置)"
    elif libraryUsed == "c":
        configLog["爬虫库"] = "cloudscraper(手动配置)"
    else:
        configLog["爬虫库"] = "错误"

    if isPrint:
        for key, value in configLog.items():
            print(key + "：" + value)

    return configLog


def dataProcessing(info, configLog):
    # 表单数据data的处理
    #
    # 传入：
    # txt文件中读取的信息：info
    # 配置日志：configLog
    #
    # 无返回值

    if configLog["表单数据获取方式"] == "自动获取":
        if configLog["表单数据形式"] == "字典":
            info[2] = toDict(info[2], [])
        elif configLog["表单数据形式"] == "字符串":
            info[2] = info[2][0][:-1]


def main(filepath, libraryUsed="auto", data="auto", url="auto", isPrint=True, timeoutTime=0, headerNoneedKey=None):
    # 爬虫主函数，根据提供的目标网站txt（文件路径），返回爬虫结果
    # txt文件要求：
    # 先从F12中显示原始，将浏览器请求信息，拷贝到txt文件
    # 如果是POST方法，需要将表单data拷贝到请求信息前
    # 如果需要采用随机user-Agent，请将txt中该行设置为"User-Agent: True",注意True前有空格，后无空格
    #
    # 传入：
    # 目标网页的txt配置文件路径:filepath  //必填参数
    # 爬虫库选择参数：libraryUsed        //如果不写，默认为"auto"，自动配置爬虫库和ContentType。可选参数："r"：requests库，"u"：urllib库."c":cloudscraper库
    # 表单数据：data   //如果不写，默认为"auto"，自动从txt中获取，否则用形参中的data
    # 目标url：url    //如果不写，默认为“auto”，自动从txt中获取，否则用形参中的url
    # 是否打印配置信息：isPrint          //如果不写，默认为True，打印配置信息
    # 爬虫timeout秒数，即最多等服务器反应的时间：timeoutTime  //如果不写，默认为0，即不设置
    # header中不需要的键：headerNoneedKey                  //一般不写，取默认值["Date", "Server", "Transfer-Encoding","Accept-Encoding"]
    #
    # 返回一个参数：
    # 响应内容：html
    #
    # requests库有时比urllib更快，但在使用requests库时要注意表单类型(json类型/data类型)
    # 一般来说，header里如果content-type里包含了json字样，就是json类型，json=data；否则是data类型，data=data
    # 如果出现错误：400，Error response: {"message":"Expecting object or array (near 1:1)","status":400}
    # 很有可能是content-type配置错了，可以取消libraryUsed自动配置，在txt中手动配置content—type
    # 另外注：urllib目前不分json和data，统一是data，只有用requests库时要考虑
    # cloudscraper库一般用于带验证码反爬的网站

    if headerNoneedKey is None:
        headerNoneedKey = ["Date", "Server", "Transfer-Encoding", "Accept-Encoding"]
    info = getRequestInfoFromTxt(filepath, data, url, headerNoneedKey)

    if info[1] not in ["POST", "GET"]:
        print("请求类型错误：", info[1])
        return None

    configLog = config(data, url, info, libraryUsed, isPrint)

    # 配置检查：
    if None in configLog.values() or "错误" in configLog.values():
        print("配置错误")
        return None

    dataProcessing(info, configLog)

    if configLog["爬虫库"] in ["urllib(自动配置)", "urllib(手动配置)"]:
        return getHTMLByUrllib.main(info, configLog, timeoutTime)
    elif configLog["爬虫库"] in ["requests(自动配置)", "requests(手动配置)"]:
        return getHTMLByRequests.main(info, configLog, timeoutTime)
    elif configLog["爬虫库"] in ["cloudscraper(自动配置)", "cloudscraper(手动配置)"]:
        return getHTMLByCloudscraper.main(info, configLog, timeoutTime)

（6）savaData模块

# -*- coding: utf-8 -*-
# @File: saveDateToXls.py
# @Author: 和谐号
# @Software: PyCharm
# @CreationTime: 2023-08-26 9:38
# @OverviewDescription:
import xlwt
import os
import datetime

nowTime = datetime.datetime.now().strftime("%Y-%m-%d %H%M%S %f")[:-3]


def byXlwt(datalist, savePath, headOfDataSheet=None, sheetName="sheet1"):
    # 用xlwt库保存数据
    #
    # 传入：
    # 爬取到的数据列表：datalist  //必填，格式为datalist[ [项目1字段1,项目1字段2,...],[项目2字段1,项目2字段2,...] ]
    # 数据表的保存路径：savePath  //必填，当文件已存在时，将文件名后加上时间
    # 数据表单的表头：headOfDataSheet   //默认值为None
    # 数据表里的sheet名：sheetName    //默认为"sheet1"
    #
    # 无返回值
    if os.path.exists(savePath):
        savePath = savePath[:-4] + " " + nowTime + savePath[-4:]
    workbook = xlwt.Workbook(encoding="utf-8", style_compression=0)
    worksheet = workbook.add_sheet(sheetName, cell_overwrite_ok=True)
    rowIndex = 0
    if headOfDataSheet is not None:
        for j, item in enumerate(headOfDataSheet):
            worksheet.write(rowIndex, j, item)
        rowIndex += 1

    for item1 in datalist:
        for j, item2 in enumerate(item1):
            worksheet.write(rowIndex, j, item2)
        rowIndex += 1

    worksheet.write(rowIndex, 0, nowTime)
    workbook.save(savePath)


def byFile(datalist, savePath, headOfDataSheet=None):
    # 用Python自带的文件操作保存数据
    #
    # 传入：
    # 爬取到的数据列表：datalist  //必填，格式为datalist[ [项目1字段1,项目1字段2,...],[项目2字段1,项目2字段2,...] ]
    # 数据表的保存路径：savePath  //必填，当文件已存在时，追加写入
    # 数据表单的表头：headOfDataSheet   //默认值为None
    #
    # 无返回值
    f = open(savePath, "a", encoding="utf-8")
    try:
        if headOfDataSheet is not None:
            for item in headOfDataSheet:
                f.write(item + "\t")
            f.write("\n")

        for item1 in datalist:
            for item2 in item1:
                f.write(item2 + "\t")
            f.write("\n")

        f.write(nowTime + "\n\n")
    except Exception as e:
        print("写入时出错: ", e)
    finally:
        f.close()

3.代码中的一些解释

（如果你只是想用模板的话，这部分可以跳过不看）

请见：Python爬虫数据获取模板与使用方法（v2.0版本）_和谐号hexh的博客-CSDN博客

4.参数介绍

需要的确定的参数：

（1）txt文件中

url（目标网址），method（POST或GET），data（表单数据），header（请求头）

其中，header中有三个比较重要的字段：

①cookie：与登录有关

②User-Agent：当前身份。如果需要随机身份，需要将其值设置为：“ True”

③Context-Type：表单数据的文本类型，如果出现json字样，则要用json类型，没有则为data类型。更准确的方法是根据表单数据取判断，如果有列表[]，特殊情况，建议用json类型。

（2）crawler.main方法形参

最重要的就是txt文件的路径filepath，必填。

其余的都可以使用默认值，程序会自动配置。

如果报错，可以试着调调libraryUsed和Context-Type，以及data

def main(filepath, libraryUsed="auto", data="auto", url="auto", isPrint=True, timeoutTime=0, headerNoneedKey=None):
    # 爬虫主函数，根据提供的目标网站txt（文件路径），返回爬虫结果
    # txt文件要求：
    # 先从F12中显示原始，将浏览器请求信息，拷贝到txt文件
    # 如果是POST方法，需要将表单data拷贝到请求信息前
    # 如果需要采用随机user-Agent，请将txt中该行设置为"User-Agent: True",注意True前有空格，后无空格
    #
    # 传入：
    # 目标网页的txt配置文件路径:filepath  //必填参数
    # 爬虫库选择参数：libraryUsed        //如果不写，默认为"auto"，自动配置爬虫库和ContentType。可选参数："r"：requests库，"u"：urllib库."c":cloudscraper库
    # 表单数据：data   //如果不写，默认为"auto"，自动从txt中获取，否则用形参中的data
    # 目标url：url    //如果不写，默认为“auto”，自动从txt中获取，否则用形参中的url
    # 是否打印配置信息：isPrint          //如果不写，默认为True，打印配置信息
    # 爬虫timeout秒数，即最多等服务器反应的时间：timeoutTime  //如果不写，默认为0，即不设置
    # header中不需要的键：headerNoneedKey                  //一般不写，取默认值["Date", "Server", "Transfer-Encoding","Accept-Encoding"]
    #
    # 返回一个参数：
    # 响应内容：html
    #
    # requests库有时比urllib更快，但在使用requests库时要注意表单类型(json类型/data类型)
    # 一般来说，header里如果content-type里包含了json字样，就是json类型，json=data；否则是data类型，data=data
    # 如果出现错误：400，Error response: {"message":"Expecting object or array (near 1:1)","status":400}
    # 很有可能是content-type配置错了，可以取消libraryUsed自动配置，在txt中手动配置content—type
    # 另外注：urllib目前不分json和data，统一是data，只有用requests库时要考虑
    # cloudscraper库一般用于带验证码反爬的网站

    if headerNoneedKey is None:
        headerNoneedKey = ["Date", "Server", "Transfer-Encoding", "Accept-Encoding"]
    info = getRequestInfoFromTxt(filepath, data, url, headerNoneedKey)

    if info[1] not in ["POST", "GET"]:
        print("请求类型错误：", info[1])
        return None

    configLog = config(data, url, info, libraryUsed, isPrint)

    # 配置检查：
    if None in configLog.values() or "错误" in configLog.values():
        print("配置错误")
        return None

    dataProcessing(info, configLog)

    if configLog["爬虫库"] in ["urllib(自动配置)", "urllib(手动配置)"]:
        return getHTMLByUrllib.main(info, configLog, timeoutTime)
    elif configLog["爬虫库"] in ["requests(自动配置)", "requests(手动配置)"]:
        return getHTMLByRequests.main(info, configLog, timeoutTime)
    elif configLog["爬虫库"] in ["cloudscraper(自动配置)", "cloudscraper(手动配置)"]:
        return getHTMLByCloudscraper.main(info, configLog, timeoutTime)

（3）saveData中两个函数的形参

见函数下的注释

def byXlwt(datalist, savePath, headOfDataSheet=None, sheetName="sheet1"):
    # 用xlwt库保存数据
    #
    # 传入：
    # 爬取到的数据列表：datalist  //必填，格式为datalist[ [项目1字段1,项目1字段2,...],[项目2字段1,项目2字段2,...] ]
    # 数据表的保存路径：savePath  //必填，当文件已存在时，将文件名后加上时间
    # 数据表单的表头：headOfDataSheet   //默认值为None
    # 数据表里的sheet名：sheetName    //默认为"sheet1"
    #
    # 无返回值
    if os.path.exists(savePath):
        savePath = savePath[:-4] + " " + nowTime + savePath[-4:]
    workbook = xlwt.Workbook(encoding="utf-8", style_compression=0)
    worksheet = workbook.add_sheet(sheetName, cell_overwrite_ok=True)
    rowIndex = 0
    if headOfDataSheet is not None:
        for j, item in enumerate(headOfDataSheet):
            worksheet.write(rowIndex, j, item)
        rowIndex += 1

    for item1 in datalist:
        for j, item2 in enumerate(item1):
            worksheet.write(rowIndex, j, item2)
        rowIndex += 1

    worksheet.write(rowIndex, 0, nowTime)
    workbook.save(savePath)


def byFile(datalist, savePath, headOfDataSheet=None):
    # 用Python自带的文件操作保存数据
    #
    # 传入：
    # 爬取到的数据列表：datalist  //必填，格式为datalist[ [项目1字段1,项目1字段2,...],[项目2字段1,项目2字段2,...] ]
    # 数据表的保存路径：savePath  //必填，当文件已存在时，追加写入
    # 数据表单的表头：headOfDataSheet   //默认值为None
    #
    # 无返回值
    f = open(savePath, "a", encoding="utf-8")
    try:
        if headOfDataSheet is not None:
            for item in headOfDataSheet:
                f.write(item + "\t")
            f.write("\n")

        for item1 in datalist:
            for item2 in item1:
                f.write(item2 + "\t")
            f.write("\n")

        f.write(nowTime + "\n\n")
    except Exception as e:
        print("写入时出错: ", e)
    finally:
        f.close()

三、使用示例：

目标网站：豆瓣电影 Top 250 (douban.com)

（1）准备目标网站的txt文件：

url，method，data，header 这些可以从F12中找到（注意把“原始”勾上）

url对应请求url，method对应请求方法，header对应响应标头+请求标头

对于请求方法为POST的还记得加上表单信息，详见：

Python爬虫数据获取模板与使用方法（v2.0版本）_和谐号hexh的博客-CSDN博客

得到如下txt文件，将其放在target目录下：

请求 URL:
https://movie.douban.com/top250?start=
请求方法:
GET
状态代码:
200 OK
远程地址:
49.233.242.15:443
引用者策略:
strict-origin-when-cross-origin
HTTP/1.1 200 OK
Date: Fri, 25 Aug 2023 14:42:34 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: keep-alive
Keep-Alive: timeout=30
X-Xss-Protection: 1; mode=block
X-Douban-Mobileapp: 0
Expires: Sun, 1 Jan 2006 01:00:00 GMT
Pragma: no-cache
Cache-Control: must-revalidate, no-cache, private
Set-Cookie: ck="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/
Set-Cookie: dbcl2="deleted"; max-age=0; domain=.douban.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; path=/
X-DAE-App: movie
X-DAE-Instance: default
Server: dae
Strict-Transport-Security: max-age=15552000
X-Content-Type-Options: nosniff
Content-Encoding: br
GET /top250?start= HTTP/1.1
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6
Cache-Control: max-age=0
Connection: keep-alive
Cookie: bid=K2X8CBbKBww; douban-fav-remind=1; __utmz=223695111.1692277019.2.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_id.100001.4cf6=b11063a76568058a.1692284848.; ct=y; __utmz=30149280.1692880274.6.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _pk_ses.100001.4cf6=1; ap_v=0,6.0; __utma=30149280.867465334.1642341176.1692880274.1692974521.7; __utmb=30149280.0.10.1692974521; __utmc=30149280; __utma=223695111.258043023.1642341176.1692296145.1692974521.5; __utmb=223695111.0.10.1692974521; __utmc=223695111
Host: movie.douban.com
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.54
sec-ch-ua: "Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"

（2）调用模板

# -*- coding: utf-8 -*-
# @Time: 2023-08-17 21:51
# @Author: hexh
# @File: douban.py
# @Software: PyCharm
from crawlerTemplate import crawler  # 获取数据
import parse  # 数据解析
from crawlerTemplate import saveDate  # 保存数据

if __name__ == "__main__":
    datalist = []

    # 1 获取数据
    baseurl = "https://movie.douban.com/top250?start="
    for i in range(10):
        url = baseurl + str(i * 25)
        html = crawler.main(r".\target\douban.txt", url=url, isPrint=False)

        # 2 逐个解析html数据：（得到详情链接、图片、中国名外国名、评分、评价人数、概述、相关信息）
        datalist.extend(parse.myParse(html))  # 用我的解析函数解析(直接用bs的操作，按结构分析，不用正则)
        # datalist.extend(parse.teaParse(html))   # 用老师方法的解析函数解析(将得到的bs直接全部转str，用正则搜)

    # 3 保存数据
    savePath = r".\resultXls\movieTop250.xls"
    head = ('详情链接', '图片', '中国名', '外国名', '评分', '评价人数', '概述', '相关信息')
    saveDate.byXlwt(datalist, savePath, head)
    # saveDate.byFile(datalist, savePath, head)

解释：

第16行，找到这250部电影url的规律，爬取10个url即可

第17行，调用crawler.main，第一个形参传入txt文件的位置，url设置一下，isprint可以先用默认值True，调试成功后再关闭为False。

第24行，设置保存xls表文件的路径

第25行，xls文件表头，没有也可以

第26行，调用saveData中的byXlwt（基于xlwt库）

第27行，调用savaData中的byFile（基于文件处理操作）

第20行和第21行的数据解析函数代码：

# -*- coding: utf-8 -*-
# @File: parser.py
# @Author: 和谐号
# @Software: PyCharm
# @CreationTime: 2023-08-26 10:40
# @OverviewDescription:
from bs4 import BeautifulSoup
import re


def myParse(html):
    datalist = []
    bs = BeautifulSoup(html, "html.parser")
    for item in bs.find_all('div', class_='item'):
        link = item.a.attrs.get("href")
        pic = item.img.attrs.get("src")

        div_hd = item("div", class_="info")[0]("div", class_="hd")[0]
        chineseName = div_hd("span", class_="title")[0].string
        outName = div_hd("span", class_="other")[0].string

        div_bd = item("div", class_="info")[0]("div", class_="bd")[0]
        score = div_bd("span", class_="rating_num")[0].string
        scoredNum = div_bd("div", class_="star")[0]("span")[-1].string[:-3]

        inq = div_bd("span", class_="inq")
        inq = "" if len(inq) == 0 else inq[0].string

        bd = div_bd.p.text
        bd = re.sub("
", "", bd)
        bd = re.sub("\n *", "", bd)

        # data要包含一部电影的详情链接、图片、中国名外国名、评分、评价人数、概述
        data = [link, pic, chineseName, outName, score, scoredNum, inq, bd]
        datalist.append(data)

    return datalist


def teaParse(html):
    datalist = []
    bs = BeautifulSoup(html, "html.parser")
    for item in bs.find_all('div', class_='item'):
        item = str(item)

        # 可以先定义正则模式再找
        # findLink = re.compile('')
        # link = re.findall(findLink, item)[0]

        # 也可以不单独定义正则模式
        link = re.findall('', item)[0]
        pic = re.findall('src="(.*?)"', item)[0]
        chineseName = re.findall('(.*?)', item)[0]
        outName = re.findall('(.*?)', item)[0]
        score = re.findall('(.*?)', item)[0]
        scoredNum = re.findall('(.*?)人评价', item)[0]
        # scoredNum = re.findall('(\d*)人评价',item)[0]  也可以
        inq = re.findall('(.*?)', item)
        inq = "" if len(inq) == 0 else inq[0]

        findBd = re.compile('(.*?)', re.S)
        bd = re.findall(findBd, item)[0]
        bd = re.sub("
(\s+)?", "", bd).strip()  # \s去除了内部的空字符，strip去除两端空字符

        # data要包含一部电影的详情链接、图片、中国名外国名、评分、评价人数、概述、演职人员信息
        data = [link, pic, chineseName, outName, score, scoredNum, inq, bd]
        datalist.append(data)

    return datalist

你可能感兴趣的:(python,爬虫,开发语言)

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理 FriendshipT 人工智能混合编程实践人工智能 c++python YOLO ONNX 目标检测
人工智能混合编程实践：C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8推理C++调用Python的相关dll代码framework.hpch.hcxx_pythonModule.hdllmain.cpppch.cppcxx_pythonModule.cppC++
PyQt有哪些主要组件？ 2301_78316786 python pyqt
这是一个非常强大的跨平台GUI库，可以让你用Python语言创建美观且功能强大的桌面应用程序。让我们先来了解一下它的主要组件。首先，我们要介绍的是窗口。窗口是PyQt应用程序的基本元素，所有的GUI元素都放置在窗口中。你可以创建主窗口、模态对话框、无模式对话框和自定义窗口。下面是一个创建主窗口的例子：fromPyQt5.QtWidgetsimportQApplication,QMainWindow
基于Python的新闻网站内容爬取与分析：从数据获取到文本挖掘的完整指南 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫 oracle 数据挖掘
引言在当今信息化社会，新闻成为我们获取世界信息的重要途径。通过新闻网站，用户能够快速了解时事热点、政治、经济、娱乐等各类信息。随着技术的发展，获取新闻数据已经变得越来越简单。我们可以利用Python编写爬虫程序，自动化地从新闻网站上抓取最新的新闻内容，并进行进一步的分析，如情感分析、关键词提取、热点话题分析等。本篇博客将为你详细介绍如何使用Python爬虫技术从新闻网站抓取最新新闻，并进行分析。我
正则表达式（1）林深的林正则表达式
正则表达式概述正则表达式，又称正规表示法、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式类似于JSON,是一种通用的标准,被各种开发语言所支持,包括但不限于:Java,JavaScript,C,C++,C#,Python,SQL等等;因为在J
27.2:Python的Django框架优点和缺点是什么？小兔子平安 Python完整学习全解答 python django 后端
课程概述①易于学习和使用②高度可定制③强大的安全性④性能问题——举例分析（博客应用程序，包括博客文章、评论和标签等功能）——举例分析（电子商务网站，包括商品、购物车和订单等功能）课程总结课程概述Python作为一种强大而又易于学习的编程语言，已经被广泛应用于各种领域，尤其是Web开发领域。而Django框架作为PythonWeb开发的一个重要组成部分，具有一些独特的优点和缺点，需要开发人员在使用时
批量图片水印添加工具木木黄木木 python
批量图片水印添加工具这是一个可以批量给图片添加水印的Python程序。程序会根据原始图片的分辨率自动调整水印大小，确保水印效果美观。这里写目录标题批量图片水印添加工具功能特点运行说明注意事项下载地址功能特点支持批量处理多个图片自动根据原图尺寸调整水印大小支持PNG格式的透明水印水印位置固定在右下角支持JPG、JPEG、PNG、BMP等格式的图片运行说明准备文件：将需要添加水印的图片放入input文
PythonWeb——Django框架 Error_exception_worn Python基础数据库 Python django
框架介绍1.什么是框架?框架就是程序的骨架，主体结构，也是个半成品。2.框架的优缺点可重用、成熟,稳健、易扩展、易维护3.Python中常见的框架大包大揽Django被官方称之为完美主义者的Web框架。力求精简web.py和Tornado新生代微框架Flask和Bottle4.Web框架中的一些概念MVC（模型-视图-控制器）和MVT（模型-视图-模板）Django框架介绍Django是一个高级的
【报错】zipfile.BadZipFile: File is not a zip file Jude_lennon 报错 python
pythonpd.read_excel(excel_path,sheet_name='Sheet1',engine='openpyxl',header=None)出现报错zipfile.BadZipFile:Fileisnotazipfile原代码：data_list=[load_graph_data(file)forfileindata_directory.glob("*.xlsx")]经过de
Python实现链表反转：迭代与递归双解法详解达不溜先生 ୧⍢⃝୨ python 数据结构链表算法 leetcode
目录一、问题描述二、核心代码实现2.1迭代法实现迭代法中的prev初始值是None的原因：关键步骤图解2.2递归法实现递归法中要设置head.next=None的原因递归过程拆解三、方法对比与选择建议一、问题描述链表反转是数据结构中的基础算法问题，常见于面试和算法题库（如LeetCode#206）。要求将单向链表的节点顺序完全倒置二、核心代码实现2.1迭代法实现时间复杂度：O(n)空间复杂度：O(
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Django框架的全面指南：从入门到高级步入烟尘 Python超入门指南全册 django sqlite 数据库
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Sijia_y的个人经历以及计算机行业发展 Sijia_y python
如今互联网发展的速度甚是快，以至于技术都在更新迭代。稍有不注意可能就会被淘汰甚至是替代。作为一名中专生，我的成绩也是很差。因为高中考不上的缘故，来到了江苏上学。计算机行业我了解的并不是很多，当时只是听说工资高，铁饭碗。我是一个很懒的人，也是很贪玩。并没有学习很高的兴趣。我接触编程语言，完全是因为我的朋友。因为他是自学C语言的，后面他参加比赛得奖了。我就觉得非常厉害。我就开始学习Python，学会一
为什么Python使用者远远大于perl perlpython
不认为两者的语法差异是造成如此局面的主要原因.perl的语法虽然比较特立独行,但也不是很难.总结如下原因:library(或者叫package)的使用如果是本语言原生的library,那没有问题.如果是需要调用外部函数/过程的package的话,那么就会有巨大的差异.python是预编译然后从pypi上下载python(pip)将package下载到本地然后解压后将package内容安装到不同的指
AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！ Leaton Lee 人工智能 python flask
开篇互动：你是否想拥属于自己的AI问答机器人？“你是否想过拥有一个可以随时为你解答问题、提供建议的AI助手？”随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！本文将手把手教你如何利用Python和Flask快速搭建一个属于自己的AI问答系统，并集成强大的语言模型（如OpenAI的GPT-3.5或HuggingFace的LLaMA）。无论是技术小白还是有一定经验的开发者，都能轻
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S