大聪明码农徐

Scrapy的基本使用

Scrapy是什么

安装

使用

获取更多页面信息

写入数据库

图片下载

文件下载

更改文件名称以及路径

更改图片名称以及路径

循环获取页面信息时，item的数据重复或者对不上

下载文件时获取文件流直接上传到某个地方

Scrapy是什么

Scrapy 是一个基于 Python 的开源网络爬虫框架，用于从网页中提取数据。它提供了一套高效、灵活和可扩展的工具，可以帮助开发者快速构建和部署爬虫程序。

Scrapy 框架具有以下特点：

高性能: Scrapy 采用异步的网络请求和处理机制，能够高效地处理大规模的网页抓取任务。
可配置性: Scrapy 提供了丰富的配置选项，可以通过配置文件或代码灵活地设置爬虫的行为，包括请求头、请求间隔、并发数等。
XPath 和 CSS 选择器: Scrapy 内置了强大的选择器，支持使用 XPath 和 CSS 选择器来定位和提取网页中的数据。
中间件和扩展: Scrapy 提供了中间件和扩展机制，开发者可以通过编写中间件和扩展来自定义和扩展框架的功能，例如自定义请求处理、数据处理、错误处理等。
分布式支持: Scrapy 可以与分布式任务队列（如 Celery）结合使用，实现分布式爬取和数据处理。
数据存储: Scrapy 支持将爬取到的数据存储到各种数据存储系统，包括文件、数据库（如 MySQL、PostgreSQL）和 NoSQL 数据库（如 MongoDB）等。
日志和调试: Scrapy 提供了强大的日志和调试功能，可以帮助开发者进行爬虫的调试和错误排查。

英文文档：Scrapy 2.9 documentation — Scrapy 2.9.0 documentationhttps://docs.scrapy.org/en/latest/

中文文档：

Scrapy 2.5 documentation — Scrapy 2.5.0 文档https://www.osgeo.cn/scrapy/

安装

确保你已经安装了Python。Scrapy是一个Python框架，所以你需要先安装Python。你可以从Python官方网站Welcome to Python.orgThe official home of the Python Programming Languagehttps://www.python.org/
打开命令行终端（Windows用户可以使用命令提示符或PowerShell，Mac和Linux用户可以使用终端）。
在命令行中运行以下命令来安装Scrapy：
```
pip install scrapy
```
这将使用pip包管理器下载并安装Scrapy及其依赖项。
等待安装完成。这可能需要一些时间，因为Scrapy的安装过程涉及到下载和安装多个组件。
安装完成后，你可以通过在命令行中运行以下命令来验证Scrapy是否成功安装：
```
scrapy
```
如果Scrapy成功安装，你将看到Scrapy的版本信息和可用命令列表。

使用

获取更多页面信息

代码的逻辑思维如下：

在start_requests方法中，构造了多个请求，每个请求对应一个搜索结果页的URL。通过循环生成URL，并使用yield返回一个scrapy.Request对象，该对象包含URL和相关的参数。
在parse方法中，处理搜索结果页的响应。首先解析响应的JSON数据，获取每个应用的相关信息。然后对于符合条件的应用，构造应用详情页面的URL，并使用yield返回一个新的scrapy.Request对象，以及使用cb_kwargs参数传递额外的数据。
在parse_versions方法中，处理应用详情页面的响应。解析响应的JSON数据，获取应用的不同版本信息。根据版本号进行筛选和处理，最终构造每个版本的详情页面URL，并使用yield返回一个新的scrapy.Request对象。
在parse_detail方法中，处理应用详情页面的响应。解析响应的JSON数据，提取应用的详细信息，如名称、版本、作者、简介等。根据需要进行数据处理和清洗。最后将提取的数据组织成一个PackageItem对象，并使用yield返回。
在yield package_item处，将最终的数据对象PackageItem返回给Scrapy框架进行后续处理，例如存储到数据库或导出为文件。

至于如何获取深层页面的内容，这段代码通过构造新的请求对象，使用scrapy.Request来获取深层页面的内容。在每个页面的解析方法中，通过解析响应数据和提取所需的URL，再次构造新的请求对象，从而实现爬取深层页面的数据。这种方式可以实现页面之间的跳转和链式爬取，让爬虫可以深入到不同的页面进行数据提取和处理。

注意⚠️：因为保密工作，博主已将关键字段删除，所以以下代码是不可用状态，大家看看代码逻辑即可。

class HelmchartSpider(scrapy.Spider):
  name = "helmchart"
  allowed_domains = ["hello.io"]
  def start_requests(self):
    for num in range(10, 16):
      yield scrapy.Request(
        url=f"https://hello?offset={num * 60}"
      )

  #获取列表
  def parse(self, response, **kwargs):
    data = response.json()
    packages_lists = data['packages']
    for packages_list in packages_lists:
          packages_list_url = f"https://hello/{package_item['repository_name'].lower()}/{package_item['normalized_name'].lower()}"
          yield scrapy.Request(
            url=packages_list_url,
            callback=self.parse_versions,
            headers={'Content-Type': 'application/yaml'},
            cb_kwargs={"item": copy.deepcopy(package_item)},
          )
  #获取应用values文件内容
  def parse_versions(self, response, **kwargs):
    package_item = kwargs['item']
    data = response.json()
    versions = data.get('available_versions', [])
    grouped_versions = {}
    for version in versions:
      major, _, _ = self.get_version_parts(version)
      if major not in grouped_versions:
        grouped_versions[major] = []
      grouped_versions[major].append(version['version'])
    merged_array = []
    for values in grouped_versions.values():
      merged_array.extend(values)
    ver_rels = {}
    major_versions = set()

    for version in merged_array:
      if len(version.split('.')) < 3:
        continue
      main_version = version.split('.')[0] + '.' + version.split('.')[1]
      major_versions.add(version.split('.')[0])
      if not ver_rels.get(main_version):
        ver_rels[main_version] = version
      elif ver_rels[main_version] < version:
        ver_rels[main_version] = version

    filtered_list = []
    i = 3
    int_major_versions = [int(major_version) for major_version in major_versions]
    major_versions = sorted(int_major_versions, reverse=True)
    for major_version in major_versions:
      if i == 0:
        break
      versions = []
      for version in merged_array:
        main_version = version.split('.')[0] + '.' + version.split('.')[1]
        if version.startswith(str(major_version) + '.') and (main_version not in versions):
          versions.append(main_version)
      versions.sort(reverse=True,
                    key=lambda x: list(map(int, x.split('.'))))
      filtered_list.extend(versions[:3])
      i -= 1

    results = [ver_rels[version] for version in filtered_list]
    for version in results:
      url = f"https://hello?{package_item['repository_name'].lower()}/{package_item['normalized_name'].lower()}/{version}"
      yield scrapy.Request(
        url=url,
        callback=self.parse_detail,
        cb_kwargs={"item":  copy.deepcopy(package_item)},
      )
  # 获取应用详情
  def parse_detail(self, response, **kwargs):
    package_item = kwargs['item']
    data = response.json()
    repository = data.get('repository')
    if logo == "":
      logo = 'https://hello.io/static/media/placeholder_pkg_helm.png'
    else:
      logo = f"https://hello.io/image/{logo}@2x"
    # 下载地址请求
    downloadUrl = data.get('content_url', '')
    if "github.com" in downloadUrl:
      downloadUrl = "https://ghproxy.com/" + downloadUrl
    package_item['logo_image_id'] = logo
    package_item["readme"] = html_content
    package_item["file_urls"] = [downloadUrl]
    package_item["category"] = category
    package_item['version'] = data.get('version', '')
    package_item['image_urls'] = [logo]
    package_item['repository_name'] = repository.get('name', '')
    # 获取应用的 id、名称、版本、作者名称、简介
    package_item['package_id'] = data.get('package_id', '')
    package_item['name'] = data.get('name', '')
    package_item['normalized_name'] = data.get('normalized_name', '')
    package_item['display_name'] = repository.get('display_name', 'null')
    package_item['description'] = data.get('description', '')
    if data.get('readme', '') and package_item["category"]:
      yield package_item

写入数据库

确保你已经安装了pymysql库。如果没有安装，可以使用以下命令进行安装：

pip install pymysql

定义一个名为DatabasePipeline的自定义Pipeline类。用于将数据存储到数据库中：

需要注意的是，这里的__init__、open_spider、close_spider、process_item都是内置的方法，可以选择在open_spider中进行数据库初始化，在process_item中进行操作，最后在close_spider中提交数据，断开连接。（数据库的基础操作就不多说了，有需要的可以去学学。）

class DbPipelin():
  def __init__(self):
    self.conn = None
    self.cursor = None

  def open_spider(self, spider):
    self.conn = pymysql.connect(
      host="localhost",
      port=3306,
      user='root',
      password='gr123465!',
      database='helmDetail',
      charset="utf8mb4"
    )
    self.cursor = self.conn.cursor()

  def close_spider(self, spider):
    self.conn.commit()
    self.conn.close()

  def process_item(self, item, spider):
    package_id = item.get("package_id", '')
    name = item.get("name", '')
    version = item.get("version", '')
    description = item.get("description", '')
    readme = item.get("readme", '')
    logo_image_id = item.get("logo_image_id", '')
    category = item.get('category', 0),
    if not self.check_package_exists(package_id):

      # package_id 不存在，执行插入操作

      query = 'INSERT INTO chartDetail (package_id, name, version, description, readme, logo_image_id, category) VALUES (%s, %s, %s, %s, %s, %s, %s)'
      self.cursor.execute(query, (package_id, name, version, description, readme, logo_image_id, category))
    else:

      # 获取相同 package_id 下的所有 version

      versions = self.get_versions_by_package_id(package_id)
      if version not in versions:

        # 版本号不在相同 package_id 下的所有 version 中，执行插入操作

        query = 'INSERT INTO chartDetail (package_id, name, version, description, readme, logo_image_id, category) VALUES (%s, %s, %s, %s, %s, %s, %s)'
        self.cursor.execute(query, (package_id, name, version, description, readme, logo_image_id, category))
      else:

        # 版本号在相同 package_id 下的所有 version 中，执行更新操作

        query = 'UPDATE chartDetail SET description = %s, readme = %s, logo_image_id = %s, category = %s WHERE package_id = %s and version = %s'
        self.cursor.execute(query, (description, readme, logo_image_id, category, package_id, version))

    return item

  def check_package_exists(self, package_id):

    # 查询 package_id 是否存在

    query = 'SELECT package_id FROM chartDetail WHERE package_id = %s'
    self.cursor.execute(query, (package_id,))
    result = self.cursor.fetchone()
    return bool(result)

  def get_versions_by_package_id(self, package_id):

    # 获取相同 package_id 下的所有 version

    query = 'SELECT version FROM chartDetail WHERE package_id = %s'
    self.cursor.execute(query, (package_id,))
    versions = [v[0] for v in self.cursor.fetchall()]
    return versions

在Scrapy项目的settings.py文件中添加管道配置：

ITEM_PIPELINES = {
      "rainbondSpider.pipelines.DbPipelin": 100,
}

图片下载

在Scrapy项目的settings.py文件中添加以下配置：

ITEM_PIPELINES = {
    'scrapy.pipelines.images.ImagesPipeline': 1,  # 内置的图片下载Pipeline
}

IMAGES_STORE = '/path/to/your/image/folder'  # 图片保存的目录

在Spider中的Item定义中，添加一个名为image_urls的字段，用于存储需要下载的图片的URL。

import scrapy

class MyItem(scrapy.Item):
    image_urls = scrapy.Field()
    # 其他字段...

修改Spider中的parse方法，在解析每个项目时，通过yield语句将包含图片URL的Item传递给Pipeline进行处理。

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def start_requests(self):
        urls = [
            'http://example.com/image1.jpg',
            'http://example.com/image2.jpg',
            # 更多图片URL...
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        item = MyItem()
        item['image_urls'] = [response.url]  # 将图片URL添加到item中
        # 解析其他字段...
        yield item

运行Scrapy爬虫，当解析到包含image_urls字段的Item时，scrapy.pipelines.images.ImagesPipeline会自动下载图片并将下载后的结果保存到配置的图片保存目录中。

文件下载

和上面下载图片的方式一样这里只需要进行一些基本的配置。

在Scrapy项目的settings.py文件中添加以下配置：

ITEM_PIPELINES = {
    'scrapy.pipelines.files.FilesPipeline': 1,  # 内置的文件下载Pipeline
}

FILES_STORE = '/path/to/your/file/folder'  # 文件保存的目录

在Spider中的Item定义中，添加一个名为file_urls的字段，用于存储需要下载的文件的URL。

import scrapy

class MyItem(scrapy.Item):
    file_urls = scrapy.Field()
    # 其他字段...

修改Spider中的parse方法，在解析每个项目时，通过yield语句将包含文件URL的Item传递给Pipeline进行处理

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def start_requests(self):
        urls = [
            'http://example.com/file1.pdf',
            'http://example.com/file2.txt',
            # 更多文件URL...
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        item = MyItem()
        item['file_urls'] = [response.url]  # 将文件URL添加到item中
        # 解析其他字段...
        yield item

更改文件名称以及路径

注意这里是重写了 file_path、get_media_requests这两个方法，通过get_media_requests将下载地址进行分解后得到版本信息，应用名称等关键信息，然后通过request的meta将文件传递到下一层，在file_path方法中将文件名称与保存地址重新赋值。这样就可以得到完整的地址了。

from scrapy.pipelines.files import FilesPipeline
class FileDownloadPipeline(FilesPipeline):
  def file_path(self, request, response=None, info=None):
    tgz = request.meta["tgz"]
    file_name = tgz
    return r'/rainchart/%s' % (file_name)
  def get_media_requests(self, item, info):
    if item["file_urls"]:
      for url in item["file_urls"]:
        tgz = url.split("/")[-1]
        name = tgz.split("-")[0]
        temp_version = tgz.split("-")[1]
        version = temp_version.rstrip(".tgz")
        mete = {
          "tgz": tgz,
          "name": name,
          "version": version,
        }
        yield Request(url, meta=mete)

更改图片名称以及路径

这里的思路和文件的更改方向一致。不再做过多赘述。附上代码。

class ImagesDownloadPipeline(ImagesPipeline):
  def get_media_requests(self, item, info):
      if item["image_urls"]:
        for url in item["image_urls"]:
          mete = {
            "name": item["name"],
          }
          yield Request(url, meta=mete)
  def file_path(self, request, response=None, info=None):
    name = request.meta["name"]
    image_guid = name
    return f'/rainchart/{image_guid}.jpg'

循环获取页面信息时，item的数据重复或者对不上

这里我的代码应该是循环了两次，一次获得应用名，一次获得版本信息，按照理想状态，最后的item数据每个都是唯一的，但是实际情况是最后的item很多数据都是重复和错乱的，要么导致不同应用的下载地址与版本一样或者错乱。

查找原因后，发现是因为使用 Request 函数传递 item 时，使用的是浅复制（对象的字段值被复制时，字段引用的对象不会被复制

解决方法就是添加一个copy.deepcopy()将数据深拷贝一下就行了。

下载文件时获取文件流直接上传到某个地方

如题所示，老板总能让你在意想不到的地方干意想不到的事，Scrapy本来只是抓取保存处理数据的地方，但是却让人在这里发请求，上传文件，头像，信息等等。信息什么的倒还好，存数据库时顺带发一下就行，但是，文件头像的下载是异步执行，所有程序完成以后才会保存到对应的文件夹下。在普通的item里是能拿到files列表里的信息的，但是会有问题，指向的路径此时为空，因为异步的原因。所以这里有两种方法。

第一种单独写个脚本，在爬虫程序执行完以后，将固定文件夹下的所有文件按次序上传。以下是一个脚本示例。

import os
import requests

def get_all_files_in_folder(folder_path):
    file_list = []
    for root, dirs, files in os.walk(folder_path):
        for file_name in files:
            file_path = os.path.join(root, file_name)
            file_list.append(file_path)
    return file_list


# 指定文件夹路径
folder_path = 'rainbond_images/rainchart'

# 获取该文件夹下的所有文件
files = get_all_files_in_folder(folder_path)
headers={'Content-Type': 'image/jpeg'}
# 打印文件列表
for file_path in files:
  with open(file_path, 'rb') as file:
    file_data = file.read()
    file_name_with_ext = os.path.basename(file_path)
    file_name = os.path.splitext(file_name_with_ext)[0]
    print(file_name)
    market_id = "859a51f9bb3b48b5bfd222e3bef56425"
    url = "https://hello.com/app-server/markets/{}/helm/{}/icon".format(market_id, file_name)
    resp = requests.post(url=url, data=file_data, headers=headers)

第二种是直接改Scrapy的源码。直接将buf（二进制文件流）传过去。

源码：
    def file_downloaded(self, response, request, info, *, item=None):
        path = self.file_path(request, response=response, info=info, item=item)
        buf = BytesIO(response.body)
        checksum = md5sum(buf)
        buf.seek(0)
        self.store.persist_file(path, buf, info)
        return checksum
修改后：
    def file_downloaded(self, response, request, info, *, item=None):
      buf = BytesIO(response.body)
      checksum = md5sum(buf)
      buf.seek(0)
      url = "https://hello/api/charts"
      headers = {"Content-Type": "application/octet-stream"}
      chart_resp = requests.post(url, headers=headers, data=buf).json()

博主是个前端小菜鸡，这也是被老板硬忽悠着去干了爬虫，走了太多太多的坑，循环，深浅拷贝，异步，数据库存储等等等等，python，数据库，scrapy都是现学现用，确实给累好了这两周，简单记录一下，希望对各位有所帮助。唉‍难受死了

你可能感兴趣的:(爬虫,scrapy,python,开发语言,爬虫)

chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
ERROR: No matching distribution found for tf-estimator-nightly==2.8.0.dev2021122109 小九在学习 python 开发语言
ERROR:Ignoredthefollowingversionsthatrequireadifferentpythonversion:1.14.0Requires-Python>=3.10;1.14.0rc1Requires-Python>=3.10;1.14.0rc2Requires-Python>=3.10ERROR:Couldnotfindaversionthatsatisfiesther
PyArmor：一个超级厉害的 Python 库！一只蜗牛儿 python 开发语言
在Python的世界里，如何保护我们的代码不被轻易盗用或者破解，一直是开发者们关注的问题。尤其是在发布软件时，如何有效防止源代码泄漏或者被逆向工程分析，成为了一个重要课题。PyArmor作为一款强大的Python加密工具，能够帮助开发者对Python源代码进行加密保护，防止非法复制和破解。本文将全面介绍PyArmor，并通过代码示例展示如何使用它对Python脚本进行加密、打包和保护。1.PyAr
使用AI python实现将前端angularjs工程转换成vue工程案例银行金融科技前端人工智能 python
以下是一个结合Python和AI技术实现AngularJS到Vue工程迁移的完整案例，包含关键转换策略和代码实现：案例背景目标：将使用AngularJS1.x的电商后台管理系统转换为Vue3工程，主要转换以下部分：模板语法控制器逻辑服务依赖路由配置状态管理原始AngularJS代码片段：javascript//app.jsangular.module('app',['ui.router']).co
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
【python】可变、不可变数据类型 qianx77 python python numpy 开发语言
文章目录python可变、不可变数据类型一、什么是可变和不可变的数据类型？二、不可变类型1.数字2.字符3.元组三、可变类型4.列表需要注意的点5.集合5.字典6.补充-深拷贝和浅拷贝总结python可变、不可变数据类型用于记录python数据类型python我个人常用的数据就是数字、字符串、元组、列表、集合、字典，分为可变类型和不可变类型。一、什么是可变和不可变的数据类型？可变就是说在相同内存地
python orm框架sqlalchemy_Python的ORM框架SQLAlchemy入门教程 weixin_39758041 python orm框架sqlalchemy
SQLAlchemy的核心理念是，SQL数据库查询的数量级和特性关键于目标结合；而目标结合的抽象性又关键于表和行。一安裝SQLAlchemy编码以下:pipinstallsqlalchemy导进要是没有出错则安裝取得成功编码以下:importsqlalchemysqlalchemy.__version__‘0.9.1’二应用sqlalchemy对数据库操作1.界定元信息内容，关联到模块编码以下:(
python gridfs_【已解决】用Python去连接本地mongoDB去用GridFS保存文件 weixin_39622225 python gridfs
折腾：期间，命令行方式的mongofiles去putgetdeletedelete_id等，已经基本上搞清楚了。接着就是去用Python代码，通过driver：的方式，调用API，去保存数据了。pythonmongodbgridfs需要先安装：pymongo就是这些API了。通过：发现，对于此处：➜英语资源mongod--versiondbversionv3.6.3gitversion:9586e
【Go基础】Go入门与实践资源帖小超人冲鸭 golang 开发语言后端
看到好的持续更新……Go系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统Cloudreve云盘系统gfast后台管理系统（基于GoFrame）alist多存储文件列表（基于Gin、React）Yearning开源SQL审核平
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Python的ORM框架SQLAlchemy入门教程 searchwang
SQLAlchemy是python操作数据库的一个库。能够进行orm映射，SQLAlchemy“采用简单的Python语言，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型”SQLAlchemy的理念是，SQL数据库的量级和性能重要于对象集合；而对象集合的抽象又重要于表和行。一安装SQLAlchemy复制代码代码如下:pipinstallsqlalchemy导入如果没有报错则安装成功复制
【python】pathlib模块 m 宽 python
#!/usr/bin/envpython#coding:utf-8#In[2]:frompathlibimportPath#In[3]:#创建路径c_path=Path("C:/")print(c_path)#In[4]:#当前目录cwd=Path.cwd()print(cwd)#In[5]:#用户目录Path.home()#In[6]:#父目录cwd.parent#In[7]:#子目录fpath
斗地主老是输？一起用Python做个AI出牌器！姬姬姬姬姬姬 python 人工智能
前言最近在网上看到一个有意思的开源项目，基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI，项目开源地址【https://github.com/tianqiraf/DouZero_For_HappyDouDiZhu–tianqiraf】。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器，看看AI是如何来帮助斗地主的！一、核心功能设计首先这款出牌器是基于DouZe
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在