番茄牛腩不吃番茄

python：scrapy 一个网站爬虫库

Scrapy是一个用于抓取网站和提取结构化数据的应用框架，可用于广泛的有用应用，如数据挖掘、信息处理或历史档案。也可以使用api提取数据，或者作为一个通用的web爬虫。

安装

C:\Users\lifeng01>pip install scrapy
Collecting scrapy
  Downloading Scrapy-2.5.1-py2.py3-none-any.whl (254 kB)
     |████████████████████████████████| 254 kB 58 kB/s
Requirement already satisfied: Twisted[http2]>=17.9.0 in d:\python\python37\lib\site-packages (from scrapy) (21.2.0)
Requirement already satisfied: itemloaders>=1.0.1 in d:\python\python37\lib\site-packages (from scrapy) (1.0.4)
Requirement already satisfied: w3lib>=1.17.0 in d:\python\python37\lib\site-packages (from scrapy) (1.22.0)
Requirement already satisfied: queuelib>=1.4.2 in d:\python\python37\lib\site-packages (from scrapy) (1.6.1)
Requirement already satisfied: parsel>=1.5.0 in d:\python\python37\lib\site-packages (from scrapy) (1.6.0)
Requirement already satisfied: protego>=0.1.15 in d:\python\python37\lib\site-packages (from scrapy) (0.1.16)
Requirement already satisfied: cssselect>=0.9.1 in d:\python\python37\lib\site-packages (from scrapy) (1.1.0)
Requirement already satisfied: h2<4.0,>=3.0 in d:\python\python37\lib\site-packages (from scrapy) (3.2.0)
Requirement already satisfied: zope.interface>=4.1.3 in d:\python\python37\lib\site-packages (from scrapy) (5.3.0)
Requirement already satisfied: pyOpenSSL>=16.2.0 in d:\python\python37\lib\site-packages (from scrapy) (20.0.1)
Requirement already satisfied: lxml>=3.5.0 in d:\python\python37\lib\site-packages (from scrapy) (4.5.0)
Requirement already satisfied: itemadapter>=0.1.0 in d:\python\python37\lib\site-packages (from scrapy) (0.3.0)
Requirement already satisfied: PyDispatcher>=2.0.5 in d:\python\python37\lib\site-packages (from scrapy) (2.0.5)
Requirement already satisfied: service-identity>=16.0.0 in d:\python\python37\lib\site-packages (from scrapy) (21.1.0)
Requirement already satisfied: cryptography>=2.0 in d:\python\python37\lib\site-packages (from scrapy) (3.4.7)
Requirement already satisfied: cffi>=1.12 in d:\python\python37\lib\site-packages (from cryptography>=2.0->scrapy) (1.14.5)
Requirement already satisfied: hyperframe<6,>=5.2.0 in d:\python\python37\lib\site-packages (from h2<4.0,>=3.0->scrapy) (5.2.0)
Requirement already satisfied: hpack<4,>=3.0 in d:\python\python37\lib\site-packages (from h2<4.0,>=3.0->scrapy) (3.0.0)
Requirement already satisfied: jmespath>=0.9.5 in d:\python\python37\lib\site-packages (from itemloaders>=1.0.1->scrapy) (0.9.5)
Requirement already satisfied: six>=1.6.0 in d:\python\python37\lib\site-packages (from parsel>=1.5.0->scrapy) (1.14.0)
Requirement already satisfied: attrs>=19.1.0 in d:\python\python37\lib\site-packages (from service-identity>=16.0.0->scrapy) (19.3.0)
Requirement already satisfied: pyasn1-modules in d:\python\python37\lib\site-packages (from service-identity>=16.0.0->scrapy) (0.2.8)
Requirement already satisfied: pyasn1 in d:\python\python37\lib\site-packages (from service-identity>=16.0.0->scrapy) (0.4.8)
Requirement already satisfied: hyperlink>=17.1.1 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (21.0.0)
Requirement already satisfied: Automat>=0.8.0 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (20.2.0)
Requirement already satisfied: constantly>=15.1 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (15.1.0)
Requirement already satisfied: incremental>=16.10.1 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (21.3.0)
Requirement already satisfied: twisted-iocpsupport~=1.0.0 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (1.0.1)
Requirement already satisfied: priority<2.0,>=1.1.0 in d:\python\python37\lib\site-packages (from Twisted[http2]>=17.9.0->scrapy) (1.3.0)
Requirement already satisfied: setuptools in d:\python\python37\lib\site-packages (from zope.interface>=4.1.3->scrapy) (41.2.0)
Requirement already satisfied: pycparser in d:\python\python37\lib\site-packages (from cffi>=1.12->cryptography>=2.0->scrapy) (2.20)
Requirement already satisfied: idna>=2.5 in d:\python\python37\lib\site-packages (from hyperlink>=17.1.1->Twisted[http2]>=17.9.0->scrapy) (2.9)
Installing collected packages: scrapy
Successfully installed scrapy-2.5.1

创建一个项目

C:\Users\lifeng01>scrapy startproject tutorial
New Scrapy project 'tutorial', using template directory 'D:\Python\Python37\lib\site-packages\scrapy\templates\project', created in:
    C:\Users\lifeng01\tutorial

You can start your first spider with:
    cd tutorial
    scrapy genspider example example.com

tutorial这个名称可自定义。最后创建的文件目录如下：

tutorial
│  scrapy.cfg
│  
└─tutorial
    │  items.py
    │  middlewares.py
    │  pipelines.py
    │  settings.py
    │  __init__.py
    │  
    └─spiders
            __init__.py

新建主程序

D:\tutorial\tutorial\spiders>scrapy genspider basic www.baidu.com
Created spider 'basic' using template 'basic' in module:
  tutorial.spiders.basic

basic是自定义名称，www.baidu.com是指定的域名。最后创建的主程序如下：

import scrapy


class BasicSpider(scrapy.Spider):
    name = 'basic'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        pass

开始编写爬虫

以上只是简单的介绍下安装和创建工程目录，具体细节的使用方法可参考官方文档。
scrap官方文档：https://docs.scrapy.org/en/latest/intro/install.html#supported-python-versions

以下是爬取某网站的美女图片，示例脚本如下：

properties\properties\spiders\basic.py主程序

import scrapy
from properties.items import PropertiesItem


class BasicSpider(scrapy.Spider):
    name = 'basic'
    allowed_domains = ['jandan.net/']
    start_urls = [
        'http://jandan.net/girl/MjAyMTEwMjUtOTk=#comments',
    ]

    def parse(self, response):
        item = PropertiesItem()
        item['image_urls'] = response.xpath('//img//@src').extract()
        yield item

properties\properties\items.py为项目定义字段

import scrapy


class PropertiesItem(scrapy.Item):
    # define the fields for your item here like:
    image_urls = scrapy.Field()

properties\properties\settings.py设置配置项

# 处理媒体重定向，请将此设置设为True
MEDIA_ALLOW_REDIRECTS = True
# 存储路径
IMAGES_STORE = 'F:\project_gitee\Test\properties\image'
# 将目标存储设置配置为一个将用于存储下载的映像的有效值。否则，即使将管道包含在item_pipes设置中，它仍将被禁用。
ITEM_PIPELINES = {
    'properties.pipelines.PropertiesPipeline': 1,
}

properties\properties\pipelines.py处理返回数据

import os
import urllib.request
from properties import settings
from itemadapter import ItemAdapter


class PropertiesPipeline:
    def process_item(self, item, spider):
        DIR_PATH = os.path.join(settings.IMAGES_STORE, spider.name)  # 存储路径
        if not os.path.exists(DIR_PATH):
            os.makedirs(DIR_PATH)
        for image_url in item['image_urls']:
            # 分割图片链接
            list_data = image_url.split('/')
            # 分割后，获取图片名称
            image_name = list_data[len(list_data)-1]     # 图片名称
            # 判断图片名称是否存在
            if os.path.exists(image_name):
                continue
            # 利用urllib.request.urlopen库进行下载图片
            images = urllib.request.urlopen('http:'+image_url)
            # 根据路径，进行图片存储    
            with open(os.path.join(DIR_PATH, image_name),'wb') as w:
                w.write(images.read())
        return item

开始运行爬取数据

F:\project_gitee\Test\properties>scrapy crawl basic
2021-10-25 16:30:13 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: properties)
2021-10-25 16:30:13 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.2.0, Python 3.7.7 (tags/v3.7.7:d7c567b08f, Mar 10 2020, 10:41:24) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 20.0.1 (OpenSSL 1.1.1k  25 Mar 2021), cryptography 3.4.7, Platform Windows-10-10.0.18362-SP0
2021-10-25 16:30:13 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-10-25 16:30:13 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'properties',
 'NEWSPIDER_MODULE': 'properties.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['properties.spiders']}
2021-10-25 16:30:13 [scrapy.extensions.telnet] INFO: Telnet Password: 378683921570e9f2
2021-10-25 16:30:13 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2021-10-25 16:30:14 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2021-10-25 16:30:14 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2021-10-25 16:30:14 [scrapy.middleware] INFO: Enabled item pipelines:
['properties.pipelines.PropertiesPipeline']
2021-10-25 16:30:14 [scrapy.core.engine] INFO: Spider opened
2021-10-25 16:30:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2021-10-25 16:30:14 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2021-10-25 16:30:14 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2021-10-25 16:30:14 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2021-10-25 16:30:17 [scrapy.core.scraper] DEBUG: Scraped from <200 http://jandan.net/girl/MjAyMTEwMjUtOTk=>
{'image_urls': ['//wx2.sinaimg.cn/mw600/0076BSS5ly8gvr79mpwbej60u00lx0vd02.jpg',
                '//wx2.sinaimg.cn/mw600/0076BSS5ly8gvr73vsp3jj60u011iwk102.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvr6y1uf4oj60u011jjuy02.jpg',
                '//wx1.sinaimg.cn/mw600/0076BSS5ly8gvr6lkv2fnj60u011e0vl02.jpg',
                '//wx1.sinaimg.cn/mw2000/008dYDxugy1gvr3u9plfvj61kw1g0qlc02.jpg',
                '//wx3.sinaimg.cn/mw2000/008dYDxugy1gvr3u8twb9j60tz12fwkq02.jpg',
                '//wx4.sinaimg.cn/mw2000/008dYDxugy1gvr3u6f261j60u013n10z02.jpg',
                '//wx2.sinaimg.cn/mw2000/008dYDxugy1gvr3u4xo03j60u0140qbq02.jpg',
                '//wx2.sinaimg.cn/mw2000/008dYDxugy1gvr3u44ksaj60u0140wmq02.jpg',
                '//wx2.sinaimg.cn/mw600/002iRMxrly1gvqvda2nwcj60ll0ss7am02.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvquam9sl3j60q10wj0wh02.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqu54jb06j60go0p1my802.jpg',
                '//wx1.sinaimg.cn/mw600/0076BSS5ly8gvqtz5oc7sj60u011cgon02.jpg',
                '//wx1.sinaimg.cn/mw600/0076BSS5ly8gvqtskv7xrj60u0190acs02.jpg',
                '//wx1.sinaimg.cn/mw600/0076BSS5ly8gvqtmlqesej60u0190dst02.jpg',
                '//wx2.sinaimg.cn/mw600/002fU9sRly1gvqtkvuzbtj60rs15oq5y02.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqtgft95xj60u011ijx802.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqt9ybwmoj60u018z48002.jpg',
                '//wx3.sinaimg.cn/mw600/0076BSS5ly8gvqsxu4gebj60u015xgu902.jpg',
                '//wx3.sinaimg.cn/mw600/0076BSS5ly8gvqsrsi70gj61hc0u0jwf02.jpg',
                '//wx3.sinaimg.cn/mw600/0076BSS5ly8gvqsltsprgj60u00gvn0802.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqsftjou0j60jg0t677d02.jpg',
                '//wx3.sinaimg.cn/mw600/0076BSS5ly8gvqs9tsmvaj60u01407bh02.jpg',
                '//wx2.sinaimg.cn/mw600/0076BSS5ly8gvqs33sslqj60rs0ijmzv02.jpg',
                '//wx3.sinaimg.cn/mw600/0076BSS5ly8gvqrw2tidoj60hs0qoq4p02.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqrpx4tfaj61900u0qbd02.jpg',
                '//wx4.sinaimg.cn/mw600/0076BSS5ly8gvqrka7219j60u011iwha02.jpg']}
2021-10-25 16:30:17 [scrapy.core.engine] INFO: Closing spider (finished)
2021-10-25 16:30:17 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 451,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 14483,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'elapsed_time_seconds': 3.762225,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2021, 10, 25, 8, 30, 17, 913551),
 'httpcompression/response_bytes': 92384,
 'httpcompression/response_count': 2,
 'item_scraped_count': 1,
 'log_count/DEBUG': 3,
 'log_count/INFO': 10,
 'response_received_count': 2,
 'robotstxt/request_count': 1,
 'robotstxt/response_count': 1,
 'robotstxt/response_status_count/200': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2021, 10, 25, 8, 30, 14, 151326)}
2021-10-25 16:30:17 [scrapy.core.engine] INFO: Spider closed (finished)

运行后，image/basic文件下存入图片信息

image
│  
└─basic
        002fU9sRly1gvqtkvuzbtj60rs15oq5y02.jpg
        002iRMxrly1gvqvda2nwcj60ll0ss7am02.jpg
        0076BSS5ly8gvqrka7219j60u011iwha02.jpg
        0076BSS5ly8gvqrpx4tfaj61900u0qbd02.jpg
        0076BSS5ly8gvqrw2tidoj60hs0qoq4p02.jpg
        0076BSS5ly8gvqs33sslqj60rs0ijmzv02.jpg
        0076BSS5ly8gvqs9tsmvaj60u01407bh02.jpg
        0076BSS5ly8gvqsftjou0j60jg0t677d02.jpg
        0076BSS5ly8gvqsltsprgj60u00gvn0802.jpg
        0076BSS5ly8gvqsrsi70gj61hc0u0jwf02.jpg
        0076BSS5ly8gvqsxu4gebj60u015xgu902.jpg
        0076BSS5ly8gvqt9ybwmoj60u018z48002.jpg
        0076BSS5ly8gvqtgft95xj60u011ijx802.jpg
        0076BSS5ly8gvqtmlqesej60u0190dst02.jpg
        0076BSS5ly8gvqtskv7xrj60u0190acs02.jpg
        0076BSS5ly8gvqtz5oc7sj60u011cgon02.jpg
        0076BSS5ly8gvqu54jb06j60go0p1my802.jpg
        0076BSS5ly8gvquam9sl3j60q10wj0wh02.jpg
        0076BSS5ly8gvr6lkv2fnj60u011e0vl02.jpg
        0076BSS5ly8gvr6y1uf4oj60u011jjuy02.jpg
        0076BSS5ly8gvr73vsp3jj60u011iwk102.jpg
        0076BSS5ly8gvr79mpwbej60u00lx0vd02.jpg
        008dYDxugy1gvr3u44ksaj60u0140wmq02.jpg
        008dYDxugy1gvr3u4xo03j60u0140qbq02.jpg
        008dYDxugy1gvr3u6f261j60u013n10z02.jpg
        008dYDxugy1gvr3u8twb9j60tz12fwkq02.jpg
        008dYDxugy1gvr3u9plfvj61kw1g0qlc02.jpg

以上总结或许能帮助到你，或许帮助不到你，但还是希望能帮助到你，如有疑问、歧义，直接私信留言会及时修正发布；非常期待你的点赞和分享哟，谢谢！

未完，待续…

一直都在努力，希望您也是！

微信搜索公众号：就用python

更多内容欢迎关注公众号

基于Python实现读取嵌套压缩包下的文件袁袁袁袁满 Python实用技巧大全 python 嵌套压缩包下文件读取 Python实现嵌套压缩包压缩包 zipfile BytesIO
文章目录前言思路完整代码代码优化前言工作中遇到的问题，需要用Python实现嵌套压缩包下文件读取，这里记录下方法，希望能帮助到更多的人。思路打开外层zip压缩包并遍历文件：使用withzipfile.ZipFile(outer_zip_path,'r')asouter_zip语句以读取模式'r'打开用户输入的外层zip压缩包对应的文件，这样在代码块结束后会自动关闭该文件，避免资源泄露。通过oute
【如何利用Python抢演唱会门票】python利用selenium实现大麦网抢票 Python小炮车 python selenium 数据库
一、selenium原理介绍Selenium是一个用于Web[应用程序](https://link.juejin.cn/?target=https%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E5%25BA%2594%25E7%2594%25A8%25E7%25A8%258B%25E5%25BA%258F%2F5985445%3FfromModule%3Dlemma_i
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【Python小技巧】使用prettytable格式化显示dataframe数据 IT里的交易员 Python经验池 python
文章目录前言一、安装prettytable二、函数打包三、应用示例总结前言经常我们使用print(df)输出dataframe数据，打印输出的数据没有格式，看起来屏幕一篇乱。有没有一种可以格式化输出的工具？还真有，那就是prettytable。一、安装prettytablePrettyTable是Python中的一个库，用于以美观的表格形式显示数据。要使用PrettyTable，首先需要安装它，可
Python中用ollama库实现连续对话 longnershot python 开发语言 AI编程
找来找去没找到一个简单示例，用4o和问心来回调整简单生成了一个，抛砖引玉了。importollamadefchat_with_ollama():#初始化一个列表来存储对话历史，每个元素是一个包含用户输入和模型回复的元组history=[]whileTrue:#获取用户输入，并转换为小写，方便后续判断退出条件user_input=input("\nUser:")#判断用户是否想要退出对话ifuser
Python电子书教程汇总 iteye_3941 python
From:http://bathome.net/thread-15554-1-1.html[转载教程]Python电子书教程汇总（2012-02-16更新）简明Python教程(AByteofPython)_1.20_中文版pdfhttp://www.rayfile.com/zh-cn/files/6cdcc561-58b2-11e1-ad5e-0015c55db73d/Python语言从入门到精
深入理解观察者模式 —— Qt信号槽机制的实现拾工软件设计观察者模式 qt 开发语言
观察者模式是一种行为型设计模式，允许一个对象（被观察者）状态发生变化时通知一组依赖它的对象（观察者），从而实现对象之间的解耦。在这篇文章中，我们将探讨如何用C++和Python实现观察者模式，并在代码中清晰地体现这一设计模式的核心思想。其实Qt的信号槽机制，就是借住了这一设计模式，并对其进行了一些扩展。由于Qt广泛的被C++和Python用户使用，所以这里给出Python和C++两个版本的简单实现
第03讲原理探究，了解爬虫的基本原理 roc_lpy Python
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才1.爬虫概述我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数
Python网络编程之UDP套接字编程 Ssaty. udp 网络 python
第1关：UDP初体验任务描述本关任务：完成一个客户端程序，向服务器端发出请求，传输数据，并设置超时丢包，体验UDP的基本连接过程。相关知识为了完成本关任务，你需要掌握：创建socket对象；发送UDP数据；接收UDP数据；设置超时。创建socket对象创建socket对象是第一步，后续所有的操作都是通过socket对象完成的。创建对象使用socket()函数：s=socket(参数1,参数2)#s
使用Python访问和操作Llama的方法起风了~~~。 python llama 人工智能 Python
使用Python访问和操作Llama的方法Llama是一个流行的Python库，用于处理和操作数据集。它提供了丰富的功能和工具，使我们能够轻松地对数据进行处理、转换和分析。本文将介绍如何使用Python来访问和使用Llama库，并提供相应的示例代码。安装Llama库首先，我们需要安装Llama库。可以使用pip命令在Python环境中安装Llama。打开终端或命令提示符，并运行以下命令：pipin
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
手把手教你使用 Python 制作贪吃蛇游戏｜Python游戏程序员CC_ Python教程 python 学python pygame python 开发语言
贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中，玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习Python或Pygame时，可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习构建视频游戏是一种有趣而有趣的学习。我们将使用Pygame来创建这个蛇游戏。Pygame是一个开源库，专为制作视频游戏而设计。它具有内置的图形和声音库。它也
Python Sqlite数据库与配置文件的加载、编辑和保存 2201_75335496 数据库 sqlite python json pyqt
一、Sqlite数据库SQLite，是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它是D.RichardHipp建立的公有领域项目。它的设计目标是嵌入式的，而且已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如T
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
python调用ollama库详解 2201_75335496 python 经验分享神经网络人工智能自然语言处理语言模型
0准备1）准备Ollama软件（注意：两个不是同一个东西）详见上次的文章Ollama通过gguf文件加载AI模型（补充：关于Ollama加载AI模型的补充）2）准备ollama库如果您还未安装ollama库，请使用pip安装：pipinstallollama#1ollama库的基本使用importollama#普通输出（请先按照准备工作中的要求安装模型）back=ollama.chat(model
pyinstaller 打包生成.exe 可执行文件报错 “IndexError: tuple index out of range” 静妍 Python Python pyqt gui Pyinstaller .exe
想把pyqt写的GUI程序打包成.exe文件，以便在Windows下运行，不想因为使用Python3.6，出现兼容问题：IndexError:tupleindexoutofrangePyinstaller官网目前的版本是3.2.1只支持到Python2.7，Python3.3~Python3.5需自己在官网源码里
如何利用Python下载酷狗音乐傻啦嘿哟关于python那些事儿 python 开发语言
目录一、酷狗音乐下载的挑战与解决方案二、Python下载酷狗音乐的步骤选择合适的第三方库安装you-get库下载酷狗音乐三、注意事项与常见问题版权问题链接失效下载速度四、案例与代码示例五、总结与展望随着互联网的迅猛发展，音乐已经成为人们日常生活中不可或缺的一部分。酷狗音乐作为中国领先的在线音乐平台，拥有庞大的音乐库和众多用户。然而，有时我们可能希望将酷狗音乐下载到本地，以便在没有网络或希望离线欣赏
python概述_理解Python数据类：Dataclass 的特征概述（上） weixin_39875842 python概述
原标题UnderstandingPythonDataclasses—Part1，作者为ShikharChauhan。这是一个包含两部分的博文：这一篇是Dataclass的特征概述下一篇是Dataclassfields的概述引言Dataclasses是一些适合于存储数据对象(dataobject)的Python类。你可能会问，什么是数据对象?下面是一个并不详尽的用于定义数据对象的特征列表：他们存储并
Python_算术运算符 Ww_Sid python python 算术运算符
两个数字相加sumNumber=1+2print(sumNumber)>>>3两个字符串相加sumString="Nicework"print(sumString)>>>Nicework两个数字相减subNumber=2-1print(subNumber)>>>1两个数字相乘或者multiplicationNumber=2*3print(multiplicationNumber)>>>6字符串重复
代码精进：工作中学到的12个代码风格程序员
在工作中，我们编写代码时尽可能地使其易于阅读。这意味着以下几点：变量名有意义且更长（而不是a,b和c）函数名有意义且更长许多注释和文档解释代码到处都是类型提示字符串似乎更长、更啰嗦等等以下是我在过去几年的工作中学到的一些生产级别的Python代码风格。1)使用括号的元组解包这是一些正常的元组解包：a,b=(1,2)在生产级别的代码中，我们通常不使用像a或b这样的变量名——相反，我们的变量名会变得更
python错误：No module named 'sklearn.cross_validation' 小炸鸡钟熊 python
调用fromsklearn.cross_validationimporttrain_test_split时，发现错误：Nomodulenamed'sklearn.cross_validation’更改为sklearn.model_selection即可fromsklearn.model_selectionimporttrain_test_split
leetcode 485 python weixin_36908057 leetcode
Givenabinaryarray,findthemaximumnumberofconsecutive1sinthisarray.Example1:Input:[1,1,0,1,1,1]Output:3Explanation:Thefirsttwodigitsorthelastthreedigitsareconsecutive1s.Themaximumnumberofconsecutive1sis
python连接485网关设备 dilqu python 网络开发语言
Python相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python连接485网关设备1.流程图gantttitlePython连接485网关设备流程图section了解485网关设备:1dsection安装Python库:1dsection编写Pyt
Python学习day14 BBS功能和聊天室 weixin_30725467 json 数据库前端 ViewUI
Createdon2017年5月15日@author:louts第1课作业讲解及装饰器使用28minutesdefcheck(func):defrec(request,*args,**kargs):returnfunc(request,*args,**kargs)returnrec@checkdefindex(request,):printrequest第2课自定义装饰器扩展使用18minutes
华为OD机试C卷-- 跳格子3（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述小明和朋友们一起玩跳格子游戏，每个格子上有特定的分数score=[1,-1,-6,7,-17,7]，从起点score[0]开始，每次最大的步长为k，请你返回小明跳到终点score[n-1]时，能得到的最大得分。输入描述第一行输入总的格子数量n第二
如何使用Visual Studio Code调试PHP CLI应用和Web应用
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
理解 Python 的 Dataclasses Cater Chen python
理解Python的Dataclasseshttps://zhuanlan.zhihu.com/p/59657729
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

python：scrapy 一个网站爬虫库

安装

创建一个项目

开始编写爬虫

开始运行爬取数据

你可能感兴趣的:(python,python,爬虫,数据挖掘,scrapy)