bubble_is_paopao

Python+Pycharm +Scrapy搭建爬虫项目

Python+Pycharm +Scrapy搭建爬虫项目

Scrapy简介：

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中

Scrapy框架的工作流程图如下：

Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等

Scheduler(调度器)：负责接收engine发送过来的Request请求并按照一定的方式进行整理排列，入队，当engine需要时，交还给engine

Downloader（下载器）：负责下载engine 发送的所有Requests请求，并将其获取到的Responses交还给Engine，由Engine交给Spider处理

Spider（爬虫）：负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给engine，将URL提交给engine，再次进入Scheduler

Item Pipeline(管道)：负责处理Spider中获取的Item，并经行后期处理（详细分析、过滤、存储等）的地方

Downloader Middlewares(下载中间件)：自定义扩展下载功能组件，可以进行服务器代理等设置

Spider Middlewares(Spider中间件)：可以自定义扩展和操作engine和Spider中间通信的功能组件(比如进入Spider 的Responses，和从Spider出去的Requests)

一、准备工作

1.安装python3.x

2.下载PyCharm Community

3.安装Scrapy：安装好Python后，在cmd中输入以下命令 pip install scrapy

二、搭建步骤

1.创建一个爬虫项目：通过scrapy startproject命令创建

在cmd中运行命令：scrapy，出现下图命令说明

执行 scrapy startproject [项目名]，会在当前目录创建一个Scrapy项目

查看创建的scrapy项目的目录结构如下（拿以下项目举例）：

①WebScraping项目根目录下包括一个同名的WebScraping包和一个scrapy.cfg配置文件；其中scrapy.cfg配置文件内容如下：

指定该scrapy项目的setting文件为WebScraping包下的settings.py文件

②scrapTest模块下又包含了items、middlewares、pipelines、settings模块以及spider包

(1) items模块中定义了items类，各items类必须继承scrapy.Item；通过scrapy.Field()定义各Item类中的类变量

import scrapy

class StockQuotationItem(scrapy.Item):
    '''

    '''
    order=scrapy.Field()
    symbol = scrapy.Field()
    instrument_name = scrapy.Field()
    price=scrapy.Field()
    pchg = scrapy.Field()
    chg = scrapy.Field()
    speed_up = scrapy.Field()
    turnover = scrapy.Field()
    QR = scrapy.Field()
    swing = scrapy.Field()
    vol = scrapy.Field()
    floating_shares = scrapy.Field()
    floating__net_value=scrapy.Field()
    PE = scrapy.Field()

(2) middlewares模块中定义了各中间件类，包括SpiderMiddleWares、DownloadMiddleWares等

(3) pipelines模块，用于处理spider中获取的items（将获取的items保存至文件或者数据库等）:

Pipeline类必须实现process_item()方法

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class WebScrapingPipeline(object):
    def __init__(self):
        self.f= open('spiderResult.json','wb')

    def process_item(self, item, spider):
        result=json.dumps(dict(item), ensure_ascii=False)+', \n'
        self.f.write(result.encode('utf-8'))

        #将Item返回至引擎，告知该item已经处理完成，你可以给我下一个item
        return item

    def close_spider(self,spider):
        self.f.close()

(4) settings模块中包含了项目相关配置信息，包括指定SPIDER_MODULES，指定ITEM_PIPELINES等等；如果要使用pipelines模块中定义的各pipelines类，必须在settings模块中指定，格式如下：

ITEM_PIPELINES = {
'WebScraping.pipelines.WebScrapingPipeline': 300,
}

下面显示了一个settings模块中包含的内容：默认设置了当前spider模块的位置以及新建spider模块的位置

# -*- coding: utf-8 -*-

# Scrapy settings for $project_name project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'WebScraping'

SPIDER_MODULES = ['WebScraping.spiders']
NEWSPIDER_MODULE = 'WebScraping.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = '$project_name (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    '$project_name.middlewares.${ProjectName}SpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    '$project_name.middlewares.${ProjectName}DownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'WebScraping.pipelines.WebScrapingPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

(5) spider包中包含各spider模块，spider模块中定义了各spider类：

其中spider类继承了scrapy.Spider类或者scrapy.CrawlSpider,通过parse方法对Response内容进行处理，获取Item字段需要的数据，并将需要跟进的URL提交给engine

在spider类中默认需要定义该spider的名称、start_urls、allowed_domains等内容，其中spider name 必须定义，后续运行spider时，需要指定spider名称

import scrapy
from ..items import StockQuotationItem

class WebScrapingSpider(scrapy.Spider):
    name='WebScraping'
    allowed_domains=['q.10jqka.com.cn']
    start_urls=['http://q.10jqka.com.cn/']

    def parse(self, response):
        quotation_tb=response.xpath('//*[@id="maincont"]/table/tbody')
        quotation_ls=quotation_tb.xpath('tr')
        item=StockQuotationItem()
        for quotation in quotation_ls:
            result=quotation.xpath('td/text()').extract()
            #item['order']=order
            item['symbol']=result[0]
            item['instrument_name']=result[1]
            item['price']=result[2]
            item['pchg']=result[3]
            item['chg']=result[4]
            item['speed_up']=result[5]
            item['turnover']=result[6]
            item['QR']=result[7]
            item['swing'] = result[8]
            item['vol'] = result[9]
            item['floating_shares'] = result[10]
            item['floating__net_value'] = result[11]
            #item['PE'] = result[12]
            yield item

2.运行爬虫项目：通过scrapy crawl [spider 名称] 指定运行某个spider

下面是通过 scrapy crawl 命令运行 "WebScraping"的结果

F:\pyworkspace\WebScraping>scrapy crawl WebScraping
2019-02-15 14:59:03 [scrapy.utils.log] INFO: Scrapy 1.5.2 started (bot: WebScraping)
2019-02-15 14:59:03 [scrapy.utils.log] INFO: Versions: lxml 4.3.0.0, libxml2 2.9.7, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.2 (tags/v3.7.2:9a3ffc0492, Dec 23 2018, 22:20:52) [MSC v.1916 32 bit (Int
el)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1a  20 Nov 2018), cryptography 2.5, Platform Windows-10-10.0.17763-SP0
2019-02-15 14:59:03 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'WebScraping', 'CONCURRENT_REQUESTS': 32, 'NEWSPIDER_MODULE': 'WebScraping.spiders', 'SPIDER_MODULES': ['WebScraping.spiders']}
2019-02-15 14:59:03 [scrapy.extensions.telnet] INFO: Telnet Password: 7c6e57a3e25c172e
2019-02-15 14:59:03 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2019-02-15 14:59:06 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2019-02-15 14:59:06 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2019-02-15 14:59:07 [scrapy.middleware] INFO: Enabled item pipelines:
['WebScraping.pipelines.WebScrapingPipeline']
2019-02-15 14:59:07 [scrapy.core.engine] INFO: Spider opened
2019-02-15 14:59:07 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-02-15 14:59:07 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2019-02-15 14:59:07 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '--',
 'chg': '--',
 'floating__net_value': '14.53',
 'floating_shares': '4.32亿亿',
 'instrument_name': '2.88',
 'pchg': '0.88',
 'price': '44.00',
 'speed_up': '0.07',
 'swing': '32.38万万',
 'symbol': '1',
 'turnover': '--',
 'vol': '1.50亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.81',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '30.04亿亿',
 'instrument_name': '2.04',
 'pchg': '0.19',
 'price': '10.27',
 'speed_up': '1.74',
 'swing': '5202.49万万',
 'symbol': '2',
 'turnover': '3.55',
 'vol': '14.73亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '13.07',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '38.23亿亿',
 'instrument_name': '1.94',
 'pchg': '0.18',
 'price': '10.23',
 'speed_up': '13.44',
 'swing': '4.99亿亿',
 'symbol': '3',
 'turnover': '3.07',
 'vol': '19.71亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '11.08',
 'chg': '--',
 'floating__net_value': '64.88',
 'floating_shares': '68.52亿亿',
 'instrument_name': '3.58',
 'pchg': '0.33',
 'price': '10.15',
 'speed_up': '8.04',
 'swing': '5.35亿亿',
 'symbol': '4',
 'turnover': '3.55',
 'vol': '19.14亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '--',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '48.70亿亿',
 'instrument_name': '4.57',
 'pchg': '0.42',
 'price': '10.12',
 'speed_up': '4.06',
 'swing': '1.98亿亿',
 'symbol': '5',
 'turnover': '1.10',
 'vol': '10.66亿 亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '5.99',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '20.99亿亿',
 'instrument_name': '2.94',
 'pchg': '0.27',
 'price': '10.11',
 'speed_up': '4.81',
 'swing': '1.00亿亿',
 'symbol': '6',
 'turnover': '1.30',
 'vol': '7.14亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '11.91',
 'chg': '--',
 'floating__net_value': '25.64',
 'floating_shares': '65.81亿亿',
 'instrument_name': '3.05',
 'pchg': '0.28',
 'price': '10.11',
 'speed_up': '5.21',
 'swing': '3.30亿亿',
 'symbol': '7',
 'turnover': '1.56',
 'vol': '21.58亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '--',
 'chg': '--',
 'floating__net_value': '54.70',
 'floating_shares': '15.15亿亿',
 'instrument_name': '5.78',
 'pchg': '0.53',
 'price': '10.10',
 'speed_up': '2.76',
 'swing': '4178.04万万',
 'symbol': '8',
 'turnover': '1.01',
 'vol': '2.62亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '7.12',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '16.32亿亿',
 'instrument_name': '3.71',
 'pchg': '0.34',
 'price': '10.09',
 'speed_up': '14.20',
 'swing': '2.29亿亿',
 'symbol': '9',
 'turnover': '6.75',
 'vol': '4.40亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.91',
 'chg': '--',
 'floating__net_value': '18.56',
 'floating_shares': '64.16亿亿',
 'instrument_name': '6.66',
 'pchg': '0.61',
 'price': '10.08',
 'speed_up': '2.89',
 'swing': '1.82亿亿',
 'symbol': '10',
 'turnover': '2.26',
 'vol': '9.63亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '5.34',
 'chg': '--',
 'floating__net_value': '43.85',
 'floating_shares': '42.55亿亿',
 'instrument_name': '5.57',
 'pchg': '0.51',
 'price': '10.08',
 'speed_up': '4.60',
 'swing': '1.92亿亿',
 'symbol': '11',
 'turnover': '1.83',
 'vol': '7.64亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '11.79',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '37.79亿亿',
 'instrument_name': '5.79',
 'pchg': '0.53',
 'price': '10.08',
 'speed_up': '3.10',
 'swing': '1.14亿亿',
 'symbol': '12',
 'turnover': '1.17',
 'vol': '6.53亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.35',
 'chg': '--',
 'floating__net_value': '127.71',
 'floating_shares': '61.37亿亿',
 'instrument_name': '3.83',
 'pchg': '0.35',
 'price': '10.06',
 'speed_up': '3.21',
 'swing': '1.93亿亿',
 'symbol': '13',
 'turnover': '1.50',
 'vol': '16.02亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.05',
 'chg': '--',
 'floating__net_value': '18.46',
 'floating_shares': '24.50亿亿',
 'instrument_name': '8.65',
 'pchg': '0.79',
 'price': '10.05',
 'speed_up': '6.49',
 'swing': '1.55亿亿',
 'symbol': '14',
 'turnover': '2.31',
 'vol': '2.83亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.83',
 'chg': '--',
 'floating__net_value': '34.66',
 'floating_shares': '53.08亿亿',
 'instrument_name': '7.01',
 'pchg': '0.64',
 'price': '10.05',
 'speed_up': '3.86',
 'swing': '1.99亿亿',
 'symbol': '15',
 'turnover': '1.95',
 'vol': '7.57亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '11.47',
 'chg': '--',
 'floating__net_value': '--',
 'floating_shares': '24.67亿亿',
 'instrument_name': '3.07',
 'pchg': '0.28',
 'price': '10.04',
 'speed_up': '9.86',
 'swing': '2.36亿亿',
 'symbol': '16',
 'turnover': '2.67',
 'vol': '8.04亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '11.26',
 'chg': '--',
 'floating__net_value': '21.31',
 'floating_shares': '30.28亿亿',
 'instrument_name': '9.87',
 'pchg': '0.90',
 'price': '10.03',
 'speed_up': '9.02',
 'swing': '2.66亿亿',
 'symbol': '17',
 'turnover': '5.65',
 'vol': '3.07亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '10.03',
 'chg': '--',
 'floating__net_value': '18.77',
 'floating_shares': '8.81亿亿',
 'instrument_name': '19.86',
 'pchg': '1.81',
 'price': '10.03',
 'speed_up': '20.85',
 'swing': '1.79亿亿',
 'symbol': '18',
 'turnover': '3.13',
 'vol': '4435.20万万'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '13.16',
 'chg': '--',
 'floating__net_value': '313.37',
 'floating_shares': '25.81亿亿',
 'instrument_name': '16.13',
 'pchg': '1.47',
 'price': '10.03',
 'speed_up': '10.18',
 'swing': '2.52亿亿',
 'symbol': '19',
 'turnover': '3.47',
 'vol': '1.60亿亿'}
2019-02-15 14:59:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://q.10jqka.com.cn/>
{'QR': '1.85',
 'chg': '--',
 'floating__net_value': '39.20',
 'floating_shares': '41.54亿亿',
 'instrument_name': '4.17',
 'pchg': '0.38',
 'price': '10.03',
 'speed_up': '3.62',
 'swing': '1.50亿亿',
 'symbol': '20',
 'turnover': '4.03',
 'vol': '9.96亿亿'}
2019-02-15 14:59:07 [scrapy.core.engine] INFO: Closing spider (finished)
2019-02-15 14:59:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 214,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 6457,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2019, 2, 15, 6, 59, 7, 665701),
 'item_scraped_count': 20,
 'log_count/DEBUG': 22,
 'log_count/INFO': 8,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 2, 15, 6, 59, 7, 122171)}
2019-02-15 14:59:07 [scrapy.core.engine] INFO: Spider closed (finished)

至此，一个简单爬虫项目就搭建完成

自动化测试中，测试数据如何管理？鱼鱼说测试 java linux 服务器
今晚在某个测试群，看到有人问了一个问题：把测试数据放配置文件读取和放文件通过函数调用读取有什么区别？Python接口自动化测试零基础入门到精通（2025最新版）当时我下意识的这么回答：数据量越大，配置文件越臃肿，放在专门的数据文件（比如excel，csv），方便针对性的维护。乍看没毛病，但回头和人讨论这个问题的时候，就认真思考了一下这个问题，下面是我的一些思考和讨论的一些结果，仅供参考。。。自动化
基于selenium的pyse自动化测试框架鱼鱼说测试 selenium 测试工具
Python接口自动化测试零基础入门到精通（2025最新版）介绍：pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点：默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css）。本框架只是对selenium（webdriver）原生方法进行了简单的封装，精简为大约30个方法，这些
自动化测试准备鱼鱼说测试自动化测试
什么是自动化测？Python接口自动化测试零基础入门到精通（2025最新版）首先理清自动化测试的概念，广义上来讲，自动化包括一切通过工具（程序）的方式来代替或辅助手工测试的行为都可以看做自动化，包括性能测试工具（loadrunner、jmeter）,或自己所写的一段程序，用于生成1到100个测试数据。狭义上来讲，通工具记录或编写脚本的方式模拟手工测试的过程，通过回放或运行脚本来执行测试用例，从而代
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
OpenCV稠密光流法可直接运行的例程（python） indrrra opencv python 人工智能
#dense_optical_flow.pyimportcv2importnumpyasnpimportargparsedefdense_optical_flow(method,video_path,params=[],to_gray=False):#读取视频cap=cv2.VideoCapture(video_path)#读取第一帧ret,old_frame=cap.read()#创建HSV并使
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
php、go、python后端接口签名实现奇华智能后台开发 linux 签名接口安全
1.php实现/**生成签名，$args为请求参数，$key为私钥*/functionmakeSignature($args,$key){if(isset($args['sign'])){$oldSign=$args['sign'];unset($args['sign']);}else{$oldSign='';}ksort($args);$requestString='';foreach($arg
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
红队测试-代理和中间人攻击工具小浪崇礼
BetterCAP-Modular,portableandeasilyextensibleMITMframework.Ettercap-Comprehensive,maturesuiteformachine-in-the-middleattacks.Habu-Pythonutilityimplementingavarietyofnetworkattacks,suchasARPpoisoning,D
pyside6使用1 窗体、信号和槽
一、概要由于作者前期很多年都在使用C++和Qt框架进行项目的开发工作，故可以熟练的使用Qt框架。Qt框架在界面设计以及跨平台运用方面，有着巨大的优势，而界面设计恰恰是python的短板，故使用pyside6实现python和Qt的互补。1.1pyside6安装更新pip工具：pipinstall--upgradepip命令行执行如下指令：pipinstallpyside6-ihttps://pyp
python-读写mysql(操作mysql数据库)
importpymysqlimportpandasaspdimporttimeonly_time=time.localtime(time.time())time_now=time.strftime('%Y-%m-%d%H:%M:%S',only_time)dt=time.strftime('%Y%m%d',only_time)t=time.time()tt=int(t)parentId=''sta
python读写mysql cavin_2017 Python 学习
目前用到的连接数据库，主要实现连个功能：1.根据sql查询2.将dataframe数据通过pandas包写入mysql数据库中1.根据sql查询：通常我们通过sql查询mysql中的表，分三步1.连接数据库2.数据查询3.关闭连接，如果需要查询的步骤较多，将查询封装成函数，通过参数传递sql代码会省事很多。##定义连接数据库函数defmy_db(host,user,passwd,db,sql,po
python+playwright 学习-91 cookies的获取保存删除相关操作上海-悠悠 playwright python
前言playwright可以获取浏览器缓存的cookie信息，可以将这些cookies信息保存到本地，还可以加载本地cookies。获取cookies相关操作在登录前和登录后分别打印cookies信息，对比查看是否获取成功。fromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:browser=p.chromium.
Python——登录后获取cookie访问页面尖叫的太阳
importrequestsurl="https://kyfw.12306.cn/otn/view/index.html"#网址首页https://kyfw.12306.cn/otn/view/index.html的cookieheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)','Cookie':'JSESSIONID=3330D
python request 获取cookies value值的方法 dianqianwei8752 python c/c++
importrequestsres=requests.get(url)cookies=requests.utils.dict_from_cookiejar(res.cookies)print(cookies[key])转载于:https://www.cnblogs.com/VseYoung/p/python_cookies.html
python连接达梦数据库方式 water bucket python 数据库 pandas
1、通过jaydebeapi调用jdbcimportpandasaspdimportjaydebeapiif__name__=='__main__':url='jdbc:dm://{IP}:{PORT}/{库名}'username='{username}'password='{password}'jclassname='dm.jdbc.driver.DmDriver'jarFile='{DmJdb
Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Python+Pycharm +Scrapy搭建爬虫项目

你可能感兴趣的:(python,scrapy)