lfendo

Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去

一、创建项目

scrapy startproject books

二、编写Item

在items.py中编写我们需要的数据模型:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BooksItem(scrapy.Item):
    book_name = scrapy.Field()      #图书名
    book_star = scrapy.Field()      #图书评分
    book_pl = scrapy.Field()        #图书评论数
    book_author = scrapy.Field()    #图书作者
    book_publish = scrapy.Field()   #出版社
    book_date = scrapy.Field()      #出版日期
    book_price = scrapy.Field()     #图书价格

三、编写Spider

这里以历史为例,在火狐浏览器下打开Firebug查看元素,可以看见我们要提取的那些数据是在:ul[subject-list]-->li[subject-item]中:

然后创建spider文件,cd到spider目录下,执行命令:

scrapy genspider -t basic bookspider douban.com

所对应的xpath语法:

先获取这个列表下的li:

sel = Selector(response)
book_list = sel.css('#subject_list > ul > li')

1.图书名称:

book.xpath('div[@class="info"]/h2/a/text()').extract()[0].strip()

2.图书评分:

book.xpath("div[@class='info']/div[2]/span[@class='rating_nums']/text()").extract()[0].strip()

Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去_第5张图片

3.图书评论数:

book.xpath("div[@class='info']/div[2]/span[@class='pl']/text()").extract()[0].strip()

4.图书的作者,出版社,出版日期,价格:

由于他把这一些数据全部放在一起了,而且通过/进行区分,那我们可以通过split(‘/’)进行分割得到这几个数据

pub = book.xpath('div[@class="info"]/div[@class="pub"]/text()').extract()[0].strip().split('/')
item['book_price'] = pub.pop()
item['book_date'] = pub.pop()
item['book_publish'] = pub.pop()
item['book_author'] = '/'.join(pub)

完整的代码如下:

import scrapy
from scrapy.selector import Selector
from books.items import BooksItem




class BookspiderSpider(scrapy.Spider):
    name = "bookspider"
    allowed_domains = ["book.douban.com"]
    start_urls = ['https://book.douban.com/tag/%E5%8E%86%E5%8F%B2']
    def parse(self, response):
        sel = Selector(response)
        book_list = sel.css('#subject_list > ul > li')
        for book in book_list:
            item = BooksItem()
            try:
                #strip() 方法用于移除字符串头尾指定的字符（默认为空格）
                item['book_name'] = book.xpath('div[@class="info"]/h2/a/text()').extract()[0].strip()
                item['book_star'] = book.xpath("div[@class='info']/div[2]/span[@class='rating_nums']/text()").extract()[0].strip()
                item['book_pl'] = book.xpath("div[@class='info']/div[2]/span[@class='pl']/text()").extract()[0].strip()
                pub = book.xpath('div[@class="info"]/div[@class="pub"]/text()').extract()[0].strip().split('/')
                item['book_price'] = pub.pop()
                item['book_date'] = pub.pop()
                item['book_publish'] = pub.pop()
                item['book_author'] = '/'.join(pub)
                yield item
            except:
                pass

然后测试一下:

scrapy crawl bookspider -o items.json

回生成一个items.json文件,查看json文件,发现items.json内并没有数据，后头看控制台中的DEBUG信息

2017-04-16 17:52:55 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6025
2017-04-16 17:52:55 [scrapy.core.engine] DEBUG: Crawled (403)  (referer: None)
2017-04-16 17:52:56 [scrapy.core.engine] DEBUG: Crawled (403)  (referer: None)
2017-04-16 17:52:56 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 http://douban.com/>: HTTP status code is not handled or not allowed

提示403,这是因为服务器判断出爬虫程序，拒绝我们访问,修改下就可以了，在settings中设定USER_AGENT的值，伪装成浏览器访问页面。

USER_AGENT = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)"

再试一次，又报错:

2017-04-16 17:57:00 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6025
2017-04-16 17:57:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to  from 
2017-04-16 17:57:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to  from 
2017-04-16 17:57:01 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-04-16 17:57:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to  from 
2017-04-16 17:57:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to  from 
2017-04-16 17:57:01 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-04-16 17:57:01 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to  from 
2017-04-16 17:57:01 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2017-04-16 17:57:01 [scrapy.core.scraper] ERROR: Spider error processing  (referer: None)
Traceback (most recent call last):
  File "f:\software\python36\lib\site-packages\twisted\internet\defer.py", line 653, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "f:\software\python36\lib\site-packages\scrapy\spiders\__init__.py", line 76, in parse
    raise NotImplementedError
NotImplementedError

301错误。。看到其中提示robots.txt。然后把settings中的ROBOTSTXT_OBEY = False设置为"False"，运行还是提示301。。最后发现网站写错了。。

把它改成:

再运行就发现items.json有值了

但仔细只有第一页的数据，如果我们想要爬取所有的数据，就需要爬完当前页后自动获得下一页的url，以此类推爬完所有数据。

获取下一页:

sel.xpath('//div[@id="subject_list"]/div[@class="paginator"]/span[@class="next"]/a/@href').extract()[0].strip()

修改spider成如下:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.selector import Selector
from books.items import BooksItem


class BookspiderSpider(scrapy.Spider):
    name = "bookspider"
    allowed_domains = ["book.douban.com"]
    start_urls = ['https://book.douban.com/tag/%E5%8E%86%E5%8F%B2']
    def parse(self, response):
        sel = Selector(response)
        book_list = sel.css('#subject_list > ul > li')
        for book in book_list:
            item = BooksItem()
            try:
                #strip() 方法用于移除字符串头尾指定的字符（默认为空格）
                item['book_name'] = book.xpath('div[@class="info"]/h2/a/text()').extract()[0].strip()
                item['book_star'] = book.xpath("div[@class='info']/div[2]/span[@class='rating_nums']/text()").extract()[0].strip()
                item['book_pl'] = book.xpath("div[@class='info']/div[2]/span[@class='pl']/text()").extract()[0].strip()
                pub = book.xpath('div[@class="info"]/div[@class="pub"]/text()').extract()[0].strip().split('/')
                item['book_price'] = pub.pop()
                item['book_date'] = pub.pop()
                item['book_publish'] = pub.pop()
                item['book_author'] = '/'.join(pub)
                yield item
            except:
                pass
        #
        nextPage = sel.xpath('//div[@id="subject_list"]/div[@class="paginator"]/span[@class="next"]/a/@href').extract()[0].strip()
        if nextPage:
            next_url = 'https://book.douban.com'+nextPage
            yield scrapy.http.Request(next_url,callback=self.parse)

其中scrapy.http.Request会回调parse函数，用try...catch是因为豆瓣图书并不是格式一致的。遇到有问题的数据，就抛弃不用。

四、突破反爬虫

有时候我们在使用的过程中,会出现一些意外的现象,就是爬虫爬取得快,或者其他一些原因导致,网站拒绝访问,或拉黑IP等,所以我们要突破反爬虫:

可以做在settings设置爬虫的间隔时间，并关掉COOKIES

DOWNLOAD_DELAY = 2
COOKIES_ENABLED = False

或者，可以设置不同的浏览器UA或者IP地址来回避网站的屏蔽

下面使用User-Agent来演示:

在middlewares.py,编写一个随机替换User-Agent的中间件，每个request都会经过middleware,其中process_request，返回None，Scrapy将继续到其他的middleware进行处理。

# -*- coding: utf-8 -*-


# Define here the models for your spider middleware
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/spider-middleware.html


from scrapy import signals
import random


class BooksSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.


    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s


    def process_spider_input(response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.


        # Should return None or raise an exception.
        return None


    def process_spider_output(response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.


        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i


    def process_spider_exception(response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.


        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass


    def process_start_requests(start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.


        # Must return only requests (not items).
        for r in start_requests:
            yield r


    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class RandomUserAgent(object):
    """根据预定义的列表随机更换用户代理"""
    def __init__(self,agents):
        self.agents = agents


    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler.settings.getlist('USER_AGENTS'))


    def process_request(self,request,spider):
        request.headers.setdefault('User-Agent',random.choice(self.agents))

在settings中配置下:

DOWNLOADER_MIDDLEWARES = {
    'books.middlewares.RandomUserAgent': 1,
}

USER_AGENTS = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]

加入之后在运行爬虫看下效果,他就能自动的一页一页的往下获取数据。

五、保存到Mysql数据库

我们想把获取的数据持久化到数据库中去,这里采用mysql数据库，数据存储这一块写在pipelines类中,在操作数据库之前先要安装数据库驱动模块:

pip install pymysql

安装好之后修改pipelines文件:

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql as db
class BooksPipeline(object):
    def __init__(self):
        self.con=db.connect(user="root",passwd="123",host="localhost",db="python",charset="utf8")
        self.cur=self.con.cursor()
        self.cur.execute('drop table douban_books')
        self.cur.execute("create table douban_books(id int auto_increment primary key,book_name varchar(200),book_star varchar(244),book_pl varchar(244),book_author varchar(200),book_publish varchar(200),book_date varchar(200),book_price varchar(200))")
    def process_item(self, item, spider):
        self.cur.execute("insert into douban_books(id,book_name,book_star,book_pl,book_author,book_publish,book_date,book_price) values(NULL,%s,%s,%s,%s,%s,%s,%s)",(item['book_name'],item['book_star'],item['book_pl'],item['book_author'],item['book_publish'],item['book_date'],item['book_price']))
        self.con.commit()
        return item

修改settings文件:

ITEM_PIPELINES = {
    'books.pipelines.BooksPipeline': 300,
}

然后运行爬虫:

scrapy crawl bookspider

马上数据库里就有数据了

示例代码: http://download.csdn.net/detail/u011781521/9815993 此爬虫虽然爬取了图书名,作者,评分,评论数,出版社,单价,但是并没有爬取书籍的图书与图书的简介。。下一步要做的就是这一块。。

OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
python中的下划线牧野渔樵 python 开发语言
本文介绍了Python中单下划线和双下划线的5种表现形式，以及一些使用方法。其中有一些含义仅仅是依照约定，被视作是对程序员的提示，而有一些含义是由Python解释器严格执行的。单前导下划线：_var单末尾下划线：var_双前导下划线：__var双前导和末尾下划线：__var__单下划线：_1.单前导下划线_var下划线前缀的含义是告知其他程序员：以单个下划线开头的变量或方法仅供内部使用。该约定在P
python以下划线开头的变量名含义 weixin_30359021 python
Python核心风格：避免用下划线作为变量名的开始。因为下划线对解释器有特殊的意义，而且是内建标识符所使用的符号，我们建议程序员避免用下划线作为变量名的开始。一般来讲，变量名_xxx被看作是“私有的”，在模块或类外不可以使用。当变量是私有的时候，用_xxx来表示变量是很好的习惯。因为变量名__xxx__对Python来说有特殊含义，对于普通的变量应当避免这种命名风格。"单下划线""单下划线"开始的
python django AttributeError: 'QuerySet' object has no attribute '_meta' uplinker python python django
第一次用django，在写接口的时候出现了下面的异常InternalServerError:/api/proxys/listTraceback(mostrecentcalllast):File"D:\Python27\lib\site-packages\django\core\handlers\exception.py",line41,ininnerresponse=get_response(re
《量化开发》系列第 1 篇：金融知识基础入门指南（附 GitHub 学习项目） Natsume1710 金融 github 学习
本文为《量化开发学习路线与知识点》专栏的第一篇参考项目：Awesome-QuantDev-Learn量化金融是金融经济学与计算机科学交叉融合形成的新兴行业，越来越多的技术人才正积极投身其中。然而，面对纷繁复杂的金融概念与专业的开发技能，许多人常常感到无从下手。本专栏将为C++/Python工程师、自学者、量化岗求职者提供系统清晰的学习路径。本篇文章聚焦于量化开发所需的金融基础知识，帮助技术人打下坚
AI 大模型应用进阶系列（一）：Python 基础人工智能python
本文已同步到githubAI大模型应用进阶系列（一）：Python基础，欢迎Star。数据类型数字在Python中，数字类型是基本数据类型之一，用于表示数值整数a=10#十进制整数b=0b1010#二进制整数（等于十进制的10）c=0o12#八进制整数（等于十进制的10）d=0xA#十六进制整数（等于十进制的10）print(a,b,c,d)#输出:10101010浮点数x=3.14y=1.23e
自学Python笔记开篇奔跑吧茄子 python
自学Python笔记开篇突然喜欢上了Python，大体研究了一下，写了一个excel数据比对的小工具，边学边写，收获很多。这期间学习了xlrd、openpyxl、pandas处理excel文件的基本常识，有时间整理一下，对菜鸟入门或许有帮助。
Cursor AI 编程黑科技实战技巧深山技术宅素养人工智能科技
以下是结合最新实战经验的CursorAI编程黑科技指南，涵盖高效开发、跨工具联动与深度优化技巧：一、核心功能实战技巧智能编辑模式（Ctrl+I）精准上下文理解：跨文件修改时，用自然语言描述需求（如“将utils.py中的日志函数迁移到lib/logger.py并改为异步调用”），自动完成代码迁移与重构。规避幻觉代码：对复杂需求追加约束（例：“用Python连接MySQL，禁用ORM，使用参数化查询
python：名称前的单下划线 NockinOnHeavensDoor python
名称前的单下划线（如：_shahriar）程序员使用名称前的单下划线，用于指定该名称属性为“私有”。这有点类似于惯例，为了使其他人（或你自己）使用这些代码时将会知道以“_”开头的名称只供内部使用。正如Python文档中所述：以下划线“_”为前缀的名称（如_spam）应该被视为API中非公开的部分（不管是函数、方法还是数据成员）。此时，应该将它们看作是一种实现细节，在修改它们时无需对外部通知。正如上
Python的字符串驻留机制 Dingdangr java 开发语言
Python的字符串驻留（StringInterning）机制是Python内存管理中的一个重要特性，它旨在优化字符串对象的存储和访问效率。字符串驻留，简单来说，就是Python解释器为了节省内存和提高性能，会在内部维护一个字符串对象的池（或称为表），对于某些特定的字符串对象，Python会尝试重用已有的对象而不是每次都创建一个新的对象。这种机制特别适用于那些频繁出现的短字符串，如标识符、关键字、
`__name__`变量在Python脚本中的作用是什么？ Dingdangr python java 数据库
在Python中，__name__变量扮演着非常关键且特殊的角色，它是Python中一个内置的特殊变量，用于标识模块的名字。尽管它的作用看似简单，但理解__name__变量的行为对于编写可复用、可测试且易于维护的Python代码至关重要。下面，我将深入探讨__name__变量的作用，以及它在不同场景下的应用，力求通过丰富的实例和解释，使这一概念的理解超越表面，达到深入骨髓的程度。__name__的
python开篇介绍 Lumiron python python 开发语言
文章目录python主要特点Python的应用领域Python的版本为什么选择Python？Python是一种高级、解释型、通用的编程语言，由GuidovanRossum于1991年首次发布。它以简洁易读的语法和强大的功能而闻名，适合从初学者到专业开发者的各种应用场景。python主要特点1、简单易学语法接近自然语言（英语），代码可读性高，适合编程新手。例如：print(“Hello,World!
Python中以下划线开头的变量名的特点
在Python中，以下划线开头的变量名具有一些特殊的特点和用途，这些特点和用途主要遵循Python的命名约定和内部实现机制。以下是对这些特点和用途的详细解释：1.单下划线开头的变量名（_xxx）特点保护变量：在类或模块中，以单下划线开头的变量名通常被视为“保护”的（protected），这是一种命名约定，旨在表示这些变量是内部使用的，不应该被外部代码直接访问。然而，需要注意的是，Python并不强
Appium+python自动化（十二）- Android UIAutomator 程序员的世界你不懂 appium 自动化运维
Android团队在4.1版本（API16）中推出了一款全新的UI自动化测试工具UiAutomator，用来帮助开发人员更有效率的完成App的Debug工作，同时对于测试人员也是一大福音，为什么这么说呢？UiAutomator提供了以下两种工具来支持UI自动化测试：uiautomatorviewer：用来分析UI控件的图形界面工具，位于SDK目录下的tools文件夹中。uiautomator：一个
Docker容器化在Linux系统的安装与初始化配置 python自动化工具 k8s容器 linux 容器
哈喽，大家好，我是左手python！安装DockerDocker是一个开源的容器化平台，允许开发者打包、分发和运行应用程序。安装Docker是使用容器化技术的第一步。本节将详细介绍在Linux系统中安装Docker的步骤。在Ubuntu/Debian系统中安装Docker在Ubuntu/Debian系统中安装Docker，可以使用以下命令：#更新包索引sudoaptupdate#安装必要的依赖su
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
（Python）Python基础语法介绍（二）（Python基础教学）
前言：请看上篇：（Python）Python基础语法介绍（一）（Python基础教学）-CSDN博客常用软件：市面上有很多写Python的软件，这里博主推荐几个博主认为好用的软件一、PyCharm地位：Python开发者首选IDE之一，尤其在专业开发、大型项目场景中使用率极高。特点：智能代码补全、语法检查、错误提示超高效，写代码像“开了外挂”；强大调试工具+丰富插件生态（支持Django、Flas
基于机器学习的超音速流场实时控制——Python/C++混合编程实战莱歌数字数字化转型 #职场经验 #结构热设计机器学习 python c++
作者简介：科技自媒体优质创作者个人主页：莱歌数字-CSDN博客公众号：莱歌数字个人微信：yanshanYH211、985硕士，职场15年+从事结构设计、热设计、售前、产品设计、项目管理等工作，涉足消费电子、新能源、医疗设备、制药信息化、核工业等领域涵盖新能源车载与非车载系统、医疗设备软硬件、智能工厂等业务，带领团队进行多个0-1的产品开发，并推广到多个企业客户现场落地实施。专题课程Flotherm
Windows环境下Docker容器化的安装与设置指南 python自动化工具 k8s容器 windows docker 容器
哈喽，大家好，我是左手python！系统要求与准备工作在开始安装和配置Docker之前，需要确保您的Windows系统满足以下要求：操作系统版本：推荐使用Windows10或更高版本，特别是64位版本。对于旧版本的Windows（如Windows7或Windows8），可以考虑使用DockerToolbox，但功能和性能可能会有所限制。虚拟化支持：确保您的CPU支持虚拟化技术（如IntelVT-x
如何规范式编写yaml文件小小小糖果人 K8S kubernetes 云原生容器
1、Yaml语法1.1使用空白与缩进表示层次（有点类似Python），可以不使用花括号和方括号。1.2可以使用#书写注释，比起JSON是很大的改进。1.3对象（字典）的格式与JSON基本相同，但Key不需要使用双引号,使用{a,b,c}。1.4数组（列表）是使用-开头的清单形式，使用[a,b,c]。1.5表示对象的:和表示数组的-后面都必须要有空格。可以使用---在一个文件里分隔多个YAML对象。
Python版-LeetCode 学习：438. 找到字符串中所有字母异位词 guyu1003 LeetCode算法字符串 python leetcode 算法
给定一个字符串s和一个非空字符串p，找到s中所有是p的字母异位词的子串，返回这些子串的起始索引。字符串只包含小写英文字母，并且字符串s和p的长度都不超过20100。说明：字母异位词指字母相同，但排列不同的字符串。不考虑答案输出的顺序。示例1:输入:s:"cbaebabacd"p:"abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的字母异位词。起始索引等于6的子串是"b
python 使用 pyenv 管理 python 版本时空无限 Python python 开发语言
安装pyenv并使用pyenv安装不同版本的pythonbrewinstallpyenvpyenvinstall3.11.9pyenvinstall3.10.9设置pyenvecho'exportPYENV_ROOT="$HOME/.pyenv"'>>~/.bash_profileecho'exportPATH="$PYENV_ROOT/bin:$PATH"'>>~/.bash_profileec
Python正式课11_关于cookie和session 时寒的笔记 python 开发语言
一、概念"""http,无连接,无状态.我们在淘宝上买东西.用户登陆的状态是必须要有的...工作当中是需要这个状态的.但是http协议是不负责维持这个状态的.loginusernamepassword浏览器想了一个办法.弄了一个本地化的存储.来保持这个状态.本地保存的这个东西.每次发请求的时候.浏览器都会自动携带该信息.这个本地化的存储.我们叫它cookiecookie的生成过程:1.cookie
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
python开发|yaml用法知识介绍川石课堂软件测试 python 数据库功能测试开发语言人工智能单元测试 linux
随着互联网技术的快速发展，服务器编程变得越来越重要。Python作为一种强大的编程语言，越来越受到开发者的青睐。而PyYAML则是Python中最常用的YAML格式解析器之一，本文将系统介绍yaml知识01yaml介绍YAML(YAMLAin'tMarkupLanguage)是一种直观的数据序列化格式，它旨在以易于人类阅读和编写的方式表达数据。尽管名称中包含“不是标记语言”的表述，YAML在实际应
Python如何调用港股行情接口 kk_stoper python 开发语言 java javascript 数据结构
1.接口信息接口类型：实时综合行情接口支持品种：贵金属，商品期货，外汇，A股，港股，美股查询方式：HTTP,WebSocket申请密钥：https://infoway.io官方对接文档：https://infoway.readme.io/reference/ws-subscription2.获取股票清单这个接口用来查询股票的名单，比如我可以获取美股清单：importrequestsurl="htt
Python Requests 与 RESTful API 的交互实践 AI天才研究院 AI人工智能与大数据 python restful 交互 ai
PythonRequests与RESTfulAPI的交互实践关键词：PythonRequests、RESTfulAPI、HTTP请求、API交互、JSON数据处理摘要：本文将带你从“零基础”到“实战高手”，用通俗易懂的语言和生活案例，拆解PythonRequests库与RESTfulAPI交互的核心逻辑。我们将学习如何用Requests发送GET/POST/PUT/DELETE等常见HTTP请求，
15. 条件语句 if_elif_else 丰收连山 python 数据库开发语言
一、基础语法结构if语句的基本格式概念定义if语句是Python中的条件控制语句，用于根据条件的真假执行不同的代码块。其基本结构如下：if条件:代码块使用场景if语句适用于需要根据条件决定是否执行某段代码的情况，例如：检查用户输入是否合法判断变量是否符合预期值根据计算结果选择不同的处理方式常见误区或注意事项条件表达式后必须加冒号（:）代码块必须缩进（通常4个空格或1个制表符）条件表达式的结果应为布
Python中if及else使用 moclocd Python编程 python
if、else使用{Python的if判断语句可以单独使用，也可搭配else使用：如：if(变量名运算符数值或另一个变量名)://括号可加可不加，如果不加，第一个变量名前就需要加一个空格。语句组1//语句组可多写，但是!!!语句组一定要和if的判断条件对齐!!!不然会报错!!!{例：if(a>=0):print(a)}或：if(变量名运算符数值或另一个变量名):语句组1else:语句组2//els
Python的判断语言if/elif/else Star___J python 开发语言后端
Python的判断语句分为"单分支"、"二分之"、"多分支"。Python判断语言"单分支"语句:if:if条件:代码块它包含这样几个部分:if关键字，表示这是一条判断语句；表示判断的条件，当这个条件被满足(即条件为真)时，执行中的代码，条件不满足时，中的代码不会被执行；冒号表示判断代码的开始；表示条件满足时，执行代码块。例如:x=5ifx>1:#if后面跟的就是条件，如果x大于1代码就会继续执行
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去

你可能感兴趣的:(Python)