HowieLee59

Python爬虫小结（转）

一、爬虫介绍

爬虫调度端：启动、停止爬虫，监视爬虫运行情况
URL管理器：管理将要爬取的URL和已经爬取的URL
网页下载器：下载URL指定的网页，存储成字符串
网页解析器：提取有价值的数据，提取关联URL补充URL管理器

二、URL管理器

三、网页下载器

（1）方法一

（2）方法二

header：http头信息
data：用户输入信息

（3）方法三

HTTPCookieProcessor：需登录的网页
ProxyHandler：需代理访问的网页
HTTPSHandler：加密访问的网页
HTTPRedirectHandler：URL自动跳转的网页

# coding:utf8   #出现编码错误时添加

import urllib2
import cookielib
url = "http://www.baidu.com"

print '第一种方法'
response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())

print '第二种方法'
request = urllib2.Request(url)
request.add_header('user_agent', 'Mozilla/5.0')
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print '第三种方法'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(request)
print response3.getcode()
print cj
print response3.read()

四、网页解析器

Python 自带：html.parser
第三方：BeautifulSoup，lxml

安装beautifulsoup4
1.命令提示符中进入安装Python的文件夹中~\Python27\Scripts
2.输入pip install beautifulsoup4

calss 为Python的关键词，所以用class_表示。

以字典形式可访问节点所有属性

参考：Python爬虫利器二之Beautiful Soup的用法

# coding:utf8

import re
from bs4 import BeautifulSoup

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
soup = BeautifulSoup(html_doc,'html.parser',from_encoding='utf-8')

print '获取所有的链接'
links = soup.find_all('a')
for link in links:
    print link.name, link['href'], link.get_text()

print '获取Lacie的 链接'
link_node = soup.find('a',href = 'http://example.com/lacie')
print link_node.name, link_node['href'], link_node.get_text()

print '正则匹配'
link_node = soup.find('a',href = re.compile(r'ill'))
print link_node.name, link_node['href'], link_node.get_text()

print '获取p段落文字'
p_node = soup.find('a',class_ = "title")
print p_node.name, p_node.get_text()

结果：
获取所有的链接
a http://example.com/elsie Elsie
a http://example.com/lacie Lacie
a http://example.com/tillie Tillie
获取Lacie的 链接
a http://example.com/lacie Lacie
正则匹配
a http://example.com/tillie Tillie
获取p段落文字
p The Dormouse's story

Eclipse：ctrl+shift+M或Ctrl+Shift+o或Ctrl+1可以自动导入相应的包或创建相应的类或方法。

五、实例

观察目标，定制策略，策略要根据目标的变化实时更新。

精通Python网络爬虫（Python3.X版本，PyCharm工具）

一、爬虫类型

通用网络爬虫：全网爬虫。由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成。
聚焦网络爬虫：主题爬虫。由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块，内容评价模块、链接评价模块等构成。
增量网络爬虫：增量式更新，尽可能爬取新页面（更新改变的部分）。
深层网络爬虫：隐藏在表单后，需要提交一定关键词才能获取的页面。URL列表、LVS列表（LVS指标签/数值集合，即填充表单的数据源）、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等构成。

二、核心技术

PyCharm常用快捷键：
Alt+Enter：快速导入包
Ctrl+z：撤销，Ctrl+Shift+z：反撤销

（1）Urllib库

1）Python2.X与Python3.X区别

Python2.X	Python3.X
`import urllib2`	`import urllib.requset, urllib.error`
`import urllib`	`import urllib.requset, urllib.error, urllib.parse`
`urllib2.urlopen`	`urllib.request.urlopen`
`urllib.urlencode`	`urllib.parse.urlencode`
`urllib.quote`	`urllib.request.quote`
`urllib.CookieJar`	`http.CookieJar`
`urllib.Request`	`urllib.request.Request`

2）快速爬取网页

import urllib.request

# 爬取百度网页内容
file = urllib.request.urlopen("http://www.baidu.com", timeout=30) # timeout超时设置，单位：秒
data = file.read()            #读取文件全部内容，字符串类型
dataline = file.readline()    #读取文件一行内容
datalines = file.readlines()  #读取文件全部内容，列表类型

# 以html格式存储到本地
fhandle = open("/.../1.html","wb")
fhandle.write(data)
fhandle.close()

# 快捷存储到本地
filename = urllib.request.urlretrieve("http://www.baidu.com",filename="/.../1.html")
urllib.request.urlcleanup() #清除缓存

# 其他常用方法
file.getcode() #响应状态码，200为链接成功
file.geturl() #爬取的源网页

# URL编码(当URL中存在汉字等不符合标准的字符时需要编码后爬取)
urllib.request.quote("http://www.baidu.com")  # http%3A//www.baidu.com
# URL解码
urllib.request.unquote("http%3A//www.baidu.com") # http://www.baidu.com

注意：URL中存在汉字如https://www.baidu.com/s?wd=电影，爬取该URL时实际传入URL应该是"https://www.baidu.com/s?wd=" + urllib.request.quote("电影")，而不应该是urllib.request.quote("https://www.baidu.com/s?wd=电影")

3）浏览器模拟（应对403禁止访问）

import urllib.request

url = "http://baidu.com"
# 方法一
headers = ("User-Agent",
           "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
           (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()

# 方法二
req = urllib.request.Request(url)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
           (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
data = urllib.request.urlopen(req).read()

4）POST请求

import urllib.request
import urllib.parse

url = "http://www.iqianyue.com/mypost"   # 测试网站
# 将数据使用urlencode编码处理后，使用encode()设置为utf-8编码
postdata = urllib.parse.urlencode({"name": "abc", "pass": "111"}).encode("utf-8")
req = urllib.request.Request(url, postdata)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
           (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")
data = urllib.request.urlopen(req).read()

注意：
postdata = urllib.parse.urlencode({"name": "abc", "pass": "111"}).encode("utf-8")，必须encode("utf-8")编码后才可使用，实际结果为b'name=abc&pass=111'，未编码结果为name=abc&pass=111

5）代理服务器设置（应对IP被屏蔽、403）

def use_proxy(proxy_add, url):
    import urllib.request
    proxy = urllib.request.ProxyHandler({'http': proxy_add})
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    # 创建全局默认opener对象，这样使用urlopen()也会使用该对象
    urllib.request.install_opener(opener)
    # 解码类型与网页编码格式一致
    data = urllib.request.urlopen(url).read().decode("gb2312") 
    return data

# 代理IP可用百度搜索
data = use_proxy("116.199.115.79:80", "http://www.baidu.com")
print(data)

注意：encode()：编码，decode()：解码

例如（Python3.X）：
u = '中文'
str = u.encode('utf-8') # 结果：b'\xe4\xb8\xad\xe6\x96\x87'，为字节类型
u1 = str.decode('utf-8') # 结果：中文

过程：
str(unicode) --[encode('utf-8')]--> bytes --[decode('utf-8')]--> str(unicode)

6）DebugLog调试日志

import urllib.request

httphd = urllib.request.HTTPHandler(debuglevel=1)
httpshd = urllib.request.HTTPSHandler(debuglevel=1)

opener = urllib.request.build_opener(httphd, httpshd)
urllib.request.install_opener(opener)
data = urllib.request.urlopen("http://www.baidu.com")

运行结果：

send: b'GET / HTTP/1.1\r\nAccept-Encoding: identity\r\nHost: www.baidu.com\r\nUser-Agent: Python-urllib/3.6\r\nConnection: close\r\n\r\n'
reply: 'HTTP/1.1 200 OK\r\n'
header: Date header: Content-Type header: Transfer-Encoding header: Connection header: Vary header: Set-Cookie header: Set-Cookie header: Set-Cookie header: Set-Cookie header: Set-Cookie header: Set-Cookie header: P3P header: Cache-Control header: Cxy_all header: Expires header: X-Powered-By header: Server header: X-UA-Compatible header: BDPAGETYPE header: BDQID header: BDUSERID

7）异常处理

URLError：1）连接不上服务器。2）远程URL不存在。3）无网络。4）HTTPError：
200：OK
301：Moved Permanently——重定向到新的URL
302：Found——重定向到临时的URL
304：Not Modified——请求资源未更新
400：Bad Request——非法请求
401：Unauthorized——请求未经授权
403：Forbidden——禁止访问
404：Not Found——未找到对应页面
500：Internal Server Error——服务器内部错误
501：Not Implemented——服务器不支持实现请求所需要的功能

import urllib.error
import urllib.request

try:
    urllib.request.urlopen("http://www.baidu.com")
except urllib.error.URLError as e:
    if hasattr(e, "code"):
        print(e.code)
    if hasattr(e, "reason"):
        print(e.reason)

（2）正则表达式

1）基本语法（适用其他）

1.单个字符匹配

[...]匹配字符集内的任意字符
\w包括[a-zA-Z0-9]即匹配所以大小写字符及数字，以及下划线

2.多个字符匹配

因为*匹配前个字符0到无限次，所以*?匹配前个字符0次，既不匹配前个字符。
因为+匹配前个字符1到无限次，所以+?匹配前个字符1次。
因为?匹配前个字符0或1次，所以??匹配前个字符0次，既不匹配前个字符。

3.边界匹配
4.分组匹配

\引用编号为num的分组匹配的字符串：

代码1：re.match(r'<(book>)(python)pythonpython').group()
结果：pythonpython
代码2：re.match(r'<(book>)(python)pythonpython').groups()
结果：('book>','python')

解释：.groups()方法返回分组匹配的字符串集合，指总体匹配模式中()内的分组匹配模式匹配的结果集。代码1中'<(book>)(python)为总体匹配模式，其中有(book>)和(python)两个分组匹配模式，代码2结果就为这两个分组匹配模式匹配的结果集，\就是通过num来引用该结果集中的字符串，\1为book>,\2为python。



用(?P)和(?P=name)替代，代码1还可以写为：
re.match(r'<(?Pbook>)(?Ppython)pythonpython').group()


5.模式修改




符号
含义




I
匹配时忽略大小写


M
多行匹配


L
做本地化识别匹配


U
根据Unicode字符及解析字符


S
让.匹配包括换行符，使.可以匹配任意字符



2）re模块

import re
str = ‘imooc python’

pa = re.compile(r'imooc') #匹配‘imooc’字符串
ma = pa.match(str)
# 等价于
ma = re.match(r'imooc', str)

ma.string   #被匹配字符串
ma.re       #匹配模式(pa值)
ma.group()  #匹配结果
ma.span()   #匹配位置

pa = re.compile(r'imooc', re.I) #匹配‘imooc’字符串,不管大小写

# 上述最终可写为
ma = re.match(r'imooc', 'imooc python', re.I)


 


 样式字符串前
r的用法：

 （1）带上
r，样式字符串为原字符串，后面的样式字符串是什么匹配什么，里面即使有转义字符串也按普通字符串匹配。

 （2）不带
r，样式字符串无转义字符串不影响，有转义字符串需考虑转义字符串进行匹配。

 例子中
r'imooc\\n'相当于
imooc\\n，
'imooc\\n'相当于
imooc\n，因为
'\\'为转义字符串时相当于
'\'
 


march从头开始匹配，找出字符串开头符合匹配样式的部分，开头无符合返回NoneType
seach从头开始匹配，找出字符串内第一个符合匹配样式的部分并返回，字符串内无符合返回NoneType


 


sub()参数中repl可以是用来替代的字符串，也可以是一个函数且该函数需返回一个用来替换的字符串。count为替换次数，默认为0，为都替换。
re.sub(r'\d+','100','imooc videnum=99')
re.sub(r'\d+',lambda x: str(int(x.group())+1),'imooc videnum=99')
 结果：'imooc videnum=100'
lambda x: str(int(x.group())+1)为匿名函数，其中冒号前的x为函数参数，默认传入匹配的结果对象，需要用.group()方法获取结果字符串。冒号后算式的结果为返回值。也可以写成：

def add(x):
    val = x.group()
    num = int(val)+1
    return str(num)

re.sub(r'\d+',add,'imooc videnum=99')

（3）Cookie用法（应对模拟登陆）
import urllib.request
import urllib.parse
import http.cookiejar

# 创建CookieJar对象
cjar = http.cookiejar.CookieJar()
# 使用HTTPCookieProcessor创建cookie处理器，并以其为参数创建opener对象
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
# 将opener安装为全局
urllib.request.install_opener(opener)

# 网站登录页
url1 = 'http://xxx.com/index.php/login/login_new/'
# 登陆所需要POST的数据
postdata = urllib.parse.urlencode({
            'username': 'xxx',
            'password': 'xxx'
            }).encode("utf-8")
req = urllib.request.Request(url1, postdata)
# 网站登陆后才能访问的网页
url2 = 'http://xxx.com/index.php/myclass'

# 登陆网站
file1 = urllib.request.urlopen(req)
# 爬取目标网页信息
file2 = urllib.request.urlopen(url2).read()

（4）多线程与队列
# 多线程基础
import threading

class A(threading.Thread):
    def __init__(self):
        # 初始化该线程
        threading.Thread.__init__(self)

    def run(self):
        # 该线程要执行的内容
        for i in range(10):
            print("线程A运行")

class B(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)

    def run(self):
        for i in range(10):
            print("线程B运行")

t1 = A()
t1.start()

t2 = B()
t2.start()

# 队列基础（先进先出）
import queue
# 创建队列对象
a = queue.Queue()
# 数据传入队列
a.put("hello")
a.put("php")
a.put("python")
a.put("bye")
# 结束数据传入
a.task_done()

for i in range(4):
    # 取出数据
    print(a.get())

（5）浏览器伪装
Headers信息：
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8

Accept：浏览器支持内容类型，支持优先顺序从左往右依次排序
text/html：HTML文档
application/xhtml+xml：XHTML文档
application/xml：XML文档

Accept-Encoding:gzip, deflate, sdch（设置该字段，从服务器返回的是对应形式的压缩代码（浏览器会自动解压缩），因此可能出现乱码）

Accept-Encoding：浏览器支持的压缩编码方式
deflate：一种无损数据压缩的算法

Accept-Language:zh-CN,zh;q=0.8

Accept-Language：支持的语言类型
zh-CN：zh中文，CN简体
en-US：英语（美国）

Connection:keep-alive

Connection：客户端与服务端连接类型
keep-alive：持久性连接
close：连接断开

Referer:http://123.sogou.com/（某些反爬虫网址可能检验该字段，一般可以设置为要爬取网页的域名地址或对应网址的主页地址）

Referer：来源网址


·.addheaders方法传入格式为：[('Connection','keep-alive'),("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"),...]

三、Scrapy框架
（1）常见爬虫框架

Scrapy框架：https://scrapy.org/
Crawley框架
Portia框架：有网页版
newspaper框架
python-goose框架

（2）安装Scrapy

 Python2.X和Python3.X同时安装，命令提示符：
py -2：启动Python2.X
py -3：启动Python3.X
py -2 -m pip install ...：使用Python2.X pip安装
py -3 -m pip install ...：使用Python3.X pip安装
 
 安装超时：
 手动指定源，在pip后面跟-i，命令如下：
pip install packagename -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
 pipy国内镜像目前有：
 豆瓣 http://pypi.douban.com/simple/
 阿里云 http://mirrors.aliyun.com/pypi/simple/
 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
 华中理工大学 http://pypi.hustunique.com/
 山东理工大学 http://pypi.sdutlinux.org/
 
 出现如下错误：
error:Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
 解决方案：
 在http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载twisted对应版本的whl文件，cp后面是python版本，amd64代表64位，以Python位数为准
 运行命令：
pip install C:\xxx\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
 
 安装成功后运行出现No module named 'win32api'错误：
 在https://sourceforge.net/projects/pywin32/files%2Fpywin32/下载安装对应pywin32即可
 

（3）Scrapy应用（命令提示符输入）
1）创建项目
scrapy startproject myscrapy：创建名为myscrapy的爬虫项目，自动生成如下目录

 


目录结构：
 

myscrapy/scrapy.cfg：爬虫项目配置文件
myscrapy/myscrapy/items.py：数据容器文件，定义获取的数据
myscrapy/myscrapy/pipelines.py：管道文件，对items定义的数据进行加工处理
myscrapy/myscrapy/settings.py：设置文件
myscrapy/myscrapy/spiders：放置爬虫文件
myscrapy/myscrapy/middleware.py：下载中间件文件

参数控制：

 

scrapy startproject --logfile="../logf.log" myscrapy
 在创建myscrapy爬虫项目同时在指定地址创建名为logf的日志文件
scrapy startproject --loglevel=DEBUG myscrapy
 创建项目同时指定日志信息的等级为DEBUG模式（默认），等级表如下：




等级名
含义




CRITICAL
发生最严重的错误


ERROR
发生必须立即处理的错误


WARNING
出现警告信息，存在潜在错误


INFO
输出提示信息


DEBUG
输出调试信息，常用于开发阶段




scrapy startproject --nolog myscrapy
 创建项目同时指定不输出日志

2）常用工具命令
全局命令：（项目文件夹外scrapy -h）

 

scrapy fetch http://www.baidu.com：显示爬取网站的过程
scrapy fetch --headers --nolog http://www.baidu.com：显示头信息不显示日志信息
scrapy runspider 爬虫文件.py -o xxx/xxx.xxx：运行指定爬虫文件并将爬取结果存储在指定文件内
scrapy setting --get BOT_NAME：项目内执行为项目名，项目外执行为scrapybot
scrapy shell http://www.baidu.com --nolog：爬取百度首页创建一个交互终端环境并设置为不输出日志信息。

项目命令：（项目文件夹内scrapy -h）

 

scrapy bench：测试本地硬件性能
scrapy genspider -l：查看可使用的爬虫模板



scrapy genspider -d 模板名：查看爬虫模板内容
scrapy genspider -t 模板名 爬虫名 要爬取的网站域名：快速创建一个爬虫文件
scrapy check 爬虫名：对爬虫文件进行合同测试
scrapy crawl 爬虫名：启动爬虫
scrapy list：显示可以使用的爬虫文件
scrapy edit 爬虫名：编辑爬虫文件（Windows下执行有问题）
scrapy parse 网站URL：获取指定URL网站内容，并使用对应爬虫文件处理分析，可设置的常用参数如下：




参数
含义




--spider==SPIDER
指定某个爬虫文件进行处理


-a NAME=VALUE
设置爬虫文件参数


--pipelines
通过pipelines处理items


--nolinks
不展示提取到的链接信息


--noitems
不展示得到的items


--nocolour
输出结果颜色不高亮


--rules,-r
使用CrawlSpider规则处理回调函数


--callback=CALLBACK,-c CALLBACK
指定spider中用于处理返回的响应的回调函数


--depth=DEPTH,-d DEPTH
设置爬取深度，默认为1


--verbose,-v
显示每层的详细信息



3）Items编写
import scrapy
class MyscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    ...

格式：数据名 = scrapy.Field()
 实例化：item = MyscrapyItem(name = "xxx",...)
 调用：item["name"]、item.keys()、 item.items()（可以看做字典使用）
4）Spider编写(BasicSpider)
# -*- coding: utf-8 -*-
import scrapy
class MyspiderSpider(scrapy.Spider):
    name = 'myspider' # 爬虫名
    allowed_domains = ['baidu.com'] 
    start_urls = ['http://baidu.com/']

    def parse(self, response):
        pass


allowed_domains：允许爬取的域名，当开启OffsiteMiddleware时，非允许的域名对应的网址会自动过滤，不再跟进。
start_urls：爬取的起始网址，如果没有指定爬取的URL网址，则从该属性中定义的网址开始进行爬取，可指定多个起始网址，网址间用逗号隔开。
parse方法：如果没有特别指定回调函数，该方法是处理Scrapy爬虫爬行到的网页响应（response）的默认方法，通过该方法，可以对响应进行处理并返回处理后的数据，同时该方法也负责链接的跟进。




其他方法
含义




start_requests()
该方法默认读取start_urls属性中定义的网址（也可自定义），为每个网址生成一个Request请求对象，并返回可迭代对象


make_requests_from_url(url)
该方法会被start_requests() 调用，负责实现生成Request请求对象


close(reason)
关闭Spider时调用


log(message[,level, component])
实现在Spider中添加log


__init__()
负责爬虫初始化的构造函数



# -*- coding: utf-8 -*-
import scrapy
from myscrapy.items import MyscrapyItem

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']
    my_urls = ['http://baidu.com/', 'http://baidu.com/']

    # 重写该方法可读取自己定义的URLS，不重写时默认从start_urls中读取起始网址
    def start_requests(self):
        for url in self.my_urls:
            # 调用默认make_requests_from_url()生成具体请求并迭代返回
            yield self.make_requests_from_url(url)

    def parse(self, response):
        item = MyscrapyItem()
        item["name"] = response.xpath("/html/head/title/text()")
        print(item["name"])

5）XPath基础

/：选择某个标签，可多层标签查找
//：提取某个标签的所有信息
test()：获取该标签的文本信息
//Z[@X="Y"]：获取所有属性X的值是Y的标签的内容



返回一个SelectorList 对象
返回一个list、里面是一些提取的内容
返回2中list的第一个元素(如果list为空抛出异常)
返回1中SelectorList里的第一个元素(如果list为空抛出异常),和3达成的效果一致
4返回的是一个str， 所以5会返回str的第一个字符

6）Spider类参数传递（通过-a选项实现参数的传递）
# -*- coding: utf-8 -*-
import scrapy
from myscrapy.items import MyscrapyItem

class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['baidu.com']
    start_urls = ['http://baidu.com/']
    # 重写初始化方法，并设置参数myurl
    def __init__(self, myurl=None, *args, **kwargs):
        super(MyspiderSpider, self).__init__(*args, **kwargs)
        myurllist = myurl.split(",")
        # 输出要爬的网站
        for i in myurllist:
            print("爬取网站：%s" % i)
        # 重新定义start_urls属性
        self.start_urls = myurllist

    def parse(self, response):
        item = MyscrapyItem()
        item["name"] = response.xpath("/html/head/title/text()")
        print(item["name"])

命令行：scrapy crawl myspider -a myurl=http://www.sina.com.cn,http://www.baidu.com --nolog
7）XMLFeedSpider
# -*- coding: utf-8 -*-
from scrapy.spiders import XMLFeedSpider

class MyxmlSpider(XMLFeedSpider):
    name = 'myxml'
    allowed_domains = ['sina.com.cn']
    start_urls = ['http://sina.com.cn/feed.xml']
    iterator = 'iternodes'  # you can change this; see the docs
    itertag = 'item'  # change it accordingly

    def parse_node(self, response, selector):
        i = {}
        # i['url'] = selector.select('url').extract()
        # i['name'] = selector.select('name').extract()
        # i['description'] = selector.select('description').extract()
        return i


iterator：设置迭代器，默认iternodes(基于正则表达式的高性能迭代器)，此外还有html、xml
itertag：设置开始迭代的节点
parse_node(self, response, selector)：在节点与所提供的标签名相符合的时候被调用，可进行信息的提取和处理操作




其他属性或方法
含义




namespaces
以列表形式存在，主要定义在文档中会被爬虫处理的可用命名空间


adapt_response(response)
主要在spider分析响应（Response）前被调用


process_results(response, results)
主要在spider返回结果时被调用，对结果在返回前进行最后处理



8）CSVFeedSpider
CSV：一种简单、通用的文件格式，其存储的数据可以与表格数据相互转化。最原始的形式是纯文本形式，列之间通过,间隔，行之间通过换行间隔。
# -*- coding: utf-8 -*-
from scrapy.spiders import CSVFeedSpider

class MycsvSpider(CSVFeedSpider):
    name = 'mycsv'
    allowed_domains = ['iqianyue.com']
    start_urls = ['http://iqianyue.com/feed.csv']
    # headers = ['id', 'name', 'description', 'image_link']
    # delimiter = '\t'

    # Do any adaptations you need here
    #def adapt_response(self, response):
    #    return response

    def parse_row(self, response, row):
        i = {}
        #i['url'] = row['url']
        #i['name'] = row['name']
        #i['description'] = row['description']
        return i


headers：存放CSV文件包含的用于提取字段行信息的列表
delimiter：主要存放字段之间的间隔符，csv文件以,间隔
parse_row(self, response, row)：用于接收Response对象，并进行相应处理

9）CrawlSpider（自动爬取）
class MycrawlSpider(CrawlSpider):
    name = 'mycrawl'
    allowed_domains = ['sohu.com']
    start_urls = ['http://sohu.com/']
    # 自动爬取规则
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = {}
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i


rules：设置自动爬取规则，规则Rule的参数如下：
LinkExtractor：链接提取器，用来提取页面中满足条件的链接，以供下次爬取使用，可设置的参数如下




参数名
含义




allow
提取符合对应正则表达式的链接


deny
不提取符合对应正则表达式的链接


restrict_xpaths
使用XPath表达式与allow共同作用，提取出同时符合两者的链接


allow_domains
允许提取的域名，该域名下的链接才可使用


deny_domains
禁止提取的域名，限制不提取该域名下的链接




callback='parse_item'：处理的回调方法
follow=True：是否跟进。CrawlSpider爬虫会根据链接提取器中设置的规则自动提取符合条件的网页链接，提取之后再自动的对这些链接进行爬取，形成循环，如果链接设置为跟进，则会一直循环下去，如果设置为不跟进，则第一次循环后就会断开。

10）避免爬虫被禁止（settings.py内设置）

禁止Cookie：（应对通过用户Cookie信息对用户识别和分析的网站）

# Disable cookies (enabled by default)
COOKIES_ENABLED = False


设置下载延时：（设置爬取的时间间隔，应对通过网页访问（爬取）频率进行分析的网站）

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3


IP池：（应对检验用户IP的网站）

在middlewares.py中或新创建一个Python文件中编写：
import random
from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware

class IPPOOLS(HttpProxyMiddleware):
    myIPPOOL = ["183.151.144.46:8118",
                "110.73.49.52:8123",
                "123.55.2.126:808"]
    # process_request()方法，主要进行请求处理
    def process_request(self, request, spider):
        # 随机选择一个IP
        thisip = random.choice(self.myIPPOOL)
        # 将IP添加为具体代理，用该IP进行爬取
        request.meta["proxy"] = "http://" + thisip
        # 输出观察
        print('当前使用IP：%s' % request.meta["proxy"])

设置为默认下载中间件：
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 123,
    # 格式：'下载中间件所在目录.下载中间件文件名.下载中间件内部要使用的类':数字（有规定）
    'myscrapy.middlewares.IPPOOLS': 125
}


用户代理池

在middlewares.py中或新创建一个Python文件中编写：
import random
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class UAPOOLS(UserAgentMiddleware):
    myUApool = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
        (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
        (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",
    ]

    def process_request(self, request, spider):
        thisUA = random.choice(self.myUApool)
        request.headers.setdefault('User-Agent', thisUA)
        print("当前使用UA: %s" % thisUA)

设置为默认下载中间件：
# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'myscrapy.middlewares.UAPOOLS': 1,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 2,
}

（4）Scrapy核心框架


Scrapy引擎：框架核心，控制整个数据处理流程，以及触发一些事务处理。
调度器：存储待爬取的网址，并确定网址优先级，同时会过滤一些重复的网址。
下载器：对网页资源进行高速下载，然后将这些数据传递给Scrapy引擎，再由引擎传递给爬虫进行处理。
下载中间件：下载器与引擎间的特殊组件，处理其之间的通信。
爬虫：接收并分析处理引擎的Response响应，提取所需数据。
爬虫中间件：爬虫与引擎间的特殊组件，处理其之间的通信。
实体管道：接收爬虫组件中提取的数据，如：清洗、验证、存储至数据库等

（5）Scrapy输出与存储
1）中文存储
setting.py设置pipelines
# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'myscrapy.pipelines.MyscrapyPipeline': 300,
}

import codecs
class MyscrapyPipeline(object):
    def __init__(self):
        # 以写入的方式创建或打开要存入数据的文件
        self.file = codecs.open('E:/xxx/mydata.txt',
                                'wb',
                                encoding="utf-8")
    # 主要处理方法，默认自动调用
    def process_item(self, item, spider):
        content = str(item) + '\n'
        self.file.write(content)
        return item
    # 关闭爬虫时调用
    def close_spider(self, spider):
        self.file.close()


注意：要想执行process_item()，爬虫文件parse()方法中必须返回item：yield item

2）Json输出
import codecs
import json
class MyscrapyPipeline(object):
    def __init__(self):
        print("创建pip")
        # 以写入的方式创建或打开要存入数据的文件
        self.file = codecs.open('E:/PycharmProjects/untitled/myscrapy/data/mydata.txt',
                                'wb',
                                encoding="utf-8")

    def process_item(self, item, spider):
        js = json.dumps(dict(item), ensure_ascii=False)
        content = js + '\n'
        self.file.write(content)
        return item

    # 关闭爬虫时调用
    def close_spider(self, spider):
        self.file.close()


注意：

爬虫文件parse()方法中，由response.xpath("xxx/text()")返回的SelectorList 对象不能转换为Json类型，需要response.xpath("xxx/text()").extract()转化为字符串列表类型才可转化为Json类型。
json.dumps(dict(item), ensure_ascii=False)：进行json.dumps()序列化时，中文信息默认使用ASCII编码，当设定不使用ASCII编码时，中文信息就可以正常显示


3）数据库操作

安装：pip install pymysql3
导入：import pymysql
链接MySQL：
conn = pymysql.connect(host="主机名", user="账号", passwd="密码"[, db="数据库名"])
SQL语句执行：
conn.query("SQL语句")
查看表内容：

# cursor()创建游标
cs = conn.cursor()
# execute()执行对应select语句
cs.execute("select * from mytb")
# 遍历
for i in cs:
    print("当前是第"+str(cs.rownumber)+"行")
    print(i[x])

四、Scrapy文档实例
（1）循环爬取http://quotes.toscrape.com/网站
import scrapy
class MyxpathSpider(scrapy.Spider):
    name = 'myxpath'
    allowed_domains = ['toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)


循环爬取时，注意循环的下个网页需在allowed_domains域名下，否则会被过滤，从而无法循环


 Reference:
 Links：https://www.jianshu.com/p/3036689e613f
 Source：简书

符号	含义
`I`	匹配时忽略大小写
`M`	多行匹配
`L`	做本地化识别匹配
`U`	根据Unicode字符及解析字符
`S`	让`.`匹配包括换行符，使`.`可以匹配任意字符

等级名	含义
`CRITICAL`	发生最严重的错误
`ERROR`	发生必须立即处理的错误
`WARNING`	出现警告信息，存在潜在错误
`INFO`	输出提示信息
`DEBUG`	输出调试信息，常用于开发阶段

参数	含义
`--spider==SPIDER`	指定某个爬虫文件进行处理
`-a NAME=VALUE`	设置爬虫文件参数
`--pipelines`	通过pipelines处理items
`--nolinks`	不展示提取到的链接信息
`--noitems`	不展示得到的items
`--nocolour`	输出结果颜色不高亮
`--rules,-r`	使用CrawlSpider规则处理回调函数
`--callback=CALLBACK,-c CALLBACK`	指定spider中用于处理返回的响应的回调函数
`--depth=DEPTH,-d DEPTH`	设置爬取深度，默认为1
`--verbose,-v`	显示每层的详细信息

其他方法	含义
`start_requests()`	该方法默认读取`start_urls`属性中定义的网址（也可自定义），为每个网址生成一个Request请求对象，并返回可迭代对象
`make_requests_from_url(url)`	该方法会被`start_requests()` 调用，负责实现生成Request请求对象
`close(reason)`	关闭Spider时调用
`log(message[,level, component])`	实现在Spider中添加log
`__init__()`	负责爬虫初始化的构造函数

其他属性或方法	含义
`namespaces`	以列表形式存在，主要定义在文档中会被爬虫处理的可用命名空间
`adapt_response(response)`	主要在spider分析响应（Response）前被调用
`process_results(response, results)`	主要在spider返回结果时被调用，对结果在返回前进行最后处理

参数名	含义
`allow`	提取符合对应正则表达式的链接
`deny`	不提取符合对应正则表达式的链接
`restrict_xpaths`	使用XPath表达式与allow共同作用，提取出同时符合两者的链接
`allow_domains`	允许提取的域名，该域名下的链接才可使用
`deny_domains`	禁止提取的域名，限制不提取该域名下的链接

12.2 Python绝对路径和相对路径详解愿与你共信仰第12章 Python文件操作（I/O）python基础超详细
在介绍绝对路径和相对路径之前，先要了解一下什么是当前工作目录。什么是当前工作目录每个运行在计算机上的程序，都有一个“当前工作目录”（或cwd）。所有没有从根文件夹开始的文件名或路径，都假定在当前工作目录下。注意，虽然文件夹是目录的更新的名称，但当前工作目录（或当前目录）是标准术语，没有当前工作文件夹这种说法。在Python中，利用os.getcwd()函数可以取得当前工作路径的字符串，还可以利用o
python爬虫处理滑块验证_python selenium爬虫滑块验证用户6731453637 python爬虫处理滑块验证
importrandomimporttimefromPILimportImagefromioimportBytesIOimportrequestsasrqfrombs4importBeautifulSoupasbsfromseleniumimportwebdriverfromselenium.webdriverimportActionChainsfromselenium.webdriverimpo
6、实现应用上下文大树~~ #Spring手写系列 spring java 后端
一、前言在实际的软件开发过程中，产品的需求常常变化多端，开发者往往需要在时间紧迫的情况下快速交付项目。为了应对业务上的灵活变更与调整，很多时候我们会选择在已有项目的基础上进行扩展，或者临时搭建出一个能满足需求的工程。然而，这种快速拼凑的开发模式可能会埋下许多隐患。上线后，随着业务的进一步变更，代码的质量和结构往往难以维持，最终陷入维护困境。举个实际的例子，当项目上线后，运营部门发现某个活动的配置不
pandas读取带有表头的数据文件，读取无表头的数据文件小桥流水---人工智能人工智能深度学习 Python程序代码 pandas
在Python中使用pandas库读取数据时，常见的问题之一就是如何处理数据文件中的表头。1.引入pandas库在开始之前，我们首先需要导入pandas库。如果你的环境中还未安装pandas，可以使用pip安装：pipinstallpandas导入pandas库：importpandasaspd2.读取带有表头的数据文件当数据文件中包含表头时，pandas会默认将第一行数据作为DataFrame的
python unittest TypeError setUpClass missing 1 required positional argument cls Kelly雨薇 python框架
pythonunittest框架使用可以用两种方法：（1）所有内容写在一个python文件里eg：https://blog.csdn.net/panyueke/article/details/85305223（2）function与主框架隔离eg：functions.pydeffun_div(x):returnx/2deffun_add(x):returnx+2deffun_minus(x):re
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
2019.2.7日精进 2819336a9c2b
大爱的李老师，智慧的班主任，诸位亲爱的学兄们，大家好！我是青岛环宇印刷广告的谭京芳，今天（2019年2月7日）是我的日精进行动第167天，和大家分享我今天的进步，我们互相勉励，携手前行，每天进步一点点：1,比学习：学历代表过去，能力代表现在，学习力代表未来,今天读书：发光字未来发展进程：一，亮度高，二，没有编，三，工艺简单，这三个要素至关重要。2、比改变：做广告行业，有些项目该放弃就放弃，最好是2
真实靠谱赚钱的软件有哪些？推荐5个靠谱的项目平台！ U客直谈APP
真实靠谱赚钱的软件有哪些一直以来都是大家比较关注的话题之一，其实答案就在我们的身边。随着地推拉新行业的不断发展，越来越多的地推拉新项目被推出，像快手极速版、京东一分购、滴滴出行等等，这些都是真实靠谱可以帮助我们赚钱的软件。那么我们该如何找到这些赚钱的软件拉新项目呢？别急，小编在这里给大家推荐5个靠谱的项目平台，希望对你有帮助。1.U客直谈appU客直谈app严格意义来讲是一款资源对接平台，上面整合
【python3.3.2】首次接触python print 出现SyntaxError: invalid syntax 唯落瑾年 python
3.0以后的print都改为了print();>>>print'hello'SyntaxError:invalidsyntax>>>print('hello')hello>>>print(2*8)16
准备充分/忌鲁莽车辆涉水行车注意事项 AAA东南汽车彭阿仁
之前看过一篇新闻，在成都市新津县兴义镇三合村发生了一起令人咋舌的车祸：一辆江铃驭胜SUV试图涉水过河，但刚刚下水就坠入水中，最终造成2死1失踪的惨痛结果。●涉水前：不能鲁莽/做好准备工作越野不是撒野，在做各种看似凶悍的动作时都是需要足够的经验和驾驶的技巧的，而不是鲁莽行事，那样玩儿的不是越野，玩儿的是命！而涉水在越野项目中也算是比较高难度的，首先我要奉劝平时对于涉水接触比较少的朋友不要轻易尝试和挑
送给简友蒋坤元老师的散评（八）璀璨夜空之星星
这是老师一路走一路成长的里程，在给大舅哥打工这一路的十二年里，帮着管理厂子也成就了老师您。人生没有白走的路，每一步都算数。如果没有那段历史的历练，你也没有勇气敢自己办厂。出来办厂的选择是对的，选择方向是智慧的，避开大舅哥的项目不单单是怕闲言碎语，主要是以后的生意上争抢订单，亲情就会接受挑战，涉及到的事情太多了。所以说，从这些方面，能看出来老师的智慧和人品。人生匆匆，瞬息万变也正常。这个社会永远存在
missing 1 required positional argument: ‘self‘ baidu_huihui self staticmethod classmethod
missing1requiredpositionalargument:'self'解释：这个错误通常发生在Python中使用类方法时，你没有正确地使用self参数。在Python中，实例方法必须至少有一个参数，通常被命名为self，它代表实例本身。当你在类中定义一个方法时，Python会自动将这个self参数加入到方法参数列表中。解决方法：确保你在类的方法定义中使用了self参数，并且在调用这个方
日更212：生龙活虎的儿童时代梦想成真101
又很长一段时间，我都有这样的一个想法：我的人生是从小到大越来越不幸福。不知道这个想法是怎样产生的，当我意识到它的时候，我应当已经是初中或者高中了吧！而且还对这个想法产生了怀疑，真的是这样吗？我后面的人生比小时候的幸福吗？仔细回想一下，便发现其实并非完全如此，小时候我经常被送去外婆家常住，小时候物质也更匮乏，如果非要说小时候更好的话，那应该更多的指的是主观的精神层面的幸福感。如昨天所写，小时候的我应
2024年Python最全Python-Matplotlib可视化（1）——一文详解常见统计图的绘制(1) 2401_84558452 程序员 python matplotlib 开发语言
importmatplotlib.pyplotaspltx=range(50)y=[value*2forvalueinx]plt.plot(x,y)plt.show()上述代码将会绘制曲线y=2*x，其中x在[0，50]范围内，如下所示：可以看到窗口上方还包含多个图标，其中：|项目|Value||—|—|||此按钮用于将所绘制的图形另存为所需格式的图片，包括png，jpg，pdf，svg等常见格式
Python魔法之旅-魔法方法(01) 神奇夜光杯 python 开发语言魔法方法学习和成长基础知识
目录一、概述1、定义2、作用二、主要应用场景1、构造和析构2、操作符重载3、字符串和表示4、容器管理5、可调用对象6、上下文管理7、属性访问和描述符8、迭代器和生成器9、数值类型10、复制和序列化11、自定义元类行为12、自定义类行为13、类型检查和转换14、自定义异常三、学习方法1、理解基础2、查阅文档3、编写示例4、实践应用5、阅读他人代码6、参加社区讨论7、持续学习8、练习与总结9、注意兼容
Python中的绝对路径与相对路径详解小桥流水---人工智能人工智能 Python程序代码机器学习算法 python 开发语言
对路径与相对路径Python中的绝对路径与相对路径详解什么是路径？绝对路径优点：缺点：示例：相对路径优点：缺点：示例：Python中如何使用**重点内容**：**在Python中，建议使用`os.path.join`来构建路径，这样可以确保代码在不同操作系统上的兼容性。同时，理解并正确使用绝对路径和相对路径，对于开发可移植和可维护的应用程序至关重要。**结论Python中的绝对路径与相对路径详解在
3. 部署Fabric2.2 集群（使用官方Demo）明神特烦恼 Fabric2.2 全面学习 fabric 区块链部署
我们将一步一步搭建Fabric2.2版本的区块链网络，从0开始搭建服务器环境、到运行官方Demo集群、创建通道、安装合约，以及从零完成基于区块链的农产品溯源项目开发。适用于无区块链开发经验的朋友们，已经有经验的请绕行。上节作者新购买云服务器，并且安装docker以及docker-compose，接下来作者与大家一起操作，不遗漏每个操作步骤（之前有一些同学操作结果出现错误，大多数是步骤有遗漏），保证
python列表添加列表_Python中列表（List）方法（基础） weixin_39843338 python列表添加列表
列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。Python列表赋值list1=[‘physics’,‘chemistry’,1997,2000];list2=[1,2,3,4,5];list3=[“a”,“b”,“c”,“d”];Python调用列表中的值list1=[‘physics’,‘chemistry’,1997,2000];
Python安装NumPy 0阿齐兹0 阿齐兹的PyCV学习笔记 python numpy
打开cmd通过python和pip安装：C:\"ProgramFiles"\Python36\python.exe-mpipinstall--usernumpyscipymatplotlibipythonjupyterpandassympynose参考资料：https://www.scipy.org/install.html
python-列表list（详细）一个小白白YYDS python 开发语言
文章目录1、列表概念2、列表对象的创建3、列表访问3.1.索引获取列表元素3.2、嵌套列表索引获取列表元素3.3、获取指定元素的索引4、查询列表5、列表增加6、列表删除7、列表修改8、列表排序9、列表生成式1、列表概念语法：使用方括号[]括起来以逗号分隔的数据特性：列表是有序的同一个列表可以包含不同类型的数据列表中的元素可以重复出现可以通过索引的方式来访问列表的元素列表可以嵌套列表列表的元素可以修
python numpy安装步骤-NumPy 安装编程大乐趣
NumPy安装Python官网上的发行版是不包含NumPy模块的。我们可以使用以下几种方法来安装。1、使用已有的发行版本对于许多用户，尤其是在Windows上，最简单的方法是下载以下的Python发行版，它们包含了所有的关键包（包括NumPy，SciPy，matplotlib，IPython，SymPy以及Python核心自带的其它包）：Anaconda:免费Python发行版，用于进行大规模数据
python中列表的常见操作 945048125 python python
列表的相关操作列表中存放的数据是可以进行修改的，比如"增"、"删"、"改""添加元素("增"append,extend,insert)1.append:在列表的末尾进行添加>>>a=[123,345]>>>a.append(678)>>>a[123,345,678]2.extend可以将另一个集合中的元素逐一添加到列表中a=['a','b','c']b=['d','e','f']>>>a.exte
canvas插件 fabric.js 使用 lxw_powerfulCat 前端 javascript fabric html
fabric.js使用fabric.js是常用的canvas插件1,在项目中使用2,特殊用法①,基本设置②,画板数据的导入导出③,遮罩Pattern(引用官网案例)④,多个对象合并,并设置为fabric背景(适用于变色和更多场景)⑤,把canvas对象或者fabric对象导出为图片⑥,位置的获取思路一:(计算法,没算出来)思路二(记录位置)补充:鼠标位移留痕不规则线条在如下代码中注意事项fabri
2019-04-16 我的响当当
姓名：张静公司:山东科普电源系统有限公司【日精进打卡第281天】【知～学习】《六项精进》大纲背诵1遍共295遍《大学》开篇背诵1遍共378遍【行～实践】一、修身：（对自己个人）走了9000多步二、齐家：（对家庭和家人）给伯伯打电话三、建功：（对工作）作废青州公共资源项目外管证开发票准备济南铁路信息项目外管证审核业务员报销单据｛积善｝：发愿从2018年7月9日起1年行365件善事。今日1善，累计23
Python的字符串操作心繁 python 开发语言
1、获取元素1.1索引索引是最简单的获取元素的方式。根据元素在字符串的下标位置直接输出想要获取的一个元素。例：print（str[1])str="Imissyousomuch,let'smeet."print(str[2])#输出结果为：“m”1.2切片切片可以根据元素的下标位置获取想要的多个元素。例:print(str[2:10:1]),即：print(字符串名称[起始元素下标：结束元素下标+1
前端架构师的职责 acigt0531 前端 git ViewUI
前端架构师的职责没有文档的代码=放弃治疗作为前端架构师,首先要解决的问题就是让日益膨胀的代码可控,因此你需要梳理代码,建立架构,组织文档,管理架构的更新和维护,评审技术方案对架构的影响,核心模块的方案设计,重点项目的方案设计,CodeReview等.架构师和资深开发在工作职责上有着明确的界限,在一个没有架构师的团队,每一个资深开发或多或少都承担了一部分架构的工作,但都是破碎的,不成体系而且不统一,
EasyPOI入门傲雪凌霜，松柏长青后端开发语言 java
EasyPOI入门前言EasyPOI是一个基于ApachePOI的Java库，用于简化Excel文档的导入和导出操作。EasyPOI通过注解的方式，极大地减少了代码量和复杂度，使得Excel操作变得更加简单直观。本篇博客将介绍如何使用EasyPOI进行Excel文件的导入和导出操作。一、引入EasyPOI依赖首先，在你的项目中引入EasyPOI的依赖。这里以Maven项目为例，添加以下依赖到pom
佛爷：《易经》教你这样做自己佛爷来了
富有成效的忙碌是一种高级别的快乐——佛爷来了图片发自App多年前公司年会的时候，佛爷的致辞主题就是“遇见更好的自己”！从公司管理、薪资福利、人力结构等方面提出了新的提升要求。与其说这是对公司的战略规划，不如说这是对自我的规划。事实上，创业以来，似乎陷入了一个漫长的关于人生的思考，比如：何为成功？何为失败？追求的究竟是什么？这个时代发展实在太快，物欲横流，似乎金钱成了评价一个人成功与否的唯一标准。不
【Python/Java/C++三种语言】20天拿下华为OD笔试之【位运算】2023B-出错的或电路【欧弟算法】全网注释最详细分类最全的华为OD真题闭着眼睛学算法最新华为OD真题 #数学 #位运算算法 python java
文章目录题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明解题思路代码PythonJavaC++时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练题目描述与示例题目描述某生产门电路的厂商发现某一批次的或门电路不稳定，具体现象为计算两个二进制数的或操作时，第一个二进制数中某两个比特位会出现交换，交换的比特位置是随机的，但只交换这两个位，其他位不变。很明显，这个交换可能会影
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案数字化建设方案数字化转型数据治理主数据数据仓库大数据
大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案大数据平台（数据中台、数据中枢、数据湖、数据要素）建设方案项目背景和目标项目背景项目目标建设原则与策略数据中台架构设计整体架构设计思路数据采集层数据存储层数据计算层数据服务层数据中枢功能实现数据治理功能数据资产管理功能数据安全管控功能数据服务总线功能数据湖存储与计算方案数据湖存储架构设计数据湖计算框架选择数据湖应用场景分析数据湖安全与合规性
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Python爬虫小结（转）

一、爬虫介绍

二、URL管理器

三、网页下载器

（1）方法一

（2）方法二

（3）方法三

四、网页解析器

精通Python网络爬虫（Python3.X版本，PyCharm工具）

一、爬虫类型

二、核心技术

（1）Urllib库

（2）正则表达式

（3）Cookie用法（应对模拟登陆）

（4）多线程与队列

（5）浏览器伪装

三、Scrapy框架

（1）常见爬虫框架

（2）安装Scrapy

（3）Scrapy应用（命令提示符输入）

（4）Scrapy核心框架

（5）Scrapy输出与存储

四、Scrapy文档实例

（1）循环爬取`http://quotes.toscrape.com/`网站

你可能感兴趣的:(Python,牛客项目（初中高级）)