胆怯与勇敢

Python3网络爬虫开发实战

文章目录

第一章爬虫基础
- 1 HTTP基本原理
- - 1.1 URI和URL
  - 1.2 HTTP和HTTPS
  - 1.3 请求(Requset)
  - - 1.3.1 请求方式
    - 1.3.2 请求的网址
    - 1.3.3 请求头：用来说明服务器要使用的附加信息
    - 1.3.4 请求体：一般承载的内容是POST请求中的表单数据，对于GET请求，请求体为空
  - 1.4 响应(Response)
  - - 1.4.1 响应状态码：表示服务器的响应状态
    - 1.4.2 响应头：包含服务器对请求的应答信息
    - 1.4.3 响应体：响应的正文数据都存在于响应体中
- 2 Web网页基础
- - 2.1 网页的组成
  - 2.2 页面的结构
  - 2.3 HTML节点树
- 3 爬虫的基本原理
- - 3.1 爬虫概述：获取网页并提取和保存信息的自动化程序
  - 3.2 JavaScript渲染的页面
- 4 Session和Cookie
- - 4.1 静态页面和动态页面
  - 4.2 无状态HTTP：HTTP协议对事务处理是没有记忆能力的
  - 4.3 Session
  - 4.4 Cookie
  - - 4.4.1 会话Cookie和持久Cookie
- 5 代理的基本原理
- - 5.1 基本原理
  - 5.2 爬虫代理
  - 5.3 常见代理设置
- 6 多线程和多进程的基本原理
- - 6.1 多线程的含义
  - 6.2 多进程的含义
  - 6.3 并行和并发
第二章基本库的使用
- 1 urllib的使用
- - 1.1 发送请求(request模块)
  - - 1.1.1 urlopen：方法read()得到响应的页面内容，属性status得到响应结果的状态码。url参数(必传)。
    - 1.1.2 Request
    - 1.1.3 高级用法
    - 1.1.4 Cookie
  - 1.2 处理异常
  - - 1.2.1 URLError类：继承自OSError类，是error异常模块的基类
    - 1.2.2 HTTPError类：是URLError的子类专门用来处理HTTP请求错误
  - 1.3 解析链接
  - - 1.3.1 urlparse：实现URL的识别和分段
    - 1.3.2 urlunparse：用于构造URL，接受的参数是一个可迭代对象，其长度必须是6。
    - 1.3.3 urlsplit：与urlparse方法类似，但其不再单独解析params这一部分(params会合并到path中)，返回5个结果。
    - 1.3.4 urlunsplit：与urlunparse方法类似，唯一的区别是这里接受的参数的长度必须为5。
    - 1.3.5 urljoin：生成链接，提供一个base_url作为该方法的第一个参数，将新链接作为第二个参数，通过分析base_url的scheme、netloc和path这三部分，并对新链接缺失的内容进行补充。
    - 1.3.6 urlencode：将字典类型的数据转化为GET的请求参数
    - 1.3.7 parse_qs：将一串GET请求参数转回字典
    - 1.3.8 parse_qsl：将一串GET参数转化为由元组组成的列表
    - 1.3.9 quote：将中文字符转化为URL编码格式
    - 1.3.10 unquote：进行URL解码
  - 1.4 分析Robots协议
  - - 1.4.1 Robots协议：网络爬虫排除协议
    - 1.4.2 robotparser
- 2 requests的使用
- - 2.1 GET请求
  - - 2.1.1 基本实例
    - 2.1.2 抓取网页
    - 2.1.3 抓取二进制数据
    - 2.1.4 添加请求头(headers参数)
  - 2.2 POST请求(data参数)
  - 2.3 响应
  - 2.4 高级用法
  - - 2.4.1 文件上传(files参数)
    - 2.4.2 设置Cookie(cookies参数)
    - 2.4.3 维持Session(Session对象)
    - 2.4.4 SSL证书验证
    - 2.4.5 设置超时
    - 2.4.6 身份认证(auth参数)
    - 2.4.7 设置代理
- 3 正则表达式
- - 3.1 match
  - - 3.1.1 匹配目标
    - 3.1.2 贪婪匹配(.*)：匹配尽可能多的字符
    - 3.1.3 非贪婪匹配(.*?)：匹配尽可能少的字符
    - 3.1.4 匹配结果在中间尽量用非贪婪匹配，匹配结果在字符串结尾尽量用贪婪匹配。
    - 3.1.5 修饰符：控制匹配的模式
    - 3.1.6 转义匹配
  - 3.2 search：扫描整个字符串，然后返回第一个匹配成功的结果。
  - 3.3 findall：获取与正则表达式相匹配的所有字符串
  - 3.4 sub：修改文本
  - 3.5 compile
- 4 基础爬虫案例实战
- - 4.1 爬取目标
  - 4.2 爬取列表页
  - 4.3 爬取详情页
  - 4.4 保存数据
  - 4.5 多进程加速
第三章网页数据的解析提取
- 1 XPath的使用
- 2 Beautiful Soup的使用
第四章数据的存储

第一章爬虫基础

1 HTTP基本原理

1.1 URI和URL

URI：统一资源标识符(Uniform Resource Identifier)
URL：统一资源定位符(Uniform Resource Locator)
URN：统一资源名称(Uniform Resource Name)

1.2 HTTP和HTTPS

HTTP：超文本传输协议(Hypertext Transfer Protocol)
HTTPS：以安全为目标的HTTP通道(Hypertext Transfer Protocol)

1.3 请求(Requset)

1.3.1 请求方式

函数	解释
GET	请求中的参数包含在URL里面，数据可以在URL中看到。请求提交的数据最多1024字节。
POST	请求的URL不会包含参数，数据都是通过表单形式传输的，会包含在请求体中。请求提交的数据没有限制。

1.3.2 请求的网址

1.3.3 请求头：用来说明服务器要使用的附加信息

参数	解释
Cookie	维持当前访问会话
Referer	用于标识请求是从哪个页面发过来的
User-Agent	使服务器识别客户端使用的操作系统及版本、浏览器及版本信息
Content-Type	用来表示具体请求中的媒体信息

1.3.4 请求体：一般承载的内容是POST请求中的表单数据，对于GET请求，请求体为空

1.4 响应(Response)

1.4.1 响应状态码：表示服务器的响应状态

1.4.2 响应头：包含服务器对请求的应答信息

参数	解释
Server	包含服务器的信息
Content-Type	指定返回的数据是什么类型
Set-Cookie	设置Cookie

1.4.3 响应体：响应的正文数据都存在于响应体中

2 Web网页基础

2.1 网页的组成

HTML：超文本标记语言(Hypertext Markup Language)，用来描述网页的语言
CSS：层叠样式表(Cascading Style Sheets)
JavaScript：简称JS，是一种脚本语言，实现一种实时、动态、交互的页面功能

2.2 页面的结构

2.3 HTML节点树

HTML节点树也叫HTML DOM树。DOM：文档对象模型(Document Object Model)。

3 爬虫的基本原理

3.1 爬虫概述：获取网页并提取和保存信息的自动化程序

获取网页的源代码
分析源代码，从中提取我们想要的数据
将提取到的数据保存在某处以便后续使用

3.2 JavaScript渲染的页面

4 Session和Cookie

4.1 静态页面和动态页面

静态页面：由HTML代码编写，文字、图片等内容均通过写好的HTML代码来指定
动态页面：动态解析URL中参数的变化，关联数据库并动态呈现不同的页面内容

4.2 无状态HTTP：HTTP协议对事务处理是没有记忆能力的

4.3 Session

Session对象用来存储特定用户Session所需的属性及配置信息。
Session在服务端，也就是网站的服务器，用来保存用户的Session信息。

4.4 Cookie

某些网站为了鉴别用户身份、进行Session跟踪而存储在用户本地终端上的数据。
Cookie在客户端，也可以理解为在浏览器端，有了Cookie，浏览器在下次访问相同网页时就会自动附带上它，并发送给服务器，服务器通过识别Cookie鉴别出是哪个用户在访问，然后判断此用户是否处于登录状态，并返回对应的响应。

4.4.1 会话Cookie和持久Cookie

会话Cookie就是把Cookie放在浏览器内存里，关闭浏览器之后，Cookie即失效。
持久Cookie把Cookie保存在客户端的硬盘中，下次还可以继续使用，用于长久保持客户的登录状态。

5 代理的基本原理

5.1 基本原理

代理实际上就是指代理服务器(Proxy Server)，功能是代网络用户取得网络信息。

5.2 爬虫代理

使用代理隐藏真实的IP，让服务器以为是代理服务器在请求自己。

5.3 常见代理设置

高度匿名代理
付费代理服务
ADSL拨号
蜂窝代理

6 多线程和多进程的基本原理

6.1 多线程的含义

一个进程中同时执行多个线程。
线程是操作系统进行运算调度的最小单元，是进程中的最小运行单元。

6.2 多进程的含义

同时运行多个进程。
进程是具有一定独立功能的程序在某个数据集合上的一次运行活动，是系统进行资源分配和调度的一个独立单位。

6.3 并行和并发

并发(concurrency)是指多个线程对应的多条指令被快速轮换的执行。
并行(parallel)指同一时刻有多条指令在多个处理器上同时执行。

第二章基本库的使用

模块	解释
request	模拟请求的发送
error	异常处理模块，捕获异常，然后进行重试或其他操作保证程序不会意外终止
parse	工具模块，提供许多URL的处理方法
robotparser	主要用来识别网站的robots.txt文件，判断是否可以爬取

1 urllib的使用

1.1 发送请求(request模块)

1.1.1 urlopen：方法read()得到响应的页面内容，属性status得到响应结果的状态码。url参数(必传)。

"""抓取Python官网网页"""
import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))
"""调用相关方法和属性获取相关信息"""
print(response.status) # 响应的状态码
print(response.getheaders()) # 获取多个同名请求头对应的一组value值，因此返回枚举类型数据
print(response.getheader('Server')) # 获取单个请求头name对应的value值

data参数：添加该参数时，需要使用bytes方法将参数转化为字流节编码格式的内容，即bytes类型。若传递此参数，请求方式变为POST请求。

"""data参数，若传递此参数请求方式变为POST请求"""
import urllib.parse
import urllib.request
# urlencode方法将字典参数转换为字符串
data = bytes(urllib.parse.urlencode({'name': 'germey'}), encoding='utf-8')
response = urllib.request.urlopen('https://www.httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

timeout参数：用于设置超时时间，单位为秒。

import socket
import urllib.request
import urllib.error
try:
    response = urllib.request.urlopen('https://www.httpbin.org/get', timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):  #判断异常类型
        print('TIME OUT')

1.1.2 Request

url参数(必传)
data参数：传入bytes类型的数据
headers参数：字典类型，请求中的请求头。可以通过调用请求实例的add_header方法添加。

"""通过add_header方法添加header"""
req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)')

method参数：字符串，用来指示请求的方法。

from urllib import request, parse
url = 'https://www.httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)',
    'Host': 'www.httpbin.org'
}
dict = {'name': 'germey'}
data = bytes(parse.urlencode(dict), encoding='utf-8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

1.1.3 高级用法

验证(HTTPBasicAuthHandler模块)：网站启用了基本身份认真，允许页面浏览器或者其他客户端程序在请求网站时提供用户名和口令形式的身份凭证。

from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener
from urllib.error import URLError
username = 'admin'
password = 'admin'
url = 'https://ssr3.scrape.center/'
p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p) # 实例化一个HTTPBasicAuthHandler对象
opener = build_opener(auth_handler)
try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

代理(ProxyHandler模块)

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener
proxy_handler = ProxyHandler({
    'http': 'http://127.0.0.1:8080',
    'https': 'https://127.0.0.1:8080'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.baidu.com')
    print(response.read.decode('utf-8'))
except URLError as e:
    print(e.reason)

1.1.4 Cookie

获取Cookie：CookieJar对象

import http.cookiejar, urllib.request
cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.baidu.com')
for item in cookie:
    print(item.name + "=" + item.value)

保存Cookie

Mozilla格式：MozillaCookieJar对象

import urllib.request, http.cookiejar
filename = 'cookie.text'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)

LWP格式：LWPCookieJar对象

cookie = http.cookiejar.LWPCookieJar(filename)

读取Cookie(以LWPCookieJar格式为例)

import urllib.request, http.cookiejar
cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie1.text', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.baidu.com')
print(response.read().decode('utf-8'))

1.2 处理异常

1.2.1 URLError类：继承自OSError类，是error异常模块的基类

属性reason：返回错误的原因。

from urllib import request, error
try:
    response = request.urlopen('https://cuiqingcai.com/404')
except error.URLError as e:
    print(e.reason)

1.2.2 HTTPError类：是URLError的子类专门用来处理HTTP请求错误

属性	含义
code	返回HTTP状态码
reason	用于返回错误的原因
headers	返回请求头

from urllib import request, error
try:
    response = request.urlopen('https://cuiqingcai.com/404')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')

因为URLError是HTTPError的父类，所以可以选择先捕获子类的错误，再捕获父类的错误

from urllib import request, error
try:
    response = request.urlopen('https://cuiqingcai.com/404')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')
except error.URLError as e:
    print(e.reason)
else:
    print('Request Successfully')

1.3 解析链接

1.3.1 urlparse：实现URL的识别和分段

from urllib.parse import urlparse
result = urlparse('https://www.baidu.com/index.html;user?id=5#comment')
print(result)

参数	解释
urlstring	待解析的URL
scheme	默认的协议，scheme参数只在URL中不含协议信息的时候才生效
allow_fragments	是否忽略fragment，若此项设置为False，那么fragment部分就会被忽略，它会被解析为path、params、或者query的一部分，而fragment部分为空。

解析结果是一个元组，既可以通过属性名获取内容，也可以用索引顺序获取。

"""ParseResult实际上是一个元组"""
print(result.scheme, result[0], result.netloc, result[1], sep='\n')

1.3.2 urlunparse：用于构造URL，接受的参数是一个可迭代对象，其长度必须是6。

from urllib.parse import urlunparse
data = ['https', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']
print(urlunparse(data))

1.3.3 urlsplit：与urlparse方法类似，但其不再单独解析params这一部分(params会合并到path中)，返回5个结果。

from urllib.parse import urlsplit
result = urlsplit('https://www.baidu.com/index.html;user?id=5#comment')
print(result)
"""SplitResult返回的也是一个元组"""
print(result.scheme, result[0])

1.3.4 urlunsplit：与urlunparse方法类似，唯一的区别是这里接受的参数的长度必须为5。

from urllib.parse import urlunsplit
data = ['https', 'www.baidu.com', 'index.html', 'a=6', 'comment']
print(urlunsplit(data))

1.3.5 urljoin：生成链接，提供一个base_url作为该方法的第一个参数，将新链接作为第二个参数，通过分析base_url的scheme、netloc和path这三部分，并对新链接缺失的内容进行补充。

from urllib.parse import urljoin
print(urljoin('https://www.baidu.com', 'FAQ.html'))
print(urljoin('https://www.baidu.com', 'https://cuiqingcai.com/FAQ.html'))
print(urljoin('https://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html?question=2'))
print(urljoin('https://www.baidu.com?wd=abc', 'https://cuiqingcai.com/index.php'))
print(urljoin('www.baidu.com', '?category=2#comment'))
print(urljoin('www.baidu.com#comment', '?category=2'))

1.3.6 urlencode：将字典类型的数据转化为GET的请求参数

from urllib.parse import urlencode
params = {
    'name':'germey',
    'age':25
}
base_url = 'https://www.baidu.com?'
url = base_url + urlencode(params)
print(url)

1.3.7 parse_qs：将一串GET请求参数转回字典

from urllib.parse import parse_qs
query = 'name=germey&age=25'
print(parse_qs(query))

1.3.8 parse_qsl：将一串GET参数转化为由元组组成的列表

from urllib.parse import parse_qsl
print(parse_qsl(query))

1.3.9 quote：将中文字符转化为URL编码格式

from urllib.parse import quote
keyword = '壁纸'
url = 'https://www.baidu.com/s?wd=' + quote(keyword)
print(url)

1.3.10 unquote：进行URL解码

from urllib.parse import unquote
print(unquote(url))

1.4 分析Robots协议

1.4.1 Robots协议：网络爬虫排除协议

1.4.2 robotparser

set_url：用来设置robots.txt文件的链接，如果在创建RobotFileParse对象时传入了链接就不需要此方法来设置。

rp = RobotFileParser('https://www.baidu.com/robots.txt')

read：读取robot.txt文件并进行分析，一定要调用这个方法。
parse：用来解析robots.txt文件，传入的参数是robots.txt文件中的某些行内容，它会按照robots.txt的语法规则来分析这些内容。

from urllib.request import urlopen
from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.parse(urlopen('https://www.baidu.com/robots.txt').read().decode('utf-8').split('\n'))
print(rp.can_fetch('Baiduspider', 'http://www.baidu.com'))
print(rp.can_fetch('Baiduspider', 'http://www.baidu.com/homepage/'))
print(rp.can_fetch('Googlebot', 'http://www.baidu.com/homepage/'))

can_fetch：该方法有两个参数，第一个是User-Agent，第二个是要抓取的URL，表示User-Agent指示的搜索引擎是否可以抓取这个URL。

from urllib.robotparser import RobotFileParser
rp = RobotFileParser()
rp.set_url('https://www.baidu.com/robots.txt')
rp.read()
print(rp.can_fetch('Baiduspider', 'http://www.baidu.com'))
print(rp.can_fetch('Baiduspider', 'http://www.baidu.com/homepage/'))
print(rp.can_fetch('Googlebot', 'http://www.baidu.com/homepage/'))

2 requests的使用

2.1 GET请求

2.1.1 基本实例

import requests
r = requests.get('https://www.httpbin.org/get')
print(r.text)

利用params参数可以直接传递参数

import requests
data = {
    'name':'germey',
    'age':25
}
r = requests.get('https://www.httpbin.org/get', params=data)
print(r.text)

网页的返回类型虽然是str类型，但是它很特殊，是JSON格式的。

import requests
r = requests.get('https://www.httpbin.org/get')
print(type(r.text))
print(r.json())
print(type(r.json()))

2.1.2 抓取网页

import requests
import re
r = requests.get('https://ssr1.scrape.center/')
pattern = re.compile('(.*?)', re.S) # 正则表达式
titles = re.findall(pattern, r.text)
print(titles)

2.1.3 抓取二进制数据

import requests
r = requests.get('https://ssr1.scrape.center/static/img/logo.png')
with open('logo.png', 'wb') as fp:
    fp.write(r.content)

2.1.4 添加请求头(headers参数)

import requests
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
r = requests.get('https://ssr1.scrape.center/', headers=headers)
print(r.text)

2.2 POST请求(data参数)

import requests
data = {'name':'germey', 'age':25}
r = requests.post('https://www.httpbin.org/post', data=data)
print(r.text)

2.3 响应

import requests
r = requests.get('https://ssr1.scrape.center/')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history) # 请求历史

2.4 高级用法

2.4.1 文件上传(files参数)

import requests
files = {'file':open('logo.png', 'rb')}
r = requests.post('https://www.httpbin.org/post', files=files)
print(r.text)

2.4.2 设置Cookie(cookies参数)

获取Cookie

import requests
r = requests.get('https://www.baidu.com')
print(r.cookies)
for key, value in r.cookies.items():
    print(key + '=' + value)

维持Cookie
第一种，将Cookie设置到请求头中，然后发送请求。
第二种，先构造一个RequsetsCookieJar对象，然后对Cookie进行处理和赋值，传递给cookies参数。

2.4.3 维持Session(Session对象)

利用Session可以做到模拟同一个会话而不用担心Cookie的问题，它通常在模拟登录成功之后，进行下一步操作时用到。
Session在平常用的非常广泛，可以用于模拟在一个浏览器中打开同一站点的不同画面。

"""Session维持小实验"""
import requests
requests.get('https://www.httpbin.org/cookies/set/number/123456789')    # 请求一个测试网站
r = requests.get('https://www.httpbin.org/cookies')    # 获取当前的Cookie信息
print(r.text)    # 不能成功获取设置的Cookie
"""Session维持实例(维持同一个Session)"""
s = requests.Session()    # 创建一个Session对象
s.get('https://www.httpbin.org/cookies/set/number/123456789')
r = s.get('https://www.httpbin.org/cookies')
print(r.text)

2.4.4 SSL证书验证

使用verify参数控制是否验证证书，如果将此参数设置为False，那么在请求时就不会再验证证书是否有效。

"""SSL证书验证小实验"""
import requests
response = requests.get('https://ssr2.scrape.center/')
print(response.status_code)    # 报错
"""SLL证书验证跳过(verify参数)"""
response = requests.get('https://ssr2.scrape.center/', verify=False)
print(response.status_code)    # 不报错，出现警告
"""设置忽略警告的方式屏蔽这个警告"""
import requests
from requests.packages import urllib3
urllib3.disable_warnings()    # 忽略警告
response = requests.get('https://ssr2.scrape.center/', verify=False)
print(response.status_code)
"""通过捕获警告到日志的方式忽略警告"""
import logging
import requests
logging.captureWarnings(True)    # 捕获警告
response = requests.get('https://ssr2.scrape.center/', verify=False)
print(response.status_code)

2.4.5 设置超时

为了防止服务器不能及时响应，应该设置一个超时时间，如果超过这个时间还没有得到响应，就报错。
使用timeout参数，其值时发出请求再到服务器返回响应的时间。

"""超时设置(timeout参数)"""
import requests
r = requests.get('https://www.httpbin.org/get', timeout=1)
print(r.status_code)
"""timeout参数(连接时间, 读取时间)"""
import requests
r = requests.get('https://www.httpbin.org/get', timeout=(5, 30))
print(r.status_code)

2.4.6 身份认证(auth参数)

"""身份认证(auth参数)"""
import requests
from requests.auth import HTTPBasicAuth
r = requests.get('https://ssr3.scrape.center/', auth=HTTPBasicAuth('admin', 'admin'))
print(r.status_code)
"""身份认证简化版"""
import requests
r = requests.get('https://ssr3.scrape.center/', auth=('admin', 'admin'))
print(r.status_code)

2.4.7 设置代理

进行大规模爬取，面对大规模爬取且频发的请求时，网站就可能弹出验证码，或者跳转到登陆认证界面，更甚者可能会封禁客户端的IP，为了防止这种情况发生，我们需要设置代理来解决这个问题，需要使用到proxies参数。

from requests import Request,Session
url = 'https://www.httpbin.org/post'
data = {'name':'germey'}
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)    # 构造一个Request对象
prepped = s.prepare_request(req)    # 转换为一个Prepared Request对象
r = s.send(prepped)    # 发送请求
print(r.text)

3 正则表达式

3.1 match

传入要匹配的字符串以及正则表达式，从字符串开始位置检测正则表达式是否和字符串相匹配。返回对象包含两个方法，group方法输出匹配到的内容，span方法输出匹配的范围。

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
# '^' 匹配字符串的开头
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

3.1.1 匹配目标

使用括号()将想提取的字符串括起来，调用group方法传入分组的索引即可获得提取结果。

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result.group(1))

3.1.2 贪婪匹配(.*)：匹配尽可能多的字符

import re
content = 'Hello 1234567 World_This is a Regex Demo'
# '$' 结尾字符串
result = re.match('^He.*(\d+).*Demo$', content)
print(result.group(1))

3.1.3 非贪婪匹配(.*?)：匹配尽可能少的字符

import re
content = 'Hello 1234567 World_This is a Regex Demo'
# '?' 英文格式下的问号
result = re.match('^He.*?(\d+).*Demo$', content)
print(result.group(1))

3.1.4 匹配结果在中间尽量用非贪婪匹配，匹配结果在字符串结尾尽量用贪婪匹配。

import re
content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1',result1.group(1))
print('result2',result2.group(1))

3.1.5 修饰符：控制匹配的模式

re.I：使匹配对大小写不敏感
re.M：多行匹配，影响^和$
re.S：使匹配内容包括换行符在内的所有字符

import re
content = '''Hello 1234567 World_This
is a Regex Demo'''
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

3.1.6 转义匹配

当目标字符串中遇到用作用作正则匹配模式的特殊字符时，在此字符前面加反斜线\转义一下即可。

import re
content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

3.2 search：扫描整个字符串，然后返回第一个匹配成功的结果。

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra    stings'
result = re.search('He.*?(\d+).*?Demo', content)
print(result.group(1))

3.3 findall：获取与正则表达式相匹配的所有字符串

3.4 sub：修改文本

import re
content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

3.5 compile

将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。
compile中可以传入修饰符，在使用search、findall方法时就不必额外传，给正则表达式做了一层封装。

import re
content1 = '2019-12-15 12:00'
content2 = '2019-12-17 12:55'
content3 = '2019-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2,result3)

4 基础爬虫案例实战

4.1 爬取目标

爬取站点每一页的电影列表并爬取每个电影的详情页
用正则提取每一部电影的名称、封面、类别、上映时间、评分、剧情简介等
将数据保存为JSON文本文件
利用多线程实现爬取的加速

4.2 爬取列表页

遍历所有页码，构造10页的URL
从每个索引页提取出电影详情页的URL

import requests
import logging # 输出信息
import re
from urllib.parse import urljoin

logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s: %(message)s')
BASE_URL = 'https://ssr1.scrape.center'
TOTAL_PAGE = 10

def scrape_page(url): # 通用的爬取页面的方式
    logging.info('scraping %s...',url)
    try:
        response = requests.get(url)
        if response.status_code == 200: # 爬取成功
            return response.text
        # 爬取失败 输出错误日志信息
        logging.error('get invalid status code %s while scraping %s',response.status_code,url)
    except requests.RequestException: # requests的异常处理
        logging.error('error occurred while scraping %s',url,exc_info=True)

def scrape_index(page): # 列表页的爬取
    index_url = f'{BASE_URL}/page/{page}'
    return scrape_page(index_url)

def parse_index(html): # 解析列表页
    pattern = re.compile('')
    items = re.findall(pattern, html)
    if not items: # 匹配失败
        return []
    for item in items:
        detail_url = urljoin(BASE_URL,item)
        logging.info('get detail url %s',detail_url)
        yield detail_url

4.3 爬取详情页

def scrape_detail(url): # 爬取详情页
    return scrape_page(url)

def parse_detail(html): # 解析详情页
	# 封面
    cover_pattern = re.compile('class="item.*?',re.S)
    if re.search(cover_pattern, html):
    	cover = re.search(cover_pattern, html).group(1).strip() 
	else:
		cover = None
	# 名称
    name_pattern = re.compile('(.*?)')
    if re.search(name_pattern, html):
    	name = re.search(name_pattern, html).group(1).strip()
    else:
    	name = None
    # 类别
    categories_pattern = re.compile('(.*?).*?',re.S)
    if re.findall(categories_pattern,html):
    	categories = re.findall(categories_pattern,html)
    else:
    	categories = []
    # 上映时间
    published_at_pattern = re.compile('(\d{4}-\d{2}-\d{2})\s?上映')
    if re.search(published_at_pattern,html):
    	published_at = re.search(published_at_pattern,html).group(1)
    else:
    	published_at =  None
    # 剧情简介
    drama_pattern = re.compile('.*?(.*?)
',re.S)
    if re.search(drama_pattern,html):
    	drama = re.search(drama_pattern,html).group(1).strip() 
    else:
    	drama =  None
    # 评分
    score_pattern = re.compile('(.*?)
',re.S)
    if re.search(score_pattern,html):
		score = float(re.search(score_pattern,html).group(1).strip()) 
	else:
		score = None  
    return {'cover':cover, 'name':name, 'categories':categories,
        'published_at':published_at, 'drama':drama, 'score': score}

4.4 保存数据

import json
from os import makedirs
from os.path import exists

RESULTS_DIR = 'results' # 保存文件夹
exists(RESULTS_DIR) or makedirs(RESULTS_DIR) # 不存在就创建

def save_data(data): # 保存数据
    name = data.get('name')[:4] # 有非法字符
    data_path = f'{RESULTS_DIR}/{name}.json' # 文件路径
    # ensure_ascii 确保中文字符正常呈现 indent 缩进
    json.dump(data,open(data_path,'w',encoding='utf-8'),ensure_ascii=False,indent=2)

4.5 多进程加速

import multiprocessing

def main(page):
    index_html = scrape_index(page)
    detail_urls = parse_index(index_html)
    # logging.info('detail urls %s', list(detail_urls))
    for detail_url in detail_urls:
        detail_html = scrape_detail(detail_url)
        data = parse_detail(detail_html)
        logging.info('get detail data %s', data)
        logging.info('saving data to json file')
        save_data(data)
        logging.info('data saved successfully')

if __name__ == '__main__':
    pool = multiprocessing.Pool()
    pages = range(1, TOTAL_PAGE + 1)
    pool.map(main, pages)
    pool.close()
    pool.join()

第三章网页数据的解析提取

1 XPath的使用

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取所有子孙节点
.	选取当前节点
…	选取当前节点的父节点（parent::）
@	属性匹配（[属性值=值]）/属性获取（属性）
text()	获取当前节点中的文本
contains	属性多值匹配（contains(@属性,值)）
多值匹配	[contains(@属性,值) and @属性=值]
按序选择	[index]序号从1开始/last()最后一个/position()

节点轴选择

表达式	描述
ancestor::	祖先节点
attribute::	所有属性值
child::	子节点
descendant::	子孙节点
following::	后继节点
following-sibling::	同级节点

2 Beautiful Soup的使用

表达式	描述
name	获取节点名称
attrs	获取节点属性
string	获取内容
contents/children	直接子节点
descendants	所有子孙节点
parent	直接父节点
parents	所有祖先节点
next_sibling	下一个兄弟节点
previous_sibling	上一个兄弟节点
next_siblings	后面所有兄弟节点
previous_siblings	前面所有兄弟节点

方法选择器

find_all(name, attrs,text)：查询所有符合条件的元素
name：查询节点名称
attrs：查询属性（字典）
text：用来匹配的文本
find()：返回第一个匹配的元素

表达式	描述
find_parents / find_parent	祖先节点 / 父节点
find_next_siblings / find_next_sibling	所有兄弟节点 / 第一个兄弟节点(后面)
find_previous_siblings / find_previous_sibling	所有兄弟节点 / 第一个兄弟节点(前面)
find_all_next / find_next	所有节点 / 第一个节点(后面)
find_all_previous / find_previous	所有节点 / 第一个节点(前面)

第四章数据的存储

你可能感兴趣的:(爬虫,服务器,前端)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
微信小程序开发注意事项 jun778895 微信小程序小程序
微信小程序开发是一个融合了前端开发、用户体验设计、后端服务（可选）以及微信小程序平台特性的综合性项目。这里，我将详细介绍一个典型的小程序开发项目的全过程，包括项目规划、设计、开发、测试及部署上线等各个环节，并尽量使内容达到或超过2000字的要求。一、项目规划1.1项目背景与目标假设我们要开发一个名为“智慧校园助手”的微信小程序，旨在为学生提供一站式校园生活服务，包括课程表查询、图书馆座位预约、食堂
NPM私库搭建-verdaccio（Linux） Beam007 npm linux 前端
1、安装nodelinux服务器安装nodea)、官网下载所需的node版本https://nodejs.org/dist/v14.21.0/b)、解压安装包若下载的是xxx.tar.xz文件，解压命令为tar-xvfxxx.tar.xzc)、修改环境变量修改：/etc/profile文件#SETPATHFORNODEJSexportNODE_HOME=NODEJS解压安装的路径exportPAT
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p