东郭_先生

Python网络爬虫与信息提取学习

本文基于《Python网络爬虫与信息提取》的学习，参考资料源于“Python网络爬虫与信息提取北京理工大学：嵩天”，视频链接如下：

学习视频
（学习视频的课程排序不太准确，注意先看某节的简介/介绍，再看内容，最后看总结，【可以参考本文目录顺序】）
视频嵩老师使用python自带的IDLE，而本博客作者使用IDE为pycharm，因此在交互式部分的代码会有出入

导入——课程全局

单元一 Requests库入门

1、HTTP协议及Requests库方法（SHD）

（1）HTTP协议

HTTP，Hypertext Transfer Protocol，超文本传输协议，是一个基于“请求与响应”模式的、无状态的应用层协议，并采用URL（统一资源定位符）作为定位网络资源的标识。

URL格式 > http://host[:port][path]

host：合法的Internet主机域名或IP地址
port：端口号，缺省（默认）端口为80
path：请求资源的路径

HTTP URL的理解：
URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。
HTTP协议对资源的操作：

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获取该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

理解PATCH和PUT的区别
假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。
需求：用户修改了UserName，其他不变。

采取PATCH，仅向URL提交UserName的局部更新请求
采取PUT，必须将所有20个字段一并提交到URL，未提交字段被删除

PATCH的最主要好处：节省网络宽带

（2）Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST方法
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests…delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

对比我们可以看到，HTTP协议与Requests对资源操作一一对应。
下面就Requests中的部分方法进行操作：

import requests
r = requests.head("http://httpbin.org/get")
print(r.headers)

{‘Date’: ‘Fri, 03 Jul 2020 11:09:50 GMT’, ‘Content-Type’: ‘application/json’, ‘Content-Length’: ‘307’, ‘Connection’: ‘keep-alive’, ‘Server’: ‘gunicorn/19.9.0’, ‘Access-Control-Allow-Origin’: ‘*’, ‘Access-Control-Allow-Credentials’: ‘true’}

Requests库的post()方法

import requests
payload = {
    "key1" : "value1",
    "key2" : "value2"
}
r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)

可以看到，使用post()方法向URL提交一个字典时，网页自动编码到form（表单）中

import requests
r = requests.post("http://httpbin.org/post", data="ABC")
print(r.text)

可以看到，使用post()方法向URL提交一个字符串时，网页自动编码到data中
Requests库的post()方法

import requests
payload = {
    "key1" : "value1",
    "key2" : "value2"
}
r = requests.put("http://httpbin.org/post", data=payload)
print(r.text)

向URL发送post请求，相当于传递新增数据，而put还会覆盖原有数据。当然，在一些URL中，POST和PUT方法也会不被允许使用，上述例子在我访问的时候已经不被运行使用了。上述例子主要是为了了解使用这些方法后，URL会如何处理这些数据。

2、Requests的get方法

（1）get方法

首先使用get方法发出请求

requests.get(yrl, params = None, **kwargs)
url:拟获取页面的url链接
params:url中的额外参数，字典或字节流格式，可选
**kwargs:12个控制访问的参数

（2）Requests库的2个对象

注意Requests库的2个重要对象，我们不仅要发出请求，还要得到响应

（3）Response响应

下列就是我们调用响应的方法：

属性	说明
r.status_code	HTTP请求的返回请求状态码
r.text	HTTP响应页面内容的字符串形式
r.encoding	从HTTP header中猜猜的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

下面我们就访问b站首页并获取响应内容

import requests
r = requests.get("https://www.bilibili.com/")
print(r.status_code)
print(type(r))
print(r.headers)

下面就是一些常见的状态码以及对应的含义：

那么使用request访问基本流程就是这样的：

对于响应内容的编码类型，有两种获取方式，r.encoding是根据HTTP头文件中是否存在charset来判断，而r.apparent_encoding是就返回内容分析，因此从后者中可以更准确了解响应内容的编码格式。

r.encoding : 如果header中不存在charset,则认为编码为ISO-8859-1
r.apparent_encoding : 根据网页内容分析出的编码方式

import requests
r = requests.get("https://www.baidu.com/")
print(r.encoding)
print(r.apparent_encoding)

ISO-8859-1
utf-8
这样就可以便于我们去解析响应内容，如果直接返回原格式相应内容：

下面我们修改解析方式

import requests
r = requests.get("https://www.baidu.com/")
r.encoding = "utf-8"
print(r.text)

这样可以解析中文，使得人眼可读性提高

3、Rquests库主要方法解析

（1）requests库的request方法

requests.request(method, url, **kwargs)
method : 请求方式，对应get / put / post / put / patch / delete / options 7种
url : 拟获取页面的url链接
**kwargs : 控制访问参数，共13个

（2）request方法的13个控制参数

下面介绍 13个访问的控制参数：

参数	用途
params	字典或字节序列，作为参数增加到url中
data	字典、字节序列或文件对象，作为Request的内容
json	Json格式的数据，作为Request的内容
headers	字典，HTTP定制头
cookies	字典或者CookieJar，Request中的cookie
auth	元组，支持HTTP认证功能
files	字典类型，传输文件
timeout	设定超时时间，单位为秒
proxies	字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects	True/False，默认为True，重定向开关
stream	True/False，默认为True，获取内容立即下载开关
verify	True/False，默认为True，认证SSL证书开关
cert	本地SSL证书路径

SSL 证书就是遵守 SSL协议，由受信任的数字证书颁发机构CA，在验证服务器身份后颁发，具有服务器身份验证和数据传输加密功能。

（3）requests库的其他方法

下面介绍requests的其他方法:
其中，url : 拟获取页面的url链接， **kwargs : 13个访问参数
在下列这些方法中，有些参数是必须指定的，那么13个参数中剩余的参数就作为自定义参数

requests.head(url, **kwargs)
requests.post(url, data = None, json = None, **kwargs)
requests.put(url, data = None, **kwargs)
requests.patch(url, data = None, **kwargs)
requests.delete(url, **kwarg)

对于requests库中所有方法，最常用的就是request、get和head三个方法。在我们访问时，可以通过请求传递信息，这些信息就可能导致网络安全性问题，因此上面其他的几个方法很有可能就不被允许使用。

单元小结

以上介绍了requests库的方法，在使用时最多的就是request、get和head。同时，我们还需要认识到——“网络链接有风险，异常处理很重要！”下面就介绍如何处理异常：
首先了解一下requests的异常：

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

import requests
try:
    #尝试去运行
    r = requests.get("https://www.baidu.com/")
    r.raise_for_status()
    #判断响应状态码是否为200，如果不是200，它就会产生一个HttpError的异常
    r.encoding = "utf-8"
    print(r.text)
except:
    print("产生异常")

由此我们获得一个通用框架：

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()#如果状态码不是200，触发HTTPError异常
        r.encoding = "utf-8"
        return r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url = "https://www.bilibili.com/"
    print(getHTMLText(url))

单元二网络爬虫“盗亦有道”

1、Robots协议

Robots Exclusion Standard网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以访问，哪些不行
形式：网站根目录下的robots.txt文件

如何找到robots.txt文件：直接在网址后面加上“/robots.txxt”

在上面的robots文件中，作出以下规定：
Allow规定以其后开头的URL是允许robot访问的，Disallow规定以其后开头的URL是不允许访问的，这里的User-agent（用户代理）指明了爬虫的引擎。在协议的后面，例如最后一个，表明了：禁止该搜索引擎访问网站的任何部分。
当然，并不是所有网站都会有robots协议，如果没有这个协议，默认是允许所有用户访问任意部分。

2、对robots协议理解

无论我们爬取什么数据，网络爬虫都应该遵守robots协议。

3、网络爬虫的约束

（1）网络爬虫的大小

（2）网络爬虫带来的问题

网络爬虫会带来很多问题，主要是下面三类：
1、网络爬虫的骚扰
受限于编写水平和目的，网络爬虫将会给web服务器带来巨大的资源开销
2、网络爬虫的法律风险
服务器上数据有产权归属
网络爬虫获取数据后牟利将带来法律风险
3、网络爬虫泄露隐私
网络爬行可能具备突破简单访问控制的能力，获取被保护数据从而泄露个人隐私
因此网页维护者会采取来源审查和发布公告两种方式来限制网络爬虫。

（3）网站维护者的约束方式

1、来源审查：判断User-Agent进行判断
2、发布公告：Robots协议
除了Robots协议之外，我们在使用爬虫时还需要进行自我约束，过于快速或者频密的网络爬虫都会对服务器产生巨大的压力，可能引起网站封锁你的访问ID，甚至采取进一步的法律行动。因此，在使用爬虫时，需要对请求速度进行合适的调整。

单元三 Requests库的5个实例

1、爬取京东商品页面

浏览商品信息

import requests
r = requests.get("https://item.jd.com/12441345483.html")
print(r.status_code)
print(r.encoding)

利用get方法获取网络链接状态码和网页编码类型

200
UTF-8

然后使用r.text打印内容，当然，这里需要登陆，这就需要提交一组账户密码组织键值对对象给网页，或者事先登录（这里就自己动手吧）。

2、爬取亚马逊商品页面

（1）实例操作

这是课程中出现的问题，亚马逊网站直接拒绝我们的请求，因为我们发出的请求头很坦诚的告诉亚马逊网站自己是python发出的，因此我们需要对请求进行处理。（当然，由于时差影响，我访问的时候并没有被拒绝）
下面介绍定制请求头，

import requests
b = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)" \
    " Chrome/85.0.4170.0 Safari/537.36 Edg/85.0.552.1"
     }
url = "https://www.amazon.cn/dp/B013JV3G2K/ref=sr_1_1?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E"\
       "7%BD%91%E7%AB%99&crid=3DYCPY7I9J9S7&keywords=%E9%B2%81%E8%BF%85%E5%85%A8%E9%9B%86&qid=1"\
       "593834844&sprefix=%E9%B2%81%E8%BF%85%2Caps%2C173&sr=8-1"
r = requests.get(url,headers = b)
print(r.text)

（2）方法：定制请求头

这个user-agent是指用户代理，下面我们介绍如何定制请求头：

请求头Headers提供了关于请求、响应或其他发送实体的信息。对于爬虫而言，请求头十分重要，尽管上述示例没有指定请求头。如果没有指定请求头或者请求的请求头和实际网页不一致，就可能无法返回正确是结果。
requests并不会基于定制的请求头Headers的具体情况改变自己的行为，只是在最后的请求中，所有的请求头信息都会被传递进去。
下面介绍如何找到Headers：
1、使用浏览器的检查（开发者模式）
2、打开网络（Network），刷新页面，找到需要请求的页面
3、单击请求的页面（如果只是找用户代理，可任意选取一个）
4、在标头下面找到“请求标头”，就可以看到用户代理

3、向百度提交关键词

百度关键词接口：

http://www.baidu.com/s?wd= keyword

import requests
a = {"wd":"Python"}#创建一个键值对用作提交对象
r = requests.get("http://www.baidu.com/s", params= a)
print(r.status_code)
print(r.request.url)
print(len(r.text))

200
http://www.baidu.com/s?wd=Python
349937

查看字符串长度我们就可以看到响应的内容非常多，就不必将其打印。类似的，这里直接给出360搜索实例

4、网络爬取图片及存储

网络图片链接格式:http://www.example.com/picture.jpg

path：存储路径

5、IP地址归属地的自动查询

原理：利用URL接口，向网页提交一个IP地址

http://m.ip138.com/ip.asp?ip= ipaddress

单元四 Beautiful Soup库入门

1、Beautiful Soup库的基本元素

（1）Beautiful Soup库的理解

（2）Beautiful Soup库的引用

Beautiful Soup库，也叫beautifulsoup4或bs4

注意Beautiful Soup中大小写

Beautiful Soup类就是bs4中的一个类

（3）Beautiful Soup库解析器

上面就是使用HTML解析器

这些将在接下来的内容将。

2、基于bs4库的HTML格式化和编码

下面看一下HTML解析样式：

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.bilibili.com/")
soup = BeautifulSoup(r.text,"html.parser")
b = soup.prettify()
print(b)

3、基于bs4库的HTML内容遍历方法

（1）HTML基本格式

HTML的基本格式就是成对的标签

（2）标签树的三种遍历方式

<1>下行遍历

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.bilibili.com/")
soup = BeautifulSoup(r.text,"html.parser")
b = soup.head
print(b)
c = b.contents
print(c)

要想达到遍历，利用循环即可

<2>上行遍历

<3>平行遍历

需要注意，平行遍历发生在同一父节点的各节点间，同时，我们不能直接认为平行遍历返回的下一个节点就是标签类型。

<4>总结

注意，如果遍历中使用的方法需要迭代，那么就只能用for循环来完成遍历。

单元五信息组织与提取方法

1、基于bs4库的HTML内容查找方法

（1）<>.find_all方法

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.bilibili.com/")
soup = BeautifulSoup(r.text,"html.parser")
for tag in soup.find_all(True):#显示suop所有标签头
    print(tag.name)

（2）其他方法

2、三种信息标记形式

（1）三种信息标记形式介绍与实例

实例：

（2）三种信息标记形式的比较

3、信息标记的三种形式

（1）信息标记

（2）HTML信息标记

（3）XML信息标记

XML就是由HTML发展来的通用信息标记形式

（4）JSON信息标记

注意，组织信息时，键值对都需要双引号包裹，只有值为数值可以不用。

（5）YAML信息标记

4、信息提取的一般方法

（1）信息标记的两种方法及混用

（2）实例

实例1：中国大学排名爬取

（1）实例介绍

（2）功能描述

（3）网页分析

以最好大学网为例：

http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html

首先查看该网页的robots协议，返现该网页不存在，也就是无限制：

接下来我们简要分析定向的可行性，找到我们想要获取的内容：
1、使用浏览器的检查
2、查看网络，使用搜索，输入关键字“清华”，找到其所在位置

我们可以看到旁边的行数，确定其在源代码中的位置，接下来找到其在源代码中所处的位置：
可以看到其在中的中的中

在源代码页面可以使用快捷键ctrl+f，可以调出搜索框，也可以通过这种方式进行查到位置

（4）结构设计

我们可以看到这些内容是二维数据，可以用列表进行存储

（5）实例代码

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    #将url信息爬取，将其中html页面返回
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = "utf-8"
        return r.text
    except:
        return "访问异常"

def fullUnivList(ulist, html):
    #提取html中关键数据并存储
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find("tbody").children:
        #获取下所有子类
        if isinstance(tr, bs4.element.Tag):
            #检验标签下内容的类型是否为bs4库定义的Tag类型,否，则直接过滤
            tds = tr("td")
            #所有已经解析，下面就需要接受其下的中的内容
            ulist.append([tds[0].string, tds[1].string, tds[2].string])
            #将获取的内容

def printUnivList(ulist, num):
    print("{:^6}\t{:^10}\t{:^6}".format("排名","学校名称","总分"))
    #这里对输出格式进行规定，{：^6}表示取6位正中对齐，\t添加一个制表符，详情下面附有链接
    for i in range(num):
        u = ulist[i]
        print("{:^6}\t{:^10}\t{:^6}".format(u[0], u[1], u[2]))

def main():
    unifo = []
    url1 = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html"
    html = getHTMLText(url1)
    fullUnivList(unifo, html)
    printUnivList(unifo, 20)

main()

下面就是输出的结果：

（6）实例优化：中文对齐问题

关于.format的用法 .
我们可以看到上面结果，中文并不是完全居中对齐，当中文不够，系统会用西文字符填充，而中西文的空格占位不同，这就会导致中文对齐问题

解决方法：
采用中文字符的空格填充chr(12288)

def printUnivList(ulist, num):
    tplt = "{0:^6}\t{1:^10}\t{2:^6}"
    #制定输出规则
    print(tplt.format("排名","学校名称","总分",chr(12288)))#替换
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2]))

单元六 Re(正则表达式)库入门

1、正则表达式的概念

（1）正则表达式概念及实例

（2）正则表达式功能

由上述例子，我们可以看出正则表达式可以将一段复杂的内容简洁地表达，除此之外，正则表达式还具有以下功能：

（3）正则表达式的主要用途

正则表达式常用在字符串匹配，在使用正则表达式时，我们需要进行编译，

2、正则表达式的语法

（1）基本语法

（2）常用操作符

注意：{ }的扩展只针对其前的一个字符

（3）语法实例

这里的第一个实例，其效果和去掉？一样，这里涉及最小匹配，将在后面解释

import re
a = "pyyn"
m = re.search(r"p(y|yt|yth|ytho)n",a)
n = re.search(r"p(y|yt|yth|ytho)?n",a)
print(m,"\n",n)

返回结果都是None

（4）经典实例

3、Re库的基本使用

（1）正则表达式的表示类型

原生字符串就是在字符串前面加一个“r”，注意，原生字符串中不包含转义字符，因此在使用正则表达式需要用到转义字符时，最好使用原生字符串。

（2）Re库的6个主要功能函数

下面就一一解释：

import re
a = "pyn"
m = re.search(r"p(y|yt|yth|ytho)n",a)
print(m)
print(m.group())

pyn

可以看到，这里调用.group直接输出匹配结果，但是要注意一点，如果没有匹配到结果，那么就会返回空值，此时用group就会返回异常，因此在使用时，为了避免错误，就需要处理异常。

这个函数是将匹配到的结果去掉，返回一个列表，可使用maxsplit参数进行分割

import re
m = re.split(r"[1-9]\d{4}","cmf10086 dli10084")
n = re.split(r"[1-9]\d{4}","cmf10086 dli10084",maxsplit=1)
print(m)
print(n)

[‘cmf’, ’ dli’, ‘’]
[‘cmf’, ’ dli10084’]

注意，这个函数在引用时需要用for循环操作

import re
for m in re.finditer(r"[1-9]\d{4}","cmf10086 dli10084"):
    if m:
        print(m.group(0))

10086
10084

（3）面向对象的调用方法

我们还可以将对象单独存储，这样我们就可以重复调用已知对象并重复操作

我们还可以将正则表达式编译成正则表达式对象，这样就可以重复调用这样正则表达式，那么在使用时，就不需要再规定pattern和flags这两个参数了。

4、Re库的Match对象

（1）Macth对象的属性

（2）Macth对象的方法

（3）Re库的贪婪匹配和最小匹配

实例2 某宝商品比价定向爬虫（略)

本文不涉及该部分，完成此内容需要获取登录接口链接并验证身份

实例3 股票数据定向爬虫（略）

单元七 Scrapy爬虫框架

1、Scrapy爬虫框架介绍

（1）爬虫框架

（2）Scrapy爬虫框架图示

Scrapy爬虫框架有7个模块

其中，engine、downloader、scheduler（调度器）是已有的，用户需要编写spiders、item pipelines（配置）模块。

（3）Scrapy爬虫框架解析

Engine>>>
控制所有模块之间的数据流
根据条件触发事件
Downloader>>>
根据请求下载网页
Scheduler>>>
对所有爬虫请求进行调度

这三者是不需要用户进行修改，但是这三者间有一个中间键，用于用户可控制的配置：

Spider>>>
解析Downloader返回的响应（Reponse）
产生爬取项（scraped item）
产生额外的爬取请求（Request）
Item Pipelines>>>
以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipelines类型
可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库

这两个模块需要用户进行编写，另外，这这两者之间还有一个中间键：

2、Scrapy爬虫的常用命令

（1）Scrapy命令行格式

（2）Scrapy常用命令

（2）Scrapy爬虫命令行逻辑

3、requests库和Scrapy爬虫的比较

（1）相同点

（2）不同点

（3）选取建议

单元八 Scrapy爬虫的基本使用

1、使用介绍

（1）使用步骤

（2） Scrapy爬虫的三种数据类型

request类主要的属性或方法：

response类主要的属性和方法：

（2） Scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML提取信息的方法：

Beatuiful Soup
lxml
re
Xpath Selector
CSS Selector

2、yield关键字的使用

（1）生成器

（2）实例

输出小于n的数的平方数

def gen(n):
    for i in range(n):
        yield  i**2

for i in gen(5):
    print(i)

for i in gen(6):
    print(i," ",end="")

0
1
4
9
16
0 1 4 9 16 25

另外，我们还可以找到取值范围，定义一个列表返回这些数值，然后直接使用平方函数求值即可。

既然有可以直接求，为什么还需要生成器？

（3）生成器的优势

生成器相比于一次性列出所有可能的优势
1、节省存储空间
2、响应更迅速
3、使用更灵活

当上述实例取n=1M,那么我们还需要定义一个包含0-1M的列表。在爬虫使用时，我们可能需要访问很多内容时，我们就可以使用生成器，

3、简单实例

演示网址

http://python123.io/ws/demo.html
文件名：demo.html

（1）建立一个Scrapy爬虫工程（pycharm）

博主使用的是pycharm，下面就介绍，使用pycharm的Terminal终端创建一个Scrapy项目

先试试第二行直接创建，如果没有成功，再执行第一行步骤
（ File -> Setting -> Tools -> Shell path -> 将其修改成本机的cmd位置）
Terminal >>> scrapy startproject ____【name】

Terminal终端的位置如图所示：（pycharm左下角）

看到如下信息即为创建成功：

New Scrapy project 'test_scrapy', using template directory 'e:\\Anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
    G:\PycharmProjects\scrapy\test_scrapy
 
You can start your first spider with:
    cd test_scrapy
    scrapy genspider example example.com

工程目录

（2）生成一个爬虫

依然是在Terminal终端完成

>cd getdemo #在当前工程下执行你的工程（getdemo即为我的工程名）
>getdemo>scrapy genspider demo python123.io
#给定名称和爬取网址

结果如下：

Created spider ‘demo’ using template ‘basic’ in module:
getdemo.spiders.demo

在getdemo的工程下生成了一个爬虫，名为demo
当然，我们还可以手动生成，下面我们看一下这个爬虫的内容

import scrapy

class DemoSpider(scrapy.Spider): #scrapy.Spider的子类
    name = 'demo'
    allowed_domains = ['python123.io'] #指定爬虫爬取的网址，只能爬取这个域名以下的链接
    start_urls = ['http://python123.io/'] #需要爬取页面的初始内容

    def parse(self, response): #解析页面的空方法，parse()用于处理响应，解析内容形成字典，发现新的url爬取请求
        pass

（3）配置产生的爬虫

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ["https://python123.io/ws/demo.html"]

    def parse(self, response):
        fname = response.url.split("/")[-1] #从响应的url中提取文件名作为保存本地的文件名
        with open(fname, "wb") as f: #将保存的内容存储
            f.write(response.body)
        self.log("Saved file %s." % fname)

（4）运行爬虫获取网页

>cd getdemo #调用getdemo
>\getdemo>scrapy crawl demo #使用crawl命令执行demo

2020-07-06 22:47:48 [scrapy.core.engine] INFO: Spider closed (finished)

最后就可以在看到getdemo的子目录中看到这个html文件

（5）爬虫文件

可以看到，完整版本的爬虫文件中使用了生成器，当需要访问的url很多时，这是就需要考虑使用生成器了。

实例四股票数据Scrapy爬虫

实例涉及到百度股票(已下架)，只拓展Pipelines的编写

配置 Pipelines.py文件
通过配置文件，让框架找到我们新定义的类，并且用这个类处理Item提出的相关信息；
同时，我们话可以继续定义对爬取项（Scraped Item）的处理类以及其他函数，完善其功能；
最后，我们找到ITEM_PIPELINES，并将我们定义类的注释效果去掉。

附页—— 开发工具选择

python开发工具可分为两类，如下：

python自带的IDLE包括交互式和文本式两种编译器

你可能感兴趣的:(python爬虫,python爬虫)

Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
Python 爬虫实战：电商商品多维度分析系统构建 Python核芯 Python爬虫实战项目 python 爬虫开发语言电商
引言在当今数字化时代，电商平台已成为人们购物的首选渠道之一。海量的商品信息、用户评价和销售数据隐藏着巨大的商业价值。通过构建一个电商商品多维度分析系统，我们可以深入挖掘这些数据，帮助商家优化产品策略、提升用户体验，同时也为消费者提供更明智的购物建议。本文将详细介绍如何利用Python爬虫技术抓取电商商品数据，并构建一个多维度分析系统。一、项目背景与意义电商平台如京东、淘宝、拼多多等，每天产生海量的
Python 爬虫实战：解析接口爬取 QQ 空间好友动态（Cookie 复用与反爬规避） Python核芯 Python爬虫实战项目 python 爬虫开发语言
前言在当今数字化时代，社交平台的数据蕴含着巨大的价值。QQ空间作为国内知名的社交平台，记录着用户丰富的动态信息，这些信息对于社交网络分析、用户行为研究等具有重要意义。然而，由于QQ空间对数据的保护和限制，直接爬取页面数据困难重重。而通过解析接口进行爬取，成为了一种高效且有效的解决方案。本文将深入探索如何利用Python爬虫，借助Cookie复用与反爬规避技术，实现对QQ空间好友动态的精准爬取。一、
python爬取头条视频_Python爬虫：爬取某日头条某瓜视频，有/无水印两种方法孤灯苦狗 python爬取头条视频
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。以下文章来源于青灯编程，作者：清风Python爬虫、数据分析、网站开发等案例教程视频免费在线观看https://space.bilibili.com/523606542基本开发环境Python3.6Pycharm相关模块的使用importtimeimportosimportreimportreq
Python爬虫抓取京东商品信息（价格、销量、评价）：从基础到高级技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 c++
引言随着电子商务的迅速发展，爬虫技术逐渐成为数据科学、商业智能、市场分析等领域的基础工具之一。京东作为中国最大之一的电子商务平台，包含了大量的商品信息，如商品价格、销量、评价等，这些信息对市场分析、消费者行为预测等方面有着重要的意义。本篇博客将通过Python爬虫技术，详细讲解如何抓取京东商品页面的相关信息，并进一步探讨如何处理动态页面、反爬虫机制以及如何优化爬虫的性能和稳定性。1.Python爬
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
Python 爬虫实战：京东商品数据采集（登录态验证 + 价格监控系统） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言在电商飞速发展的当下，京东作为国内头部电商平台之一，拥有海量商品数据。对于商家而言，精准掌握这些数据能助力优化定价策略、洞察市场动态；对消费者来说，追踪商品价格走势有助于把握最佳购买时机。本文将深入剖析如何借助Python爬虫技术实现京东商品数据采集，包括突破登录态验证以及搭建价格监控系统，为读者呈上一份实用的电商数据挖掘指南。二、环境搭建安装Python库：执行以下命令安装所需的库：pi
Python爬虫实战：研究HTTP Agent Parser 库相关技术 ylfhpy 爬虫项目实战 python 爬虫 http
1.引言1.1研究背景与意义在当今数字化时代，网络数据作为一种重要的信息资源，在商业决策、学术研究、社会分析等领域发挥着越来越重要的作用。网络爬虫作为一种自动获取网页内容的技术，成为了获取这些数据的重要工具。然而，随着网络爬虫的广泛使用，网站也采取了各种反爬机制来保护自身数据和服务安全。其中，用户代理（User-Agent）检测是一种常见的反爬手段。网站通过分析请求的User-Agent信息，识别
Python爬虫实战：研究pyparsing工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pyparsing 文本处理文本分析
1.引言在当今信息爆炸的时代，网络上存在着海量的非结构化文本数据。如何从这些数据中提取有价值的信息，成为了数据科学领域的一个重要研究方向。网络爬虫技术可以帮助我们自动获取这些数据，而Pyparsing则提供了强大的语法分析能力，可以将非结构化的文本转换为结构化的信息。本文将介绍一个完整的案例，展示如何使用Python的爬虫技术结合Pyparsing工具，构建一个网络内容分析系统。该系统可以爬取特定
Python爬虫实战：研究phonenumbers工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 phonenumbers
1.引言1.1研究背景与意义电话号码作为重要的联系方式，在现代社会中具有广泛的应用价值。在商业领域，企业需要准确识别客户电话号码的归属地和运营商信息，以便进行精准营销和客户服务；在社交网络分析中，电话号码可以作为用户身份识别和关系挖掘的重要依据；在公共安全领域，电话号码的快速分析有助于案件侦破和紧急救援。然而，电话号码的格式在全球范围内存在较大差异，不同国家和地区有不同的编码规则和书写习惯。例如，
Python 爬虫实战：爬取网易公开课（课程列表解析 + 视频资源批量下载） Python核芯 Python爬虫实战项目 python 爬虫音视频网易
一、引言在数字化学习蓬勃发展的当下，网易公开课作为优质在线教育平台，汇聚了海量精品课程，涵盖科技、文化、艺术等多元领域，为求知者提供了便捷的学习渠道。然而，面对丰富的内容，手动逐一浏览、下载课程视频既耗时又低效，尤其对于想要系统学习特定领域知识的用户而言，亟需更高效的解决方案。Python爬虫技术凭借其强大的自动化数据获取能力，可轻松应对这一挑战，实现网易公开课课程列表的精准解析与视频资源的批量下
Python爬虫实战：使用Scrapy和Selenium高效爬取USPTO美国专利数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 开发语言 selenium 测试工具
引言在当今的知识经济时代，专利数据蕴含着巨大的商业和技术价值。美国专利商标局(USPTO)作为全球最大的专利数据库之一，收录了数百万项专利信息，这些数据对于企业竞争分析、技术趋势预测和学术研究都具有重要意义。本文将详细介绍如何使用Python构建一个高效、稳定的USPTO专利数据爬虫系统。一、USPTO专利数据库概述1.1USPTO数据库结构USPTO提供了多种访问专利数据的途径：专利全文和图像数
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

Python网络爬虫与信息提取学习

导入——课程全局

单元一 Requests库入门

1、HTTP协议及Requests库方法（SHD）

（1）HTTP协议

（2）Requests库的7个主要方法

2、Requests的get方法

（1）get方法

（2）Requests库的2个对象

（3）Response响应

3、Rquests库主要方法解析

（1）requests库的request方法

（2）request方法的13个控制参数

（3）requests库的其他方法

单元小结

单元二 网络爬虫“盗亦有道”

1、Robots协议

2、对robots协议理解

3、网络爬虫的约束

（1）网络爬虫的大小

（2）网络爬虫带来的问题

（3）网站维护者的约束方式

单元三 Requests库的5个实例

1、爬取京东商品页面

2、爬取亚马逊商品页面

（1）实例操作

（2）方法：定制请求头

3、向百度提交关键词

4、网络爬取图片及存储

5、IP地址归属地的自动查询

单元四 Beautiful Soup库入门

1、Beautiful Soup库的基本元素

（1）Beautiful Soup库的理解

（2）Beautiful Soup库的引用

（3）Beautiful Soup库解析器

2、基于bs4库的HTML格式化和编码

3、基于bs4库的HTML内容遍历方法

（1）HTML基本格式

（2）标签树的三种遍历方式

<1>下行遍历

<2>上行遍历

<3>平行遍历

<4>总结

单元五 信息组织与提取方法

1、基于bs4库的HTML内容查找方法

（1）<>.find_all方法

（2）其他方法

2、三种信息标记形式

（1）三种信息标记形式介绍与实例

（2）三种信息标记形式的比较

3、信息标记的三种形式

（1）信息标记

（2）HTML信息标记

（3）XML信息标记

（4）JSON信息标记

（5）YAML信息标记

4、信息提取的一般方法

（1）信息标记的两种方法及混用

（2）实例

实例1：中国大学排名爬取

（1）实例介绍

（2）功能描述

（3）网页分析

（4）结构设计

（5）实例代码

（6）实例优化：中文对齐问题

单元六 Re(正则表达式)库入门

1、正则表达式的概念

（1）正则表达式概念及实例

（2）正则表达式功能

（3）正则表达式的主要用途

2、正则表达式的语法

（1）基本语法

（2）常用操作符

（3）语法实例

（4）经典实例

3、Re库的基本使用

（1）正则表达式的表示类型

（2）Re库的6个主要功能函数

（3）面向对象的调用方法

单元二网络爬虫“盗亦有道”

单元五信息组织与提取方法

实例四股票数据Scrapy爬虫