梦平

Python网络爬虫与信息提取

掌握定向网络数据爬取和网页解析的基本能力
几个部分：
- Requests库的介绍，通过这个库克以自动爬取HTML页面，在网络上自动提交相关请求
- robots.txt协议，网络爬虫的规则，网络爬虫排除标准
- Beautiful Soup库，解析HTML页面提取相关信息
- 实战项目Projects：A/B，了解库以及相关操作
- Re正则表达式库：提取关键信息
- Sctapy：专业网络爬虫的框架，第三方库，中规模速度更快的。

常用的PythonIDE工具

文本工具类
- IDLE
  - 自带的、默认的、常用的、入门级工具
  - 包含两种交互式和文件式
- Sublime Text
  - 专门为程序员开发的第三方专用编程工具
  - 工具非注册免费使用
集成工具类
- wing
  - 公司委会，工具售给
  - 调试功能丰富
  - 版本控制，版本同步
  - 多人共同开发
- Visual Studio & PTVS
  - 微软公司维护
  - win环境为主
  - 调试功能丰富
- Eclipse & PyDev
  - 开源IDE开发工具
  - 需要有一定开发经验
- PyCharm
  - 社区版免费
  - 加单，集成度高
  - 适合较复杂较大的开发
- Canopy（科学计算数学分析）
  - 公司委会，工具收费
  - 支持近500个第三方库
  - 适合科学计算领域应用开发
- Anaconda（科学计算数学分析）
  - 开源免费
  - 支持近800个第三方库

网络爬虫

一、Requests库入门

特点：简单简洁，一行代码就可以获得相关信息

requests的安装方法

1.管理员权限启动cmd
2.输入pip install requests

requests库的七个主要方法

方法	说明
requests.request()	构造一个骑牛，支持一下各种方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HEEP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HEEP的DELETE

requests库中的get方法

1.通过r = requests.get(url)
Request对象：构造一个向服务器请求资源的Request对象（Requests库内部生成的）
Response对象：然后返回一个包含服务器资源的Response对象
2.r = requests.get(url，params=Node，** kwargs)
url:获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

** kwargs：12个控制访问的参数

3.Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成果，404表示连接失败
r.text	HTTP相应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP相应内容的二进制形式

r.encoding:如果header中不存在charset,自认为编码为ISO-8859-1

r.apparent_encoding:根据网页内容分析出的编码方式

Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
requests.raise_for_status()	如果不是200，产生异常requests.HTTPError

HTTP协议以及Requests库方法

HTTP协议
- HTTP，Hypertext Transfer Protocol，超文本传输协议，HTTP是一种基于“请求与响应”模式的、无状态的应用层协议。
  - 简单讲：用户发送请求，服务器返回响应。
  - 无状态：第一次与第二次之间没有关联
  - 应用层：该协议工作于HTP协议之上
- HTTP协议采用URL作为网络资源的标识
- URL格式：http://host[:post]_[path]
  - host：合法的Internet主机域名或IP地址
  - port：端口号，缺省端口为80
  - path：请求资源的路径
- HTTP URL实例：http://www.bit.edu.cn
- HTTP URL的理解：URL是ton过HTTP协议存取资源的一个Internet路径，一个URL对应一个数据资源
HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求花去URL位置资源额响应消息报告，即获得非自愿的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处位置的资源
DELETE	请求删除URL位置存储的资源

理解PATCH和PUT的区别

假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段。

需求：用户修改了UserName，其他不变

1.采用PATCH，进向URL提交UserName的局部更新请求

2.采用PUT，必须将所有20个字段一并提交到URL，未提交字段被删除

PATCH优点：节省网络带宽

HTTP协议与Requests库的方法是一致的
Requests库的head（）方法

r = requests.head('http://httpbin.org/get')
r.headers
#会有返回的信息，当执行
r.text
#没有返回信息，因为我们只获得了头部信息

Requests库的post（）方法

payload = {
     "key1":"vlaue1","key2":"value2"}
r = requests.post('http://httpbin.org/post',data=payload)
print(r.text)
#结果
{
     ...
 "form":{
     
   	"key2":"value2",
    "key1":"value1" 
 }, 
}
#向URL POST一个字典（或者键值对）自动编码为form（表单）
#如果提交一个字符串就会自动编码为data
r = requests.post('http://httpbin.org/post',data='ABC')
print(r.text)
#结果
{
     ...
    "data":"ABC"
 	"form":{
     },
}

Requests库中的put（）方法

与post（）方法效果不同，但是编码结果一样

Requests库主要方法解析

requests（method,url,**kwargs）方法
- 是所有方法的基础方法
- method：请求方式；对应get/put/post等7种
  - requests.request(‘GET’,url,**kwargs)
  - requests.request(‘HEAD’,url,**kwargs)
  - requests.request(‘POST’,url,**kwargs)
  - requests.request(‘PUT’,url,**kwargs)
  - requests.request(‘PATCH’,url,**kwargs)
  - requests.request(‘DELETE’,url,**kwargs)
  - requests.request(‘OPTIONS’,url,**kwargs),向服务器获取服务器和客户端打交道的参数，与获取资源并不直接相关。
- url：获取页面的url链接
- **kwargs：控制访问参数，13个
  - **开头表示可选的
  - params字典或字节序列，作为参数增加到url中
```
kv = {
         "key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
#结果
http://python123.io/ws?key1=value1&key2=value2
```
  - data:字典、字节序列或文件对象，作为Request的内容，主要是向服务器提交资源时使用
```
kv = {
         "key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',data=kv)
body="主体内容"
r = requests.request('POST','http://python123.io/ws',data=body)
#结果并不是放在url链接里面而是放在url链接对应位置的地方作为数据来存储
```
  - json：JSON格式的数据作为Request的内容
```
kv = {
         "key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)
```
  - headers:字典，HTTP定制头
```
hd={
         'user-agent':Chrome/10}
r = requests.request('POST','http://python123.io/ws',headers=hd)
```
  - cookies:字典或者CookieJar,Request中的cookie
  - auth：元组，支持HTTP认证功能
  - files：字典类型，传输文件
```
fs = {
         'file':open("data.xls","rb")}
r = requests.request("POST",http://python123.io/ws,files=fs)
```
  - timeout:设定的超时时间，以秒为单位
```
r = requests.request("GET",'http://www.baidu.com',timeout=10)
#在设定时间之内没有返回回来那么就会出现异常
```
  - proxies：字典类型，设定访问代理服务器，可以增加登录认证,防止对爬虫的你追踪，更换IP地址
```
pxs = {
         'http':'http://user:[email protected]:1234','https':'https://10.10.10.1:431'}
r = requests.request("GET",'http://www.baidu.com',proxies=pxs)
```
  - allow_redirects:True/False,默认为True，重定向开关，表示允不允许对URL进行重定向
  - stream：True/False,默认为True，是否对获取内容立即下载
  - verify：True/False,默认为True，认证SSL证书开关
  - cert：本地SSL证书路径
- requests.get(url,params=None,**kwargs)
  - url:获取页面的URL连接
  - params：url中的额外参数，字典或字节流格式，可选
  - **kwargs：12个控制访问的参数
- request.head(url,**kwargs)
- request.post(url,data=None,json=None,**kwargs)
- request.put(url,data=None,**kwargs)
- request.patch(url,data=None,**kwargs)
- request.delete(url,**kwargs)
- request.get(url,params=None,**kwargs)

单元小结

request入门
- requests.request()
- requests.get()：常用
- requests.head()：常用
由于网络安全的限制以下方法很难实行
- requests.post()
- requests.put()
- requests.patch()
- requests.delete()
爬取网页的通用代码框架

二、网络爬虫盗亦有道

网络爬虫引发的问题

网络爬虫的尺寸

小规模，数据量小爬取速度不敏感Requests库（占比90+%）	中规模，数据规模较大，爬取速度敏感，Scrapy库	大规模，搜索引擎爬取速度关键，定制开发
爬取网页，玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的“骚扰”

web服务器默认只接受人类的访问，爬虫速度快（百倍）获取资源。

受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。

法律风险

服务器上的数据有产权归属

网络爬虫获取数据后牟利将带来法律风险

网络爬虫泄露隐私

网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

网络爬虫的限制
- 来源审查：判断User-Agent进行限制（对网站的开发人员有一定的技术要求）
  - 检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问
- 发布公告：Robots协议（是否遵守有网络爬虫决定）
  - 告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots协议

Robots Exclusion Standard 网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，那些不行
形式：在网站的根目录下放置robots.txt文件（写了哪些可以爬那些不可以爬）
例子：京东的网络爬虫协议
User-agent: * 表示所有的爬虫都要遵循以下协议
Disallow: /?* 不允许访问以问号开头的路径
Disallow: /pop/.html 不允许访问/pop/.html
Disallow: /pinpai/.html? 符合这个通配符的也是不允许访问的
User-agent: EtaoSpider
Disallow: / 不允许爬取任何资源
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

Robots协议的遵守方式

Robots协议的使用
- 网络爬虫：自动或人工识别robots.txt,在进行内容爬取。
- Robots协议是建议单非约束性，网络爬虫可以不遵守，但是存在法律风险
对Robots协议的理解

访问量很小：可以遵守，访问量很大：建议遵守	非商业且偶尔：建议遵守，商业利益：必须遵守	必须遵守
爬取网页，玩转网页	爬取网站爬取系列网站	爬取全网

小程序，类似人类行为，可以不参考Robots协议，（访问次数少，访问量少）

三、Requests库爬取实例

实例1：京东商品页面的爬取

>>>import requests
>>> r = requests.get("https://item.jd.com/100012545852.html")
>>> r.status_code
>>> 200
>>> r.encoding
>>> 'UTF-8'
>>> r.text
>>> "undefined"

实例二亚马逊商品页面的爬取

>>> kv = {
     'user-agent':'Mozilla/5,0'}
>>> url = "https://www.amazon.cn/dp/B003L9T0YY/ref=s9_acsd_hps_bw_c2_x_1_t?pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-2&pf_rd_r=YTFCRRW6DCAZD4XRW329&pf_rd_t=101&pf_rd_p=4ac46f0a-16da-4ce2-ac3b-60fc19884e37&pf_rd_i=2328555071"
>>> r = requests.get(url,headers=kv)
>>> r.status_code
200
>>> r.request.headers
{
     'user-agent': 'Mozilla/5,0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
>>> r.text[:1000]
#结果

实例三百度/360搜索关键词提交

百度关键词接口：http://www.baidu.com/s?wd=keyword
360的关键词接口:http://www.so.com/s?q=keyword

>>> import requests
>>> kv ={
     'wd':'python'}
>>> r = requests.get("http://www.baidu.com/s",params = kv)
>>> r.status_code
200
>>>r.text
#结果

实例四：网络图片的爬取和存储

网络图片链接的格式：http://www.example.com/picture.jpg
右键属性获得图片的真实地址

>>> import requests
>>> path = "D:/abc.jpg"
>>> url="http://pic.sc.chinaz.com/files/pic/pic9/202005/zzpic24970.jpg"
>>> r = requests.get(url)
>>> r.status_code
200
>>> with open(path,"wb") as f:
	f.write(r.content)

	
78178
>>> f.close()

实例五：IP地址归属地的自动查询

em…这个例子要用到ip138的功能，然而好像有防爬取措施，所以导致例子不能用…

四、Beautiful soup 库

Beautiful soup库的安装

pip install beautifulsoup4

小例子

demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
print(soup.prettify())

Beautiful Soup库的基本元素

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
Beautiful Soup的引用：
- from bs4 import BeautifulSoup
- import bs4
HTML文档—标签树—BeautifulSoup类：一一对应
- BeautifulSoup对应一个HTML、XML文档的全部内容

Beautiful Soup库解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup（mk，“html.parser”）	安装bs4库
lxml的HTML的解析器	BeautifulSoup（mk，’lxml‘）	pip install lxml
lxml的XML的解析器	BeautifulSoup（mk，’xml‘）	pip install lxml
html5lib的解析器	BeautifulSoup（mk，’html5lib‘）	pip install html5lib

Beautiful Soup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和标明开头和结尾
Name	标签的名字， … 的名字的’p‘，格式：.name
Attributrs	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>…,格式：.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

Beautiful Soup库的理解

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iBcrGZol-1589700353604)(C:\Users\60917\AppData\Roaming\Typora\typora-user-images\1589452938575.png)]

基于bs4库的HTML内容遍历方法

HTML基本格式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eU3kAsEi-1589700353608)(C:\Users\60917\AppData\Roaming\Typora\typora-user-images\1589453166432.png)]

标签树的下行遍历

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

遍历所有子孙节点

for child in soup.body.children:
    print(child)
#遍历所有的子节点
for child in soup.body.descendants:
    print(child)
#遍历所有的子孙节点

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的平行遍历
- 条件：平行遍历发生在同一个父节点下的各节点间。

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点的标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点的标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前序所有平行节点标签

标签树的平行遍历

for sibling in soup.a.next_siblings:
    print(sibling)
#遍历后续节点    
for sibling in soup.a.previous_sibliings:
    pring(sibling)

小结：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bAXtGOgb-1589700353613)(C:\Users\60917\AppData\Roaming\Typora\typora-user-images\1589455735542.png)]

基于bs4库的HTML格式输出

如何让内容更加“友好”的显示

for bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
soup.prettify()
#这样就可以变得友好

编码：utf-8编码

Beautiful Soup库入门总结

bs4库的基本元素
- Tag
- Name
- Attributes
- NavigableString
- Comment
bs4库的遍历功能
- .contents：子节点（列表）
- .children:循环遍历
- .descendants：循环遍历
- .parent
- .parents
- .next_sibling
- .previous_sibling
- .next_siblings
- .previous_siblings

信息标记的三种形式

信息标记：理解信息内容。
HTML的信息标记
- HTML是WWW（World Wide Web）的信息组织方式
- 将超文本信息嵌入到文本之中
- HTML通过预定义的<>…标签形式组织不同类型的信息
信息标记的三种形式
- XML（扩展标记语言）
  - 标签Tag为主来表达信息
  - <>…和在中间没有内容的时候可以替换
  - 基于HTML的发展的一种通用的信息表达方式。
- JSON：javaScript Object Notation
  - 有类型的键值对key：value
  - “key”:“value”
  - “key”：[“value1”,“value2”]
  - “key”:{“subkey”:“subvalue”}
- YAML:YAML Ain’t Markup Language
  - 无类型的键值对
  - name：山东大学
  - name：（从属关系）
    
    newname：山东大学
    
    oldname：山东大学堂
  - name:（并列关系）
    
    -山东大学
    
    -山东大学堂
  - |表示整块数据 #表示注释

三种信息标记形式的比较

XML：一种用尖括号表达信息的方式

实例：

<person>
    <firestname>旋涡firestname>
    <lastname>鸣人lastname>
    <address>
        <streetAddr>某某街道某某号streetAddr>
    	<city>火忍村city>
        <zipcode>22222zipcode>
    address>
    <prof>忍者prof><prof>火影prof>
person>

JSON：一种拥有类型键值对表达信息的方式

实例

{
       
    "firstname":"旋涡"
    "lastname":"鸣人"
    "address":{
       
				"streetAddr":"某某"
    			"city":"火忍村"
    			"zipcode":"22222"
				},
	"prof"	:	["忍者","火影"]
}

YAML：一种无类型的键值对表达信息的方式

实例：

firstname:旋涡
lastname鸣人
address:
	streetAddr:某某
	city:火忍村
	zipcode:22222
prof:
	-火影
	-忍者

三种信息标记形式的比较
- XML 最早的通用信息标记语言，可扩展性号，但是繁琐。
- JSON 信息有类型，适合程序处理（JS），比XML简介
- YANL信息无类型，文本信息比例最高，可读性好。
- Internet上主要采用的是XML格式
- JSON移动应用云端和节点的信息通信，（缺陷）无注释。（程序对接口处理的地方）
- YAML 各类系统的配置文件，有注释易读

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。
- 用标记解析器解析XML、JSON、YAML格式，将其中所需要的信息提取出来。
- 例如：bs4库的标签树遍历
- 优点：信息解析准确
- 缺点：提取过程繁琐，速度慢
方法二：无视标记形式，所搜关键信息
- 对信息的文本查找函数即可
- 优点：提取过程简介，速度较快
- 缺点：提取结果准确性与信息内容相关
方法三：融合方法结合形式解析与搜索方法，提取关键信息
- XML JSON YANL搜索
- 需要表及解析器和文本查找函数

例子：

import requests
demo="网址"
r = requests.get(demo)
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('a'):
    pring(link.get('href'))

基于bs4库的HTML内容查找方法

<>.fand_all(name,attrs,recursive,string,**kwargs)方法
- 返回值类型是一个列表存储查找结果
- name：对标签名称的检索字符串
  - soup.find_all([‘a’,‘b’])
  - soup.find_all(True) 显示所有标签信息
  - 需求：查找以b开头的标签
```
import re
for tag in soup.find_all(re.compile('b')):
    print(tag.name)
```
- attrs:对标签属性值得检索字符串，可标注属性检索
- recursive:是否对子孙全部检索，默认True。
- string:<>…中字符串区域的检索字符串
- (…)等价于.find_all(…)
- soup(…)等价于soup.find_all(…)

方法	说明
<>.find()	搜索且只返回一个结果，字符串类型，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同.find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，字符串类型，同.find()参数
<>.find_previous_siblings()	在前序平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前序平行节点中返回一个结果，字符串类型，同.find()参数

单元小结

信息标记与提取方法
- XML <>…
- JSON 有类型key：value
- YAML 无类型key：value
信息提取的一般方法
缩写形式

“中国大学排名定向爬虫”实例介绍

思路：
- 1.首先要获取页面信息
- 2.然后找到自己需要的信息内容，把他放到一个数据结构中
- 3.最后用数据结构将他们打印出来

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return " "
def fillUnivList(ulist,html):
    soup = BeautifulSoup(html , "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr , bs4.element.Tag):#作用是排除string中的tr
            tds = tr('td')    
            ulist.append([tds[0].string,tds[1].string,tds[4].string]) 

def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"#用第三个来进行填充
    print(tplt.format("排名","学校名称","分数",chr(12288)))#chr（12288）中文空格
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
        
def main():
    uinfo = []
    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html"
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)
    
main()

五、正则表达式

正则表达式的简介

正则表达式 regular expression regex RE

正则表达式是用来简洁表达一组字符串的表达式

表达

’PN‘

’PYN‘ 正则表达式：

’PYTN‘ 等价于 P(Y|YT|YTH|YTHO)?N

‘PYTHN‘

’PYTHON‘

表达无穷字符串组

‘PY’

‘PYY’ 等价于PY+

‘PYYY…’

’PY‘开头

后续存在不多于10个字符

后续字符不能是’P‘或’Y‘ 等价于PY[^PY]{0，10}

正则表达式
- 通用的字符串表达框架
- 简洁表达一组字符串的表达式
- 针对字符串表达“简洁”和“特征”思想的工具
- 判断某字符串的特征归属
正则表达式在文本处理中十分常用
- 表达文本类型的特征（病毒、入侵）
- 同时查找或替换一组字符串
- 匹配字符串的全部或者部分（主要）
正则表达式的使用
- 编译：将符合正则表达是语法的字符串转换成正则表达式特征

正则表达式的语法

正则表达式是由字符和操作符组成

操作符	说明	实例
.	表示任何单字符
[]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a-z]表示a到z单个字符
[^]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc*表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+表示abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc？表示ab、abc
\|	左右表达式任意一个	abc\|def表示abc、def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m，n}	扩展前一个字符m至n次（含n）	ab{1,2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
（）	分组标记，内部只能使用\|操作符	（abc）表示abc，（abc\|def）表示abc，def
\d	数字等价于[0-9]
\w	单词制度等价于[A-Za-z0-9_]

正则表达式	对应字符串
P（Y\|YT\|YTH\|YTHO）？N	’PN‘、’PYN‘、’PYTN‘、‘PYTHN’、’PYTHON‘
PYTHON+	’PYTHON‘、’PYTHON…‘
PY[TH]ON	‘PYTON’、’PYHON‘
PY[’’^'TH]?ON(没有引号)	’PYON‘、’PYaON‘…
PY{:3}N	‘PN’、’PYYYN‘

经典的正则表达式

正则表达式	对应字符串
¹+$	由26个字母组成的字符串
²+$	由26个字母和数字的字符串整数形式的字符串整数形式的字符串
^-?\d+$	整数形式的字符串
³* [1-9]’’[0-9] *$(没有引号)	正整数形式的字符串
[1-9]\d{5}	中国境内邮政编码
[\u4e00-\u9fa5]	匹配中文字符
\d{3}-\d{8}\|\d{4}-\d{7}	国内电话号码

匹配IP地址的正则表达式

\d+.\d+.\d+.\d

\d{1:3}.\d{1:3}.\d{1:3}.\d{1:3}

精确版

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

RE库的基本使用

Python的标准库，主要用于字符匹配
调用方法 import re
正则表达式的表示类型
- raw string 类型（原生字符串类型）
  - r’text‘形式：r’[1-9]\d{5}‘
  - 不包含转义符的字符串
- string类型，更繁琐
  - r’[1-9]\d{5}‘=’[1-9]\\d{5}’(两个斜杠)

函数	说明
re.serach()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象简单讲：就是搜索找到第一个一样的地方
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

re.search(pattern,string,flags=0)
- 在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
  - pattern：正则表达式的字符串或原生字符串表示
  - string：待匹配字符串
  - flags：正则表达式使用时的控制标记

常用标记	说明
re.I re.IGNORECASE	忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE	正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL	正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

re.match(pattern,string,flags=0)
- 从一个字符串开始位置起匹配正则表达式，返回match对象。
  - pattern：正则表达式的字符串或原生字符串表示
  - string：待匹配字符串
  - flags：正则表达式使用时的控制标记
re.findall(pattern,string,flags=0)
- 搜索字符串，以列表类型返回全部能匹配的子串。
  - pattern：正则表达式的字符串或原生字符串表示
  - string：待匹配字符串
  - flags：正则表达式使用时的控制标记
re.split(pattern,string,maxsplit=0,flags=0)
- 将一个字符串按照正则表法师匹配结果进行分割，返回列表类型
  - pattern：正则表达式的字符串或原生字符串表示
  - string：待匹配字符串
  - maxsplit：最大分隔数，剩余元素作为最后一个元素输出
  - flags：正则表达式使用时的控制标记
re.finditer(pattern,string,flags=0)
- 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
  - pattern：正则表达式的字符串或原生字符串表示
  - string：待匹配字符串
  - flags：正则表达式使用时的控制标记
re.sub(pattern,repl,string,count=0,flags=0)
- 在一个字符串中替换搜有匹配正则表达式的子串，返回替换后的字符串。
  - pattern：正则表达式的字符串或原生字符串表示
  - repl:替换匹配字符串的字符串
  - string：待匹配字符串
  - count:最大替换次数
  - flags：正则表达式使用时的控制标记
regex = re.compile(pattern,falgs=0)
- 将正则表达式的字符串形式编译成正则表达式对象。
  - pattern：正则表达式的字符串或原生字符串表示
  - flags：正则表达式使用时的控制标记

Re库的match对象

一次匹配的结果，包含了很多匹配的相关信息。
match对象的属性

属性	说明
.string	待匹配的文本
.re	匹配时的正则表达式
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置

match对象的方法

方法	说明
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始位置的结束位置
.span()	返回（.start(),.end()）

Re库的贪婪匹配和最小匹配

match = re.search(r'PY.*N','PYASDASNSAN')
match.group(0)

返回结果？ Re库默认采用贪婪匹配的方式

贪婪匹配

Re库默认采用贪婪匹配，即输出匹配最长的子串

最小匹配？怎么办？

match = re.search(r'PY.*?N','PYANASDAAN')
match.group(0)

这样的返回结果就是

’PYAN‘

操作符	说明
*？	前一个字符0次或无限次扩展，最小匹配
+？	前一个字符1次或无限次扩展，最小匹配
？？	前一个字符0次或1次扩展，最小匹配·
{m,n}？	扩展前一个字符m至n（含n），最小匹配

单元小结

正则表达式是用来简洁表达一组字符串的表达式
正则表达式六个函数

实例淘宝商品比价定向爬虫

目标：获取淘宝搜索页面的信息，提取其中商品的名称和价格
理解：
- 获得淘宝的搜索接口
- 翻页的处理

import requests
import re

def getHTMLText(url):
    kv = {
     'cookie':'':'Mozilla/5,0'}
    #缺少cookie可以看我的另一篇博客
    try:
        r = requests.get(url,headers=kv,timeout=30)
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("")

def printGoodsList(ilt):
    tplt = "\t{:^4}{:^8}\t{:^16}" 
    count = 0
    print(tplt.format("序号",'价格','名称'))
    for i in ilt:
        count = count + 1
        print(tplt.format(count,i[0],i[1]))
        
def main():
    goods='书包'
    depth = 2
    infoilt = []
    start_url = 'https://s.taobao.com/search?q='+goods
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHTMLText(url)
            parsePage(infoilt,html)
        except:
            continue
    printGoodsList(infoilt)
    
main()

实例股票数据定向爬虫

目的：获得上交所和深交所所有股票的名称和交易信息。

程序设计步骤

步骤一：从东方财富网获取股票列表

步骤二：根据股票列表逐个到百度股票获取个股信息

步骤三：将结果存储到文件

import requests
from bs4 import BeautifulSoup
import traceback
import re
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def getStockList(lst,stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html,'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            temp = re.findall(r'[1]\d{6}',href)[0]
            if temp not in lst:
                lst.append(temp)
        except:
            continue
    
        
def getStockInfo(lst,stockURL,fpath):
    for stock in lst:
        url = stockURL + stock +'.html'
        html = getHTMLText(url)
        try:
            if html =="":
                continue
            infoDict = {
     }
            soup = BeautifulSoup(html,'html.parser')
            stockInfo = soup.find('div',attrs={
     'class':'relate_stock clearfix'})

            info = stockInfo.find('script')
            str1 = info.string.replace(" ","")
            infolist = re.findall(r'.*\:\'.*\'',str1)
            for i in infolist:
                try:
                    key,value=str(i).split(':')
                    infoDict[key]=eval(value)
                except:
                    continue
            with open(fpath,'a',encoding='utf-8') as f:
                f.write(str(infoDict)+'\n')
            
        except:
            traceback.print_exc()
            continue

def main():
    stock_list_url = "http://quotes.money.163.com/data/caibao/yjyg_00.html"
    stock_info_url = "http://quotes.money.163.com/"
    output_file = 'D://gubiao.txt'
    slist = []
    getStockList(slist,stock_list_url)
    getStockInfo(slist,stock_info_url,output_file)
   
main()

实例优化

已知网页编码

def getHTMLText(url,code='utf-8'):
    try:
        r = requests.get(url,timeout=30)
        r.encoding = code
        return r.text
    except:
        return ""

A-Za-z ↩︎
A-Za-z0-9 ↩︎
0-9 ↩︎

你可能感兴趣的:(Python,python,正则表达式)

Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
README.md 自动生成目录小段hy 前端框架
1.安装依赖npminstalltreer-g2.基本用法进入所要生成目录的文件夹终端，输入treer-eREADME.md生成的文件目录3.此时会把所有的子目录都生成，如果去掉，可以利用正则表达式，如treer-eREADME.md-i/.js/二、treer用法介绍1.指定目录默认的目录为当前的路径，可以通过-d传入指定的路径treer-d2.导出结果可以将结果导到文件中treer-e3.忽略
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班后端
最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Linux egrep 命令使用详解 linux
简介egrep（扩展GREP）命令是grep的一个变体，支持扩展正则表达式。它在功能上等同于grep-E。基础语法egrep[OPTIONS]PATTERN[FILE...]或grep-E[OPTIONS]PATTERN[FILE...]示例用法在文件中查找包含“error”的所有行egrep"error"logfile.txt大小写不敏感搜索egrep-i"error"logfile.txt使用
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

Python网络爬虫与信息提取

Python网络爬虫与信息提取

常用的PythonIDE工具

网络爬虫

一、Requests库入门

requests的安装方法

requests库的七个主要方法

requests库中的get方法

Requests库的异常

HTTP协议以及Requests库方法

Requests库主要方法解析

单元小结

二、网络爬虫盗亦有道

网络爬虫引发的问题

Robots协议

Robots协议的遵守方式

三、Requests库爬取实例

实例1：京东商品页面的爬取

实例二 亚马逊商品页面的爬取

实例三百度/360搜索关键词提交

实例四：网络图片的爬取和存储

实例五：IP地址归属地的自动查询

四、Beautiful soup 库

Beautiful soup库的安装

小例子

Beautiful Soup库的基本元素

Beautiful Soup库解析器

Beautiful Soup类的基本元素

Beautiful Soup库的理解

基于bs4库的HTML内容遍历方法

基于bs4库的HTML格式输出

Beautiful Soup库入门总结

信息标记的三种形式

三种信息标记形式的比较

信息提取的一般方法

基于bs4库的HTML内容查找方法

单元小结

“中国大学排名定向爬虫”实例介绍

五、正则表达式

正则表达式的简介

正则表达式的语法

RE库的基本使用

Re库的match对象

Re库的贪婪匹配和最小匹配

单元小结

实例淘宝商品比价定向爬虫

实例股票数据定向爬虫

实例优化

你可能感兴趣的:(Python,python,正则表达式)

实例二亚马逊商品页面的爬取