苏怡&

python爬虫（上课笔记）

爬虫概述

爬虫：网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。其本质就是通过编写程序拟浏览器上网，抓取数据的过程。

爬虫特点

在法律中都是不被禁止的；
具有违法风险；
爬虫是一个博弈的过程（反爬机制、反反爬策略）
robots协议：规定了网站中哪些数据可以被爬取哪些数据不可以被爬取，属于一个君子协议。

爬虫分类

按照系统结构和实现技术，大致可以分为以下几种类型：

通用爬虫：通常抓取互联网整张页面数据；
聚焦爬虫：选择性地爬取与预定主题相关的网络爬虫；
增量式爬虫：监测网站中数据的更新情况，通常只抓取网站中最新更新的数据；
深层网络爬虫：通常通过关键字检索获取内容。

名称	场景	特点	缺点
通用网络爬虫	门户站点搜索引擎、大型Web服务提供商采集数据	爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式，爬取互联网上的所有数据	爬虫速度和存储空间要求高、刷新页面的时间长
聚焦网络爬虫	又称主题网络爬虫，只爬行特定的数据，商品比价	极大节省了硬件和网络资源，页面更新快
增量式网络爬虫	只抓取刚刚更新的数据	数据下载量少，及时更新已爬行的网页，减少时间可空间上的耗费、爬取到的都是最新页面	增加了爬行算法的复杂度和实现难度
深层网络爬虫		大部分内容不能通过静态链接获取，隐藏在搜索表单后，用户提交一些关键词才能获得

按实现方式，大致可以分为以下几种类型：

服务器渲染爬虫：在服务器直接把数据和html整合在一起，统一返回浏览器（在页面中可以看到数据）
客户端渲染爬虫：第一请求只返回html框架、第二次请求拿到数据，进行数据展示（在页面源码中，看不到数据）

http协议

超文本传输协议(http协议)是一个简单的请求-响应协议，它通常运行在TCP协议之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。

http请求

请求消息包括以下格式：请求行（request line）、请求头部（header）、空行和请求数据四个部分组成，常用的请求方式包括get请求和post请求。

get请求

GET / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Connection: keep-alive
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8

post请求

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

开发中常用请求头属性

请求头属性	描述
Host	服务器地址
User-Agent	请求载体的身份标识
Connection	请求完毕后，是断开连接还是保持连接

get和post区别

get提交的数据会放在URL之后（以?分割），参数之间以&相连；post方法是把提交的数据放在HTTP包的Body中
get提交的数据大小有限制（因为浏览器对URL的长度有限制）；post提交的数据没有限制
get提交数据，会带来安全问题；post相对安全

http响应

一般情况下，服务器接收并处理请求后会返回一个响应消息。HTTP响应由四个部分组成：状态行、消息报头、空行和响应正文

开发中常用响应头属性

响应头属性	描述
Content-Type	服务器响应给客户端的数据类型

响应状态码

状态码	描述
200	客户端请求成功
400	客户端请求有语法错误，不能被服务器所理解
401	请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用
403	服务器收到请求，但是拒绝提供服务
404	请求资源不存在，或输入了错误的URL
500	服务器发生不可预期的错误
503	服务器当前不能处理客户端的请求，一段时间后可能恢复正常

爬虫库/框架

请求库

模块/框架	描述
urllib	urllib库用于操作网页 URL，并对网页的内容进行抓取处理。操作较为复杂，缺少实用的高级功能
requests	在urllib基础上进行封装，提供更加便捷的方法
selenium	自动化测试框架，解决requests无法执行javaScript代码的问题

解析库

模块/框架	描述
Beautiful Soup	功能强大的html解析库，整合了一些常用爬虫功能。
lxml	xpath解析库

爬虫框架

框架	描述
Scrapy	强大的爬虫框架，可以满足绝大多数爬虫需求

requests库

requests概述

requests模块是一款基于网络请求的python三方库，具有功能强大，简单便捷，效率较高的特点。其功能在于模拟浏览器发请求。

requests模块安装

pip install requests -i https://pypi.doubanio.com/simple

爬虫实现步骤

指定url
基于requests模块发送请求
获取服务器响应数据
持久化存储

第一个爬虫程序（抓取百度首页）

# 导入request模块
import requests

# 1、确定抓取网站网址
url = "https://www.baidu.com/"
# 2、通过requests模块发送请求
response = requests.get(url)
# 3、获取服务器响应
page_text = response.text
print(page_text)
# 4、持久化存储
with open("../files/baidu.html", mode="w", encoding="utf-8") as fp:
    fp.write(page_text)

常用属性/方法

请求属性/方法

属性/方法	描述
requests.get(url,[params],[headers])	get请求函数，实现get请求
requests.post(url,[data],[headers])	post请求函数，实现post请求

响应属性/方法

属性	描述
response.encoding	编码方式
response.text	Unicode型数据
response.content	字节型数据（二进制）
status_code	状态码
response.cookies	cookies值
response.headers	响应头信息
response.request.headers	请求头信息
方法	描述
response.json()	获取json数据

常用属性使用

import requests

# 1、确定抓取网站网址
url = "https://www.baidu.com/"
# 2、通过requests模块发送请求
response = requests.get(url)
response.encoding = 'utf-8'

# 3、获取服务器响应
print(response.text) # 响应文本
print(response.status_code)  # 200
print(response.url)  # https://www.baidu.com/
print(response.encoding)  # utf-8
print(response.cookies)  # ]>
print(response.headers)  # 响应头信息
print(response.headers.get("Content-Type"))
print(response.request.headers)  # 请求头信息
print(response.request.headers.get("User-Agent"))

requests实例

按请求方式的不同，requests抓取数据请求方式分为：get请求、post请求、异步请求、接口API请求等。

搜狗关键字查询（get）

# 导入request模块
import requests

# 1、确定抓取网站网址
url = "https://www.sogou.com/web?query=大数据"

header= {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

# 2、通过responses模块发送请求
response = requests.get(url, headers=header)
response.encoding = "utf-8"

# 3、获取服务器响应
page_text = response.text
print(page_text)

百度翻译（post | 异步）

import requests

# 1、确定抓取网站网址
url = "https://fanyi.baidu.com/sug"
data = {
    "kw": "dog"
}
header = {
    "User-Agent": "Mozilla/5.c0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

# 2、通过responses模块发送请求
response = requests.get(url, data=data, headers=header)
response.encoding = "utf-8"

# 3、获取服务器响应
page_json = response.json()
print(page_json)

API接口访问

接口名称	接口地址
免费API	http://api.wpbom.com/
木小果API	https://api.muxiaoguo.cn/
韩小韩API接口站	https://api.vvhan.com/
ALAPI	http://www.alapi.cn/
Sky▪API	https://api.6vzz.com/

import requests

url = "https://jsonplaceholder.typicode.com/posts"
resp = requests.get(url)
print(resp.json())  # 接口通常返回json格式数据

豆瓣电影信息抓取（异步数据）

import requests

url = "https://movie.douban.com/j/search_subjects"

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

params = {
    "type": "movie",
    "tag": "热门",
    "page_limit": "50",
    "page_start": "0"
}

resp = requests.get(url, headers=header, params=params)
resp.encoding = "utf-8"
data = resp.json()
resp.close()
print(data)

抓取豆瓣喜剧片前200条记录

import requests
import time

url = "https://movie.douban.com/j/chart/top_list"

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

params = {
    "type": "24",
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": "20"
}

def download_douban(page_num):
    movie_list = []
    for i in range(page_num):
        params['start'] = str(20 * i)
        resp = requests.get(url, headers=header, params=params)
        resp.encoding = "utf-8"
        data = resp.json()
        resp.close()
        movie_list.extend(data)
        print(f"第{i + 1}页下载完成！")
        time.sleep(2)
    return movie_list

info_list = download_douban(3)
print(info_list)
print(len(info_list))

requests爬虫练习题

抓取搜狗主页（https://www.sogou.com/）
搜狗搜索关键词（搜索关键词由用户指定）
抓取纺专主页（https://www.cdtc.edu.cn/）
爬取【豆瓣电影分类排行榜 - 喜剧片】前200条记录信息（https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=）
图片下载（http://img.netbian.com/file/2020/1028/c17345a23b00d07044d835c193d10a49.jpg）

数据解析

数据解析即从获取的html页面内容中获取指定标签属性或标签文本的过程。

解析方式	描述
正则式	存在难以构造、可读性差的问题，速度最快
BeautifulSoup	容易构造和理解，文档容错能力较强
XPath	通用性较强，效率与速率适中

正则式

分组命名

import re

str = """

    title1
    hello


    title2
    world

"""

# regex = '.*?(.*?)
.*?(.*?)
.*?
'
# result = re.findall(regex,str,re.S)
# print(result)

regex = '.*?(?P.*?)</h2>.*?<p>(?P<content>.*?)</p>.*?</div>'</span>
result2 <span class="token operator">=</span>re<span class="token punctuation">.</span>finditer<span class="token punctuation">(</span>regex<span class="token punctuation">,</span><span class="token builtin">str</span><span class="token punctuation">,</span>re<span class="token punctuation">.</span>S<span class="token punctuation">)</span>
<span class="token keyword">for</span> obj <span class="token keyword">in</span> result2<span class="token punctuation">:</span>
    <span class="token keyword">print</span><span class="token punctuation">(</span>obj<span class="token punctuation">.</span>group<span class="token punctuation">(</span><span class="token string">"title"</span><span class="token punctuation">)</span><span class="token punctuation">)</span> <span class="token comment"># 通过名字获取值</span>

    info_dict <span class="token operator">=</span> obj<span class="token punctuation">.</span>groupdict<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token comment"># 根据?P<key> 将分组生成字典</span>
    <span class="token keyword">print</span><span class="token punctuation">(</span>info_dict<span class="token punctuation">.</span>values<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">,</span><span class="token builtin">type</span><span class="token punctuation">(</span>info_dict<span class="token punctuation">.</span>values<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">)</span><span class="token punctuation">)</span> <span class="token comment"># dict_values(['title1', 'hello'])  <class 'dict_values'></span></code></pre> 
  <blockquote> 
   <p>若后期对获取的分组进行加工，使用finditer()更合适</p> 
  </blockquote> 
  <p><strong>获取指定内容</strong></p> 
  <pre><code class="prism language-python"><span class="token comment"># 提取<div id="first"></div>中所用<h2>和<p>元素之间的内容</span>
<span class="token keyword">import</span> re

<span class="token builtin">str</span> <span class="token operator">=</span> <span class="token triple-quoted-string string">"""
    <div id="first">
        <div class="info">
            <h2>title_first_1</h2>
            <p>content_first_1</p>
        </div>
        <div class="info">
             <h2>title_first_2</h2>
            <p>content_first_2</p>
        </div>
    </div>
    <div id="second">
        <div class="info">
            <h2>title_second_1</h2>
            <p>content_second_1</p>
        </div>
        <div class="info">
            <h2>title_second_2</h2>
            <p>content_second_2</p>
        </div>
    </div>
"""</span>

<span class="token comment"># 先找到重复部分</span>
info <span class="token operator">=</span> re<span class="token punctuation">.</span>search<span class="token punctuation">(</span><span class="token string">'<div id="first">(.*)</div>.*?<div id="second">'</span><span class="token punctuation">,</span> <span class="token builtin">str</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>S<span class="token punctuation">)</span>

<span class="token comment"># 再对内容进行提取</span>
result <span class="token operator">=</span> re<span class="token punctuation">.</span>findall<span class="token punctuation">(</span><span class="token string">'<div class="info">.*?<h2>(.*?)</h2>.*?<p>(.*?)</p>.*?</div>'</span><span class="token punctuation">,</span>info<span class="token punctuation">.</span>group<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">,</span>re<span class="token punctuation">.</span>S<span class="token punctuation">)</span>
<span class="token keyword">print</span><span class="token punctuation">(</span>result<span class="token punctuation">)</span></code></pre> 
  <blockquote> 
   <p>采用正则式进行匹配时，先分析页面规律（找到重复部分），然后采用re模块进行数据提取</p> 
  </blockquote> 
  <p><strong>爬取豆瓣Top250</strong></p> 
  <pre><code class="prism language-python"><span class="token keyword">import</span> requests
<span class="token keyword">import</span> re
<span class="token keyword">import</span> csv

url <span class="token operator">=</span> <span class="token string">"https://movie.douban.com/top250"</span>

header <span class="token operator">=</span> <span class="token punctuation">{</span>
    <span class="token string">"User-Agent"</span><span class="token punctuation">:</span> <span class="token string">"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"</span>
<span class="token punctuation">}</span>

params <span class="token operator">=</span> <span class="token punctuation">{</span>
    <span class="token string">"start"</span><span class="token punctuation">:</span> <span class="token string">"0"</span><span class="token punctuation">,</span>
    <span class="token string">"filter"</span><span class="token punctuation">:</span> <span class="token string">""</span>
<span class="token punctuation">}</span>

resp <span class="token operator">=</span> requests<span class="token punctuation">.</span>get<span class="token punctuation">(</span>url<span class="token punctuation">,</span> headers<span class="token operator">=</span>header<span class="token punctuation">,</span> params<span class="token operator">=</span>params<span class="token punctuation">)</span>
resp<span class="token punctuation">.</span>encoding <span class="token operator">=</span> <span class="token string">"utf-8"</span>
page_text <span class="token operator">=</span> resp<span class="token punctuation">.</span>text
regex <span class="token operator">=</span> <span class="token string">'<li>.*?<div class="hd">.*?<span class="title">(?P<name>.*?)</span>.*?<br>.*?(?P<year>.*?) '</span> \
        <span class="token string">'.*?<span property="v:best" content="10.0"></span>.*?<span>(?P<person_num>.*?)人评价</span>'</span>

<span class="token comment"># csv文件写入（newline=''处理windows下多出空行问题）</span>
fp <span class="token operator">=</span> <span class="token builtin">open</span><span class="token punctuation">(</span><span class="token string">"../files/info.csv"</span><span class="token punctuation">,</span> mode<span class="token operator">=</span><span class="token string">"w"</span><span class="token punctuation">,</span> encoding<span class="token operator">=</span><span class="token string">"utf-8"</span><span class="token punctuation">,</span> newline<span class="token operator">=</span><span class="token string">''</span><span class="token punctuation">)</span>
csvwriter <span class="token operator">=</span> csv<span class="token punctuation">.</span>writer<span class="token punctuation">(</span>fp<span class="token punctuation">)</span>

movie_iter <span class="token operator">=</span> re<span class="token punctuation">.</span>finditer<span class="token punctuation">(</span>regex<span class="token punctuation">,</span> page_text<span class="token punctuation">,</span> re<span class="token punctuation">.</span>S<span class="token punctuation">)</span>
<span class="token keyword">for</span> movie <span class="token keyword">in</span> movie_iter<span class="token punctuation">:</span>
    <span class="token comment"># print(movie.group(1))</span>
    <span class="token comment"># print(movie.group(2).strip())</span>
    <span class="token comment"># print(movie.group(3))</span>
    dicts <span class="token operator">=</span> movie<span class="token punctuation">.</span>groupdict<span class="token punctuation">(</span><span class="token punctuation">)</span>
    dicts<span class="token punctuation">[</span><span class="token string">'year'</span><span class="token punctuation">]</span> <span class="token operator">=</span> dicts<span class="token punctuation">[</span><span class="token string">'year'</span><span class="token punctuation">]</span><span class="token punctuation">.</span>strip<span class="token punctuation">(</span><span class="token punctuation">)</span>
    <span class="token comment"># print(dicts.values())</span>
    csvwriter<span class="token punctuation">.</span>writerow<span class="token punctuation">(</span>dicts<span class="token punctuation">.</span>values<span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">)</span>
fp<span class="token punctuation">.</span>close<span class="token punctuation">(</span><span class="token punctuation">)</span></code></pre> 
  <p>抓取电影天堂中【迅雷电影资源】所列电影的下载地址</p> 
  <pre><code class="prism language-python"><span class="token comment"># https://dytt8.net/index2.htm</span>
<span class="token keyword">import</span> requests
<span class="token keyword">import</span> re

url <span class="token operator">=</span> <span class="token string">"https://dytt8.net/index2.htm"</span>

header <span class="token operator">=</span> <span class="token punctuation">{</span>
    <span class="token string">"User-Agent"</span><span class="token punctuation">:</span> <span class="token string">"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"</span>
<span class="token punctuation">}</span>

params <span class="token operator">=</span> <span class="token punctuation">{</span>

<span class="token punctuation">}</span>

resp <span class="token operator">=</span> requests<span class="token punctuation">.</span>get<span class="token punctuation">(</span>url<span class="token punctuation">,</span> headers<span class="token operator">=</span>header<span class="token punctuation">,</span> params<span class="token operator">=</span>params<span class="token punctuation">)</span>
resp<span class="token punctuation">.</span>encoding <span class="token operator">=</span> <span class="token string">"gb2312"</span>
page_text <span class="token operator">=</span> resp<span class="token punctuation">.</span>text

<span class="token comment"># 获取电影名和电影详情页地址</span>
movie_list <span class="token operator">=</span> <span class="token punctuation">[</span><span class="token punctuation">]</span>
movie_iter <span class="token operator">=</span> re<span class="token punctuation">.</span>finditer<span class="token punctuation">(</span><span class="token string">"最新电影下载</a>]<a href='(?P<address>.*?)'>(?P<name>.*?)</a><br/>"</span><span class="token punctuation">,</span> page_text<span class="token punctuation">,</span> re<span class="token punctuation">.</span>S<span class="token punctuation">)</span>
<span class="token keyword">for</span> movie <span class="token keyword">in</span> movie_iter<span class="token punctuation">:</span>
    dicts <span class="token operator">=</span> movie<span class="token punctuation">.</span>groupdict<span class="token punctuation">(</span><span class="token punctuation">)</span>
    dicts<span class="token punctuation">[</span><span class="token string">'address'</span><span class="token punctuation">]</span> <span class="token operator">=</span> <span class="token string">"https://dytt8.net"</span> <span class="token operator">+</span>  dicts<span class="token punctuation">[</span><span class="token string">'address'</span><span class="token punctuation">]</span>
    movie_list<span class="token punctuation">.</span>append<span class="token punctuation">(</span>dicts<span class="token punctuation">)</span>

<span class="token comment"># 到请求也获取下载地址</span>
<span class="token keyword">for</span> obj <span class="token keyword">in</span> movie_list<span class="token punctuation">:</span>
    resp_son <span class="token operator">=</span> requests<span class="token punctuation">.</span>get<span class="token punctuation">(</span>obj<span class="token punctuation">.</span>get<span class="token punctuation">(</span><span class="token string">"address"</span><span class="token punctuation">)</span><span class="token punctuation">,</span> headers<span class="token operator">=</span>header<span class="token punctuation">,</span> params<span class="token operator">=</span>params<span class="token punctuation">)</span>
    resp_son<span class="token punctuation">.</span>encoding <span class="token operator">=</span> <span class="token string">"gb2312"</span>
    sonpage_text <span class="token operator">=</span> resp_son<span class="token punctuation">.</span>text
    movie_link <span class="token operator">=</span> re<span class="token punctuation">.</span>search<span class="token punctuation">(</span><span class="token string">'◎简　　介.*?<a target="_blank" href="(.*?)"><strong>'</span><span class="token punctuation">,</span>sonpage_text<span class="token punctuation">,</span>re<span class="token punctuation">.</span>S<span class="token punctuation">)</span><span class="token punctuation">.</span>group<span class="token punctuation">(</span><span class="token number">1</span><span class="token punctuation">)</span>
    obj<span class="token punctuation">[</span><span class="token string">'address'</span><span class="token punctuation">]</span> <span class="token operator">=</span> movie_link
    <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string-interpolation"><span class="token string">f"</span><span class="token interpolation"><span class="token punctuation">{</span>obj<span class="token punctuation">.</span>get<span class="token punctuation">(</span><span class="token string">'name'</span><span class="token punctuation">)</span><span class="token punctuation">}</span></span><span class="token string">下载完成"</span></span><span class="token punctuation">)</span>

<span class="token keyword">print</span><span class="token punctuation">(</span>movie_list<span class="token punctuation">)</span></code></pre> 
  <h3>BeautifulSoup</h3> 
  <h4>概述</h4> 
  <p>BeautifulSoup是一个从html字符串提取数据的工具。BeautifulSoup特点包括以下几个方面：</p> 
  <ul> 
   <li>API简单，功能强大</li> 
   <li>自动实现编码转换（自动将输入文档转为Unicode类型，将输出文档转为utf-8编码）</li> 
   <li>支持多种解析器（通常使用lxml解析器，若遇到一些无法使用lxml解析器解析的网站，使用html5lib解析器）</li> 
  </ul> 
  <table> 
   <thead> 
    <tr> 
     <th align="center">解析器</th> 
     <th align="center">使用方法</th> 
     <th align="center">优势</th> 
     <th align="center">劣势</th> 
    </tr> 
   </thead> 
   <tbody> 
    <tr> 
     <td align="center">Python标准库</td> 
     <td align="center">soup = BeautifulSoup(page_text,“html.parser”)</td> 
     <td align="center">pthon内置标准库；执行速度适中</td> 
     <td align="center">容错能力较差</td> 
    </tr> 
    <tr> 
     <td align="center"><strong>lxml HTML解析器</strong></td> 
     <td align="center">soup = BeautifulSoup(page_text,“lxml”)</td> 
     <td align="center">速度快；文档容错能力强</td> 
     <td align="center">需要安装C语言库</td> 
    </tr> 
    <tr> 
     <td align="center">lxml XML解析器</td> 
     <td align="center">soup = BeautifulSoup(page_text,“xml”)</td> 
     <td align="center">速度快；唯一支持XML的解析器</td> 
     <td align="center">需要安装C语言库</td> 
    </tr> 
    <tr> 
     <td align="center">html5lib</td> 
     <td align="center">soup = BeautifulSoup(page_text,“html5lib”)</td> 
     <td align="center">容错性好；像浏览器一样解析html；不依赖外部扩展库；</td> 
     <td align="center">速度慢</td> 
    </tr> 
   </tbody> 
  </table> 
  <p><strong>BeautifulSoup安装</strong></p> 
  <pre><code class="prism language-python">pip install bs4 <span class="token operator">-</span>i https<span class="token punctuation">:</span><span class="token operator">//</span>pypi<span class="token punctuation">.</span>doubanio<span class="token punctuation">.</span>com<span class="token operator">/</span>simple
    
<span class="token comment">#使用lxml解析器进行解析，需要安装lxml三方库</span>
pip install lxml <span class="token operator">-</span>i https<span class="token punctuation">:</span><span class="token operator">//</span>pypi<span class="token punctuation">.</span>doubanio<span class="token punctuation">.</span>com<span class="token operator">/</span>simple

<span class="token triple-quoted-string string">'''
	若lxml库安装失败，提示需要C语言环境，只需要更新pip版本后再次安装即可
	1、在pycharm终端将路径切换到Scripts目录
	2、执行easy_install -U pip命令
	3、重新安装lxml三方库：pip install lxml -i https://pypi.doubanio.com/simple
'''</span></code></pre> 
  <p>采用BeautifulSoup进行解析的流程如下图所示：<br> <a href="http://img.e-com-net.com/image/info8/4b879752354f4ea98e112cfbb6c59d09.jpg" target="_blank"><img alt="python爬虫（上课笔记）_第4张图片" src="http://img.e-com-net.com/image/info8/4b879752354f4ea98e112cfbb6c59d09.jpg" width="650" height="660" style="border:1px solid black;"></a></p> 
  <p><strong>BeautifulSoup初始化</strong></p> 
  <pre><code class="prism language-python"><span class="token keyword">from</span> bs4 <span class="token keyword">import</span> BeautifulSoup
BeautifulSoup<span class="token punctuation">(</span>markup<span class="token punctuation">,</span>features<span class="token punctuation">)</span>  <span class="token comment"># markup：解析对象（html字符串或文件）； features：解析器类型</span>

<span class="token comment"># 字符串初始化(html_text通常为requests模块爬取的页面内容)</span>
soup <span class="token operator">=</span> BeautifulSoup<span class="token punctuation">(</span>html_text<span class="token punctuation">,</span><span class="token string">"lxml"</span><span class="token punctuation">)</span>

<span class="token comment"># 文件初始化</span>
<span class="token keyword">with</span> <span class="token builtin">open</span><span class="token punctuation">(</span><span class="token string">"index.html"</span><span class="token punctuation">,</span> encoding<span class="token operator">=</span><span class="token string">"utf-8"</span><span class="token punctuation">)</span> <span class="token keyword">as</span> fp<span class="token punctuation">:</span>
    soup <span class="token operator">=</span> BeautifulSoup<span class="token punctuation">(</span>fp<span class="token punctuation">,</span> <span class="token string">"lxml"</span><span class="token punctuation">)</span></code></pre> 
  <h4>选择器</h4> 
  <p>选择器用来查找、定位元素，并获取数据。BeautifulSoup选择器分为节点选择器、方法选择器和CSS选择器。</p> 
  <p><a href="http://img.e-com-net.com/image/info8/a6ddd15426634660a6126f2b5379da83.jpg" target="_blank"><img alt="python爬虫（上课笔记）_第5张图片" src="http://img.e-com-net.com/image/info8/a6ddd15426634660a6126f2b5379da83.jpg" width="650" height="271" style="border:1px solid black;"></a></p> 
  <blockquote> 
   <p>节点选择器是获取数据的基本方法，方法选择器和css选择器是查找、定位元素的常用方法。</p> 
  </blockquote> 
  <h5>节点选择器</h5> 
  <p>通过元素节点间的关系进行元素选择与信息的提取。节点选择器利用Tag对象选择节点元素，对应html中的标签。</p> 
  <p><strong>获取节点元素</strong></p> 
  <p>节点选择器通过【soup.tag】获取节点元素</p> 
  <pre><code class="prism language-python"><span class="token keyword">from</span> bs4 <span class="token keyword">import</span> BeautifulSoup

html_str <span class="token operator">=</span> <span class="token triple-quoted-string string">'''
<html lang="en">
<head>
	<title>BeautifulSoup Test


    This is em in p element
    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str,'lxml')

# 获取title节点元素
print(soup.title)  # BeautifulSoup Test

# 获取节点元素类型(节点选择器返回类型为Tag)
print(type(soup.title))  # 

# 当html中存在多个相同节点时，仅返回第一个满足条件的节点
print(soup.a) # 小白

# 获取嵌套子节点（每次返回都是Tag对象，可以级联选择）
print(soup.head.title) # BeautifulSoup Test

关联节点选择

操作	返回类型	描述
soup.tag.contents		返回元素直接子节点
soup.tag.children		返回元素直接子节点
soup.tag.descendants		返回元素子孙节点
soup.tag.parent		返回元素父节点
soup.tag.parents		返回元素祖先节点
soup.tag.next_sibling	根据情况返回标签、文本、None等	返回元素后面第一个兄弟节点
soup.tag.next_siblings		返回元素后面所有兄弟节点
soup.tag.previous_sibling	根据情况返回标签、文本、None等	返回元素前面第一个兄弟节点
soup.tag.previous_siblings		返回元素前面所有兄弟节点

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str,'lxml')

# 以列表形式返回直接子节点（['There are three cats, their names are\n        ', 小白, ',\n        ', 小红, ' and\n        ', 小蓝, ';\n        story over!\n    ']）
print(soup.p.contents) 

# 以迭代器形式返回直接子节点
print(soup.p.children)  # 
for obj in soup.p.children:
    print(obj)
for i,obj in enumerate(soup.p.children):
    print(i,obj)

# 以生成器形式返回子孙节点
print(soup.p.descendants)
for i,obj in enumerate(soup.p.descendants):
    print(i,obj)

# 返回第一个a元素的父节点
print(soup.a.parent)
print(type(soup.a.parent))  # 

# 返回第一个a元素的祖先节点
for i,obj in enumerate(soup.a.parents):
    print(i,obj)
print(type(soup.a.parents)) # 

# 返回第一个a元素前面的第一个兄弟节点
print(soup.a.previous_sibling) # There are three cats, their names are

# 返回第一个a元素的所有后续兄弟节点
for i,obj in enumerate(soup.a.next_siblings):
    print(i,obj)

CSS选择器

BeautifulSoup使用select()方法结合CSS选择器语法实现元素定位。

soup.select(css选择)

标签选择器

<p>hello world<p>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
soup.select("p")

id选择器

<p id="info">hello world<p>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
soup.select("#info")

class选择器

<p class="font20">hello world<p>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
soup.select(".font20")

子元素选择器

<div>
    <span>div span</span>
	<p>
    	<span>div p span</span>
    <p>
</div>
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
soup.select("div span")
soup.select("div > span")

属性选择器

<p class="ele">info</p>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
soup.select("p[class='ele']")

CSS选择器实例

html_str = """

    
        title information
    
    
        
            li1-1
            li1-2
            li1-3
        
        
            li2-1
            li2-2
            li2-3
        
    

"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')

# 1、获取所有li元素
print(soup.select("li"))

# 2、获取第二个ul的li子节点
print(soup.select("#list-follow li"))

# 3、获取class='heading'的div
print(soup.select(".heading"))

# 4、获取li2-2
 可通过索引和选择器获取子元素
print(soup.select("#list-follow li")[1])
print(soup.select("#list-follow li:nth-of-type(2)"))

select()返回类型

# 通过css选择器获取内容的步骤：
# 1、soup.select() 返回的结果是bs4.element.ResultSet
# 2、若想取到某一个元素的话，需要通过索引或切片进行选择（bs4.element.Tag）
# 3、只有bs4.element.Tag类型的对象才能获取文本或属性值

<ul class="list" id="list-main">
    <li class="item">li1-1</li>
    <li class="item">li1-2</li>
    <li class="item">li1-3</li>
</ul>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')

# soup.select()返回的是bs4.element.ResultSet，可以通过遍历实现数据获取
print(type(soup.select("li"))) # 

# 获取第二个li元素
print(soup.select("li")[1]) # li1-2
print(type(soup.select("li")[1])) #

通过select()返回的结果为ResultSet，需要通过索引才可以获取Tag对象；只有Tage对象才可提取内容

CSS选择器获取属性

<p class="ele">info</p>

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
print(soup.select("p")[0].attrs)

CSS选择器获取文本

html_str = """

	
    	 main div p 
    
	main p

"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str,'lxml')
print(soup.select("p")[0].text)

函数选择器

方法	描述
soup.find(name, attrs, recursive, text, **kwargs)	获取第一个满足条件的元素
soup.find_all(name, attrs, recursive, text, limit, **kwargs)	获取所有满足条件的元素

find()

搜索并返回第一个满足条件的元素，返回形式为Tag对象。

name属性（查找所有名字为name的节点）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str,'lxml')

print(soup.find("title")) # BeautifulSoup Test
print(type(soup.find("title")))  # 

# 当文本中存在多个元素时，返回第一个满足查询的元素
print(soup.find("a")) # 小白

attrs属性（通过属性进行查询，属性以字典的形式提供）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''

# {'href': 'http://baidu.com/little_white', 'class': ['cat'], 'id': 'little_white'}
print(soup.find("a", attrs={"id":"little_blue","class":"cat"}))

kwargs属性（通过属性进行查询，属性以属性=属性值的方式提供）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.find("a", id="little_blue")) # 小蓝
print(soup.find("a", id= "little_blue",class_="cat")) # 多属性书写方法

采用dwargs方式时，当属性与python关键字冲突时，属性采用追加下划线的方式。如class -> class_

text属性（通过文本查询）

from bs4 import BeautifulSoup

html_str = '''

    小白
    
        小白
        小红 
    

'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.find(text="小白"))  # 小白
print(soup.find("a", text="小白"))  # 小白
print(soup.find(True, text="小白"))  # 小白（只返回第一个满足条件的对象）

name属性为True表示在所有元素中进行查询

recursive属性（设置是否搜索子孙节点，默认为True）

print(soup.find("a", recursive=False))

find_all()

用于搜索当前节点下所有符合条件的节点，若未指定当前节点，就进行全文搜索

name属性（查找所有名字为name的节点）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str,'lxml')

# 1、name为字符串时是通过标签名查找
print(soup.find_all("a"))
print(type(soup.find_all("a"))) # 

# 2、name为列表时，表示与列表任意一项匹配，并以列表形式返回
print(soup.find_all(["a","head"]))
print(type(soup.find_all(["a","head"]))) # 

# 3、name为True时表示查询所有
print(soup.find_all(True))
print(type(soup.find_all(True))) # 

# 4、通过索引获取标签
a_list = soup.find_all("a")[1]
print(a_list)

# 5、通过切片获取标签
a_list2 = soup.find_all(("a"))[:2]
print(a_list2)

attrs属性（通过属性进行查询，属性以字典的形式提供）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.find_all("a", attrs={"class": "cat"}))

kwargs属性（通过属性进行查询，属性以属性=属性值的方式提供）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.find_all("a", id="little_white"))
print(soup.find_all("a", class_="cat"))

print(soup.find_all("a", id=True)) # 获取所有具有id属性的a标签

采用dwargs方式时，当属性与python关键字冲突时，属性采用追加下划线的方式。如class -> class_

text属性（通过文本查询）

from bs4 import BeautifulSoup

html_str = '''

BeautifulSoup Test

    小白
    There are three cats, their names are
        小白,
        小红 and
        小蓝;
        story over!
    


'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.find_all(text="小白")) # ['小白', '小白']
print(soup.find_all(True, text="小白"))
print(soup.find_all("a", text="小白"))

limit属性（限制返回条数）

print(soup.find_all("a", limit=1))

recursive属性（设置是否搜索子孙节点，默认为True）

from bs4 import BeautifulSoup

html_str = '''

    
        百度
        
            新浪
            阿里 
        
    

'''
soup = BeautifulSoup(html_str, 'lxml')

print(soup.find("div").find_all("a")) # [百度, 新浪, 阿里]
print(soup.find("div").find_all("a",recursive=False)) # [百度]

提取信息

首先通过选择器获取Tag对象，然后采用表格中的属性提取相关信息

操作	描述
soup.tag.name	获取元素名称
soup.tag.attrs	获取元素属性
soup.tag.string	获取元素文本

from bs4 import BeautifulSoup

html_str = '''

    小白
    
        Mary
        Lucy 
    

'''
soup = BeautifulSoup(html_str, 'lxml')

# 返回标签名字
print(soup.p.a.name)   # a  通过节点选择器获取标签名
print(soup.select("p a")[0].name)  # a  通过CSS选择器获取标签名
print(soup.find("a").name)  # a  通关函数选择器获取标签名

# 返回标签属性
print(soup.p.a.attrs)  # {'href': '1.html', 'class': ['cat']}  通过节点选择器获取标签属性
print(soup.select("p a")[0].attrs)  # {'href': '1.html', 'class': ['cat']}  通过CSS选择器获取标签属性
print(soup.find("a").attrs)  # {'href': '1.html', 'class': ['cat']}  通过函数选择器获取标签属性

# 返回标签文本
print(soup.p.a.string)  # Mary  通过节点选择器获取标签属性
print(soup.select("p a")[0].string)  # Mary}  通过CSS选择器获取标签属性
print(soup.find("a").string)  # Mary  通过函数选择器获取标签属性

返回class为一个列表，这是因为一个标签可以设置多个class取值

获取属性值

属性	描述
[attribute]	img[‘src’]
attrs[attribute]	img.attrs[‘src’]
get(attribute)	img.get(“src”)

from bs4 import BeautifulSoup

html_str = '''

    小白
    
        Mary
        Lucy 
    

'''

soup = BeautifulSoup(html_str,"lxml")
a_list = soup.find_all("a")

# 方法1：通过属性获取
for obj in a_list:
    print(obj['href'])

# 方法2：通过attrs[]方法获取
for obj in a_list:
    print(obj.attrs['href'])

# 方法3：通过get()方法获取
for obj in a_list:
    print(obj.get('href'))

获取文本

属性/方法	描述
string	获取目标路径下第一个非标签字符串，返回字符串
text	获取目标路径下的子孙非标签字符串，返回字符串
strings	获取目标路径下所有的子孙非标签字符串，返回生成器
stripped_strings	获取目标路径下所有的子孙非标签字符串，会自动去掉空白字符串，返回生成器

from bs4 import BeautifulSoup

html_str = '''

    百度
    hello
        新浪
        阿里 
    

'''
soup = BeautifulSoup(html_str, 'lxml')

# 当元素内包含多个子节点时，string无法判别返回哪个节点的文本，结果为None
print(soup.find("span").string) # 百度
print(soup.find("p").string) # None

# text返回所有子孙节点的文本
print(soup.find("span").text) # 百度
'''
hello
        新浪
阿里
'''
print(soup.find("p").text)

# strings和stripped_strings都返回子孙节点的文本，stripped_strings会自动去除空白字符
for info in soup.find("p").strings:
    print(info)

for info1 in soup.find("p").stripped_strings:
    print(info1)

练习

中国水果交易网（获取品种、产地、价格、日期信息）：https://www.guo68.com/market

图片下载：http://www.netbian.com/weimei/

Xpath

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

依赖库安装

pip install bs4 -i https://pypi.doubanio.com/simple

节点选取

表达式	描述	用法	说明
nodename	选取此节点的所有子节点	div	选取div的所有子标签
/	从根节点选取	//head/title	选择head下的title标签
//	从全局节点中寻找节点，忽略位置	//div	选取html页面所有div标签
.	选取当前节点	./span	选择当前节点下所有span标签
…	选取当前节点的父节点	…/span	父节点下所有span标签
@	选取属性	//div[@id]	选择所有带id属性的div标签

'''

    手机促销
	
	    华为nova7
		2598
    
	
	    OPPO Find X5
		6299
    
    
	    Redmi 8100
		2550
    
    gehehw

'''

//div # 查找文档中的全部div标签

//div/title # 查找文档中的div下的所有title标签

//*[@id] # 查找所有具有id属性的标签

//div/strong[@class="low_price"]  # 查找div下所有class="low_price"的strong标签

//main/title  # 获取main标签下的title子标签 （手机促销）

通过节点获取的是标签的内容

XPath路径

XPath路径分为绝对路径和相对路径

绝对路径：绝对路径从 HTML 根节点开始算，当页面较为复杂时，书写起来比较繁琐；
相对路径：相对路径从任意节点开始，通常会选取一个可以唯一定位到的元素开始写，可以增加查找的准确性。通常以"//"开头

# 绝对路径（按层级找到元素）
/html/body/div[2]/div/div/div/div/form/span/input 

# 相对路径(选在id='nav-small'的div下所有p元素)
//div[@id='nav-small']/p

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点，谓语被嵌在方括号中。

表达式	用法	描述
tag[index]	//div/a[1]	选择div下第一个a标签，需要从1开始
tag[last()]	//div/a[last()]	选择div下最有一个a标签
tag[position()❤️]	//div/a[position()❤️]	选择div下前两个a标签
[tag>3]	//div[p>10]/p	选择div下所有p元素，并且p元素取值大于10

谓语索引从1开始

'''

    手机促销
	
	    华为nova7
		2598
    
	
	    OPPO Find X5
		6299
    
    
	    Redmi 8100
		2550
    
    gehehw

'''

# 获取所有title元素
titles = html.xpath("//main//title")
titles2 = html.xpath("//title")
titles3 = html.xpath("//*[@id='wrap']//title")

# 获取2550
//main/div[3]/strong

# 获取6299
# //main/div[strong>5000]取出的是div元素，[strong>5000]作为div的限定条件
//main/div[strong>5000]/strong

谓语中的序号

'''

    游泳
    爬山
    跑步

'''

//p  # 获取所有p元素
//p[2] # 获取第二个p元素 (爬山
)


'''

    
        拳击
    
    
        游泳
    

'''
//p  # 获取所有p元素
//p[1] # 获取拳击
 游泳


str = '''

    
        拳击
        游泳
    

'''
//p  # 获取所有p元素
//p[1] # 获取拳击

XPath谓语是按层级关系返回，在实际开发中谨慎使用

通配符

通配符	描述	示例	说明
*	匹配任意元素节点	//div[@id=“tar”]/*	选择id="tar"的div标签下所有元素节点
@*	匹配任意属性节点	//a[@*]	选择所有拥有属性的a标签

//p/*	# 选取p元素的所有子元素

//*	 # 选取文档中的所有元素

//a[@*]	# 选取所有带有属性的a元素

//div[@id="tar"]/* # 选择id="tar"的div标签下的所有节点

多路径选择

通过在路径表达式中使用“|”运算符，您可以选取若干个路径

//div/p | //div/a	# 选取div元素的所有p和a元素

//p | //div	 # 选取文档中的所有p和div元素

//p[@id]/a | //div	# 选取所有具有id属性p元素下的a元素，以及所有的div元素

属性值/文本

表达式	描述	示例	说明
text()	获取文本	//meta \| //p	获取所有的meta标签和p标签
/@	获取属性值	//a/@href	获取a标签的href属性值

html_str = '''

    游泳
    爬山
    跑步
    击剑
    射击

'''
# 获取爬山
//td[@id="hobit2"]/text()

# 获取hobit3
//td[3]/@id

内容解析

XPath不能直接解析字符串，要先将html文本转为html对象，然后再解析。

html字符串（requests获取的结果） -> html -> XPath解析

html字符串由requests库通过请求获取，html对象通过lxml库中的etree实现，内容提取由XPath实现

创建html对象

html对象可通过字符串和文件方式创建。

字符串创建html对象（常用）

html_str = '''

    游泳
    爬山
    跑步
    击剑
    射击

'''

from lxml import etree

# etree会将文本转为html结构，并补全必要的内容
html = etree.HTML(html_str)
print(html) # 

# html对象本身无法以文本形式打印，可通过下列方式获取文本内容
info = etree.tostring(html,encoding="utf-8").decode("utf-8")
print(info)

文件创建html对象

# 采用该方法要求本地html文件完全遵循xml语法（例如标签必须封闭等）
from lxml import etree

# 根据实际情况更改文件路径 
html = etree.parse("index.html")
print(html)

result = etree.tostring(html,encoding="utf-8").decode("utf-8")
print(result)

将网页下载到本地，然后通过本地加载的方式进行解析，通常会报错。

通过指定解析器创建html对象

from lxml import etree

# 创建解析器
parser = etree.HTMLParser(encoding="utf-8")

# 为parse指定解析器
html = etree.parse("../files/index.html",parser=parser)
result = etree.tostring(html,encoding="utf-8").decode("utf-8")
print(result)

通过指定解析器的方法可以修正本地html文件结构，确保解析正确。

通过XPath获取百度信息

import requests
from lxml import etree

url = "https://www.baidu.com"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

resp = requests.get(url, headers=headers)
page_text = resp.text

# 方法1：通过拼接方式获取
# html = etree.HTML(page_text)
#
# info_list = html.xpath('//div[@id="s-top-left"]/a/text()')
# href_list = html.xpath('//div[@id="s-top-left"]/a/@href')
#
# reslut = []
# for info, href in zip(info_list, href_list):
#     eg = {
#         "info": info,
#         "href": href
#     }
#     reslut.append(eg)
# print(reslut)

# 方法2：逐层获取
result_list = []
html = etree.HTML(page_text)
elements =  html.xpath('//div[@id="s-top-left"]/a')

for aobj in elements:
    info = aobj.xpath("./text()")[0]
    href = aobj.xpath("./@href")[0]
    eg = {
        "info": info,
        "href": href
    }
    result_list.append(eg)
print(result_list)

xpath()函数返回的结果为列表，可以通过索引或切片的方式获取列表中的部分内容。

通常情况下使用XPath语法获取整体内容，然后通过索引或切片方式过滤需求内容，对于需求内容过滤要谨慎使用XPath谓语语法（谓语语法是按层次获取）

伪元素内容抓取

//span/following::text()[1] #获取::after伪元素

多页内容抓取

# 爬取多记录时，过滤掉规则不同的页面
for url in page:
    try：
    	#...
    except:
        continue

练习

抓取微博热搜的标题和热度信息：https://s.weibo.com/top/summary

PyMySQL

概述

PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。

PyMySQL安装

pip install pymysql -i https://pypi.douban.com/simple

PyMySQL操作流程

导入包 -> 创建连接对象 -> 获取游标对象 -> 执行sql语句 -> 【获取查询结果集(查询) | 将修改数据提交到数据库/回滚数据(增删改)】 -> 关闭资源（游标与连接）

导入包

import pymysql

创建连接对象

'''
    host：指定服务器ip地址，本机为localhost
    port：指定mysql端口号，默认3306
    user：指定用户名
    password：指定密码
    database：指定数据库名
    charset：指定字符集（注：utf8，不是utf-8）
'''
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

创建游标

cursor = conn.cursor()

执行sql获取结果

'''
	增删改查操作sql语句执行语法均相同
	查询语句根据返回结果记录条数，使用fetchone()或者fetchall()
	增刪改操作返回结果为更改记录条数
'''

# 获取查询结果
curosr.execute(sql)
obj = cursor.fetchone() # 获取单一结果（配合where语句）
obj_list = cursor.fetchall() # 获取满足查询条件的所有记录

# 获取增删改结果
row_count = cursor.execute(sql)

关闭资源

# 关闭资源包括游标对象和连接对象
cursor.close()
conn.close()

查询操作

函数	描述
fetchone()	根据查询条件获取一条记录（通常配合where语句）
fetchall()	获取满足条件的所有记录
fetchmany(size)	获取满足条件的前size条记录

获取单一记录

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = f"select * from products where prod_id ='BR03'"

# 5、执行sql语句
cursor.execute(sql)

# 6、获取结果
product_obj = cursor.fetchall()

# 7、关闭资源
cursor.close()
conn.close()

print(product_obj)

获取所有记录

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "select * from products"

# 5、执行sql语句
cursor.execute(sql)

# 6、获取结果
stu_list = cursor.fetchall()

# 7、关闭资源
cursor.close()
conn.close()

for obj in stu_list:
    print(obj)

获取部分记录

import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = f"select * from products"

# 5、执行sql语句
cursor.execute(sql)

# 6、获取结果
product_list = cursor.fetchmany(3)

# 7、关闭资源
cursor.close()
conn.close()

for obj in product_list:
    print(obj)

增加操作

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "insert into orders values ('20012',now(),'1000000001')"

# 5、执行sql语句
try:
    row = cursor.execute(sql)  # 6、获取结果
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    # 7、关闭资源
    cursor.close()
    conn.close()

print(row)

修改操作

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "update orders set cust_id = '1000000005' where order_num = '20012'"

# 5、执行sql语句
try:
    row = cursor.execute(sql)  # 6、获取结果
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    # 7、关闭资源
    cursor.close()
    conn.close()

print(row)

删除操作

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "delete from orders where order_num = '20012'"

# 5、执行sql语句
try:
    row = cursor.execute(sql)  # 6、获取结果
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    # 7、关闭资源
    cursor.close()
    conn.close()

print(row)

sql注入

用户提交带有恶意的数据与sql语句进行字符串拼接，从而影响了sql语句的语义，最终产生数据数据泄露的现象。

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql(条件成立即可实现查询)
sql = "select * from orders where order_num = '20009' or '1==1' "  

# 5、执行sql语句
cursor.execute(sql)
info_list = cursor.fetchall()

# 7、关闭资源
cursor.close()
conn.close()

print(info_list

防止sql注入的方法

sql语句中使用%s占位，此处不是python字符串格式化操作。
将sql语句中的%s占位所需要的参数存在一个列表中，把参数列表传递给excute方法中的第二个参数

单一参数

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "select * from orders where order_num = %s"

# 5、执行sql语句
cursor.execute(sql, "20009")
order_obj = cursor.fetchone()

# 7、关闭资源
cursor.close()
conn.close()

print(order_obj)

多参数

# 1、导入包
import pymysql

# 2、创建连接
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3、获取游标
cursor = conn.cursor()

# 4、准备sql
sql = "insert into orders values(%s,%s,%s)"

# 5、执行sql语句
try:
    count = cursor.execute(sql, ("20010", time.strftime("%Y-%m-%d", time.localtime(time.time())), "1000000001"))
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    # 7、关闭资源
    cursor.close()
    conn.close()

print(count)

模板

查询模板

import pymysql

# 创建连接（根据实际情况为变量赋值）
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3获取游标
cursor = conn.cursor() 

# 准备sql（根据业务逻辑编写sql语句）
sql = "select * from products"

# 执行sql语句
cursor.execute(sql)

# 获取结果（根据需求在fetchone()、fetchall()和fetchmany(count)中选择一个进行查询操作）
product_obj = cursor.fetchone()
# product_list_all = cursor.fetchall()
# product_list_many = cursor.fetchmany(2)

# 关闭资源
cursor.close()
conn.close()

# 执行后续业务逻辑
for obj in product_list_all:
    print(obj)

若语句中存在where语句，需要采用%s进行变量占位，防止sql注入的产生

增删改模板

import pymysql

# 创建连接（根据实际情况为变量赋值）
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 获取游标
cursor = conn.cursor() 

# 准备sql（根据业务逻辑编写新增、修改或删除sql语句）
sql = "insert into orders values (%s,%s,%s)"
# sql = "update orders set cust_id = %s where order_num = %s"
# sql = "delete from orders where order_num = %s"

# 执行sql语句
try:
    count = cursor.execute(sql, ("20010", time.strftime("%Y-%m-%d", time.localtime(time.time())), "1000000001"))
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    cursor.close()  # 关闭资源
    conn.close()

print(count)

若语句中存在动态信息，需要采用%s进行变量占位，防止sql注入的产生

导入包
import pymysql

2、创建连接

conn = pymysql.connect(
host=“localhost”,
port=3306,
user=“root”,
password=“root”,
database=“test”,
charset=“utf8”
)

3、获取游标

cursor = conn.cursor()

4、准备sql

sql = “insert into orders values(%s,%s,%s)”

5、执行sql语句

try:
count = cursor.execute(sql, (“20010”, time.strftime(“%Y-%m-%d”, time.localtime(time.time())), “1000000001”))
conn.commit() # 提交事务(若不提交新增不生效)
except Exception as e:
conn.rollback() # 操作失败要回滚
finally:
# 7、关闭资源
cursor.close()
conn.close()

print(count)


###  模板

**查询模板**

```python
import pymysql

# 创建连接（根据实际情况为变量赋值）
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 3获取游标
cursor = conn.cursor() 

# 准备sql（根据业务逻辑编写sql语句）
sql = "select * from products"

# 执行sql语句
cursor.execute(sql)

# 获取结果（根据需求在fetchone()、fetchall()和fetchmany(count)中选择一个进行查询操作）
product_obj = cursor.fetchone()
# product_list_all = cursor.fetchall()
# product_list_many = cursor.fetchmany(2)

# 关闭资源
cursor.close()
conn.close()

# 执行后续业务逻辑
for obj in product_list_all:
    print(obj)

若语句中存在where语句，需要采用%s进行变量占位，防止sql注入的产生

增删改模板

import pymysql

# 创建连接（根据实际情况为变量赋值）
conn = pymysql.connect(
    host="localhost",
    port=3306,
    user="root",
    password="root",
    database="test",
    charset="utf8"
)

# 获取游标
cursor = conn.cursor() 

# 准备sql（根据业务逻辑编写新增、修改或删除sql语句）
sql = "insert into orders values (%s,%s,%s)"
# sql = "update orders set cust_id = %s where order_num = %s"
# sql = "delete from orders where order_num = %s"

# 执行sql语句
try:
    count = cursor.execute(sql, ("20010", time.strftime("%Y-%m-%d", time.localtime(time.time())), "1000000001"))
    conn.commit()   # 提交事务(若不提交新增不生效)
except Exception as e:
    conn.rollback() # 操作失败要回滚
finally:
    cursor.close()  # 关闭资源
    conn.close()

print(count)

若语句中存在动态信息，需要采用%s进行变量占位，防止sql注入的产生

你可能感兴趣的:(python笔记,python,爬虫)

Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
NumPy的基本使用 Mo思编程学习 numpy python 开发语言 pip
在Python的数据科学与数值计算领域，NumPy无疑是一颗耀眼的明星。作为Python中用于科学计算的基础库，NumPy提供了高效的多维数组对象以及处理这些数组的各种工具。本文将带您深入了解NumPy的基本使用，感受它的强大魅力。一、安装与导入在使用NumPy之前，首先要确保它已经安装在您的Python环境中。如果您使用的是Anaconda发行版，NumPy通常已经预装。若未安装，可以使用如下命
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他