HACKNOE

python从入门到精通（十）：python爬虫的初级使用

python数据分析和可视化基础

python爬虫分析
- python的4种爬虫方法
- 第一种：基于urllib库的方法
- - （一）任务介绍
  - （二）认识爬虫
  - - 2.1 了解爬虫的商业价值
    - 2.2 爬虫的原理
  - （三）基本流程
  - - 3.1 准备工作
    - - 3.1.1 分析网页
      - 3.1.1 http请求方法
      - 3.1.1.1 请求报文
        
        3.1.1.2 响应报文
        
        3.1.1.3 请求报文常见请求方法
        
        3.1.1.4 常见的请求头字段
        
        3.1.1.5 常见的响应头字段
        
        3.1.1.6 常见的HTTP状态码及其含义
        
        3.1.1.7 了解http的请求过程
      - 3.1.2 编码规范
      - 3.1.2 导入模块
    - 3.2 获取数据
    - - 3.2.1 urllib库
      - 3.2.1.1 使用urllib库发起一个get请求
        
        3.2.1.2 使用urllib库发起一个post请求
        
        3.2.1.3 网页超时处理
        
        3.2.1.4 简单反爬虫绕过
        
        3.2.1.4 获取网页响应内容
        
        3.2.1.5 获取网页响应状态
        
        3.2.1.5 获取网页响应头内容
        
        3.2.1.6 为请求传递更多参数
    - 3.3 解析数据
    - - 3.3.1 bs4库
      - 3.3.1.1Tag获取整个标签
        
        3.3.1.2 Navigablestring 获取标签里的内容
        
        3.3.1.3 获取标签里的属性和属性值
        
        3.3.1.4 BeautifulSoup获取整个文档
        
        3.3.1.5 Comment输出的内容不包含注释符号
        
        3.3.1.6 BeautifulSoup文档遍历
        
        3.3.1.7 BeautifulSoup文档搜索
      - 3.3.2 re库
      - 3.3.2.1 创建模式对象
        
        3.3.2.2 没有模式对象
      - 3.3.3 数据获取解析
    - 3.4 保存数据
    - - 3.4.1 安装xlwt库
      - 3.4.2 创建表格（写入）
      - 3.4.3 写入数据
      - 3.4.4 完整写入代码
      - 3.4.2 获取表格（读取）
      - 3.4.3 安装xlrd
      - 3.4.3 打开工作簿
      - 3.4.3 选择工作表
      - 3.4.3 获取工作表对象
      - 3.4.3 获取行列信息
      - 3.4.3 操作单元格
      - 3.4.1 优化表格的方法
    - 3.4 数据入库
    - - 3.4.1 导入sqlite3模块
      - 3.4.1 创建数据库的连接
      - 3.4.1 创建数据表
      - 3.4.1 执行sql语句
      - 3.4.1 表中插入数据
      - 3.4.1 查询数据
      - 3.4.1 提交改动
    - 3.5 完整爬虫代码展示

python爬虫分析

python的4种爬虫方法

1.基于requests库的方法：
requests是Python的一个HTTP客户端库，用于发送HTTP请求和处理响应。它提供了简洁的API，使得发送HTTP请求和处理响应变得非常简单。你可以使用requests库获取网页内容，然后配合解析库（如BeautifulSoup、lxml等）进行HTML或XML文档的解析。

2.基于Scrapy框架的方法：
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。它可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy提供了丰富的API和工具，可以方便地实现网页请求、数据提取、数据存储等操作。

3.基于Selenium库的方法：
Selenium是一个用于Web应用程序测试的工具，但它同样可以用于爬取动态生成的网页内容。Selenium可以模拟真实用户操作浏览器，包括点击、输入、滚动等操作，从而获取JavaScript渲染后的网页内容。

4.基于urllib库的方法：
urllib是Python内置的HTTP请求库，它可以用来打开和读取URL。虽然urllib的功能比requests库要弱一些，但在一些简单的场景下，使用urllib就足够了。

第一种：基于urllib库的方法

（一）任务介绍

爬取目标网址：

https://movie.douban.com/top250

（二）认识爬虫

什么是爬虫
网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性，根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略。

爬虫可以做什么
你可以爬取妹子的图片，爬取自己想看的视频等等，只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么
模拟浏览器打开网页，获取网页中我们想要的那部分数据。

百度指数网站：
用来查看用户搜索量和访问量的网站，查看用户群体比较关注的网站

index.baidu.com/v2/index.html#/

2.1 了解爬虫的商业价值

2.2 爬虫的原理

Python爬虫的原理是:首先，它将网页的URL网址提取出来，然后利用Python的urlliib库下载网页的源代码。其次，利用正则表达式从源代码中提取出有效的网页内容，确定网页的特征，从中收集有价值的数据。最后，将收集到的数据写入文本文件、数据库或其他格式中，以便用户调用。

（三）基本流程

准备工作
通过浏览器查看分析目标网页，学习编程基础规范。

获取数据
通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response，便是所要获取的页面内容。

解析内容
得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析。

保存数据
保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

3.1 准备工作

我们需要分析网站，分析哪些是我们需要的，特征是什么，怎么提取？

1.观察网站的url

https://movie.douban.com/top250?start=25&filter=  # 测试删掉发现filter= 没有作用 可以去掉

https://movie.douban.com/top250?start=25   #测试发现start=25 表示从25个开始 一页25个

3.1.1 分析网页

通过开发者工具（F12）来快速帮助我们定位我们想要的数据的位置，特征，标签等一系列我们需要的东西

3.1.1 http请求方法

3.1.1.1 请求报文

3.1.1.2 响应报文

3.1.1.3 请求报文常见请求方法

3.1.1.4 常见的请求头字段

以下是常见的HTTP请求头字段：

Accept：表明客户端所能够接受的响应数据格式
Authorization：携带身份验证信息
Content-Length：请求体的长度
Content-Type：请求体的数据类型
User-Agent：浏览器或其他客户端的标识信息
Referer：从哪个页面发送的请求
Cookie：携带客户端的cookie信息

3.1.1.5 常见的响应头字段

以下是常见的HTTP响应头字段：

Cache-Control：缓存控制策略，例如no-cache、max-age等
Content-Encoding：响应数据的压缩方式，例如gzip、deflate等
Content-Type：响应数据的数据类型
ETag：标识响应资源的唯一版本号
Last-Modified：响应资源的最后修改时间
Server：服务器类型和版本
Set-Cookie：服务端设置cookie信息

3.1.1.6 常见的HTTP状态码及其含义

HTTP协议定义了大量的状态码来表示服务器对客户端请求的响应结果。常见的状态码包括：

200 OK：表示请求成功
201 Created：表示请求已经被处理，并且新资源已经被创建
204 No Content：表示请求已经被成功处理，但是没有返回任何内容
400 Bad Request：表示请求无效或者不完整
401 Unauthorized：表示未经授权的请求
403 Forbidden：表示服务器拒绝执行请求
404 Not Found：表示请求的资源不存在
500 Internal Server Error：表示服务器出错

3.1.1.7 了解http的请求过程

3.1.2 编码规范

def main(a):
    print("hello",a)

main(2)

if __name__ == '__main__':  # 定义程序的入口 ，当前这个程序调用的时候执行，主要是为了集中调用函数没不至于太分散找不到
    #还可以在这里控制多个函数之间的流程和顺序，是代码更简洁，便利
    main(1)

3.1.2 导入模块

这里先导入爬虫所需要的模块下面还介绍了几种导入模块的方法

import bs4  #网页解析，获取数据
import re  #正则表达式，进行文字匹配
import urllib.request urllib.error #制定URL，获取网页数据
import xlwt # 进行excel操作
import sqlite3 # 进行SQLite数据库操作import

python console pip导入模块

python setting添加模块

点击加号添加模块

3.2 获取数据

3.2.1 urllib库

3.2.1.1 使用urllib库发起一个get请求

import urllib.request    #导入urllib库

response = urllib.request.urlopen('https://www.baidu.com')  # urlopen 作用是下载网页内容
print(response.read().decode('utf-8')) # 使用response.read读取网页内容 对获取到的网页源码进utf-8解码

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

3.2.1.2 使用urllib库发起一个post请求

http请求与响应测试网站，post请求需要传递参数，因此我们需要使用这个网站来测试我们传递的参数有没有实现

http://httpbin.org

测试我们的post数据能否发出

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3

#urllib.parse模块是一个用于解析URL的工具包，支持各种对URL的操作，包括拆分、拼接、编码、解码等。
import urllib.parse  

# bytes 解析成二进制的数据用来传输
data = bytes(urllib.parse.urlencode({"hello":"world"}),encoding="utf-8")

#将二进制的data作为参数传递到方法里
response = urllib.request.urlopen("http://httpbin.org/post",data= data)

print(response.read().decode("utf-8"))

网页内容响应

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "hello": "world"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.12", 
    "X-Amzn-Trace-Id": "Root=1-65ae90c6-297103042ee790c474ae25bb"
  }, 
  "json": null, 
  "origin": "123.119.77.156", 
  "url": "http://httpbin.org/post"
}

get方法获取网站响应内容

import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get')
print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码

{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.12", 
    "X-Amzn-Trace-Id": "Root=1-65ae9140-44be121444ebb21c2fc87877"
  }, 
  "origin": "123.119.77.156", 
  "url": "http://httpbin.org/get"
}

3.2.1.3 网页超时处理

规定时间内没有响应，就会报错，需要做异常处理

try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.01)  # 超过0.01秒没有响应就报错
    print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
except Exception as e:
    print(e)

<urlopen error timed out>

import urllib.request
try:
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.01)
    print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
    except urllib.error.URLError as e:
        if hasattr(e,"code"):   #  打印错误状态码
            print(e.code)
        if hasattr(e,"reason"):  # 打印错误问题原因
            print(e.reason)

3.2.1.4 简单反爬虫绕过

import urllib.request
import urllib.parse

url = 'http://douban.com'
#模拟浏览器头部信息，向豆瓣服务器发送消息

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" 					 # 用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器(本质上是告诉测览器，我们可以接收什么水平的文件内容
}

req = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode('utf-8')) #对获取到的网页源码进utf-8解码
print(response.getheaders())  #h获取请求头

3.2.1.4 获取网页响应内容

#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.read().decode("utf-8"))

3.2.1.5 获取网页响应状态

#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.status)
200

3.2.1.5 获取网页响应头内容

#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.getheaders())
[('Date', 'Thu, 01 Feb 2024 04:19:30 GMT'), ('Content-Type', 'application/json'), ('Content-Length', '275'), ('Connection', 'close'), ('Server', 'gunicorn/19.9.0'), ('Access-Control-Allow-Origin', '*'), ('Access-Control-Allow-Credentials', 'true')]

单独获取一个响应头参数的值

#获取网页响应内容
response = urllib.request.urlopen("http://httpbin.org/get")
print(response.getheader('Content-Type'))
application/json

3.2.1.6 为请求传递更多参数

url  = "https://www.baidu.com/"
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
}
# 封装一个request对象，传递初始化的参数的值
req = urllib.request.Request(url, headers=headers,data=data,method='POST')

第一部分：获取所有页面数据的代码已经完成

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3

def main():
    baseurl = "https://movie.douban.com/top250?start="
    askURL(baseurl)

# 爬取所有250个网页内容
def getData(baseurl):
    datalist =[]
   # 循环爬取所有页面
    for i in range(0,250,25):
       url = baseurl + str(i)
       html= askurl(url)
    
# 爬取单个网页内容
def askURL(url):
    headers ={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    }
    req = urllib.request.Request(url,headers=headers)
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode('utf-8')
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html



if __name__ == '__main__':
    # 定义程序的入口 ，当前这个程序调用的时候执行，主要是为了集中调用函数没不至于太分散找不到
    # 还可以在这里控制多个函数之间的流程和顺序，是代码更简洁，便利
    main()

3.3 解析数据

3.3.1 bs4库

BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可归纳为4种:

Tag
Navigablestring
BeautifulSoup
Comment

3.3.1.1Tag获取整个标签

from bs4 import BeautifulSoup
# 逐一解析数据 把html使用html.parser进行解析
bs = BeautifulSoup(html,"html.parser")
print(bs.a)  # 返回找到的第一个a标签，返回时的整个标签 Tag
print(bs.title)
<title>百度一下你就知道<title>

3.3.1.2 Navigablestring 获取标签里的内容

bs = BeautifulSoup(html,"html.parser")
print(bs.title.string)  # 返回找到的第一个title标签的内容 字符串
百度一下你就知道

3.3.1.3 获取标签里的属性和属性值

bs = BeautifulSoup(html,"html.parser")
print(bs.a.attrs)  # 返回找到的第一个title标签的属性和属性值，字典形式
{'href': 'https://accounts.douban.com/passport/login?source=movie', 'class': ['nav-login'], 'rel': ['nofollow']}

3.3.1.4 BeautifulSoup获取整个文档

bs = BeautifulSoup(html,"html.parser")
print(bs)  # 返回整个文档的内容

3.3.1.5 Comment输出的内容不包含注释符号

bs = BeautifulSoup(html,"html.parser")
print(bs.a.string)  # Comment 是一个特殊的NavigableString ，输出的内容不包含注释符号

3.3.1.6 BeautifulSoup文档遍历

bs = BeautifulSoup(html,"html.parser")
print(bs.a.contens)  # 返回title中的所有contens  列表形式 可以用列表遍历
print(bs.a.contens[2])

3.3.1.7 BeautifulSoup文档搜索

1.find_all()
字符串过滤，会查找与字符串完全匹配的内容

bs = BeautifulSoup(html,"html.parser")
a_list = bs.find_all("a")    # 查找所有的a标签

2.search()
正则表达式搜索:使用search()方法来匹配内容

a_list =  bs.find_all(re.compile("a"))

3.自己写方法查询

def name_is_exists(tag):
    return tag.has_attr("name")   # 查询标签中属性的名字为name的
    
t_list = bs.find_all(name_is_exists)
for tag in t_list:
    print(tag)

4.kwargs 参数

t_list = bs.find_all(id="head")   # 查找所有的id=head的标签
t_list = bs.find_all(class=True)
t_list = bs.find_all(herf="http://news.baidu.com")

5.text参数

t_list = bs.find_all(text="hao123")   # 查找所有的id=head的标签
t_list = bs.find_all(text=["hao123","新闻","贴吧"])
for tag in t_list:
    print(tag)
t_list = bs.find_all(text = re.compile("\d")) # 应用正则表达式来查找包含特定文本的内容

6.limit参数

t_list = bs.find_all("a",limit=3)   # 查找前三个a标签

7.css选择器

t_list = bs.select("a")    # 查找所有的a标签
t_list = bs.select(".mnav") #  查找所有的类名为.mnav标签
t_list = bs.select("#u1") #  查找所有的id为#u1的标签
t_list = bs.select("a[class='bri']") #  查找属性为bri的标签
t_list = bs.select("head > title") #  查找head标签下的title标签
t list = bs.select(".mnav ~ .bri")  # 查找.mnav的兄弟标签.bri的text
print(t_list[0].get_text())

3.3.2 re库

具体re库的使用请看我的另一边文章：
python从入门到精通（八）： python正则表达式

3.3.2.1 创建模式对象

import re
pat = re.compile("AA")   # 此出的AA，是正则表达式，用来去验证其他的字符串
m = pat.search("CBA")  # search字符串被核验的内容
m = pat.search("ABCAA")
m= pat.search("AABCAADDCCAAA")  # search方法，进行比对查批
print(m)

3.3.2.2 没有模式对象

m= re.search("asd","Aasd") # 前面的字符串是规则(模板)，后面的字符串是被校验的对象
print(m)

print(re.findall("a" "ASDaDFGAa")) # 前面字符串是规则(正则表达式)，后面字符串是被校验的字符串
print(re.findall("[A-Z]","ASDaDFGAa"))
print(re.findall("[A-Z+]","ASDaDFGAa"))
print(re.findall)
print(re.sub("a" "A" "abcdcasd"))
#找到a用A替换，在第三个字符串中查找"A

#建议在正则表达式中，被比较的字符串前面加上r，不用担心转义字符的问题
a = r"\aabd-\'"

3.3.3 数据获取解析

我们分析网页电影部分，发现首页25个电影都分别放在下面图片中的25个li里面，而且class的名字也都是item，我们的想法是就是其中一个li里面怎么分析提取我们需要的东西，然后循环遍历其他li去提取不就行了吗

首先为了简单且直观的审查代码，我们把代码改成只获取一页内容的25个电影

for i in range(0,1):
    url = baseurl + str(i*25)
    html = askurl(url)
    print(html)

然后使用BeautifulSoup来解析我们获取的一页内容html

soup = BeautifulSoup(html, "html.parser")   # 逐一解析数据 把html使用html.parser解析器进行解析

我们使用BeautifulSoup的方法find_all提取我们需要的标签内容，也就是整个文档中的class的名字叫item的所有div div class=item的标签内容，使用for循环遍历10个页面的所有的符合要求的标签，这段代码可以拿到所有的item标签的内容

for item in soup.find_all("div" class_="item"):
	data = [] # 用来存储所有的内容
	print(item)

我们打印出item来看看我们获取的内容是什么，打印出来的是首页25个li里面的div是item的内容，也就是说这是网页中的单独一个的电影的所有内容，就和下面图片里红框显示的一样我们，每个红框也就是电影的内容是一样的结构，我们分析其中一个item的规律和怎么去匹配就够了

我们只需要分析其中一个电影介绍的代码就可以，使用下面代码只返回一个item标签，也就是只返回肖申克的救赎这一个栏目涉及的代码

for item in soup.find_all("div" class_="item"):
	data = [] # 用来存储所有的内容
	print(item)
	break

接下来我们分析一个栏目的电影html以及我们需要匹配的那些内容和如何使用正则表达式来匹配这些内容，先看一个item标签的代码的内容是：

</div>
<div class="info">
<div class="hd">
<a class="" href="https://movie.douban.com/subject/1292052/">
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
<span class="other"> / 月黑高飞(港)  /  刺激1995(台)</span>
</a>
<span class="playable">[可播放]</span>
</div>
<div class="bd">
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
<div class="star">
<span class="rating5-t"></span>
<span class="rating_num" property="v:average">9.7</span>
<span content="10.0" property="v:best"></span>
<span>2978415人评价</span>
</div>
<p class="quote">
<span class="inq">希望让人自由。</span>
</p>
</div>
</div>
</div>

我们需要匹配电影的链接、电影的图片、电影的名称、电影的评分、概述、影片的相关内容

我们开始分析使用正则表达式怎么去匹配这些内容，以下是所有需要匹配的html和正则表达式对应关系

电影链接

#标签
<a href="https://movie.douban.com/subject/1292052/">
#正则  影片详情链接的规则
findLink = re.compile(r'')   # 创建正则表达式对象，表示规则(字符串的模式)

电影图片

#标签
<img alt="肖申克的救赎" class="" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" width="100"/>
#正则  
findImgSrc = re.compile(r',re.S)  # re.s 让换行符包含在字符中

电影的片名

#标签
<span class="title">肖申克的救赎</span>
<span class="title"> / The Shawshank Redemption</span>
#正则 影片片名
findTitle =re.compile(r'(.*)')

电影的评分

#标签
<span class="rating_num" property="v:average">9.7</span>
#正则  影片评分
findRating = re.compile(r'(.*)')

电影的评价人数

#标签
<span>2978415人评价</span>
#正则  # 找到评价人数
findJudge =re.compile(r'(\d*)人评价')

电影的概况

#标签
<span class="inq">希望让人自由。</span>
#正则  # 找到概况
findInq =re.compile(r'(.*)')

影片的相关内容

#标签
<p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br/>
                            1994 / 美国 / 犯罪 剧情
                        </p>
#正则  找到影片的相关内容
findBd = re.compile(r'(.*?)
',re.S)  #使 . 匹配包括换行符在内的任意字符。

好知道怎么匹配我们需要的东西了，我们就是要使用re库来匹配所有的我们需要的内容，先将item转化成字符串，这样item就可以使用正则表达式了，我们使用find_all来匹配我们符合我们写的正则表达式


        for item in soup.find_all("div", class_="item"):   #查找符合要求的字符串，形成列表
            print(item) #测试:查看电影item全部信息
            break
            data = []  #用于保存所有数据
            item = str(item)
            Link = re.findall(findLink, item)[0]  # re.findall查询所有符合条件的字符串，返回一个列表
            data.append(Link)
            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)
            Titles = re.findall(findTitle, item)     #有的片名可能只有一个中文名，没有外国名
            if (len(Titles)) == 2:					
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空
            Rating = re.findall(findRating, item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge, item)[0]
            data.append(Judge)
            Inq = re.findall(findInq, item)
            if (len(Inq) != 0 ):
                Inq = Inq[0].replace("。","")                     # 去掉 。
                data.append(Inq)
            else:
                data.append(" ")
            Bd = re.findall(findBd, item)[0]
            Bd = re.sub(r'(\s+)?',"",Bd)   # 去掉换行符

            Bd = re.sub(r'/', "", Bd)                 # 去掉 /
            data.append(Bd.strip())

其中这一段代码为什么这么写呢，假如第一个电影有两个名字就会在列表中有两个位置，但是第二个电影只有一个名字返回列表的时候就占一个位置，那第一个列表和第二个列表对比内容就篡位了，第一个列表的名字可能对应的第二个列表中评分了，具体我们来看返回内容

Titles = re.findall(findTitle, item)     #有的片名可能只有一个中文名，没有外国名
            if (len(Titles)) == 2:					
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空

原本返回之这样的，但是你没有判断片名的数量，就会导致内容出现问题，

下面这个只是举例，如果数据上下不对应，我们在写入表格的时候每列对应的内容就不一样，我们只需要把没有片名的留个空位置就行，这样表格就会是空格而不是内容前移了
[‘https://movie.douban.com/subject/1292052/’, ‘https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg’]
[‘https://movie.douban.com/subject/1291546/’, ‘霸王别姬’,]

最后附上完整代码的数据获取代码

def get_data(baseurl):
    datalist = []
    # 循环爬取所有页面
    for i in range(0,1):
        url = baseurl + str(i*25)
        html = askurl(url)
        #print(html)

        # 逐一解析数据 把html使用html.parser进行解析
        soup = BeautifulSoup(html, "html.parser")

        # 引入正则表达式，匹配满足的特征的字符串
        for item in soup.find_all("div", class_="item"):   #查找符合要求的字符串，形成列表
            #print(item) #测试:查看电影item全部信息
            #break
            data = []  #用于保存所有数据
            item = str(item)
            Link = re.findall(findLink, item)[0]  # re.findall查询所有符合条件的字符串，返回一个列表
            data.append(Link)
            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)
            Titles = re.findall(findTitle, item)     #片名可能只有一个中文名，没有外国名
            if (len(Titles)) == 2:
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空
            Rating = re.findall(findRating, item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge, item)[0]
            data.append(Judge)
            Inq = re.findall(findInq, item)
            if (len(Inq) != 0 ):
                Inq = Inq[0].replace("。","")                     # 去掉 。
                data.append(Inq)
            else:
                data.append(" ")
            Bd = re.findall(findBd, item)[0]
            Bd = re.sub(r'(\s+)?',"",Bd)   # 去掉换行符

            Bd = re.sub(r'/', "", Bd)                 # 去掉 /
            data.append(Bd.strip())
            datalist.append(data)
            print(data)
    return datalist

3.4 保存数据

3.4.1 安装xlwt库

pip install xlwt

3.4.2 创建表格（写入）

xlwt对Excel文件进行写操作的时候，只能对通过xlwt新建的Excel文件进行写操作，无法直接对已经存在的Excel文件进行写操作。如果想要对已经存在的Excel文件进行写操作需要使用后面的xlutils模块。保存数据需要利用python库xlwt将抽取的数据datalist写入Excel表格。

新建工作簿和工作表
cell_overwrite_ok=True 重新写入会自动覆盖之前的内容不会报错

import xlwt

workbook = xlwt.Workbook(encoding='utf-8')     # 创建workbook对象 新建一个工作簿对象
worksheet = workbook.add_sheet('sheet1',cell_overwrite_ok=True)        # 创建工作表 
worksheet.write(0,0,'hello')   #写入数据，第一行参数，第二个参数"列”，第三个参数内容
workbook.save('student.xls')  #文件保存到指定位置

利用代码将九九乘法表输出在表格

import xlwt

i = 1
workbook = xlwt.Workbook(encoding='utf-8')     # 创建workbook对象
worksheet = workbook.add_sheet('sheet1')        # 创建工作表
while i < 10:
    j = 1
    while j <= i:
        worksheet.write(i-1,j-1,'%d * %d = %d' % (j,i,j*i))
        j += 1
    i += 1

# worksheet.write(0,0,'hello')   #写入数据，第一行参数，第二个参数"列”，第三个参数内容
workbook.save('test.xls')

3.4.3 写入数据

电影表头

worksheet.write(0, 0, '电影名称')
worksheet.write(0, 1, '电影评分')
worksheet.write(0, 2, '电影评论')
worksheet.write(0, 3, '电影概述')
worksheet.write(0, 4, '电影内容')
worksheet.write(0, 5, '电影链接')
worksheet.write(0, 6, '电影图片')

# 循环写入
col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容")
    for i in range(len(col)):
        sheet.write(0,i,col[i])

3.4.4 完整写入代码

save_path = r"D:\水利部\豆瓣网电影TOP250.xls"
save_data(datalist, save_path)
def save_data(datalist,save_path):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet("豆瓣网电影TOP250",cell_overwrite_ok=True)
    col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容")
    for i in range(len(col)):
        sheet.write(0,i,col[i])
    for i in range(len(datalist)):
        data = datalist[i]
        for j in range(len(data)):
            sheet.write(i+1, j,data[j])
    book.save(save_path)

3.4.2 获取表格（读取）

xlrd用来读取Excel文件内容非常方便，操作步骤和通过Excel软件操作Excel文件一样方便。

3.4.3 安装xlrd

pip install xlrd

3.4.3 打开工作簿

mport xlrd
wb = xlrd.open_workbook('D:\媒体部\豆瓣网电影TOP250.xls')

3.4.3 选择工作表

一个工作簿中可能包含多个工作表

book_names = wb.sheet_names()  # 获取工作簿中所有工作表的表名
print(s_names)

['sheet1', 'sheet2']

3.4.3 获取工作表对象

工作簿对象.sheets() - 获取工作簿中所有工作表对应的工作表对象
工作簿对象.sheet_by_index(下标) - 获取指定下标对应的工作表对象
工作簿对象.sheet_by_name(表名) - 获取指定表名对应的工作表对象

book_sheets = wb.sheets()
print(book_sheets)
print(book_sheets[0])

sheet1 = df.sheet_by_index(1)
print(sheet1) 

sheet2 = df.sheet_by_name('sheet2')
print(sheet2)

3.4.3 获取行列信息

工作表对象.nrows - 获取工作表中的行数
工作表对象.ncols - 获取工作表中的列数

print(sheet1.nrows)
print(sheet1.ncols)

工作表对象.row_values(行下标) - 获取指定下标对应的行中所有的数据，结果以列表的形式返回
工作表对象.col_values(列下标) - 获取指定下标对应的列中所有的数据，结果以列表的形式返回(下标从0开始)

print(sheet1.row_values(1))
print(sheet1.col_values(0))

根据之前获取行数结合获取整行的方法，可以通过循环一行一行的将整个excel:

for x in range(sheet1.nrows):
    print(sheet1.row_values(x))

3.4.3 操作单元格

工作表对象.row(行下标) - 获取指定下标对应的行中所有的单元格。结果是一个列表，列表中的元素是单元格对象（注意不是单元格内容）
工作表对象.col(列下标) - 获取指定下标对象的列中所有的单元格。
工作表对象.cell(行下标, 列下标) - 获取指定行下标和列下标对应的单元格对象。
单元格对象.value - 获取指定单元格中的值

print(sheet1.row(1))
print(sheet1.col(1))
print(sheet1.cell(3, 0))
print(sheet1.row(1)[0].value)
print(sheet1.col(1)[2].value)
print(sheet1.cell(3, 0).value)

3.4.1 优化表格的方法

ont = xlwt.Font()
font.name = '微软雅黑'
font.bold = True  # 字体加粗
font.underline = True  # 添加下划线
font.italic = True  # 设置字体为斜体
font.colour_index = 2 # 设置字体颜色

alignment = xlwt.Alignment()  # 设置对齐方式
# 设置水平对齐方式，可以是 HORZ_GENERAL, HORZ_LEFT, HORZ_CENTER, HORZ_RIGHT, HORZ_FILLED, HORZ_JUSTIFIED, HORZ_CENTER_ACROSS_SEL, HORZ_DISTRIBUTED
alignment.horz = xlwt.Alignment.HORZ_CENTER 
# 设置垂直对齐方式，可以是 VERT_TOP, VERT_CENTER, VERT_BOTTOM, VERT_JUSTIFIED, VERT_DISTRIBUTED
alignment.vert = xlwt.Alignment.VERT_CENTER

pattern = xlwt.Pattern()  # 设置背景色
# 可是0 = Black, 1 = White, 2 = Red, 3 = Green, 4 = Blue, 5 = Yellow, 6 = Magenta, 7 = Cyan, 16 = Maroon, 17 = Dark Green, 18 = Dark Blue, 19 = Dark Yellow , almost brown), 20 = Dark Magenta, 21 = Teal, 22 = Light Gray, 23 = Dark Gray
pattern.pattern_fore_colour = 5 

style = xlwt.XFStyle()
style.font = font
style.alignment = alignment
style.pattern = pattern
worksheet.write(0, 0, label = 'Hello world！', style)  # 使用格式

3.4 数据入库

SQLite是python自带的数据库，不需要任何配置，使用sqlite3模块就可以驱动它。

3.4.1 导入sqlite3模块

import sqlite3

3.4.1 创建数据库的连接

# 创建与数据库的连接
conn = sqlite3.connect('test.db')

建立与数据库的连接后，需要创建一个游标cursor对象，该对象的.execute()方法可以执行sql语句，我们可以够进行数据操作。

#创建一个游标 cursor
c = conn.cursor()

3.4.1 创建数据表

# 建表的sql语句
sql = '''CREATE TABLE product
           (序号 TEXT,
            品名 TEXT,
            型号 TEXT,
            规格 NUMBER,
            材质 NUMBER,
            单价 NUMBER);'''

3.4.1 执行sql语句

c.execute(sql)

3.4.1 表中插入数据

# 插入单条数据
sql1 = "INSERT INTO product VALUES('001', '黑丝', 'x68', '45X36', '纯棉', 98)"
c.execute(sql1)

执行以下语句插入多条数据：

data = [('001', '黑丝', 'x68', '45X36', '尼龙', 98),
        ('002', '黑丝', 'x48', '34X25', '尼龙', 55),
        ]
c.executemany('INSERT INTO scores VALUES (?,?,?,?,?,?)', data)
# 连接完数据库并不会自动提交，所以需要手动 commit 你的改动conn.commit()

3.4.1 查询数据

我们已经建好表，并且插入数据，现在来查询特定条件下的数据：获取查询结果一般可用.fetchone()方法（获取第一条），或者用.fetchall()方法（获取所有）



# 查询数学成绩大于90分的学生
sql3 = "SELECT * FROM product WHERE 黑丝<80"
c.execute(sql3)
# 获取查询结果
c.fetchall()

3.4.1 提交改动

数据库做改动后（比如建表、插数等），都需要手动提交改动，否则无法将数据保存到数据库。

# 提交数据改动的方法
conn.commit()

使用完数据库之后，需要关闭游标：

# 关闭游标
c.close()

使用完数据库之后，需要关闭数据库连接：

# 关闭连接
conn.close()

新建数据表的完整代码就是

import sqlite3

conn = sqlite3.connect("test.db") # 打开或创建数据库文件
print("成功打开数据库")
c= conn.cursor()  #获取游标
sql1 ='''
    create table company
        (id int primary key not null,
        name text not null,
        age int not null,
        address char(50),
        salary real);
'''
sql2 ='''
    insert into company (id,name,age,address,salary),
        values(1,'张三',32,"成都",8000); 
'''
sql3 ='''
    insert into company (id,name,age,address,salary),
        values(2,'李四',30,"重庆",15000);
'''
sql4 ="select id,name,address,salary from company"
c.execute(sql1)  # 执行sql语句
c.execute(sql2)  # 执行sql语句
c.execute(sql3)  # 执行sql语句

cursor =c.execute(sql4)
#执行sql语句
for row in cursor:
    print("id =",row[0])
    print("name =",row[1])
    print("address =",row[2])
    print("salary =",row[3])

print("成功建表")
print("成功插入数据")
print("成功查询数据")
conn.commit()   # 提交数据库操作
conn.close()    # 关闭数据库连接

3.5 完整爬虫代码展示

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error
import xlwt
import sqlite3

# urllib.parse模块是一个用于解析URL的工具包，支持各种对URL的操作，包括拆分、拼接、编码、解码等。
import urllib.parse


def main():
    baseurl = "https://movie.douban.com/top250?start="
    print("爬虫开始....")
    datalist = get_data(baseurl)
    save_path = r"D:\水利部\豆瓣网电影TOP250.xls"
    save_data(datalist, save_path)
    dbpath = "test1.db"
    saveData2DB(datalist,dbpath)


# 影片详情链接的规则
findLink = re.compile(r'')   # 创建正则表达式对象，表示规则(字符串的模式)
# 影片图片
findImgSrc = re.compile(r',re.S)  # re.s 让换行符包含在字符中
# 影片片名
findTitle =re.compile(r'(.*)')
# 影片评分
findRating = re.compile(r'(.*)')
# 找到评价人数
findJudge =re.compile(r'(\d*)人评价')
# 找到概况
findInq =re.compile(r'(.*)')
# 找到影片的相关内容
findBd = re.compile(r'(.*?)
',re.S)
#   爬取所有网页内容
def get_data(baseurl):
    datalist = []
    # 循环爬取所有页面
    for i in range(0,10):
        url = baseurl + str(i*25)
        html = askurl(url)
        #print(html)

        # 逐一解析数据 把html使用html.parser进行解析
        soup = BeautifulSoup(html, "html.parser")

        # 引入正则表达式，匹配满足的特征的字符串
        for item in soup.find_all("div", class_="item"):   #查找符合要求的字符串，形成列表
            #print(item) #测试:查看电影item全部信息
            #break
            data = []  #用于保存所有数据
            item = str(item)
            Link = re.findall(findLink, item)[0]  # re.findall查询所有符合条件的字符串，返回一个列表
            data.append(Link)
            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)
            Titles = re.findall(findTitle, item)     #片名可能只有一个中文名，没有外国名
            if (len(Titles)) == 2:
                ctitle = Titles[0]
                data.append(ctitle)             #添加中文名
                otitle = Titles[1].replace("/","")
                data.append(otitle)            #添加外国名
            else:
                data.append(Titles[0])
                data.append(" ")           #外国名字留空
            Rating = re.findall(findRating, item)[0]
            data.append(Rating)
            Judge = re.findall(findJudge, item)[0]
            data.append(Judge)
            Inq = re.findall(findInq, item)
            if (len(Inq) != 0 ):
                Inq = Inq[0].replace("。","")                     # 去掉 。
                data.append(Inq)
            else:
                data.append(" ")
            Bd = re.findall(findBd, item)[0]
            Bd = re.sub(r'(\s+)?',"",Bd)   # 去掉换行符

            Bd = re.sub(r'/', "", Bd)                 # 去掉 /
            data.append(Bd.strip())
            datalist.append(data)
            # print(len(datalist))
    return datalist



def save_data(datalist,save_path):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet("豆瓣网电影TOP250",cell_overwrite_ok=True)
    col = ("电影链接","图片链接","电影中文名称","电影外语名称","电影评分","评论人数","电影概述","电影的相关内容")
    for i in range(len(col)):
        sheet.write(0,i,col[i])
    for i in range(len(datalist)):
        data = datalist[i]
        #print('爬到到第%d行了' % i)
        for j in range(len(data)):

            sheet.write(i+1, j,data[j])

    book.save(save_path)

def saveData2DB(datalist,dbpath):
    init_db(dbpath)
    conn =sqlite3.connect(dbpath)
    cur =conn.cursor()
    for data in datalist:
        for index in range(len(data)):
            if index == 4 or index ==5:
                continue
            data[index]='"'+data[index]+'"'
        sql1 ='''
                insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)
                values(%s)'''% ",".join(data)
        print(sql1)
        cur.execute(sql1)
        conn.commit()
    cur.close()
    conn.close()




def init_db(dbpath):
    sql = '''
        create table movie250
        (
        id integer primary key autoincrement,
        info_link text,
        pic_link text,
        cname varchar,
        ename varchar,
        score numeric,
        rated numeric,
        instroduction text,
        info text
        )
    '''
    print(sql)
    conn = sqlite3.connect(dbpath)
    c = conn.cursor()
    c.execute(sql)
    conn.commit()
    conn.close()

# 爬取单个网页内容
def askurl(url):
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/121.0.0.0 Safari/537.36"
    }
    req = urllib.request.Request(url, headers=headers)
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode('utf-8')
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    except Exception as e:
        print(e)

    return html


if __name__ == '__main__':
    main()
    print("爬虫结束")

你可能感兴趣的:(python,python,爬虫,开发语言)

python的with中的变量是不是局部作用域？Python上下文管理器-with使用? 梦境之冢 python 开发实战问题解决 python 开发语言
一、Python中的with语句并不创建新的作用域。‌在with语句中定义的变量，其作用域并不局限于with语句块内部，而是在整个作用域内都是可见的。这意味着在with语句块外部也可以访问这些变量，不会因为with语句的存在而创建新的作用域。例如，以下代码中的变量a在with语句块外部也可以访问：withopen('test.txt','w')asfout:a=12line='testline\n
【零散技术】MAC 安装多版本node Odoo穆尘前端 macos
时间是我们最宝贵的财富,珍惜手上的每个时分不同前端项目运行的node版本不一致，会导致无法运行，就像Odoo也需要依据版本使用对应的python环境。python可以用conda随时切换版本，那么Node可以吗？答案是肯定的。1、安装n（类似于conda的工具，单一字符还是很特别）npminstall-gn2、安装nodesudo-En14.21.3版本参照表Node.jsVersionRelea
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
使用Python爬取短视频平台视频和评论数据 Python爬虫项目 2025年爬虫实战项目 python 音视频开发语言爬虫
随着短视频平台如抖音、快手、YouTube等的普及，短视频成为了人们表达、记录和消费信息的重要媒介。这些平台上的海量视频和评论数据为市场分析、用户研究和内容优化提供了重要支持。本篇博客将详细讲解如何使用Python抓取短视频平台的视频和评论数据，内容涵盖目标分析、技术选型、代码实现以及防反爬策略，力求全面覆盖数据抓取过程中的技术细节。目录一、短视频平台数据抓取的背景与需求1.为什么需要抓取短视频数
Google Protocol Buffers的.NET与Python 步、步、为营 .net python php
一、引言大家好，我是[博主名字]，一直致力于探索各种有趣且实用的技术，今天想和大家分享在项目开发中遇到的一个十分强大的工具——GoogleProtocolBuffers，以及它在.NET与Python这两种不同语言环境中的应用和实践。在当今的软件开发领域，我们常常会面临跨语言通信的挑战。比如，一个大型项目可能由多个不同语言编写的模块组成，.NET凭借其强大的生态系统和对Windows平台的深度集成
基于Python增加抖音视频播放量的代码 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
一、思路通过发送HTTP请求来实现这一功能。代码主要功能的简要介绍：1.`get_ttwid`：这个函数用于获取`ttwid`，它是通过向字节跳动的接口发送POST请求，并从响应的cookie中提取`ttwid`值。2.`get_web_id`：这个函数用于获取`web_id`，它是通过向某个API发送POST请求，并从响应中提取`web_id`。3.`get_ms_token`：这个函数生成一个
VSCode 创建Python 项目(最简单，最少步骤，无痛从pycharm迁移项目) 以史为镜 vscode ide 编辑器
第一步：下载下载地址：https://code.visualstudio.com/docs/?dv=win64user第二步：配置2.1：VsCode设置中文按住键盘上的“Ctrl+Shift+P”组合键，打开命令面板。在命令面板中输入“ConfigureDisplayLanguage”。点击“ConfigureDisplayLanguage”选项。在弹出的语言选择列表中，选择“zh-cn”，代表
python中使用多进制 Long韵韵 python知识学习 python 开发语言
python中使用多进制在Python中，多进制数字即是非十进制数字，包括二进制、八进制和十六进制。使用这些进制的表示方法如下：1）二进制：通过前缀“Ob”或“0B”表示，例如0b1010表示二进制的1010，等于十进制的10。2）八进制：通过前缀“0o”或“0O”表示，例如0o12表示八进制的12，等于十进制的10。3）十六进制：通过前缀“0x”或“0X”表示，例如0xA表示十六进制的A，等于十
Python中的进制书写排骨教主@ 笔记
为了方便计算和书写，Python中整数可以用不同的进制方式书写，其格式为0+进制方式（通常为一个大写字母）+相应进制的数据。具体对应前缀如下二进制:0b/0B八进制:0O十进制:无十六进制:0x/0X
Python 库的记录 weixin_40895135 python
GitHub-jobbole/awesome-python-cn:Python资源大全中文版，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单的Python版本管理工具。Vex–可以在虚拟环境中执行命令。vir
基于CNN-GRU-Attention混合神经网络的负荷预测方法（Python代码实现）宇哥预测优化代码学习神经网络 cnn gru
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、引言二、模型结构三、数据预处理四、模型训练与评估五、实验结果与分析六、结论与展望2运行结果3参考文献4Python代码实现及数据1概述基于CNN-GRU(convolutionalneuralnetworks-gaterecurrentunit)神经网络的电
Python进制 panyingwork Python python
Python进制数字默认是十进制0b或0B，二进制（[0,1]）：0b开头的数字（零b）0o或0O，八进制（[0,7]）：0o（零，小写o）0x或0X，十六进制（[0,9]与[A,F]）：0x（小写x）一、手动进制转换1.十进制转成其他进制十进制转二进制：除2取余，数字/2，包括最后的商，从下向上，取每一步计算的余数十进制转八进制：除8取余十进制转十六进制：除16取余2.其他进制转成十进制
Python极简计算器程序代码 EYYLTV python 开发语言
n=float(input("Enteranumber输入一个数字:"))m=float(input("Enteranumber输入一个数字:"))z=input("Enteranoperator输入一个运算符(+,-,*,/):")ifz==‘+’:a=n+mprint(a)elifz==‘-’:b=n-mprint(b)elifz==‘*’:c=n*mprint©elifz==‘/’:ifm=
FastAPI：一个贼快的Python Web框架程序媛千千 fastapi python
Python，作为一个强大而灵活的编程语言，提供了多种框架来简化Web开发过程。其中，FastAPI是一个很新但极其强大的库，它允许开发者以极简的代码高效地构建API。什么是FastAPI？FastAPI是一个现代、快速（高性能）的Web框架，用于构建API与Web应用程序。它基于标准Python类型提示这一特性，提供了多项功能，如数据验证、序列化、文档生成等。为什么选择FastAPI？速度：Fa
python 多线程无阻塞获取键盘按键檐上走过的猫
编程小白python多线程无阻塞获取键盘按键刚开始学，不喜勿喷，谢谢importsysimportttyimporttermiosimportosimportthreadingdefreadchar():fd=sys.stdin.fileno()old_settings=termios.tcgetattr(fd)try:tty.setraw(sys.stdin.fileno())ch=sys.st
Python3 【集合】项目实战：3 个新颖的学习案例李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享案例学习编程技巧
Python3【集合】项目实战：3个新颖的学习案例以下是3个应用“Python集合”知识的综合应用项目，这些项目具有新颖性、前瞻性和实用性，每个项目都包含完整的代码、解释说明、测试案例和执行结果。基因序列比对文章推荐系统运行日志分析项目1：基因序列比对（集合运算与去重）项目描述在生物信息学中，比对两个基因序列的相似性。使用集合的交集和并集计算相似度。代码实现#基因序列（简化为字符串集合）seque
python列表推导式 Cheng. py 最全面 Python python list
Python的列表推导式又称(列表解析式子)提供了一种简明扼要方便的方法来创建列表一般结构是，一个中括号中，包含一个表达式，一个for语句，然后是0个或多个for或者if语句结构拆解:最简单的列表推导式[xforxinrange(1,8)]#1-7加判断条件的列表推导式[xforxinrange(1,8)ifx>5]#[6,7]
（25）python推导式创建序列、列表、字典+综合运用关关雎鸠儿 python
推导式创建序列推导式是从一个或者多个迭代器快速创建序列的一种方法。它可以将循环和条件判断结合，从而避免冗长的代码。推导式是典型的Python风格，会使用它代表你已经超过Python初学者的水平。列表推导式列表推导式生成列表对象，语法如下：[表达式foritemin可迭代对象]或者：{表达式foritemin可迭代对象if条件判断}>>>[xforxinrange(1,5)][1,2,3,4]>>>
python3多线程传参_python多线程怎么传送多个参数 weixin_39808803 python3多线程传参
对于python来说，作为解释型语言，Python的解释器必须做到既安全又高效。我们都知道多线程编程会遇到的问题，解释器要留意的是避免在不同的线程操作内部共享的数据，同时它还要保证在管理用户线程时保证总是有最大化的计算资源。而python是通过使用全局解释器锁来保护数据的安全性：python代码的执行由python虚拟机来控制，即Python先把代码(.py文件)编译成字节码(字节码在Python
python多线程并发加速 AI算法网奇 python宝典 mysql python基础数据库
目录python多线程并发加速多线程例子打印线程号，进程号由于Python的全局解释器锁（GIL）限制，在CPU密集型任务中多线程的效果并不理想，但对于I/O密集型任务，多线程仍然是有效的。python多线程并发加速python多线程并发遍历数据库，然后查询历史记录，然后分析数据查询100ms，这时需要3分钟，加了并发处理后，需要1.2分钟后来数据库加了索引，需要6秒就可以了，总结：加索引能带来3
Python键盘监听+多线程被嘎韭菜的编程小白键盘监听多线程 python
__author__='tjt'#binimportdatetimeimportthreadingimporttimefrompynput.keyboardimportListenerimportkb_upperevent=threading.Event()#实例化事件time_map={'start_time':0.0,'end_time':0.0,'total_time':0.0,'odd_e
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
python求一个数的阶乘_阶乘计算python weixin_39540725 python求一个数的阶乘
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！问题本身很简单，主要是通过这个小问题来演示python的一些用法，例如测试代码运行时间、函数嵌套定义等等。fromtimeimporttimefrommathimportfactorialfromfunctoolsimportreducefromrandomimportrandintd
python上机_Python上机7 weixin_39575170 python上机
1.使用函数编写程序p1.py实现函数isOdd()，参数为整数，如果整数为奇数，返回True，否则返回False。然后在主程序中调用该函数，打印结果。2.使用函数编写程序p2.py实现函数isNum()，参数为一个字符串，如果这个字符串属于整数、浮点数或复数的表示，则返回True，否则返回False。在主程序输入一个字符串，调用该函数判断其是否为数字类型，并输出判断结果。参考代码：defisNu
2020-08-15 打开秋天的内核深度学习 python python tkinter
Python科学计算器本文分三部分特点介绍程序设计说明最终完整代码如果是高手，请直接跳过设计说明看最终完整代码。一、特点介绍这个计算器之所以称“Python科学计算器”，也绝非浪得虚名，肯定有它独特的地方才向大家推荐。1、具有科学计算功能。按照Python的方式输入，键盘按键和鼠标点击按钮混合输入。一般的计算例如12+34-56*78/910肯定不在话下，2\sqrt2
一句代码计算阶乘(python) iteye_19871 Python
printreduce(lambdaa,b:a*b,range(1,1001))Reurns:402387260077093773543702433923003985719374864210714632543799910429938512398629020592044208486969404800479988610197196058631666872994808558901323829669944
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen