sun0225SUN

豆瓣电影TOP250爬虫及可视化分析笔记

人类社会已经进入大数据时代，大数据深刻改变着我们的工作和生活。随着互联网、移动互联网、社交网络等的迅猛发展，各种数量庞大、种类繁多、随时随地产生和更新的大数据，蕴含着前所未有的社会价值和商业价值！！！

文章目录

一、前言
二、实例引入
三、爬虫
四、爬取思路
五、爬虫实战
- 1、单页爬取
- - 1.1、导入模块
  - 1.2、确定URL
  - 1.3、发起请求
  - 1.4、获得响应
  - 1.5、数据解析
  - 1.6、写入文件
- 2、我是如何“放弃”爬取多页数据的
- 3、我是如何完成爬取多页数据的
六、数据可视化分析 Echarts
- 1、导入pyecharts模块
- 2、各地区上映电影数量前十
- 3、电影评价人数前二十
- 4、各年份上映电影数量
- 5、其他可视化分析实例
七、后记

一、前言

本文是一篇爬虫实战学习笔记，记录近些时日对网络爬虫的认识和学习心得，主要使用了 requests、 re 、Beautifulsoup 和pandas库，初学爬虫，代码写的有点烂，望包涵！

本文同步发表在我的个人博客上，欢迎访问：https://sunguoqi.com/2021/11/07/douban_top250/

二、实例引入

假设由于工作或者项目要求，我们需要获取豆瓣电影 Top250 上的影片数据，进行可视化分析。
数据包括 影片名 上映年份 评分 导演 主演 电影类别 上映地区 影片名言 等
原始的数据存放在豆瓣的网页上，像这样。

我们需要将数据采集下来，存放在一张 excel 表里像这样！

然后对其进行可视化分析像这样

这样

.......

试想一下，我们该怎么做？
天大寒，砚冰坚，手指不可屈伸，弗之怠，录毕，走送之，不敢稍逾约？
我想人工摘录是一个极不明智的选择。在信息时代，我们有计算机，我们有python，我们应该想方设法让计算机去做这些事情。

三、爬虫

爬虫，其实就是代替人力去完成信息抓取工作的一门技术，他能按照一定的规则，从互联网上抓取任何我们想要的信息。

四、爬取思路

如何写爬虫？我们写爬虫的思路是什么？
前文提到，爬虫是代替人去完成信息抓取工作的，那么接下我们需要思考的问题便是，人是如何完成信息抓取工作的。
首先，我们打开豆瓣电影 TOP250 排行榜，分析我们需要的数据存放在哪里，然后复制粘贴，把我们的数据存放在excel表格里，依次重复如此枯燥乏味的工作对吧。
是的，其实爬虫要做的工作也是如此，写爬虫的大致思路如下。
确定URL——>发起请求获得服务器响应数据——>解析数据——> 数据存储

五、爬虫实战

1、单页爬取

先把单页爬取的代码放在这里，稍后我会做详细解释。

"""
-*- coding: utf-8 -*-
@Time : 2021/11/6 下午 4:59
@Author : SunGuoqi
@Website : https://sunguoqi.com
@Github: https://github.com/sun0225SUN
"""

# 导入一些模块
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd

# 首先确定URL
url = 'https://movie.douban.com/top250'
# UA伪装
headers = {
     
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}
# 发起请求
response = requests.get(url, headers=headers)
# 获得响应文件文本
# print(response.text)
html = response.text
# 创建BeautifulSoup对象，方便解析
soup = BeautifulSoup(html, 'lxml')
# 找出所有的li标签
all_li = soup.find('ol', {
     'class': 'grid_view'}).find_all('li')
# 创建一个空列表，存放我们的数据。
datas = []
for item in all_li:
    # 提取影片名称（只提取了中文名称）
    name = item.find('span', {
     'class': 'title'}).text
    # 提取影片评分
    score = item.find('span', {
     'property': 'v:average'}).text
    # 提取影片经典语录
    quote = item.find('span', {
     'class': "inq"}).text
    # 下面提取影片信息部分
    info = item.find_all('p', {
     'class': ''})
    # print(info.text)
    # 返回的是一个列表，列表里是一个元组
    # print(info[0].text)
    info_contents = info[0].text
    # 分割影片信息，提取影片 导演 || 主演 || 上映年份 || 国家/地区 || 类型
    result = re.findall(
        '^.*?\u5bfc\u6f14:\s(.*?)\s.*?\u4e3b\u6f14:\s(.*?)\s.*?(\d{4})\s.*?([\u4e00-\u9fa5].*)\xa0.*?\u002f.*?([\u4e00-\u9fa5].*?)\s\s.*$',
        info_contents, re.S)
    # 把数据按找字典的格式存放到列表里
    datas.append({
     
        '片名': name,
        '年份': result[0][2],
        '评分': score,
        '导演': result[0][0],
        '主演': result[0][1],
        '类型': result[0][4],
        '国家/地区': result[0][3],
        '经典台词': quote
    })
print("爬取完成！！！")
# 写入到文件
df = pd.DataFrame(datas)
df.to_csv("豆瓣电影.csv", index=False, header=True, encoding='utf_8_sig')
print("已写入豆瓣.csv文件")

1.1、导入模块

首先我们需要导入四个模块，没有下面四个库的同学需要PIP安装下。

import requests
import re
from bs4 import BeautifulSoup
import pandas as pd

1.2、确定URL

我们请求的URL是明确的，就是https://movie.douban.com/top250?start=0&filter=,其后面的参数是和多页爬取和过滤相关的，这个我们后面会用到。

url = 'https://movie.douban.com/top250'

1.3、发起请求

我们打开浏览器，输入网址，按下enter键后便可获得精美的页面，但其实在这期间，计算机和浏览器为我们做了很多事情。
不妨我们试一下，打开我们的浏览器，输入网址https://movie.douban.com/top250，然后按下我们电脑上的F12键，打开开发者工具，选择Network选项卡，刷新一下页面，你会看到很多数据包。这便是我们按下enter键后获得的数据本身，浏览器根据相应的规则对这些数据包进行解析和渲染，便生成了我们见到的网页。

我们是通过浏览器去获取和解析数据的，那么爬虫如何像浏览器一样去请求数据呢？
站在巨人的肩膀上，Python大牛们已经解决了这个问题，并把它封装成了一个库，这个库便是requests库，我们只需要调用库里面封装好的函数就可以模拟浏览器请求数据了。
似乎还需要讲一个东西，就是请求头 请求体和响应头 响应体的问题。
打开我们的开发者工具，点击一条数据，选择headers选项卡，我们便可以看到此次请求的请求头，其中包括我们请求的URL 请求方法 UA标识 请求参数等等

包裹是有身份的，就像我们收到的快递一样，数据包也是如此，我们需要知道这个数据是谁发送的，要干嘛，所以我们需要请求头 请求体这样一个东西。
一些网站会设置反爬虫机制，如果服务器发现请求是python发送的，便不会正常响应，所以我们需要伪装一下身份。
解决方法就是利用请求头进行UA伪装

# 首先确定URL
url = 'https://movie.douban.com/top250'
# UA伪装
headers = {
     
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
# 发起请求
response = requests.get(url, headers=headers)

如何查看自己电脑的UA表示呢？打开开发者工具，找到我们headers选项卡，展开第三条数据即可看到我们电脑的UA

1.4、获得响应

如果程序正常运行，便会发送URL对应的资源文件，我们可以打印一下他的响应内容。

print(response.text)

屏幕应该会打印一大堆HTML文本，我们的数据就存放在里面。

1.5、数据解析

我们成功获取了HTML文件，我们需要的数据就存放在里面，但是如何过滤掉我们不需要的东西呢？

当米开朗琪罗被问及如何完成《大卫》这样匠心的雕刻作品时，他有一段著名的回答: 很简单，你需要用锤子把石头上不像大卫的地方敲掉就行了。

再次站在前人的肩膀上，BeautifulSoup库闪亮出场。
在使用BeautifulSoup库之前，我们应该很清楚的知道我们需要的数据存放在什么位置。

很显然，我们需要的数据存放在一个ol有序列表里，每条数据的便是一个列表项li，每个li标签又长什么样子呢？
因为豆瓣后台源代码有点乱，我们把它复制到vscode里格式化一下再看。

我们需要的数据存放的位置就更加明显了。好了，现在我们可以喝一碗美味的汤了（BeautifulSoup）
先将我们获取的HTML文本封装成BeautifulSoup对象，对象里包含了很多属性和方法，方便我们查找和获取我们需要的数据。

# print(response.text)
html = response.text
# 创建BeautifulSoup对象，方便解析
soup = BeautifulSoup(html, 'lxml')

这里我们首先获取所有的li标签，然后遍历all_li 获得每个li里的数据，在进行解析就可以了。

# 找出所有的li标签
all_li = soup.find('ol', {
     'class': 'grid_view'}).find_all('li')

我们创建一个空列表，将以后获得得每条数据，都存放在里面。

datas = []

我们通过上面的分析发现，影片名称存放在下面这一小块。

            <div class="hd">
                <a href="https://movie.douban.com/subject/1292052/" class="">
                    <span class="title">肖申克的救赎span>
                    <span class="title"> / The Shawshank Redemptionspan>
                    <span class="other"> / 月黑高飞(港) / 刺激1995(台)span>
                a>
                <span class="playable">[可播放]span>
            div>

其对应的解析便是name = item.find('span', {'class': 'title'}).text
影片得分，存放在下面这一小块。

                <div class="star">
                    <span class="rating5-t">span>
                    <span class="rating_num" property="v:average">9.7span>
                    <span property="v:best" content="10.0">span>
                    <span>2478010人评价span>
                div>

其对应的解析便是name = item.find('span', {'class': 'title'}).text
影片语录存放在下面这一小块。

                <p class="quote">
                    <span class="inq">希望让人自由。span>
                p>

其对应的解析便是quote = item.find('span', {'class': "inq"}).text
其他内容都在这里面，

                <p class="">
                    导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                    1994 / 美国 / 犯罪 剧情
                p>

有些同学可能会发现，如果我们依旧按照上面的方式去解析，我们只能获得p标签里面的内容，没法把导演哇，主演哇，等等分离出来，emmm，怎么办呢？
魔法终究可以被魔法打败，我们有最强的字符串处理工具，就是正则表达式。在使用之前，我们应该先引用先导入此模块。
首先我们获取的p标签里的内容，它长下面这个样子。

                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...
                            1994 / 美国 / 犯罪 剧情

其对应的解析便是result = re.findall('^.*?\u5bfc\u6f14:\s(.*?)\s.*?\u4e3b\u6f14:\s(.*?)\s.*?(\d{4})\s.*?([\u4e00-\u9fa5].*)\xa0.*?\u002f.*?([\u4e00-\u9fa5].*?)\s\s.*$',info_contents, re.S)

这里关于正则表达式就不多说了，有兴趣的同学可以研究研究。

计算机科学领域有一个笑话，如果你有一个问题打算用正则表达式来解决，那么就是两个问题了。

于是，程序就变成下面这样了。

for item in all_li:
    # 提取影片名称（只提取了中文名称）
    name = item.find('span', {
     'class': 'title'}).text
    # 提取影片评分
    score = item.find('span', {
     'property': 'v:average'}).text
    # 提取影片经典语录
    quote = item.find('span', {
     'class': "inq"}).text
    # 下面提取影片信息部分
    info = item.find_all('p', {
     'class': ''})
    # print(info.text)
    # 返回的是一个列表，列表里是一个元组
    # print(info[0].text)
    info_contents = info[0].text
    # 分割影片信息，提取影片 导演 || 主演 || 上映年份 || 国家/地区 || 类型
    result = re.findall(
        '^.*?\u5bfc\u6f14:\s(.*?)\s.*?\u4e3b\u6f14:\s(.*?)\s.*?(\d{4})\s.*?([\u4e00-\u9fa5].*)\xa0.*?\u002f.*?([\u4e00-\u9fa5].*?)\s\s.*$',
        info_contents, re.S)

接着我们把数据以字典的方式存放到列表里。

    # 把数据按找字典的格式存放到列表里
    datas.append({
     
        '片名': name,
        '年份': result[0][2],
        '评分': score,
        '导演': result[0][0],
        '主演': result[0][1],
        '类型': result[0][4],
        '国家/地区': result[0][3],
        '经典台词': quote
    })

OK，这样其实我们就把单张的豆瓣影片数据爬取完成了！

1.6、写入文件

写入文件用的是强大的pandas库，这里需要注意下编码格式，否则打开的可能是乱码。

df = pd.DataFrame(datas)
df.to_csv("豆瓣电影.csv", index=False, header=True, encoding='utf_8_sig')

2、我是如何“放弃”爬取多页数据的

接下来我们要做的问题就是多页爬取了，单页爬取对应的是一个URL，多页爬取对应的当然就是多个URL了
emmm，不太严格，严格来说应该是我们每次请求的URL附加的参数变了，我们找到每次请求附加的参数变化规律就可以了。
第一页对应的URL：https://movie.douban.com/top250?start=0&filter=
第二页对应的URL：https://movie.douban.com/top250?start=25&filter=
…

第十页对应的URL：https://movie.douban.com/top250?start=225&filter=
很简单就发现了对吧，就是start参数的值变了，于是我们可以这样构造URL

url = 'https://movie.douban.com/top250?start=' + str(k * 25)

用for循环遍历就好了。（当然还要注意data=[]要放在最外面，要不然获取每页数据时，data就被清空了）

for k in range(10):
    print("正在抓取第{}页数据...".format(k+1))
	url = 'https://movie.douban.com/top250?start=' + str(k * 25)
	......再把之前的代码加上去就可以了。

大功告成！！！
可是，真的这样么，我太天真了，现实给我来了当头一棒。

第二页数据就报错了，没有result[0][2]条数据，也就是年份，emmm，其实不是年份，是因为我们写的正则表达式没有捕捉到主演信息，所以列表索引超了。仔细查找下问题，看下图！

好吧，我确实忽略这个问题了，因为这个top榜主要是简介，字数什么的有限制，并不能完成主演等等详细数据的爬取任务，而且我们也没有去写异常处理。
仔细分析后，网页内容不只这一条不符合规范，如果要加入异常处理的话，需要加入很多，况且数据也不全，所以我放弃爬取多页了？？？

3、我是如何完成爬取多页数据的

在参考了其他同类的爬虫文章后，我发现，top 250 页面只是电影简介，详情都在点开电影链接之后。
比如，我们打开《肖申克的救赎》这部电影，该电影的所有信息都会按规范的格式展现在了我们的面前。
我们再写一个爬虫，爬取每个电影的链接，然后打开电影详情链接，去解析详情文本就可以了。

具体代码如下，这个我就不做具体分析了，思路和上面差不多，最复杂的就是解析数据和数据清洗那里，需要一点点尝试。

"""
-*- coding: utf-8 -*-
@Time : 2021/11/7 下午 4:25
@Author : SunGuoqi
@Website : https://sunguoqi.com
@Github: https://github.com/sun0225SUN
"""

import re
import time
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 数据存放在列表里
datas = []
# 遍历十页数据
for k in range(10):
    print("正在抓取第{}页数据...".format(k + 1))
    url = 'https://movie.douban.com/top250?start=' + str(k * 25)
    headers = {
     
        'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    # 查找电影链接
    lists = soup.find_all('div', {
     'class': 'hd'})
    
    # 遍历每条电影链接
    for item in lists:
        href = item.a['href']
        # 休息一下，防止被封
        time.sleep(0.5)
        # 请求每条电影，获得详细信息
        response = requests.get(href, headers=headers)
        # 把获取好的电影数据打包成BeautifulSoup对象
        movie_soup = BeautifulSoup(response.text, 'lxml')
        
        # 解析每条电影数据
        # 片名
        name = movie_soup.find('span', {
     'property': 'v:itemreviewed'}).text.split(' ')[0]
        # 上映年份
        year = movie_soup.find('span', {
     'class': 'year'}).text.replace('(', '').replace(')', '')
        # 评分
        score = movie_soup.find('strong', {
     'property': 'v:average'}).text
        # 评价人数
        votes = movie_soup.find('span', {
     'property': 'v:votes'}).text
        infos = movie_soup.find('div', {
     'id': 'info'}).text.split('\n')[1:11]
        # infos返回的是一个列表，我们只需要索引提取就好了
        # 导演
        director = infos[0].split(': ')[1]
        # 编剧
        scriptwriter = infos[1].split(': ')[1]
        # 主演
        actor = infos[2].split(': ')[1]
        # 类型
        filmtype = infos[3].split(': ')[1]
        # 国家/地区
        area = infos[4].split(': ')[1]
        
        # 数据清洗一下
        if '.' in area:
            area = infos[5].split(': ')[1].split(' / ')[0]
            # 语言
            language = infos[6].split(': ')[1].split(' / ')[0]
        else:
            area = infos[4].split(': ')[1].split(' / ')[0]
            # 语言
            language = infos[5].split(': ')[1].split(' / ')[0]
        if '大陆' in area or '香港' in area or '台湾' in area:
            area = '中国'
        if '戛纳' in area:
            area = '法国'
        # 时长
        times0 = movie_soup.find(attrs={
     'property': 'v:runtime'}).text
        times = re.findall('\d+', times0)[0]

        # 将数据写入列表
        datas.append({
     
            '片名': name,
            '上映年份': year,
            '评分': score,
            '评价人数': votes,
            '导演': director,
            '编剧': scriptwriter,
            '主演': actor,
            '类型': filmtype,
            '国家/地区': area,
            '语言': language,
            '时长(分钟)': times
        })
        print("电影《{0}》已爬取完成...".format(name))

# 写入到文件
df = pd.DataFrame(datas)
df.to_csv("top250.csv", index=False, header=True, encoding='utf_8_sig')

infos那里直接提取这个div里面所有的子孙节点的文本，返回的是一个列表，像下面这样，然后用索引去提取，再清洗下就可以存储到字典列表里了，还有要注意豆瓣反爬机制，不要请求过快，time.sleep(0.5)

['', 
'导演: 弗兰克·德拉邦特', 
'编剧: 弗兰克·德拉邦特 / 斯蒂芬·金', 
'主演: 蒂姆·罗宾斯 / 摩根·弗里曼 / 鲍勃·冈顿 / 威廉姆·赛德勒 / 克兰西·布朗 / 吉尔·贝罗斯 / 马克·罗斯顿 / 詹姆斯·惠特摩 / 杰弗里·德曼 / 拉里·布兰登伯格 / 尼尔·吉恩托利 / 布赖恩·利比 / 大卫·普罗瓦尔 / 约瑟夫·劳格诺 / 祖德·塞克利拉 / 保罗·麦克兰尼 / 芮妮·布莱恩 / 阿方索·弗里曼 / V·J·福斯特 / 弗兰克·梅德拉诺 / 马克·迈尔斯 / 尼尔·萨默斯 / 耐德·巴拉米 / 布赖恩·戴拉特 / 唐·麦克马纳斯', 
'类型: 剧情 / 犯罪',
'制片国家/地区: 美国',
'语言: 英语',
'上映日期: 1994-09-10(多伦多电影节) / 1994-10-14(美国)', 
'片长: 142分钟',
'又名: 月黑高飞(港) / 刺激1995(台) / 地狱诺言 / 铁窗岁月 / 消香克的救赎', 
'IMDb: tt0111161', 
'']

因为我们这次请求的链接，解析的文本确实比较多，所以我们需要稍等一会才可以拿到我们的数据了，不妨去喝杯咖啡~

六、数据可视化分析 Echarts

关于数据爬取我们就完成了，接下来我们要做的就是可视化分析。
可视化分析这块我还没有系统学习，以下内容是借鉴其他博主的。
参考链接：

https://blog.csdn.net/weixin_42512684/article/details/90708037    
https://blog.csdn.net/weixin_42152811/article/details/115366846

1、导入pyecharts模块

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Bar

2、各地区上映电影数量前十

在线演示地址： https://box.sunguoqi.com/douban/01.html

源代码

data = pd.read_csv('top250.csv')
year_counts = data['上映年份'].value_counts()
year_counts.columns = ['上映年份', '数量']
year_counts = year_counts.sort_index()
c = (
    Bar()
        .add_xaxis(list(year_counts.index))
        .add_yaxis('上映数量', year_counts.values.tolist())
        .set_global_opts(
        title_opts=opts.TitleOpts(title='各年份上映电影数量'),
        yaxis_opts=opts.AxisOpts(name='上映数量'),
        xaxis_opts=opts.AxisOpts(name='上映年份'),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_='inside')], )
        .render('各年份上映电影数量.html')
)

3、电影评价人数前二十

在线演示地址： https://box.sunguoqi.com/douban/02.html

源代码

data = pd.read_csv('top250.csv')
df = data.sort_values(by='评价人数', ascending=True)
c = (
    Bar()
        .add_xaxis(df['片名'].values.tolist()[-20:])
        .add_yaxis('评价人数', df['评价人数'].values.tolist()[-20:])
        .reversal_axis()
        .set_global_opts(
        title_opts=opts.TitleOpts(title='电影评价人数'),
        yaxis_opts=opts.AxisOpts(name='片名'),
        xaxis_opts=opts.AxisOpts(name='人数'),
        datazoom_opts=opts.DataZoomOpts(type_='inside'),
    )
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .render('电影评价人数前二十.html')
)

4、各年份上映电影数量

在线演示地址： https://box.sunguoqi.com/douban/03.html

源代码

data = pd.read_csv('top250.csv')
country_counts = data['国家/地区'].value_counts()
country_counts.columns = ['国家/地区', '数量']
country_counts = country_counts.sort_values(ascending=True)
c = (
    Bar()
        .add_xaxis(list(country_counts.index)[-10:])
        .add_yaxis('地区上映数量', country_counts.values.tolist()[-10:])
        .reversal_axis()
        .set_global_opts(
        title_opts=opts.TitleOpts(title='地区上映电影数量'),
        yaxis_opts=opts.AxisOpts(name='国家/地区'),
        xaxis_opts=opts.AxisOpts(name='上映数量'),
    )
        .set_series_opts(label_opts=opts.LabelOpts(position="right"))
        .render('各地区上映电影数量前十.html')
)

5、其他可视化分析实例

在线演示地址： https://box.sunguoqi.com/douban/04.html

在线演示地址： https://box.sunguoqi.com/douban/05.html

在线演示地址： https://box.sunguoqi.com/douban/06.html

七、后记

数据可视化还是很酷的，大家可以点进去网址查看，图表是可以动态交互的。
到此，本文就结束了！爬虫代码写的确实比较烂，并没有进行模块化编写以及异常处理，仅供交流！
欢迎关注小孙同学的个人公众号【不负人间理想】，愿你我都可以不负人间理想，成为更好的自己！

你可能感兴趣的:(经验技巧,爬虫,python,数据挖掘)

python type函数_Python type（）函数 cunchi4221 python java javascript js php ViewUI
pythontype函数Pythontype（）函数(Pythontype()Function)Pythonhasalotofbuit-infunction.Thetype()functionisusedtogetthetypeofanobject.Python具有很多内置功能。type()函数用于获取对象的类型。Pythontype()functionsyntaxis:Pythontype（）函
Python 网页控制自动化 getEdgeDriver chenchihwen 服务器 mysql 运维
透过python使用edge执行自动化时，原来的代码出现报错了执行报错啦：messageinfo如下显示HTTPSConnectionPool(host='msedgedriver.azureedge.net',port=443):Maxretriesexceededwithurl:/130.0.2849/edgedriver_win64.zip(CausedbyNewConnectionErro
函数与lambda表达式叶清湑学习笔记 python lambda
函数与lambda表达式在Python中，函数分为普通函数与lambda函数。Lambda是一个匿名函数，它是一种简写，表达更快。写法如下:自定义函数名=lambda若干参数:操作表达式deffun1(a,b,c):returna*b*cprint(fun1(3,4,10))fun2=lambdaa,b,c:a*b*c;print(fun2(3,5,10))
Python VS Code报错ModuleNotFoundError: No module named ‘numpy‘以及No module named ‘xxx‘的原因及解决办法猛狗哭泣数据分析 python bug anaconda
ModuleNotFoundError的两种类型及解决方法Nomodulenamed'numpy'Nomodulenamed'xxx'Nomodulenamed‘numpy’有的时候我们想import常用的包比如numpy或者pandas，而且电脑上是有安装这些包并且在Jupyter中可以正常使用的，但在VSCode或者Pycharm中import却会出现如题的错误。发生这种报错的原因是VSCod
使用Selenium调试Edge浏览器的常见问题与解决方案程序员小雷 selenium edge 测试工具测试用例单元测试功能测试 postman
背景介绍在当今互联网时代，网页爬虫已经成为数据获取的重要手段。而Selenium作为一款功能强大的自动化测试工具，被广泛应用于网页爬取任务中。虽然Chrome浏览器是Selenium用户的常见选择，但在某些工作环境中，我们可能需要使用Edge浏览器来进行自动化测试。然而，Edge浏览器在调试和使用过程中会遇到一些特有的挑战，本文将深入探讨这些问题，并提供实用的解决方案。问题陈述当尝试使用Selen
【20.5 python中的FastAPI】 wang151038606 python语言入门学习 python fastapi 开发语言
python中的FastAPIFastAPI是一个现代、快速（高性能）的Web框架，用于构建API，基于Python3.6+的类型提示。它利用了Python3.7+的新特性，如类型提示（TypeHints），来自动生成API文档（基于OpenAPI和SwaggerUI），以及进行参数校验和序列化/反序列化。FastAPI旨在简化API开发，同时保持高性能。FastAPI的特点快速：极高的性能，可与
华为OD机试E卷 --游戏分组--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 游戏 java javascript c++c python
文章目录题目描述输入描述输出描述用例题目解析Js算法源码python算法源码java算法源码c++算法源码c算法源码题目描述部门准备举办一场王者荣耀表演赛，有10名游戏爱好者参与，分为两队，每队5人。每位参与者都有一个评分，代表着他的游戏水平。为了表演赛尽可能精彩，我们需要把10名参赛者分为示例尽量相近的两队。一队的实力可以表示为这一队5名队员的评分总和。现在给你10名参与者的游戏水平评分，请你根
python中报错“ModuleNotFoundError: No module named ‘openpyxl‘” wang151038606 python中bug python中的安装包 python
python中报错“ModuleNotFoundError:Nomodulenamed‘openpyxl’”importopenpyxl时报错“ModuleNotFoundError:Nomodulenamed‘openpyxl’”在Python中遇到ModuleNotFoundError:Nomodulenamed'openpyxl'这个错误，通常意味着你的Python环境中没有安装openpy
实现实时通信：使用Python WebSocket与服务器进行交互清水白石008 Python题库 python python websocket 交互
实现实时通信：使用PythonWebSocket与服务器进行交互在现代网络应用中，实时通信变得越来越重要。无论是在线聊天、股票交易还是游戏，能够即时交换数据是提升用户体验的关键。WebSocket协议作为一种实现双向通信的标准，提供了有效的解决方案。本文将带你深入理解如何使用Python编写一个简单的WebSocket客户端，与服务器进行实时通信。一、WebSocket协议概述1.1WebSock
Python中常见关键字及其用法介绍 xiaoweids 编程语言 Python python 开发语言
这篇文章主要介绍了Python中有哪些关键字及关键字的用法,分享python中常用的关键字，本文结合示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下Python有哪些关键字Python常用的关键字1and,del,from,not,while,as,elif,global,or,with,assert,else,if,pass,yield,break,e
Python使用QQ邮箱发送邮件提示高质量海王哦 python python
python发送qq邮件htmlimportbase64importsmtplibimporttimefromemail.mime.textimportMIMETextdefsend_QQ_mail_HTML():user='[email protected]'#发送方的邮箱账号passwd='xruuwiyxdcouddjg'#授权码receiver='[email protected]
python无人飞机 python无人驾驶医学芯片 python 开发语言
这是一个简单的无人飞机代码示例：classDrone:def__init__(self):self.flying=Falsedeftakeoff(self):ifnotself.flying:print("无人机起飞")self.flying=Trueelse:print("无人机已在空中")defland(self):ifself.flying:print("无人机降落")self.flying
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念(3.1-3.2)------内存地址、创建对象、对象的类型及对象的划分问题 thefg Python基础详解教程对象的类型创建对象 in is id 内存地址逻辑地址
第三章、python中的对象、变量、标识符、作用域、引用(调用)及地址的概念本章讲述编程中对象、变量、地址的基本概念及其之间的关系，可迭代对象、可变对象、不可变对象的特点。
基于flask框架高校学生宿舍管理系统 (python+mysql+论文) 真纯Django毕设程序 python flask mysql
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：
Python中global的用法叉选手 python python
global是python中的一个关键字，作用在变量上，该关键字通常放在函数块中，用来声明该变量为全局变量。例如下面变量a，定义在函数外面的是全局变量a，定义在fun函数里面的a是另一个a，是局部变量a，两者没有任何关系。好比这个地区有个叫张三的人，公办室里有个另一个叫张三的人。他们是两个不同的人。a=10deffun():a=2fun()print(a)#输出10如果想要函数里面的那个a就代表外
巨潮PDF年报下载01——python request库圣道寺 python学习笔记 python
目录标题背景代码块背景(70条消息)迅雷API批量下载巨潮年报_无敌的前任的博客-CSDN博客代码块fromwin32com.clientimportDispatch#pipinstallwin32compat#pipinstallpywin32importosimportreimportopenpyxlimportrequestsimporturllib.requestimporttimedef
python中global的用法 Jqlender python python
python变量的作用域：Local局部作用域Enclosing闭包函数外的函数中Global全局作用域查找规则：以Local->Enclosing->Global规则查找，即：同名变量，优先引用的是局部变量，在局部找不到，便会去局部外的局部找（例如闭包），再找不到就会去全局找。global关键字x=5deffun_a():print(x)deffun_b():x=x+1print(x)fun_a
Python 潮流周刊#84：2024 年 Python 的最佳实践（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2200字。以下是本期摘要：文章&教程①现代Python开发的良好实践②2024年最先进的Python③回顾一年：2024年的Flask④介绍Annotate
Python基于matplotlib-scalebar库绘制比例尺懒大王爱吃狼 python python matplotlib 开发语言自动化 Python基础 opencv
在Python中，你可以使用matplotlib-scalebar库来在图表上绘制比例尺。这个库是matplotlib的一个扩展，专门用于在绘图时添加比例尺。以下是一个简单的示例，展示了如何使用matplotlib-scalebar来绘制带有比例尺的图表。首先，你需要安装matplotlib-scalebar库。如果你还没有安装它，可以使用以下命令来安装：pipinstallmatplotlib-
Python 潮流周刊#77：Python 依赖管理就像垃圾场火灾？（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2200字。以下是本期摘要：文章&教程①Python依赖管理一种垃圾场火灾②Python的膨胀：精细的项目间依赖关系分析③分享我的Django项
Python 潮流周刊#74：创下吉尼斯世界记录的 Python 编程课（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目，2则音视频，全文2300字。好消息：即日起至万圣节（12.31），周刊限时99元/年，欢迎订阅！！以下是本期摘要：文章&教程①创下吉尼斯世界记录的Python
Python 潮流周刊#71：PyPI 应该摆脱掉它的赞助依赖（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2000字。以下是本期摘要：文章&教程①PyPI应该摆脱掉它的赞助依赖②创建不分大小写的Python字符串类③用Tree-sitter&Jedi重
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了14篇文章，12个开源项目，4则音视频，全文2300字。以下是本期摘要：文章&教程①Python3.13.0最终版已发布！②关于Python3.13，了解这些信息就够了③Python3.13
Python 潮流周刊#67：uv 的重磅更新（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①uv：统一的Python打包工具②PyJWT和python-jose在处理JWT令牌时的差异③Kindle+Pytho
Python 潮流周刊#68：2023 年 Python 开发者调查结果（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2100字。以下是本期摘要：文章&教程①2023年Python开发者调查结果②为什么在Docker中我仍然要用Python虚拟环境？③我如何用P
MediaCrawler 小红书爬虫源码分析
前言MediaCrawler是最近冲上Github热搜的开源多社交平台爬虫。虽然现在已删库，但还好我眼疾手快，有幸还Fork了一份，乘着周末，简单分析了下小红书平台的相关代码。爬虫难点一般写爬虫，都需要面对以下几个问题如果app/网页需要登录，如何获取登录态（cookie/jwt）大部分app/网页都会对请求参数进行sign，如果有，如何获取sign逻辑绕过其它遇到的反爬措施我将带着这三个问题，阅
Python WebSocket服务器介绍一只会写程序的猫 Python python websocket 服务器
PythonWebSocket服务器介绍WebSocket是一种在Web浏览器和服务器之间实现全双工通信的协议。它允许服务器主动发送消息到浏览器，而不需要浏览器发起请求。Python提供了许多库和框架来实现WebSocket服务器，本文将介绍如何使用Python构建一个简单的WebSocket服务器。WebSocket协议和工作原理WebSocket协议是通过HTTP协议的升级实现的。在HTTP协
python如何读取csv文件？ gaogsf Python python 开发语言
CSV（CommaSeparatedValues）文件是一种常见的文件格式，它将数据以逗号分隔的形式存储，通常用于存储表格数据。在Python中，我们可以使用多种方法来读取CSV文件，本文将从多个角度分析Python如何读取CSV文件。一、Python内置的csv库Python内置了csv库，可以使用该库中的reader对象来读取CSV文件。下面是一个示例代码：importcsvwithopen(
探索装饰器的奥秘：Python里的超级英雄披风大梦百万秋知识学爆 python 开发语言
引言：每一行代码都可以是一件披风有没有想过，代码写得再帅气，读起来再优雅，它始终是千篇一律的套路？有时候，代码中的函数就像是穿着普通衣服的路人，默默地完成任务。而这时候，你可能会想：“嘿，我要给它们一点魔法，让它们更具超能力！”别担心，Python里的装饰器正是你需要的神秘工具，它能给你的函数加上一件“超级英雄披风”，让它们瞬间拥有更多的功能，且不改变它们原本的外貌。今天我们就来一起揭开装饰器的面
在 Python 中使用 PyPDF2 向 PDF 文件批量添加水印信息科技云课堂 python pdf
目录：使用PyPDF2添加水印到PDF文件批量添加水印到PDF文件所有页PDF文件广泛用于不同的设备和平台上，在某些情况下，可能需要在PDF文件中申明版权，需要将水印、条形码、二维码等添加到PDF中。PyPDF2提供了一种将另一个PDF文件作为水印，添加到PDF文件的方法。在下面的示例中，制作一个PDF水印文档，可以加入文字、二维码，通过合并的方法为PDF文件添加水印。使用PyPDF2添加水印到P
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文