mysteryflower

人人都能学会数据分析-笔记

第01周走进数据分析

1-1 互联网数据分析通用课程-导学

课程导学

随着互联网的发展，任何岗位都离不开数据分析

互联网 => 数据 => 价值
用户 => 网上购物 => 评价、购买量、价格
产品 => 设计与优化 => 跟踪用户行为、监测数据
运营 => 成交量 => 数据指标、有效营销手段

数据分析师，必须掌握的技能

硬技能 => 硬性数据处理和分析工具的使用
=> 电子表格 Excel
   => 数据库操作语言 SQL
   => 可视化面板 Tableau
   => 大数据处理分析 Python
软技能 => 对事物的认知方式、经验积累

A的价格比B的价格高
A的波动大于B，波动大风险就大
行情下跌 vs 事件关系

课程优势

普适性
   运营、产品、市场或者销售
   数据分析的硬技能
   互联网行业经验
   => 细分行业、企业、商业模式
       运营策略、思维模型、业务指标
实战性
   真实的数据、案例
   第一阶段：大数据人才需求分析、销售情况分析
   第二阶段：用户行为、用户画像、营销渠道分析、留存转化
从0到1
   目标确定=>数据获取=>数据清洗=>数据探索=>洞察结论=>数据报告

期待你和我一起，用数据解析世界

1-2 从互联网数据分析说起

什么是互联网数据分析

互联网：

信息传输的一种载体
通过电子化的方式留存信息
与传统线下基于实物的传输方式相对应

纸币、硬币

数字货币

数据分析：
对数据的规律进行总结、提炼
决策

互联网数据分析岗人才需求 => 线上线下
招聘信息 => 统计职位数 => 同类比较

数据 => 生产材料

章节回顾

互联网 => 线上的传输方式
数据分析 => 利用数据规律进行决策
互联网数据分析 => 对基于线上产生的数据进行分析

课后作业

以下哪个是基于互联网的数据分析：
A. 统计某产品线下调研结果
B. 分析某课程线上引流效果

2-1 什么是数据

从认识数据开始

认识数据

数据分类
统计指标
分布形态
数据分析流程
常用数据分析工具

什么是数据

数据是对事物的描述和记录

数据的特性

根据计量层次，进一步对数据进行分类
黄瓜、番茄、森林、书本，无法计算比较，计量层次低
1,2,3,4,5，这些数据可以计算比较，那么计量层次就高

定类数据

颜色：红色、白色、黄色
性别：男性、女性
职位：数据产品经理、数据运营、市场营销运营
按照类别属性进行分类，各类别之间是平等并列关系
这种数据不带数量信息，并且不能在各类别间进行排序
主要数值运算，计算每一类别中的项目的频数和频率

定序数据

受教育程度：小学、初中、高中、大学、硕士、博士
季度：春、夏、秋、冬
等级：合格、良好、优秀
定序数据之间可以进行排序、比较优劣
通过将编码进行排序，可以表示之间的高低差异

定距数据

温度：20、50、100
成绩：50、65、70、100
年龄：8、25、40、60
具有一定单位的实际测量值
定距数据的精确性比定类数据和定序数据更高
可以计算出各变量之间的实际差距（加、减）

定比数据

利润：10万、20万、30万
薪酬：3000、6000、9000、12000
用户数：210、3500、49000
可以比较大小，进行加、减、乘、除运算
定距尺度中，0表示数值，定比尺度中，0表示"没有"
定比数据中是存在绝对零点的，而定距数据不存在

定性、定量数据

定性数据（定类数据、定序数据）
是一组表示事物性质、规定事物类别的文字表述型
定类数据（定距数据、定比数据）
指以数量形式存在着的属性，并因此可以对其进行

数据矩阵/二维数据表

数据属性、维度
观测值、记录

章节回顾

什么是数据
数据的类型
   定类数据 => 定性数据
   定序数据 => 定性数据
   定距数据 => 定量数据
   定比数据 => 定量数据
数据矩阵是怎么组成的

课后作业

对应的是什么数据类型

定性：姓名、性别、职业
定量：用户标识、年龄、薪酬

2-2 什么是统计指标

为什么要学习统计指标

技能
薪酬水平
工作年限
业务背景

汇总
处理
计算

什么是统计指标

体现总体数量特征的概念和数值
根据数据分析的目的不同，统计指标也会变化

房屋设计：建筑面积、竣工面积、技术装备率
提升用户转化率：网站浏览量、着陆页、跳失率
选择理财产品：往期业绩、风险系数、年化收益

总量指标

GDP(国内生产总值)
总人口 => 总和(SUM)
销售总额

特定条件下的总规模、总水平或工作总量
是一种最基本的统计指标

平均指标

用一个数字显示其一般水平
=> 集中趋势指标

相对指标

两个有联系的现象数值相比得到的比率
描述的是相对关系，而不是总体情况

比例、比率、倍数

比例 = 各数据/总比 %
1:2:3:...:10:11:12
比率 = 数据项:数据项
年末/年初 = 12
倍数突出上升、增长幅度

环比、同比

近2个月的销售情况？

环比增长率：
(本期数-上期数)/上期数*100%
(12000-11000)/11000 = 9.09%

同比增长率：
(本期数-同期数)/同期数*100%
(3450-2300)/2300 = 50%

环比更注重短期的涨幅表现
同比更注重长期的

章节回顾

总量指标：描述总体估摸的
相对指标：部分与整体关系
平均指标(集中趋势)：数据一般水平

课后作业

1、今年销售总额
2、每月占总销售的比例
3、平均每月销售额

2-3 统计指标：集中趋势

集中趋势指标的特点

哪个营销渠道引流效果最佳？
什么岗位的薪酬水平最高？ => 平均值
哪个产品最受欢迎？
…… => 初步结论

什么是集中趋势指标

用于体现数据一般水平的指标
最快速了解样本数据的概况
最常用的集中趋势指标就是平均值

平均值

= 所有数据相加/数据的个数
加和：151100
平均值：16789
去除异常值：10762
差异：6026
具有一定误导性，对异常数不敏感

中位数

按顺序排列后，居于中间位置的数
奇数：位于(n+1)/2位置的数
偶数：最中间的两位数相加/2
更具有代表性

众数

出现次数最多的数值
反应的是局部特征、密集度
众数可以有多个

章节回顾

平均值：黄线
中位数：绿线
众数：蓝线

课后作业

1、计算平均值、中位数、众数
2、哪一组薪酬水平更高

2-9 本章小结

数据的基本特征

什么是数据

数据类型
集中趋势分布形态
离散趋势异常值

数据分析有哪些内容

数据分析流程

数据分析技能

2-4 统计指标：离散趋势

什么是离散趋势指标

A(蓝线)：10.22 ~ 10.88
B(橙线):10.22 ~ 11.43
股票B比股票A更离散

体现内部差异度的指标

极差
平均差
标准差

极差

相距最远的两个点之间的距离
极差 = 最大值 - 最小值 = 1.55
数据内部最大的差异情况

平均差

一组数据与平均值差异

数据项与平均值的差距越大
数据越分散，反之越集中

股东回购、政策利好、供需失衡
事件驱动型的数据，在样本量较小的时候，容易导致误差
对离散值更敏感

标准差

优化过的更能代表离散程度的指标

更直观的了解差异程度
最常用的离散指标

章节回顾

极差
平均差
标准差

课后作业

1、计算极差、平均差、标准差
2、判断哪只股票的风险更高
提示：标准差越大，风险越高

极差：MAX(A2:A10)-MIN(A2:A10)
平均差：AVEDEV(A2:A10)
标准差：STDEVP(A2:A10)
平均值：AVERAGE(A2:A10)

2-5 统计指标：分布形态

什么是分布形态

数据 => 点线面

数据相关的工作
企业对工作经验有什么要求

应届毕业生
经验1年以下、经验1-3年
经验3-5年、经验5-10
经验不限

平均值: 红线
中位数
众数
极差
平均差
标准差

数据分析岗位 vs 大数据开发

高度 => 一般水平：均值
宽度 => 离散程度

分布形态的具体体现

章节回顾

分布形态：图表化后呈现出来的形态
常见形态：左偏分布、右偏分布、正态分布

课后作业

1、判断数据样本的分布形态
2、计算均值、中位数以及众数，能发现什么规律吗

2-6 识别异常值

为什么要学习异常值

=所有数据相加/数据的个数
加和：151100
平均值：16789 差异：6026
去除异常值：10762
具有一定误导性，对异常数不敏感

什么是异常值

与平均值偏差极大或极小的值
也叫离群点
取决于分析的业务对象
周期性产业

如何识别异常值

观察检测值与整体数据的差异度

计算与平均值的倍数
更多检测方法：Tableau、Python

异常值的附加信息

基金业绩走势

章节回顾

异常值的基本定义
如何识别异常值
异常值的附加价值

课后作业

1、是否存在异常值
2、你是如何检测的
3、分析下可能的成因，
提示：旅游业为周期性行业
* 海南三亚交易额数据，单位：亿元

2-7 处理异常值

异常值的处理

检测/识别 => 判定 => 处理

判定异常值

1. 错误记录：修改正确

2. 错误添加：删除

3. 正确、真实
3.1 是否反映特殊事件：修改、调整
3.2 周期性数据：不做处理

处理异常值

1. 错误数据
填充空值
填充样本平均值

2. 正确、真实，需要做调整的数据
根据实际情况调整：数值*需调整比率

章节回顾

检测/识别：与总体差异度
判定：是否需要处理
处理：调整方式

课后作业

1. 标红数据是否为异常值
2. 猜测产生的原因
3. 假设当天分红导致净值下跌3%，如何调整数值使其恢复正常水平

2-8 数据分析流程

数据分析的流程

目标确定
数据获取
数据清洗
数据整理
描述分析
洞察结论
撰写报告

目标确定

解决什么问题？达到什么目的？
描述性分析：针对现有情况分析
预测性分析：基于现状，预测未来情况

描述性分析

预测性分析

数据获取

字段设计

平均销售额、销售总额、增减幅度
基础数据：订单号、交易日期、交易金额

数据提取

销售管理软件，导入导出
互联网企业，使用SQL从数据库提取

数据清洗

异常值：异常值的识别、判定、处理
空白值、无效值、重复值 => 修正、平均值填补、删除

数据整理

格式化：日期的处理、行列格式化
指标计算：基础的计算，如平均值、总额

描述分析

数据描述

数据的基本情况
数据总数、时间跨度、数据来源等

指标统计

分析实际情况的数据指标
变化、分布、对比、预测

变化：随着时间变动而增减近期销售额表现

分布：不同层次上的表现，地域分布、人群分布

对比：数据项之间的对比、产品线对比、用户数对比

预测：根据现有的增减幅度预测未来销售额

洞察结论

数据报告的核心
体现数据分析能力

撰写报告

报告背景
业务现状
报告目的
解决什么问题
数据基本情况
数据可信度
可视化图表
数据的可理解程度
策略选择
提出解决方案

章节回顾

目标确定
数据获取
数据清洗
数据整理
描述分析
洞察结论
撰写报告

课后作业

分析过去4周的支出情况
1. 需要哪些数据
2. 计算哪些指标

第02周 Excel从入门到表格分析

1-1 Excel基本功能

招聘需求分析

数据分析岗位招聘信息 => 数据分析岗位需求分析报告

Excel电子表格

预处理数据样本：清洗、提取、整合
Excel电子表格
电子：存储形式，通过电子设备存储

增删改查
可视化图表
透视表、自动化报表
打印、数据自动填充

基本功能

Excel常用功能

1. 预处理
文本函数
重复数据的处理
拆分列数据
数据排序与筛选

2. 统计和分析
数学函数：SUM、AVERAGE
逻辑函数：OR、NOT
条件聚合函数：COUNTIF、SUMIF
LOOKUP引用函数

3.
数据透视表：Pivot Table
认识图表类型
制作可视化图表

章节回顾

7个基础功能板块
常用功能介绍

课后作业

1. 公式的分类有哪些
2. 你最常用的函数有哪些

1. 公式的分类

自动求和
财务
逻辑
文本
日期和时间
查找和引用
数学和三角函数
其他函数

2. 最常用的函数

数学函数

1-2 文本函数

什么是函数

计算过去4周的平均支出？

什么是文本函数

对文本进行提取、查找、转换、更新的函数

"文本合并"函数：CONCATENATE

文本函数的应用

实战演练

1、MID函数

双击第一个单元格右下角十字＋，列数据自动填充

2、SUBSTITUE函数

3、FIND函数

章节回顾

文本函数：是对文本类数据进行处理

mid：提取文本
substitue：替换文本
find：验证文本

课后作业

去除以下字符：

经验
职位描述:
岗位描述:
工作职责:

=SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(B2,"工作职责：",""),"岗位职责：",""),"职位描述：","")

=MID(C2,3,6)

1-3 数学函数

什么是数学函数

文本：文本函数，清洗、格式化
数值：数学函数、统计计算

注意：

1.STDEV：用途：估算样本的标准偏差。它不计算文本值和逻辑值（如 TRUE 和 FALSE）。它反映了数据相对于平均值(mean)的离散程度。
2.STDEVA ：基于样本估算标准偏差。标准偏差反映数值相对于平均值 (mean) 的离散程度。文本值和逻辑值（如 TRUE 和 FALSE）也将计算在内。
3.STDEVP：用途：返回整个样本总体的标准偏差。它反映了样本总体相对于平均值(mean)的离散程度。

简单说函数stdev的根号里面的分母是n-1，而stdevp是n，如果是抽样当然用stdev。
在十个数据的标准偏差如果是总体时就用STDEVP，如果是样本是就用STDEV。
至于STDEVA与STDEV差不多，只不过它可以把逻辑值当数值处理。

章节回顾

数学函数：是对数值类数据进行计算
基本功能：数学换算、统计、类型转换
计算集中趋势、离散趋势

课后作业

计算集中趋势指标：平均值、中位数、众数

1-4 处理重复数据

数据预处理的重要性

清洗、格式化、去重、排序、基础计算 >=50%
数据准确性
统计结果与结论

数据预处理的内容

数据的清理

缺失值
离群值/异常值
重复值

数据的合并、汇总

删除、均值填充

如何定位重复数据

针对海量数据，如何快速定位？

选择单列或这个文本，进行去重处理，结果不是想要的。

清除规则

章节回顾

预处理流程：数据清洗、整合
定位重复项：开始菜单-单元格规则，单列重复项、手动
去除重复项：数据菜单-去除重复项，多列重复项、自动

课后作业

1. 去重招聘信息
2. 回答去重后的行数

1-5 拆分列数据

为什么要拆分列数据

实例演练

点击【下一步】，再点击【完成】

将所有列都去重处理，再放在同一列，然后进行去重处理即可

如何拆分列数据

导入数据时的分列

数据 - 导入格式 => CSV
最常用的数据格式，可读性，便利性
爬虫，最常用的存储方式

章节回顾

拆分列数据

1. 现有数据
2. 导入数据

课后作业

1. 拆分类别数据
2. 对拆分后的数据去重
3. 统计标签个数：81

1-6 数据排序和筛选

为什么要排序

单位招聘需求量
薪资范畴
工作经验要求
× 理性认识
√ 排序

如何对数据进行排序

根据工作经验排序，选中所有，【排序和筛选】-【自定义排序】-【工作经验】

将“经验1年以下”改成“经验0-1年”
将“经验应届毕业生”改成“经验0 经验应届毕业生”

【排序和筛选】-【筛选】，选中“数据分析师”

章节回顾

排序：形成更直观的认识
筛选：快速提取数据，且不影响原有数据

课后作业

1. 薪资区间从小到大排序
2. 筛选出薪资10k-20k，地点上海，工作经验1-3年的数据

2-1 逻辑函数

数据预处理

函数的概念，基本使用方法：文本函数+数学函数
清洗、预处理：去重、分列，排序与筛选

什么是逻辑函数

正在下雨：TRUE真
没有下雨：FALSE假
能明确用[是否]或[真假]这样的逻辑值来回答

什么是逻辑值

真假：TRUE FALSE 1 0, 一种计算机语言
逻辑值的运算：与运算 AND、或运算OR、非运算NOT

逻辑运算：与、或、非
交集
1 && 1 = 1
1 && 0 = 0
0 && 0 = 0

并集
1 || 1 = 1
1 || 0 = 1
0 || 0 = 0

求反
!0 = 1
!1 = 0

逻辑函数的基本功能

根据发布时间确定上下午

=IF(INT(LEFT(O5,2))<10,"早上",IF(INT(LEFT(O5,2))<12,"上午","下午"))
=IF(INT(LEFT(O5,2))<12,"上午","下午")

章节回顾

对推论进行真假判断的函数
IF函数：对不同的判断结果进行数值匹配

课后作业

判断岗位是否为数据分析师
1）是，输出“目标岗位”
2）不是，输出空值“”

=IF(COUNTIF(A2,"*开发*"),"开发岗","非开发岗")
=IF(A2="数据分析师","目标岗位","")

2-2 条件聚合函数

什么是条件聚合函数

职位需求总数：SUM函数
一二三线城市职位需求总数：？

SUM函数：点选符合标准的城市
缺点：

太慢，每次都需要点选
不灵活，不能随原始数据变化

SUMIF(S)条件聚合函数：在公式中写死条件，原始数据顺序随意

=SUMIFS(E:E,D:D,{"北京","上海","广州","深圳"})

如何使用条件聚合函数

章节回顾

条件聚合函数：对符合特定条件的数据项进行统计；数学函数 + 逻辑函数
SUMIF(S)：针对符合条件的数据项求和
COUNTIF(S)：针对符合条件的数据项计次

课后作业

1. 对招聘岗位进行去重处理
2. 统计每一类岗位出现的总次数
3. 统计 *开发工程师与非*开发工程师的职位总数

统计频率：=COUNTIF(C:C,E2)
开发类岗位：=COUNTIF(C:C,"*开发工程师*")

2-5 认识图表

为什么要可视化数据

异常数据？
特殊现象？

人对图形比文字更敏感
逐步发展、广泛使用

图表类型

对比分析：数据项之间的大小关系，比较型图表

职位需求量与城市划分类型存在相关性？

两组数据的相关性分析
散点图

变量A随着变量B增加
正相关
关系型图表
城市划分：GDP从小到大

章节回顾

可视化数据的重要性：更有助于理解
图表类型

折线图：基于时间的变化
直方图：比较类别数据的大小
散点图：变量间的相关性
饼图、堆积图：部分与整体的比例关系

课后作业

1. 高频能力要求
2. 近5年职位需求分析
3. 行业类型与平均薪酬
4. 数据洞察

2-3 查找与引用函数

什么是查找与引用函数

VLOOKUP函数

MAX(数据区域)
VLOOKUP(..)

消耗人工
Excel自动化：设定函数、自动化提取

如何使用VLOOKUP函数

2-8 本章小结

如何使用Excel进行数据分析

1. 预处理

文本函数
数学函数
去重功能
列拆分

2. 汇总与统计

逻辑函数
条件聚合函数
查找与引用函数
数据透视表

3. 可视化

选择图表
创建图表

数据分析人才需求报告
数据洞察：数据报告

章节预告

数据提取工具：SQL
数据可视化面板：Tableau
大数据处理与分析语言：Python
2D绘图库：Matplotlib

第06周 Python实现网络爬虫

1-1 什么是爬虫

电影 => 电影评分网站 => 抓取网站信息

爬取信息

为什么要爬虫

推荐观看指数 = 评分*0.2 + 导演*0.2 + 演员*0.2 + 评价分数*0.4 + 剧情偏好

Python如何实现爬虫

定位目标网址：url
获取网页信息：Requests库
提取目标信息：网页结构，BeautifulSoup库

章节回顾

爬虫是什么：利用技术手段实现网页信息的抓取
为什么要爬虫：获取以及处理信息的效率倍增
如何实现：Requests库，访问并获取网页信息
BeautifulSoup库，解析并提取信息

课后作业

1. 访问网页并获取网页信息，可以使用的Python库？
2. 解析网页结构并提取目标信息，可以使用的Python库？

1. request库
2. beautifulsoup库

1-2 Requests库入门

Requests 提供哪些功能

官网文档
实例代码，功能说明
应用过程中遇到问题
搜索解决方案

在百度里搜【requests官方中文文档】，选择【快速入手】

https://docs.python-requests.org/zh_CN/latest/user/quickstart.html

https://html5-editor.net/  # 可将html代码放入此网站查看网页显示情况

Request库入门.py

# 导入模块
# 需要安装Requests库，可通过anaconda安装 或 pip install requests
import requests

# https://movie.douban.com/

# 定义url
url_douban_movie = 'https://movie.douban.com/'	# 注意：http和https一定要添加
# headers 在requests入手文档中搜索headers
headers = {'user-agent': 'my-app/0.0.1'}

# 访问、并获取网页信息
# response 响应 request 请求
# response_douban_movie = requests.get(url=url_douban_movie)	# 此时打印页面内容为空，网站有反爬虫机制，加上headers参数伪装成浏览器请求
response_douban_movie = requests.get(url=url_douban_movie, headers=headers)
# print(response_douban_movie.text)	# 打印响应内容，此时为页面html代码，可复制html代码保存到文件test.html
# https://html5-editor.net/  可将html代码放入此网站查看网页显示情况

# XX电影主页
url2 = "https://movie.douban.com/subject/34961898/"
# url2 = "https://movie.douban.com/subject/34961898/?tag=热门&from=gaia"
response2 = requests.get(url=url2, headers=headers)
# print(response2.text)


# 百度百科
url3 = "https://baike.baidu.com"
response3 = requests.get(url=url3, headers=headers)
# print(response3.text)

章节回顾

基本功能：

与网站简历连接
抓取网站内容
实现登录认证

代码编写

豆瓣电影主页
单个电影页面
百度百科（图片加载）

课后作业

抓取豆瓣电影《楚门的世界》的网页信息：https://movie.douban.com/subject/1292064/

# 楚门的世界
import requests

headers = {'user-agent': 'my-app/0.0.1'}
url = "https://movie.douban.com/subject/1292064/"
response = requests.get(url,headers=headers)
print(response.text)

1-3 认识HTML网页结构

为什么要了解网页结构

https://movie.douban.com/subject/1292064/
打开页面
快捷键 F12/Ctrl+Shift+I，打开开发者工具
Elements板，最左边小箭头，可用于查看页面元素，可临时修改页面内容

HTML网页结构



标题

电影简介
	

特色介绍
影评
	这是一个段落
		这是一个重点
	
	这是一个段落
		这是一个重点
	
	这是一个段落
		这是一个重点
	

相关推荐

章节回顾

认识网页结构：通过网页标签定位数据
定位标识符：浏览器开发者工具，目标信息的标签、标识
网页的基本结构

课后作业

改写电影页面《楚门的世界》：
1.将名字改为《真实的世界》
2.将简介改为："感人至深的爱情故事"
3.将电影封面改为任意网络图片（替换图片链接）

1-4 BeautifulSoup库入门

BeautifulSoup 有哪些功能

官网文档
实例代码，功能说明
应用过程中遇到问题
搜索解决方案

在百度里搜【BeatuifulSoup 官方文档】，选择【快速入手】

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

安装命令：

pip install beautifulsoup4

BeatifulSoup库入门.py

import requests
from bs4 import BeautifulSoup

# 获取网页全部信息
url = "https://movie.douban.com/subject/1292064/"
headers = {'user-agent': 'my-app/0.0.1'}
response = requests.get(url=url,headers=headers)
# print(response.text)

# print("\n"+("-"*50))	# print("\n--------------------------")

# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# print(soup.prettify())	# 按照标准的缩进格式的结构输出
# soup = soup.prettify()


# 查看  Beautiful Soup 文档【指定文档解析器】 
# 提取目标消息
# print(soup.title)	# 提取title标签
# print(soup.title.text) # 提取title标签内容
print(soup.title.string) # 标题
# print(soup.find_all(property="v:summary"))	# property="v:summary"
print(soup.find_all(property="v:summary")[0].text)

章节回顾

基本功能：匹配目标标签、提取信息
代码编写：

soup = BeautifulSoup(html)
soup.prettify()
soup.find(tag=value)

课后作业

1. 美化获取到的网页数据
2. 提取标签文本
3. 提取短评部分的所有文本

2-1 获取目标信息

Python阶段目标

分析电影数据
电影总量、评分情况、国家分布、题材偏好
获取数据、预处理、计算分析、可视化

获取数据-电影简介

获取目标信息.py

import requests
from bs4 import BeautifulSoup

def get_list(soup_list):
	"""
		清洗解析后的网页信息，并以列表形式返回
		:params soup_list： bs_list
		:return: list
	"""
	list = []
	for ele in soup_list:
		list.append(ele.string)
	return list


# 访问网页、获取信息
url = "https://movie.douban.com/subject/1292064/"
headers = {'user-agent': 'my-app/0.0.1'}
response = requests.get(url=url,headers=headers)

# 获取目标信息
soup = BeautifulSoup(response.text,'html.parser')
# print(soup.prettify())

# 存储容器
movie_info = {}


# 电影名称
# property="v:itemreviewed"
# movie_name = soup.find(property="v:itemreviewed")
movie_info['title'] = soup.find(property="v:itemreviewed").string
# print(movie_name)

# 简介部分
movie_info['director'] = soup.find(rel="v:directedBy").string  #导演
movie_info['writer'] = soup.find_all(class_="attrs")[1].string  # 编剧


# actlist = soup.find_all(rel="v:starring")

# for 遍历数据项，.string获取目标信息
# act_list = []
# for ele in soup.find_all(rel="v:starring"):
# 	act_list.append(ele.string)
# # print(act_list)
# actors = act_list	# 演员列表

movie_info['actors'] = get_list(soup.find_all(rel="v:starring"))  # 演员列表
movie_info['genre'] = get_list(soup.find_all(property="v:genre"))  # 类型
movie_info['language'] = soup.find(text="语言:").next_element.strip()  # 语言
movie_info['release_date'] = soup.find(property="v:initialReleaseDate").string  # 上映日期
movie_info['runtime'] = soup.find(property="v:runtime").string  # 片长

# 评分部分
movie_info['average'] = soup.find(property="v:average").string
movie_info['votes'] = soup.find(property="v:votes").string

# print(movie_info)

# for k,ele in movie_info.items():
# 	print(k,': ',ele)


for key in movie_info:
	print(key, ': ', movie_info.get(key))

章节回顾

Python阶段目标

电影信息的抓取、存储
预处理、计算分析、可视化

提取电影信息

课后作业

提取电影基础数据

2-2 连续获取多个页面信息

为什么要实现连续抓取

一部电影：电影单链
大量数据：？

电影链接 => 访问链接，获取基础数据 => 提取数据、页面跳转？

连续获取多个页面信息.py

import requests
from bs4 import BeautifulSoup

# 访问top250主页；访问页面、获取信息
# base_url = "https://movie.douban.com/top250"
headers = {'user-agent': 'my-app/0.0.1'}

# 跳转页面 ?start=225&filter=
# 先访问url链接，加上参数0,25,50,75~225
page = 0
max_page = 225  # start参数对应的值，也就是说第10页对应的start值

movie_links = []
movie_names = []
while page<=max_page:
	# 访问页面
	url = "https://movie.douban.com/top250?start=" + page.__str__() + "&filter="
	response = requests.get(url=url,headers=headers)

	# 实现每个页面信息的抓取: 电影单链
	soup = BeautifulSoup(response.text,'html.parser')
	# print(soup.find_all(class_="hd"))
	for ele in soup.find_all(class_="hd"):
		# print(ele.find(class_="title").string)
		# print(ele.find('a',href=True).attrs['href'])  # BeautifulSoup如何获取到href

		movie_names.append(ele.find(class_="title").string)
		movie_links.append(ele.find('a',href=True).attrs['href'])

	# 修改start参数
	page += 25

	# 验证数据正确性
	# print(url)

# 浏览所有抓取到的信息
for name,link in zip(movie_names,movie_links):
	print(name, ': ', link)


# movie_links = []
# movie_names = []
# base_url = "https://movie.douban.com/top250"
# for start in range(0,250,25):
# 	url = base_url + "?start=" + start.__str__() + "&filter="
# 	response = requests.get(url=url,headers=headers)
# 	soup = BeautifulSoup(response.text,'html.parser')

# 	for title in soup.find_all(class_="hd"):
# 		movie_names.append(title.find(class_="title").string)
# 		movie_links.append(title.find('a',href=True).attrs['href'])

# for movie_name,movie_link in zip(movie_names,movie_links):
# 	print(movie_name, ': ', movie_link)

章节回顾

为什么要连续抓取

大数据的需求
自动化的手段快速获取数据

如何实现连续抓取

理清跳转页面的逻辑
URL参数控制显示页面

代码编写

跳转页面、抓取链接

课后作业

抓取TOP250所有高分电影链接

2-3 整合爬虫功能函数

函数

获取网页信息
获取电影链接
爬取电影信息

随意组合、按序执行：检索麻烦、多次改动
变量、函数：结构化、灵活更新

整合爬虫功能函数.py

import requests
from bs4 import BeautifulSoup

headers = {'user-agent': 'my-app/0.0.1'}
movie_links = []
movie_names = []

def get_list(soup_list):
	"""
		清洗解析后的网页信息，并以列表形式返回
		:params soup_list： bs_list
		:return: list
	"""
	list = []
	for ele in soup_list:
		list.append(ele.string)
	return list

# 1. 访问主页面，并且完成页面跳转
def get_page(page_link):
	page = 0
	max_page = 225  # start参数对应的值，也就是说第10页对应的start值

	while page<=max_page:
		# 访问页面
		url = page_link + "?start=" + page.__str__() + "&filter="
		response = requests.get(url=url,headers=headers)
		get_links(response)

		# 修改start参数
		page += 25
		# print(url)


# 2. 抓取每个页面所有的电影链接
def get_links(response):
	# 实现每个页面信息的抓取: 电影单链
	soup = BeautifulSoup(response.text,'html.parser')
	for ele in soup.find_all(class_="hd"):
		movie_names.append(ele.find(class_="title").string)
		movie_links.append(ele.find('a',href=True).attrs['href'])


# 3. 根据电影链接，获取基本信息、评分信息
def get_infos(url):
	# 访问网页、获取信息
	response = requests.get(url=url,headers=headers)

	# 获取目标信息
	soup = BeautifulSoup(response.text,'html.parser')

	# 存储容器
	movie_info = {}
	movie_info['title'] = soup.find(property="v:itemreviewed").string

	try:
		# 简介部分
		movie_info['director'] = soup.find(rel="v:directedBy").string  #导演
		# movie_info['writer'] = soup.find_all(class_="attrs")[1].string  # 编剧

		writer = soup.find_all(class_="attrs")
		# if len(writer)>1:
		# 	movie_info['writer'] = soup.find_all(class_="attrs")[1].string
		# else:
		# 	movie_info['writer'] = ""
		movie_info['writer'] = soup.find_all(class_="attrs")[1].string if len(writer)>1 else ""

		movie_info['actors'] = get_list(soup.find_all(rel="v:starring"))  # 演员列表
		movie_info['genre'] = get_list(soup.find_all(property="v:genre"))  # 类型
		movie_info['language'] = soup.find(text="语言:").next_element.strip()  # 语言
		movie_info['release_date'] = soup.find(property="v:initialReleaseDate").string  # 上映日期
		movie_info['runtime'] = soup.find(property="v:runtime").string  # 片长

		# 评分部分
		movie_info['average'] = soup.find(property="v:average").string
		movie_info['votes'] = soup.find(property="v:votes").string
	except AttributeError:
		print("电影已下架")

	for key in movie_info:
		print(key, ': ', movie_info.get(key))
	print('*'*100)

	# return movie_info

# 获取每个页面信息 > 调用了获取页面所有电影链接 > for循环，调用获取信息的功能
if __name__ == '__main__':
	# 调用功能1.实现页面的访问
	get_page(page_link="https://movie.douban.com/top250")
	# 测试
	# get_infos("https://movie.douban.com/subject/26430107/")
	# exit()
	
	# 获取所有链接
	# 浏览所有抓取到的信息
	for name,link in zip(movie_names,movie_links):
		print(name, ': ', link)
		get_infos(link)

章节回顾

为什么要函数化：结构化、改动方便、随意调用
如何函数化：def定义、功能拆分为函数
代码编写：跳转页面、抓取链接、抓取信息

获取网页信息
获取电影链接
爬取电影信息

课后作业

抓取TOP250所有高分电影信息

2-4 数据存储与代码优化

import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {'user-agent': 'my-app/0.0.1'}
movie_links = []
movie_names = []
all_infos = []

def get_list(soup_list):
	"""
		清洗解析后的网页信息，并以列表形式返回
		:params soup_list： bs_list
		:return: list
	"""
	list = []
	for ele in soup_list:
		list.append(ele.string)
	return list

# 1. 访问主页面，并且完成页面跳转
def get_page(page_link):
	# page = 0
	page = 200
	max_page = 225  # start参数对应的值，也就是说第10页对应的start值

	while page<=max_page:
		# 访问页面
		url = page_link + "?start=" + page.__str__() + "&filter="
		response = requests.get(url=url,headers=headers)
		get_links(response)

		# 修改start参数
		page += 25
		# print(url)


# 2. 抓取每个页面所有的电影链接
def get_links(response):
	# 实现每个页面信息的抓取: 电影单链
	soup = BeautifulSoup(response.text,'html.parser')
	for ele in soup.find_all(class_="hd"):
		movie_names.append(ele.find(class_="title").string)
		movie_links.append(ele.find('a',href=True).attrs['href'])


# 3. 根据电影链接，获取基本信息、评分信息
def get_infos(url):
	# 访问网页、获取信息
	response = requests.get(url=url,headers=headers)

	# 获取目标信息
	soup = BeautifulSoup(response.text,'html.parser')

	# 存储容器
	movie_info = {}
	movie_info['title'] = soup.find(property="v:itemreviewed").string

	try:
		# 简介部分
		movie_info['director'] = soup.find(rel="v:directedBy").string  #导演
		# movie_info['writer'] = soup.find_all(class_="attrs")[1].string  # 编剧

		writer = soup.find_all(class_="attrs")
		# if len(writer)>1:
		# 	movie_info['writer'] = soup.find_all(class_="attrs")[1].string
		# else:
		# 	movie_info['writer'] = ""
		# movie_info['writer'] = soup.find_all(class_="attrs")[1].string if len(writer)>1 else ""
		movie_info['writer'] = get_list(soup.find_all(class_="attrs")[1].find_all('a')) if len(writer)>1 else ""

		movie_info['actors'] = get_list(soup.find_all(rel="v:starring"))  # 演员列表
		movie_info['genre'] = get_list(soup.find_all(property="v:genre"))  # 类型
		movie_info['language'] = soup.find(text="语言:").next_element.strip()  # 语言
		movie_info['release_date'] = soup.find(property="v:initialReleaseDate").string  # 上映日期
		movie_info['runtime'] = soup.find(property="v:runtime").string  # 片长

		# 评分部分
		movie_info['average'] = soup.find(property="v:average").string
		movie_info['votes'] = soup.find(property="v:votes").string
		movie_info['link'] = url  # 链接
	except AttributeError:
		print("电影已下架")

	# for key in movie_info:
	# 	print(key, ': ', movie_info.get(key))
	# print('*'*100)

	# 电影信息存到列表中
	all_infos.append(movie_info)
	# return movie_info

# 获取每个页面信息 > 调用了获取页面所有电影链接 > for循环，调用获取信息的功能
if __name__ == '__main__':
	# 调用功能1.实现页面的访问
	get_page(page_link="https://movie.douban.com/top250")
	# 测试
	# get_infos("https://movie.douban.com/subject/26430107/")
	# exit()

	# 获取所有链接
	# 浏览所有抓取到的信息
	for name,link in zip(movie_names,movie_links):
		print(name, ': ', link)
		get_infos(link)

	# print(all_infos)
	# 将电影信息转为二维表，并存到电子表格中
	data = pd.DataFrame(all_infos)
	data.to_excel("250部高分电影.xlsx")

章节回顾

list数据容器

存储多条电影数据

pandas库

DataFrame转换为二维表
to_excel存储为电子表格

课后作业

将250部电影信息存储为Excel电子表格

你可能感兴趣的:(python,数据分析,big,data,数据挖掘)

educoder实训平台python顺序结构答案_Educoder Python顺序结构习题 weixin_39710660
1.正方形与等腰三角形组成的多边形的面积square_length=4triangle_h=2.6area_square=4*4area_triangle=(2.6*4)/2area_total=area_square+area_triangleprint(area_total)2.平抛小球与抛出点的距离G=9.8v0=5t=2s=v0*th=(G*t**2)/2d=(s**2+h**2)**0.
Python OS模块操作文件小丫头呀 #Python随笔 python
在Python中，可以使用os模块主要对文件进行重命名，删除等一些操作以下为os模块常用的方法示例:重命名操作importosos.rename('Test.txt','Test_重命名.txt')#参数1：要重命名的源文件#参数2：对源文件要重新命名的名称删除文件importosos.remove('Test_重命名.txt')#参数为要删除的源文件名称，如果该文件不存在则抛出异常创建空文件夹i
Python 模块导入方式小丫头呀 #Python随笔 python 开发语言
在Python中，导入外部模块有2种方式以Pyhton自带的time模块为例：使用importtime导入方式importtimeprint(time.ctime())注意事项：time模块导入后，使用以下格式来调用模块中的函数:模块名.函数名如果导入的模块名称很长，可以使用as也就是别名的方式，给模块取个自定义的别名。例如：importtimeast;使用示例：t.ctime()使用fromti
python的循环结构小小程序拿捏 Python python 少儿编程青少年编程开发语言
引言在前面的课程中，我们已经学习了Python的基本输入输出、数据类型及其转换、顺序结构和分支结构。本课时将介绍Python中的循环结构，主要讨论如何使用for循环和while循环来重复执行一段代码。通过一个具体的示例——打印九九乘法表，我们将展示如何在实际编程中应用这些知识。循环结构循环结构允许程序重复执行某段代码直到满足某个条件为止。Python中提供了两种基本的循环结构：for循环和whil
Python 的分支结构小小程序拿捏 Python python 少儿编程青少年编程开发语言
引言在前面的课程中，我们已经学习了Python的基本输入输出、数据类型及其转换，以及简单的顺序结构程序设计。本课时将介绍Python中的分支结构，主要讨论如何使用条件语句if,elif,else来根据不同的条件执行不同的代码块。通过两个具体的示例——判断一个数是奇数还是偶数，以及计算一个人的健康指数，我们将展示如何在实际编程中应用这些知识。分支结构在编程中，分支结构使得程序可以根据不同的条件执行不
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
python之requests模块详解 Vibe~ python语言 python 爬虫
目录requests使用requests请求方法requests响应对象属性Requests模块是一个用于网络请求的模块，主要用来模拟浏览器发请求。其实类似的模块有很多，比如urllib，urllib2，httplib，httplib2，他们基本都提供相似的功能。但是这些模块都复杂而且差不多过时了，requests模块简单强大高效，使得其在众多网络请求模块中脱引而出。requests使用环境安装：
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
笔记：Python顺序结构练习题辞言i 笔记 python
文章目录前言一、什么是顺序结构？二、练习题1.题目2.填空题3.简答题4.编程题总结前言本次笔记旨在帮助读者加深对Python编程语言中顺序结构和选择题的理解。在学习Python编程过程中，掌握程序的基本结构以及条件语句的使用至关重要。通过本次练习题，读者将有机会测试自己对这些概念的掌握程度，并通过实际应用进一步巩固所学知识。本次练习题将涵盖Python中的顺序结构的练习题，旨在帮助读者提高解决问
【Python】np.hstack()和np.vstack函数详解和示例木彳 Python学习和使用过程积累 python 开发语言
本文通过函数原理和运行示例，对np.hstack()和np.vstack函数进行详解，以帮助大家理解和使用。更多Numpy函数详解和示例，可参考【Python】Numpy库近50个常用函数详解和示例，可作为工具手册使用目录np.hstack()函数解析运行示例一维数组二维数组np.vstack()函数解析运行示例np.hstack()np.hstack()是NumPy库中的一个函数，用于将两个或更
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
【python版】示波器输出的csv文件（时间与电压数据）如何转换为频率与幅值【方法②】 cxylay python python 开发语言示波器 csv文件频谱频域时域
要将示波器输出的CSV文件中包含的时间与电压数据转换为频率与幅值数据，你可以按照以下步骤进行处理。这里假设你的数据是一个周期性信号，可以通过傅里叶变换来实现这种转换。1、准备数据①导入CSV文件首先，使用Python、Excel或任何数据处理工具导入你的CSV文件。CSV文件中应该有两列数据，分别为时间（time）和电压（voltage）。②检查数据确保时间列的单位是一致的（例如秒），电压列是以伏
华为OD机试 - 敏感字段加密（Python） AsiaFT. Py 华为OD机试AB卷华为od python 算法
题目描述给定一个由多个命令字组成的命令字符串：1、字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；2、命令字之间以一个或多个下划线_进行分割；3、可以通过两个双引号””来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为******（6个*），并删除命令字前后多余的下划线_。如果无法找到指定
python-opencv cv2.findContours()函数 fjswcjswzy opencv python笔记 python opencv
示例代码：image,contours,hierarchy=cv2.findContours(contour,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)输入：contour：带有轮廓信息的图像；cv2.RETR_TREE：提取轮廓后，输出轮廓信息的组织形式，除了cv2.RETR_TREE还有以下几种选项：cv2.RETR_EXTERNAL：输出轮廓中只有外侧轮廓信
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：pipSSL模块不可用导致无法连接的错误一、分析问题背景在使用pip安装Python包时，用户可能会遇到如下错误信息：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailab
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Python必备库大全，建议留用 2401_84010176 程序员 python 开发语言
urllib-网络库(stdlib)。requests-网络库。grab–网络库（基于pycurl）。pycurl–网络库（绑定libcurl）。urllib3–PythonHTTP库，安全连接池、支持文件post、可用性高。httplib2–网络库。RoboBrowser–一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。MechanicalSoup-一个与网站自动
MySQL数据库全面学习之（上篇）一心只为学数据库 mysql 学习
Windows服务--启动MySQLnetstartmysql--创建Windows服务sccreatemysqlbinPath=mysqld_bin_path(注意：等号与值之间有空格)连接与断开服务器mysql-h地址-P端口-u用户名-p密码SHOWPROCESSLIST--显示哪些线程正在运行SHOWVARIABLES--显示系统变量信息数据库操作--查看当前数据库SELECTDATABA
【Python】数据结构,链表,算法详解 AIAdvocate python 数据结构链表排序算法广度优先深度优先
今日内容大纲介绍自定义代码-模拟链表删除节点查找节点算法入门-排序类的冒泡排序选择排序插入排序快速排序算法入门-查找类的二分查找-递归版二分查找-非递归版分线性结构-树介绍基本概述特点和分类自定义代码-模拟二叉树1.自定义代码-模拟链表完整版"""案例:自定义代码,模拟链表.背景: 顺序表在存储数据的时候,需要使用到连续的空间,如果空间不够,就会导致扩容失败,针对于这种情况,我们可以通过链表实现
pip is configured with locations that require TLS/SSL, however the ssl module in Python is notable _Johnny_ Python pip ssl python
现象执行pipinstall时报错：WARNING:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.Hint:Itlookslikeapath.Thepathdoesexist.WARNING:pipisconfiguredwithlocationsthatrequir
AI教你学Python 第4天：函数和模块凡人的AI工具箱 AI教你学Python python 开发语言人工智能 AIGC
第四天：数据结构一、什么是数据结构？数据结构是计算机科学中用于组织和存储数据的特定方式。良好的数据结构能够提高数据的访问效率、修改频率和管理能力。Python提供了多种内置数据结构，如列表、元组、字典和集合，便于开发者更有效地处理数据。二、Python中的基本数据结构1.列表（List）定义：列表是一个有序的可变集合，允许重复元素。使用方括号[]表示。#示例：定义一个列表fruits=['appl
【Python】【Opencv】cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数详解和运行示例木彳 Python学习和使用过程积累 python opencv 开发语言人工智能计算机视觉
为帮助大家理解和使用cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数，本文通过对函数内容进行详解，并通过运行示例更直观表述。函数解析cv2.findContours()cv2.drawContours()cv2.contourArea()运行示例运行示例示例详解函数解析cv2.findContours()cv2.findContou
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
如何在 Python 中声明一个静态属性? 潮易 python 开发语言
在Python中，静态属性的定义和使用方式与JavaScript中的类似，主要是通过`@staticmethod`装饰器来实现。静态属性不需要实例化对象就可以访问，它们属于类本身。###如何声明一个静态属性：1.首先，需要在属性名前添加`@staticmethod`装饰器。2.接下来，定义一个普通方法，该方法的第一个参数通常为`cls`（用于表示类的引用）。###代码示例：```pythoncla
如何“选择不同的“?跨越 pandas 中的多个数据框列? 潮易 pandas
在pandas中，如果你想要选择不同的列，你可以使用DataFrame的loc属性和iloc属性的组合。loc属性是基于标签的，iloc属性则是基于索引的。如果你想要选择多个列，你只需要将它们放入一个列表即可。以下是一个代码示例：```pythonimportpandasaspd#创建一个数据框df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]
在Python应用程序中使用.env文件管理环境变量手机用户3381415902 学习 python 开发语言
原始地址：https://dev.to/jakewitcher/using-env-files-for-environment-variables-in-python-applications-55a1应用程序被部署后，在开发过程中必须考虑应用程序运行的环境以及应用程序执行任务所需的敏感或环境特定信息。环境变量是软件开发人员向应用程序提供此类信息的关键方式之一，但是如果设置这些变量在本地机器的环境
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python 代码从 `.env` 文件中读取环境变量风吹落叶花飘荡 AI参与的学习 python java linux
要让Python代码从.env文件中读取环境变量，可以使用python-dotenv库。以下是详细步骤：第一步：安装python-dotenv库在终端或命令提示符中运行以下命令来安装python-dotenv：pipinstallpython-dotenv第二步：创建.env文件在你的项目根目录下创建一个名为.env的文件，并添加你需要的环境变量。例如：ARK_API_KEY=your_api_k
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
Python 报错 ImportError: cannot import name xxx from partially initialized module xxx SmallerFL 其他问题 fix Python相关 python 深度学习 pytorch 人工智能
文章目录1.报错2.原因3.参考1.报错ImportError:cannotimportname'SummaryWriter'frompartiallyinitializedmodule'torch.utils.tensorboard'(mostlikelyduetoacircularimport)(/Library/Frameworks/Python.framework/Versions/3.1
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

人人都能学会数据分析-笔记

第01周 走进数据分析

1-1 互联网数据分析通用课程-导学

课程导学

数据分析师，必须掌握的技能

课程优势

期待你和我一起，用数据解析世界

1-2 从互联网数据分析说起

什么是互联网数据分析

章节回顾

课后作业

2-1 什么是数据

认识数据

什么是数据

数据的特性

定类数据

定序数据

定距数据

定比数据

定性、定量数据

数据矩阵/二维数据表

章节回顾

课后作业

2-2 什么是统计指标

为什么要学习统计指标

什么是统计指标

总量指标

平均指标

相对指标

比例、比率、倍数

环比、同比

章节回顾

课后作业

2-3 统计指标：集中趋势

集中趋势指标的特点

什么是集中趋势指标

平均值

中位数

众数

章节回顾

课后作业

2-9 本章小结

数据的基本特征

数据分析有哪些内容

2-4 统计指标：离散趋势

体现内部差异度的指标

极差

平均差

标准差

章节回顾

课后作业

2-5 统计指标：分布形态

什么是分布形态

分布形态的具体体现

章节回顾

课后作业

2-6 识别异常值

为什么要学习异常值

什么是异常值

如何识别异常值

异常值的附加信息

章节回顾

课后作业

异常值的处理

判定异常值

处理异常值

章节回顾

课后作业

2-8 数据分析流程

数据分析的流程

目标确定

数据获取

数据清洗

数据整理

描述分析

洞察结论

撰写报告

章节回顾

课后作业

第02周 Excel从入门到表格分析

第01周走进数据分析