呆猛的呆呆小哥

Python+大数据-数据处理与分析-pandas快速入门

Python+大数据-数据处理与分析(二)-pandas快速入门

1.Pandas快速入门

1.1DataFrame和Series介绍

1）DataFrame

用来处理结构化数据（SQL数据表，Excel表格）
可以简单理解为一张数据表(带有行标签和列标签)

2）Series

用来处理单列数据，也可以以把DataFrame看作由Series对象组成的字典或集合
可以简单理解为数据表的一行或一列

1.2 加载数据集(tsv和csv)

2）导入 pandas 包

注意：pandas 并不是 Python 标准库，所以先导入pandas

# 在 ipynb 文件中导入 pandas
import pandas as pd

3）加载 csv 文件数据集

tips = pd.read_csv('./data/tips.csv')
tips

4）加载 tsv 文件数据集

# sep参数指定tsv文件的列元素分隔符为\t，默认sep参数是,
china = pd.read_csv('./data/china.tsv', sep='\t')
china

1.3 loc函数获取指定行列的数据

基本格式：

语法	说明
`df.loc[[行标签1, ...], [列标签1, ...]]`	根据行标签和列标签获取对应行的对应列的数据，结果为：DataFrame
`df.loc[[行标签1, ...]]`	根据行标签获取对应行的所有列的数据结果为：DataFrame
`df.loc[:, [列标签1, ...]]`	根据列标签获取所有行的对应列的数据结果为：DataFrame
`df.loc[行标签]`	1）如果结果只有一行，结果为：Series 2）如果结果有多行，结果为：DataFrame
`df.loc[[行标签]]`	无论结果是一行还是多行，结果为DataFrame
`df.loc[[行标签], 列标签]`	1）如果结果只有一列，结果为：Series，行标签作为 Series 的索引标签 2）如果结果有多列，结果为：DataFrame
`df.loc[行标签, [列标签]]`	1）如果结果只有一行，结果为：Series，列标签作为 Series 的索引标签 2）如果结果有多行，结果为DataFrame
`df.loc[行标签, 列标签]`	1）如果结果只有一行一列，结果为单个值 2）如果结果有多行一列，结果为：Series，行标签作为 Series 的索引标签 3）如果结果有一行多列，结果为：Series，列标签作为 Series 的索引标签 4）如果结果有多行多列，结果为：DataFrame

# 示例1：获取行标签为 1952, 1962, 1972 行的 country、pop、gdpPercap 列的数据
china_df.loc[[1952, 1962, 1972], ['country', 'pop', 'gdpPercap']

# 示例3：获取所有行的 country、pop、gdpPercap 列的数据
china_df.loc[:, ['country', 'pop', 'gdpPercap']]

1.4 iloc函数获取指定行列的数据

基本格式：

语法	说明
`df.iloc[[行位置1, ...], [列位置1, ...]]`	根据行位置和列位置获取对应行的对应列的数据，结果为：DataFrame
`df.iloc[[行位置1, ...]]`	根据行位置获取对应行的所有列的数据结果为：DataFrame
`df.iloc[:, [列位置1, ...]]`	根据列位置获取所有行的对应列的数据结果为：DataFrame
`df.iloc[行位置]`	结果只有一行，结果为：Series
`df.iloc[[行位置]]`	结果只有一行，结果为：DataFrame
`df.iloc[[行位置], 列位置]`	结果只有一行一列，结果为：Series，行标签作为 Series 的索引标签
`df.iloc[行位置, [行位置]]`	结果只有一行一列，结果为：Series，列标签作为 Series 的索引标签
`df.iloc[行位置, 行位置]`	结果只有一行一列，结果为单个值

# 示例2：获取行位置为 0, 2, 4 行的所有列的数据
china_df.iloc[[0, 2, 4]]

# 示例4：获取行位置为 1 行的所有列的数据
china_df.iloc[[1]]

1.5 loc和iloc的切片操作

基本格式：

语法	说明
`df.loc[起始行标签:结束行标签, 起始列标签:结束列标签]`	根据行列标签范围获对应行的对应列的数据，包含起始行列标签和结束行列标签
`df.iloc[起始行位置:结束行位置, 起始列位置:结束列位置]`	根据行列标签位置获对应行的对应列的数据，包含起始行列位置，但不包含结束行列位置

# 示例1：获取 china_df 中前三行的前三列的数据，分别使用上面介绍的loc和iloc实现
china_df.loc[1952:1962, 'country':'lifeExp']
或
china_df.iloc[0:3, 0:3]

1.6 [] 语法获取指定行列的数据

基本格式：

语法	说明
`df[['列标签1', '列标签2', ...]]`	根据列标签获取所有行的对应列的数据，结果为：DataFrame
`df['列标签']`	根据列标签获取所有行的对应列的数据 1）如果结果只有一列，结果为：Series，行标签作为 Series 的索引标签 2）如果结果有多列，结果为：DataFrame
`df[['列标签']]`	根据列标签获取所有行的对应列的数据，结果为：DataFrame
`df[起始行位置:结束行位置]`	根据指定范围获取对应行的所有列的数据，不包括结束行位置

# 示例1：获取所有行的 country、pop、gdpPercap 列的数据
china_df[['country', 'pop', 'gdpPercap']]

2.Series和DataFrame

2.1 Series介绍

2.1.1 创建Series

1）创建 Series 的最简单方法是传入一个Python列表

如果传入的数据类型是统一的数字，那么最终的 dtype 类型是int64
如果传入的数据类型是统一的字符串，那么最终的 dtype 类型是object
如果传入的数据类型是多种类型，那么最终的 dtype 类型也是object

s = pd.Series(['banana', 42])
print(s)
print(type(s))

s = pd.Series(['banana', 'apple'])
print(s)
print(type(s))

s = pd.Series([50, 42])
print(s)
print(type(s))

2.1.2 Series常用操作

1）加载 scientists.csv 数据集，并获取 Age 列的数据

scientists = pd.read_csv('./data/scientists.csv')
scientists

# 并获取 Age 列的数据
age_series = scientists['Age']
print(age_series)
print(type(age_series))

2）常用属性和方法演示

age_series.shape
age_series.size
age_series.index
age_series.values
age_series.keys()
age_series.loc[1]
age_series.iloc[1]
age_series.dtypes

常用属性和方法：

属性或方法	说明
`s.shape`	查看 Series 数据的形状
`s.size`	查看 Series 数据的个数
`s.index`	获取 Series 数据的行标签
`s.values`	获取 Series 数据的元素值
`s.keys()`	获取 Series 数据的行标签，和 `s.index` 效果相同
`s.loc[行标签]`	根据行标签获取 Series 中的某个元素数据
`s.iloc[行位置]`	根据行位置获取 Series 中的某个元素数据
`s.dtypes`	查看 Series 数据元素的类型

常用统计方法：

方法	说明
`s.mean()`	计算 Series 数据中元素的平均值
`s.max()`	计算 Series 数据中元素的最大值
`s.min()`	计算 Series 数据中元素的最小值
`s.std()`	计算 Series 数据中元素的标准差
`s.value_counts()`	统计 Series 数据中不同元素的个数
`s.count()`	统计 Series 数据中非空(NaN)元素的个数
`s.describe()`	显示 Series 数据中元素的各种统计值

Series方法(备查)：

方法	说明
append	连接两个或多个Series
corr	计算与另一个Series的相关系数
cov	计算与另一个Series的协方差
describe	计算常见统计量
drop_duplicates	返回去重之后的Series
equals	判断两个Series是否相同
get_values	获取Series的值，作用与values属性相同
hist	绘制直方图
isin	Series中是否包含某些值
min	返回最小值
max	返回最大值
mean	返回算术平均值
median	返回中位数
mode	返回众数
quantile	返回指定位置的分位数
replace	用指定值代替Series中的值
sample	返回Series的随机采样值
sort_values	对值进行排序
to_frame	把Series转换为DataFrame
unique	去重返回数组

2.1.3 bool索引

Series 支持 bool 索引，可以从 Series 获取 bool 索引为 True 的位置对应的数据。

bool_values = [False, True, True, True, False, False, False, True]
age_series[bool_values]

2.1.4 Series运算

情况	说明
`Series 和数值型数据运算`	Series 中的每个元素和数值型数据逐一运算，返回新的 Series
`Series 和另一 Series 运算`	两个 Series 中相同行标签的元素分别进行运算，若不存在相同的行标签，计算后的结果为 NaN，最终返回新的 Series

Series 和数值型数据运算：

# 加法
age_series + 100

2.2 DataFrame介绍

2.2.1 创建DataFrame

1）可以使用字典来创建DataFrame

peoples = pd.DataFrame({
    'Name': ['Smart', 'David'],
    'Occupation': ['Teacher', 'IT Engineer'],
    'Age': [18, 30]
})
peoples

2）创建 DataFrame 的时候可以使用colums参数指定列的顺序，也可以使用 index 参数来指定行标签

peoples = pd.DataFrame({
    'Occupation': ['Teacher', 'IT Engineer'],
    'Age': [18, 30]
}, columns=['Age', 'Occupation'], index=['Smart', 'David'])
peoples

2.2.2 DataFrame常用操作

常用属性和方法：

属性或方法	说明
`df.shape`	查看 DataFrame 数据的形状
`df.size`	查看 DataFrame 数据元素的总个数
`df.ndim`	查看 DataFrame 数据的维度
`len(df)`	获取 DataFrame 数据的行数
`df.index`	获取 DataFrame 数据的行标签
`df.columns`	获取 DataFrame 数据的列标签
`df.dtypes`	查看 DataFrame 每列数据元素的类型
`df.info()`	查看 DataFrame 每列的结构
`df.head(n)`	获取 DataFrame 的前 n 行数据，n 默认为 5
`df.tail(n)`	获取 DataFrame 的后 n 行数据，n 默认为 5

1）常用属性和方法演示

scientists.shape
scientists.size
scientists.ndim
len(scientists)

Pandas与Python常用数据类型对照：

Pandas类型	Python类型	说明
object	string	字符串类型
int64	int	整形
float64	float	浮点型
datetime64	datetime	日期时间类型，python中需要加载

常用统计方法：

方法	说明
`s.max()`	计算 DataFrame 数据中每列元素的最大值
`s.min()`	计算 DataFrame 数据中每列元素的最小值
`s.count()`	统计 DataFrame 数据中每列非空(NaN)元素的个数
`s.describe()`	显示 DataFrame 数据中每列元素的各种统计值

2.2.3bool索引

DataFrame 支持 bool 索引，可以从 DataFrame 获取 bool 索引为 True 的对应行的数据。

bool_values = [False, True, True, True, False, False, False, True]
scientists[bool_values]

2.2.4DataFrame运算

DataFrame 和数值型数据运算：

# DataFrame 和 数值型数据运算
scientists * 2

DataFrame 和另一 DataFrame 运算：

# DataFrame 和 另一 DataFrame 运算
scientists + scientists

# DataFrame 和 另一 DataFrame 运算
scientists + scientists[:4]

2.3 行标签和列标签的操作

2.3.1 加载数据后，指定某列数据作为行标签

加载数据文件时，如果不指定行标签，Pandas会自动加上从0开始的行标签；

可以通过df.set_index(‘列名’)的方法重新将指定的列数据设置为行标签

scientists = pd.read_csv('./data/scientists.csv')
scientists

# 设置 Name 列的值作为行标签
scientists_df = scientists.set_index('Name')
scientists_df

2.3.2 加载数据时，指定某列数据作为行标签

加载数据文件的时候，可以通过通过 index_col 参数，指定使用某一列数据作为行标签，index_col 参数可以指定列名或列位置

1）加载 scientists.csv数据时，将 Name 列设置为行标签

pd.read_csv('./data/scientists.csv', index_col='Name')
或
pd.read_csv('./data/scientists.csv', index_col=0)

2.3.4加载数据后，修改行标签和列标签

方式	说明
`df.rename(index={'原行标签名': '新行标签名', ...}, columns={'原列标签名': '新列标签名', ...})`	修改指定的行标签和列标签，rename修改后返回新的 DataFrame
`df.index = ['新行标签名1', '新行标签名2', ...]` `df.columns = ['新列标签名1', '新列标签名2', …]`	修改行标签和列标签，直接对原 DataFrame 进行修改

3.DataFrame增删改

3.1DataFrame行操作

3.1.1添加行

注意：添加行时，会返回新的 DataFrame。

基本格式：

方法	说明
`df.append(other)`	向 DataFrame 末尾添加 other 新行数据，返回新的 DataFrame

1）加载 scientists.csv 数据集

scientists = pd.read_csv('./data/scientists.csv')
scientists

2）示例：在 scientists 数据末尾添加一行新数据

# 准备新行数据
new_series = pd.Series(['LuoGeng Hua', '1910-11-12', '1985-06-12', 75, 'Mathematician'], 
                       index=['Name', 'Born', 'Died', 'Age', 'Occupation'])
scientists.append(new_series, ignore_index=True)

3.1.2 修改行

注意：修改行时，是直接对原始 DataFrame 进行修改。

基本格式：

方式	说明
`df.loc[['行标签', ...],['列标签', ...]]`	修改行标签对应行的对应列的数据
`df.iloc[['行位置', ...],['列位置', ...]]`	修改行位置对应行的对应列的数据

1）示例：修改行标签为 4 的行的所有数据

修改之后：

scientists.loc[4] = ['Rachel Carson', '1907-5-27', '1964-4-14', 56, 'Biologist']
scientists

3.1.3删除行

注意：删除行时，会返回新的 DataFrame。

基本格式：

方式	说明
`df.drop(['行标签', ...])`	删除行标签对应行的数据，返回新的 DataFrame

1）示例：删除行标签为 1 和 3 的行

scientists.drop([1, 3])

3.2 DtaFrame列操作

3.2.1 新增列/修改列

注意：添加列/修改列时，是直接对原始 DataFrame 进行修改。

基本格式：

方式	说明
`df['列标签']=新列`	1）如果 DataFrame 中不存在对应的列，则在 DataFrame 最右侧增加新列 2）如果 DataFrame 中存在对应的列，则修改 DataFrame 中该列的数据
`df.loc[:, 列标签]=新列`	1）如果 DataFrame 中不存在对应的列，则在 DataFrame 最右侧增加新列 2）如果 DataFrame 中存在对应的列，则修改 DataFrame 中该列的数据

3.2.2 删除列

注意：删除列时，会返回新的 DataFrame。

基本格式：

方式	说明
`df.drop(['列标签', ...], axis=1)`	删除列标签对应的列数据，返回新的 DataFrame

1）示例：删除 scientists 数据中 Country 列的数据

scientists.drop(['Country'], axis=1)

3.3DataFrame 数据导出和导入

3.3.1 Pickle文件

导出到pickle文件：

调用to_pickle方法将以二进制格式保存数据
如要保存的对象是计算的中间结果，或者保存的对象以后会在Python中复用，可把对象保存为.pickle文件
如果保存成pickle文件，只能在python中使用
文件的扩展名可以是.p、.pkl、.pickle

scientists = pd.read_csv('data/scientists.csv')
scientists.to_pickle('./data/scientists_df.pickle')

读取pickle文件：

可以使用pd.read_pickle函数读取.pickle文件中的数据

scientists_df = pd.read_pickle('./data/scientists_df.pickle')
scientists_df

3.3.2CSV文件

我们用pd.read_csv()函数读取csv文件，使用df.to_csv()将数据保存为csv文件

在CSV文件中，对于每一行，各列采用逗号分隔；使用\n换行符换行
除了逗号，还可以使用其他类型的分隔符，比如TSV文件，使用制表符作为分隔符
CSV是数据协作和共享的首选格式，因为可以使用excel打开

# TSV文件，设置分隔符必须为\t
scientists.to_csv('./data/scientists_df.tsv', sep='\t')
# 不在csv文件中存入行标签
scientists.to_csv('./data/scientists_df_noindex.csv', index=False)

3.3.3Excel文件

注意：根据anaconda的版本不同，pandas读写excel有时需要额外安装xlwt、xlrd、openpyxl三个包
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlwt 
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple openpyxl
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlrd

导出成Excel文件：

scientists.to_excel('./data/scientists_df.xlsx', sheet_name='scientists', index=False)

读取Excel文件：

使用pd.read_excel() 读取Excel文件

pd.read_excel('./data/scientists_df.xlsx')

4.DataFrame查询操作

4.1 DataFrame条件查询操作

基本格式：

方式	说明
`df.loc[条件...]`	获取 DataFrame 中满足条件的数据
`df.query('条件...')`	获取 DataFrame 中满足条件的数据

注意：loc 和 query 中可以跟多个条件，可以使用 &(与)、|(或) 表示条件之间的关系。

1）加载 scientists.csv 数据集

scientists = pd.read_csv('./data/scientists.csv')
scientists

2）示例：获取 Age 大于 60 且 Age < 80 的科学家信息

scientists.loc[(scientists['Age'] > 60) & (scientists['Age'] < 80)]
或
scientists.loc[(scientists.Age > 60) & (scientists.Age < 80)]

scientists.query('Age > 60 & Age < 80')

4.2 DataFrame 分组聚合操作

基本格式：

方式	说明
`df.groupby(列标签, ...).列标签.聚合函数()`	按指定列分组，并对分组数据的相应列进行相应的聚合操作
`df.groupby(列标签, ...).agg({'列标签': '聚合', ...})`	按指定列分组，并对分组数据的相应列进行相应的聚合操作
`df.groupby(列标签, ...).aggregate({'列标签': '聚合', ...})`	按指定列分组，并对分组数据的相应列进行相应的聚合操作

常见聚合函数：

方式	说明
`mean`	计算平均值
`max`	计算最大值
`min`	计算最小值
`sum`	求和
`count`	计数(非空数据数目)

1）示例：按照 Occupation 职业分组，并计算每组年龄的平均值

scientists.groupby('Occupation')['Age'].mean()
或
scientists.groupby('Occupation').Age.mean()

）示例：按照 Occupation 职业分组，并计算每组的人数和年龄的平均值

scientists.groupby('Occupation').agg({'Name': 'count', 'Age': 'mean'})
或
scientists.groupby('Occupation').aggregate({'Name': 'count', 'Age': 'mean'})

4.3DataFrame 排序操作

基本格式：

方法	说明
`df.sort_values(by=['列标签'], ascending=True)`	将 DataFrame 按照指定列的数据进行排序： ascending 参数默认为True，表示升序；将 ascending 设置为 False，表示降序
`df.sort_index(ascending=True)`	将 DataFrame 按照行标签进行排序： ascending 参数默认为True，表示升序；将 ascending 设置为 False，表示降序

1）示例：按照 Age 从小到大进行排序

# 示例：按照 Age 从小到大进行排序
scientists.sort_values('Age')

2）示例：按照 Age 从大到小进行排序

# 示例：按照 Age 从大到小进行排序
scientists.sort_values('Age', ascending=False)

4.4 nlargest 和 nsmallest 函数

基本格式：

方法	说明
`df.nlargest(n, columns)`	按照 columns 指定的列进行降序排序，并取前 n 行数据
`df.nsmallest(n, columns)`	按照 columns 指定的列进行升序排序，并取前 n 行数据

1）示例：获取 Age 最大的前 3 行数据

# 示例：获取 Age 最大的前 3 行数据
scientists.nlargest(3, columns='Age')

2）示例：获取 Age 最小的前 3 行数据

# 示例：获取 Age 最小的前 3 行数据
scientists.nsmallest(3, columns='Age')

你可能感兴趣的:(python+大数据,python,pandas,大数据)

python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发