编程小透明

Python3数据分析入门实战_02 Pandas入门

2. Pandas

Series 序列

创建一个Series

list创建

s1 = pd.Series([1, 2, 3, 4])
----------------------------
0    1
1    2
2    3
3    4
dtype: int64

array创建

s2 = pd.Series(np.arange(10))
-----------------------------
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

dict创建(Key可指定)

# dict 创建 Series
s3 = pd.Series({'a':1, 'b':2, 'c':3})
-------------------------------------
a    1
b    2
c    3
dtype: int64

# 指定 index 的 Series
s4 = pd.Series([1, 2, 3, 4], index={'A', 'B', 'C', 'D'})
--------------------------------------------------------
B    1
A    2
C    3
D    4
dtype: int64

Series 转换为 dict

to_dict()

s4.to_dict()
------------
{'B': 1, 'A': 2, 'C': 3, 'D': 4}

index 变换

  # index 转换
  index_1 = {'A', 'B', 'C', 'D', 'E'}
  s6 = pd.Series(s5, index_1)
  -----------------------------------
  C    3.0
  D    4.0
  B    1.0
  E    NaN
  A    2.0
  dtype: float64

Series 元素操作

判空

pd.isnull(s6) //notnull(s6)
---------------------------
C    False
D    False
B    False
E     True
A    False
dtype: bool

索引命名

s6.name = 'demo'
----------------
C    3.0
D    4.0
B    1.0
E    NaN
A    2.0
Name: demo, dtype: float64
==========================
s6.index.name = 'demo index'
s6.index
---------------------------
Index(['C', 'D', 'B', 'E', 'A'], dtype='object', name='demo index')

DataFrame 数据框

创建一个DataFrame

通过粘贴板创建一个DataFrame

# 通过粘贴的方法创建一个 DataFrame
import webbrowser
link = 'http://www.tiobe.com/tiobe-index'
webbrowser.open(link)
----------------------------------------
True
========================================
# 获取粘贴板内容进行DataFrame创建
df = pd.read_clipboard()

获取列

df.columns
----------
Index(['Nov 2018', 'Nov 2017', 
'Change', 'Programming Language', 
'Ratings', 'Change.1'], dtype='object')

获取特定列的value

# 获取Ratings列的value
df.Ratings
----------
0    16.746%
1    14.396%
2     8.282%
3     7.683%
4     6.490%
5     3.952%
6     2.655%
Name: Ratings, dtype: object

获取某几列的value(过滤产生新的DF)

df_new = DataFrame(df, columns={'Programming Language', 'Nov 2018'})
--------------------------------------------------------------------
	Nov 2018  Programming Language
  0	    1	    Java
  1	    2	    C
  2	    3	    C++
  3	    4	    Python
  4	    5	    Visual Basic .NET
  5	    6	    C#
  6	    7	    JavaScript

通过列名进行获取value(规避列名有空格问题)，获取的列类型为Series

df['Programming Language']
-------------------------
0                 Java
1                    C
2                  C++
3               Python
4    Visual Basic .NET
5                   C#
6           JavaScript
Name: Programming Language, dtype: object
=========================================
pandas.core.series.Series

过滤后新DF中含有原DF中不存在列，Pandas会自动进行填充NaN

df_new2 = DataFrame(df, columns={'Programming Language', 
                    'Nov 2018', 'Sep 2018'})
-------------------------------------------------------
	Nov 2018  Sep 2018  Programming Language
  0	    1	    NaN	      Java
  1	    2	    NaN	      C
  2	    3	    NaN	      C++
  3	    4	    NaN	      Python
  4	    5	    NaN	      Visual Basic .NET
  5	    6	    NaN	      C#
  6	    7	    NaN	      JavaScript

新列数据填充

list方式 range
```
df_new2['Sep 2018'] = range(0,7)
```

array方式 arange

df_new2['Sep 2018'] = np.arange(10, 17)

Serire方式

df_new2['Sep 2018'] = pd.Series(np.arange(20, 27))

Series对指定列元素进行数据填充

# 对新列中索引为1、2的元素进行数据填充
df_new3['Sep 2018'] = pd.Series([100, 200], index={1, 2})

深入理解Series和DataFrame

DataFrame

df1 = pd.DataFrame(data)
------------------------
Country     Capital           Population
0	Belgium	Brussels	11190846
1	India	New Delhi	1303171035
2	Brazil	Brasilia	207847528   
==========================================
# DataFrame 中 每列为 Serie， DataFrame 是由多个 Series 组成的
type(df1['Country'])
--------------------
pandas.core.series.Series
=========================
# iterrows 返回一个 生成器 generator ，可通过for循环取出内部数据
df1.iterrows()
for row in df1.iterrows():
    print(row)
--------------

通过Series 创建 DataFrame

 # 根据 data 创建 三个 Series
 s1 = pd.Series(data['Capital'])
 s2 = pd.Series(data['Country'])
 s3 = pd.Series(data['Population'])
 # 以 Series list 形式创建 DataFrame
 df_new = pd.DataFrame([s2, s1, s3], index=['Country', 'Capital', 'Population'])
 # 以行的形式进行了 DataFrame 构建 
 df_new
 ------
 	          0	          1	        2
 Country	Belgium	        India	        Brazil
 Capital	Brussels	New Delhi	Brasilia
 Population	11190846	1303171035	207847528
 =========================================================
 # DataFrame转置
 df_new = df_new.T
 -----------------
 	Country	  Capital	  Population
 0	Belgium	  Brussels	  11190846
 1	India	  New Delhi	  1303171035
 2	Brazil	  Brasilia	  207847528

DataFrame IO

DataFrame and Clipboard(从粘贴板中读取数据，写入粘贴版数据)
```
# 写入数据到粘贴板
df1.to_clipboard()
```

DataFrame and CSV：index=False 去除保存文件索引

# 将 DataFrame 保存为 CSV 文件，去除左侧 index
df1.to_csv('df1.csv', index=False)

DataFrame and JSON

# to_json
df1.to_json()
-------------
# read_json
pd.read_json(df1.to_json())

DataFrame and HTML
```
# to_html
df1.to_html()
```
DataFrame and excel
```
# to_excel
df1.to_excel('df1.xlsx')
```

DataFrame Selecting and Indexing

shape

# 读取CSV文件到 DataFrame
imdb = pd.read_csv('J:/csv/movie_metadata.csv')
imdb.shape
----------
(5043, 28)

head、tail 获取前5条、后五条数据记录

iloc 基于index的行列过滤，与label无关

# 指定第10到第20行数据，对列不做过滤
sub_df.iloc[10:20,:]
--------------------
       director_name	movie_title	                            imdb_score
10	Zack Snyder	Batman v Superman: Dawn of Justice	          6.9
11	Bryan Singer	Superman Returns	                          6.1
12	Marc Forster	Quantum of Solace	                          6.7
13	Gore Verbinski	Pirates of the Caribbean: Dead Man's Chest	  7.3
14	Gore Verbinski	The Lone Ranger	                                  6.5
15	Zack Snyder	Man of Steel                                   	  7.2
16	Andrew Adamson	The Chronicles of Narnia: Prince Caspian	  6.6
17	Joss Whedon	The Avengers	                                  8.1
18	Rob Marshall	Pirates of the Caribbean: On Stranger Tides	  6.7
19	Barry        	Men in Black 3	                                  6.8

loc 基于label的行列过滤，与index无关

# 通过label进行过滤
sub_df.loc[15:17,'movie_title']
-------------------------------
15                                Man of Steel 
16    The Chronicles of Narnia: Prince Caspian 
17                                The Avengers 
Name: movie_title, dtype: object

Reindexing Series and DataFrame

Series Reindex：fill_value 数据填充

s1 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])
--------------------------------------------------------
A    1
B    2
C    3
D    4
dtype: int64
============
s1.reindex(index=['A', 'B', 'C', 'D','E'], fill_value=10)
------------------------------------------
A    1.0
B    2.0
C    3.0
D    4.0
E    10
dtype: float64
==============
s2 = Series(['A', 'B', 'C'], index=[1, 5, 10])
----------------------------------------------
1     A
5     B
10    C
dtype: object
=============
# ffill 进行填充  0 不会自动填充  1-4 参照5；6-9参照10；11-14参照15；
s2.reindex(index=range(15), method='ffill')
-------------------------------------------
0     NaN
1       A
2       A
3       A
4       A
5       B
6       B
7       B
8       B
9       B
10      C
11      C
12      C
13      C
14      C
dtype: object

DataFrame Reindex

# 同时对一个DataFrame 进行Reindex columns and index 
df1.reindex(index=['A', 'B', 'C', 'D'], 
            columns=['c1', 'c2', 'c3', 'c4'])
---------------------------------------------------------
        c1	        c2              c3	        c4
A	0.282241	0.535411	0.257932	NaN
B	0.105177	0.011686	0.285663	NaN
C	0.084748	0.407965	0.484152	NaN
D	NaN	        NaN             NaN   	        NaN

Reindex/Drop 实现切片功能

Series

s1.reindex(index=['A', 'B'])
----------------------------
A    1
B    2
dtype: int64

DataFrame

df1.reindex(index=['A', 'B'])
-----------------------------
        c1	        c2	        c3	  
A	0.282241	0.535411	0.257932	
B	0.105177	0.011686	0.285663

Drop

s1.drop('A')
------------
B    2
C    3
D    4
dtype: int64
============
# 删除行 
df1.drop('A', axis=0)

Nan - Not a Numeber

通过numpy创建一个NaN

# 通过numpy创建一个NaN
n = np.nan
type(n)
-------
float

任何Number数据，与NaN做运算结果均为NaN

# 任何Number数据，与NaN做运算结果均为NaN
m = 1
m + n
-----
nan

NaN in Series
- isnull / notnull 判断是否存在元素NaN，结果为bool类型
```
s1.isnull()
```
- dropna() 移除NaN存在的数据项(行)
```
s1.dropna()
```

NaN in DataFrame

isnull / notnull 判断是否存在元素NaN，结果返回bool类型的DF
```
dframe.isnull()
```

dropna()

axis

axis=0 判断行是否存在NaN数据项，存在即drop该行

# 判断行、列是否存在NaN数据项，存在即drop该行、列
df1 = dframe.dropna(axis=0, how='all')

axis=1 判断列是否存在NaN数据项，存在即drop该列
```
df2 = dframe.dropna(axis=1, how='all')
```

how
- any：默认，只要存在NaN数据项，就进行drop操作
- all：只有该行、列中数据项均为NaN时，才进行drop操作

thresh 设置drop操作限制

thresh=2 NaN数据项存在数量 > 2 时，会进行drop操作

dframe2 = DataFrame([[1, 2, 3], [np.nan, 5, 6], [7, np.nan, 9], [np.nan, np.nan, np.nan]])
---------------------------------------------------------
        0	  1	  2
0	1.0	2.0	3.0
1	NaN	5.0	6.0
2	7.0	NaN	9.0
3	NaN	NaN	NaN
===========================
# thresh=2  NaN数据项存在数量 > 2 时，会进行drop操作
df2 = dframe2.dropna(thresh=2)
------------------------------
        0	1	2
0	1.0	2.0	3.0
1	NaN	5.0	6.0
2	7.0	NaN	9.0

fillna() NaN数据项填充操作特点：调用方法后新创建结果DF，不影响原DF

value：NaN数据项填充值

# fillna() NaN数据项填充 默认按照列进行填充
df2.fillna(value={0:0, 1:-1, 2:-2}) 
-----------------------------------
	0	1	2
0	1.0	2.0	3.0
1	0.0	5.0	6.0
2	7.0	-1.0	9.0

多级index

Series

多级Series

s1 = Series(np.random.randn(6), index=[['1', '1', '1', '2', '2', '2'], ['a', 'b', 'c', 'a', 'b', 'c']])
-------------------------------------------
1  a    0.227699
   b   -0.137033
   c   -0.233315
2  a    0.201417
   b    0.683764
   c    0.693293
dtype: float64
==============
s1['1']
-------
a    0.227699
b   -0.137033
c   -0.233315
dtype: float64
==============
s1['1']['a']
------------
0.22769876479819515
===================
s1[:, 'a']
----------
1    0.227699
2    0.201417
dtype: float64

多级Series和DataFrame的相互转化：unstack()

# 多级Series 向 DataFrame 转换
df1 = s1.unstack()
------------------
	a	        b	        c
1	0.227699	-0.137033	-0.233315
2	0.201417	0.683764	0.693293
=================================================
# DataFrame 向 多级Series 进行转换
s1 = df1.unstack()
# 转置重新构建s2
s2 = df1.T.unstack()

DataFrame

多级DataFrame(多级index + 多级columns)

# 多级DataFrame
df = DataFrame(np.arange(16).reshape([4, 4]), 
                index=[['a','a','b','b'], [1,2,1,2]], 
                columns=[['BJ','BJ','SH','GZ'], ['A','B','C','D']])
---------------------------------------------------------------
	BJ	       SH      GZ
        A	B	C	D
a 1	0	1	2	3
  2	4	5	6	7
b 1	8	9	10	11
  2	12	13	14	15
=========================
df['BJ']
--------
	A	B
a 1	0	1
  2	4	5
b 1	8	9
  2	12	13
==================
df['BJ']['A']
-------------
a  1     0
   2     4
b  1     8
   2    12
Name: A, dtype: int32

Mapping and Replace

DataFrame Mapping

# create a dataframe
df1 = DataFrame({"城市": ["北京", "上海", "广州"], "人口":[1000, 2000, 1500]})
--------------------------------------------------------
	城市	人口
0	北京	1000
1	上海	2000
2	广州	1500
====================
# add a column named GDP by Series 默认index为 0 1 2 若DF index 发生变化，需要指定index 才可以进行填充
# df1['GDP'] = Series([1000, 2000, 1500])
# map 方式增加列
gdp_map = {
  "北京": 1000,
  "上海": 2000,
  "广州": 1500
}
# map方式增加列
df1['GDP'] = df1['城市'].map(gdp_map)
------------------------------------
	城市	人口	GDP
0	北京	1000	1000
1	上海	2000	2000
2	广州	1500	1500

Series Replace

# replace in Series
s1 = Series(np.arange(10))
--------------------------
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32
============
# replace 单个
s1.replace(1, np.nan)
--------------------
0    0.0
1    NaN
2    2.0
3    3.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64
==============
# 字典方式replace
s1.replace({2:-2})
------------------
0    0
1    1
2   -2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64
============
# replace 多个
s1.replace([7,8,9], [-7,-8,-9])
-------------------------------
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7   -7
8   -8
9   -9
dtype: int64

Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【解决Qt报warning: ‘setAxisX‘ is deprecated遇到的问题】
解决Qt报warning:‘setAxisX‘isdeprecated遇到的问题背景：移植老代码时，报如题警告。老代码：m_input_chart->setAxisY(axisY,input_series);然后修改为：m_input_chart->addAxis(axisY,Qt::AlignLeft);input_series->attachAxis(axisY);运行之后没有警告了，但是坐标
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
Ubuntu系统下pip install的accelerate包没有安装至conda环境下，而是错误放入.local文件中
服务器上跑模型时莫名报了一个没有‘torch’包的错误Traceback(mostrecentcalllast):File"/home/ubuntu/.local/bin/accelerate",line5,infromaccelerate.commands.accelerate_cliimportmainFile"/home/ubuntu/.local/lib/python3.10/site-p
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
Python 数据建模与分析项目实战预备 Day 2 - 数据构建与字段解析（模拟简历结构化数据）蓝婷儿 python python 机器学习开发语言
✅今日目标构建项目所需的简历结构化数据（模拟或从开源源获取）明确各字段的含义、类型和取值范围输出首个训练数据集（CSV/DataFrame格式）一、模拟简历数据字段设计（结构化）我们将构建如下字段的结构化数据，每条代表一个候选人：字段含义类型示例值degree学历等级分类变量（本科/硕士/博士）“硕士”university_type学校等级分类变量（双一流/普通）“双一流”work_years工作
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
Python核心编程-语法范式与高阶应用实践 Stara-AI Python 装饰器内存管理机制 PEP8工程规范
一、Python基础语法、变量、列表、字典等运用1.运行python程序的两种方式1.交互式即时得到程序的运行结果2.脚本方式把程序写到文件里(约定俗称文件名后缀为.py),然后用python解释器解释执行其中的内容2.python程序运行的三个步骤python3.8C:\a\b\c.py1.先启动python3.8解释器,此时相当于启动了一个文本编辑器2.解释器会发送系统调用，把c.py的内容从
Python 3.9.0 64位：完整安装与配置教程 D哥有个初二君
本文还有配套的精品资源，点击获取简介：Python3.9.064位安装包为Windows系统上的Python最新版本，特别适用于数据处理、Web开发及自动化脚本等领域。本教程介绍了如何在HarmonyOS开发环境中安装并配置Python3.9.064位版本，包括系统兼容性、下载安装、环境变量配置、安装验证及pip更新。同时提供了Python基础知识，如基础语法、模块导入、面向对象编程、异常处理和文
动态时间规整（Dynamic Time Warping，DTW）介绍 EmorZhong 机器学习人工智能深度学习数据结构算法
在时序数据分析中，动态时间规整（DynamicTimeWarping，DTW）是一种经典的用于度量两个时间序列相似度的算法。它的核心价值在于解决了传统距离度量（如欧氏距离）在处理时间序列时的局限性——尤其是当序列存在时间错位（如节奏快慢不同）或长度差异时，仍能准确捕捉它们的“形状相似性”。一、为什么需要DTW？传统的距离度量（如欧氏距离）要求两个时间序列必须长度相同且时间点严格对齐。但实际场景中，
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

Python3数据分析入门实战_02 Pandas入门

2. Pandas

你可能感兴趣的:(代码笔记,Python3数据分析入门,pandas,数据分析,series,dataframe)