tenderjets

利用python进行数据分析（重点、易忘点）---第五章Pandas基础学习

之前看的pandas的教材和课程里，内容参差不齐，实际使用很少的方法的内容有点多，导致很乱而且记不住那么多，这个帖子尽量用最少的文字，最精炼的语言来总结比较实用的方法，内容主要来源于《利用python进行数据分析》。

1.创建Series

直接给列表，加index。

obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

也可以用字典

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

obj3 = pd.Series(sdata)

2.创建DataFrame

用最基础的方式，列表嵌套字典，注意把index放在字典外部，或者columns。

df= pd.DataFrame( {'first': ['kevin', 'lou', 'ian'], 
'last': ['durant', 'reed', 'brown']}, index=['3', '4', '5'] )

下面用numpy的array数组构建DataFrame，如果要加每行、每列的指定索引可以指定index、columns，array数组没有指定索引。

frame = pd.DataFrame(np.arange(9).reshape(3,3),
index=['a','b','c'],columns=['h','i','j'])

3.DataFrame取行或列

非常重要：python中注意区分数字和字符，比如loc的使用，iloc的使用不在讨论中，iloc只能放数字（序号）。

DataFrame取列：用df['列名']或df.列名，用前者；

DataFrame取行：用loc[ ]或iloc[ ]。

tip:如果index和columns设置成数字例如1，2等，取行和取列应该为df[数字]和loc[数字]，注意没有引号，如果设置成"0"、"1"(字符)的话，那就要在df[数字]中加上引号。

然后是loc和iloc的一些嵌套使用，类似这样：

data.loc['Colorado', ['two', 'three']]

data.iloc[2, [3, 0, 1]]

值得一提的是（很重要）：相对于iloc，loc的取值不像传统的python列表的选取那样，使用“:”的时候会忽略掉“:”后的那个元素，而是会取到那个值，而iloc依然是和python列表的特性一样。

a = [0,1,2,3,4,5]

a[:5]  #返回[0, 1, 2, 3, 4]

ser = pd.Series(np.arange(3.))

In [144]: ser
Out[144]: 
0    0.0
1    1.0
2    2.0
dtype: float64

In [147]: ser[:1]
Out[147]: 
0    0.0
dtype: float64

In [148]: ser.loc[:1]
Out[148]: 
0    0.0
1    1.0
dtype: float64

In [149]: ser.iloc[:1]
Out[149]: 
0    0.0
dtype: float64

4.使用方法3对DataFrame进行取列或加列后操作

DataFrame和Series是带有索引的，如果想修改或增加它们的数据，索引应该要对上。（如果增加的数据是numpy的array或者其他没有索引的数据，那么数据个数能对的上就行。）

# numpy的array和单纯一个数字是没有索引的，可以直接加上去。

frame2['debt'] = np.arange(6.)

frame2['debt'] = 16.5

# frame2.state == 'Ohio'得到是一个与frame2相同索引的布尔值Series，所以能够顺利加上列。

frame2['eastern'] = frame2.state == 'Ohio'

#再比如，这个Val(Series)的索引相对于frame2的索引不完全，只有三个索引对应的3个值，索引最后结果只有3个数据匹配上增加，其他的用NaN填充。

In [58]: val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
In [59]: frame2['debt'] = val
In [60]: frame2
Out[60]: 
       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN

这就会延申到算术运算和数据对齐部分。

5. 数据（索引）对齐后进行算术运算

数据对齐的规则在上一条已经大致说清楚了。这里的算术运算也是类似的，要求数据(索引)对齐。

算术运算的方法：可以用符号"+-*/"，也可以用方法add、sub、mul、div。

Seires的算术运算比较简单，毕竟只有一维索引，要求索引对齐；DataFrame需要二维索引都对齐。不对齐的话和上面一样会出现NaN的数据。为了避免这种NaN，可以用方法“fill_value”填充值自动填充。

df1.add(df2, fill_value=0)

然后是DataFrame与Series之间的运算，依然要求数据对齐，重要的是横向还是纵向算术运算。

先用numpy的array来举个例子。arr是个3*4的array，用arr[0]提取第一行（1*4的array），然后用arr减去arr[0]，是把arr的每一行都减去arr[1]这个array。

In [175]: arr = np.arange(12.).reshape((3, 4))
In [176]: arr
Out[176]: 
array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])
In [177]: arr[0]
Out[177]: array([ 0.,  1.,  2.,  3.])
In [178]: arr - arr[0]
Out[178]: 
array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

进而引申到DataFrame与Series的运算(前提是数据对齐)，也是默认对DataFrame的每行分别减去Series。

In [179]: frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
   .....:                      columns=list('bde'),
   .....:                      index=['Utah', 'Ohio', 'Texas', 'Oregon'])
In [180]: series = frame.iloc[0]
In [181]: frame
Out[181]: 
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
In [182]: series
Out[182]: 
b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [183]: frame - series
Out[183]: 
          b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0

如果DataFrame与Series的运算，要求对DataFrame的每列与Series进行算术运算，要结合axis的使用。###（这个地方的axis不用默认为1或‘columns’，可以改成0或‘index’在每列层次上进行运算）###这里发现axis默认竟然不是0？于是gpt了一下发现，关于 axis 默认值 的问题，答案是：具体情况具体分析，因为 默认的行为取决于参与运算的对象类型和索引结构。

比如这里DataFrame与Series的运算的例子。

默认行为依赖于 Series 的索引：

如果 Series 的索引与 DataFrame 的行索引对齐，则默认 axis=0。
如果 Series 的索引与 DataFrame 的列索引对齐，则默认 axis=1。

In [186]: series3 = frame['d']
In [187]: frame
Out[187]: 
          b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0
In [188]: series3
Out[188]: 
Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64
In [189]: frame.sub(series3, axis='index')
Out[189]: 
          b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0

### 要特别注意加减乘除和sum()/average()等这些函数关于axis的使用 ###

6. “重新提取”和修改索引

Series、DataFrame（配合参数axis和0或1）可以用reindex，“重新提取”列名或行名，如果不加参数默认提取index（Series只有index），下面obj没有索引“e”对应的值，所以返回NaN。

In [91]: obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
In [93]: obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
In [94]: obj2
Out[94]: 
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN

下面df使用了axis=1，就是重新提取列名了（columns）

In [94]: df= pd.DataFrame(
    {'first': ['kevin', 'lou', 'ian'], 'last': ['durant', 'reed', 'brown']},
    index=[3,4,5])

Out[94]: df.reindex(['first','third'],axis=1)

    first	third
3	kevin	NaN
4	lou	    NaN
5	ian    	NaN

修改索引就是直接对索引进行修改。用df.index、df.columns来修改。

7.丢弃指定轴上的项

涉及到del、drop的使用，主要是drop。

对于Series，直接drop掉想要丢弃的索引及涉及的数据们。

In [105]: obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [107]: new_obj = obj.drop(['d', 'c'])

对于DataFrame，当然也可以用drop方法，但是要注意依然默认axis=0（index），即删除行。

In [110]: data = pd.DataFrame(np.arange(16).reshape((4, 4)),
   .....:                     index=['Ohio', 'Colorado', 'Utah', 'New York'],
   .....:                     columns=['one', 'two', 'three', 'four'])

In [112]: data.drop(['Colorado', 'Ohio'])
Out[112]: 
          one  two  three  four
Utah        8    9     10    11
New York   12   13     14    15

要删除列，让axis=1（columns）。

In [114]: data.drop(['two', 'four'], axis='columns')
Out[114]: 
          one  three
Ohio        0      2
Colorado    4      6
Utah        8     10
New York   12     14

顺带提一下del在DataFrame的运用，del用于“彻底”删除DataFrame的某列（不能删除行），相比于del的删除，drop的删除像是临时性的，临时返回一个结果对象，不会改变DataFrame本身，通常把临时修改的结果赋给某个新变量，如果想实现“彻底”删除某一行/列，可结合inplace=True选项。（很多方法在这方面和drop都是类似的，结合inplace=True实现“彻底”执行，可以就地修改对象，不会返回新的对象，这是书上原话）

del frame2['eastern']

In [115]: obj.drop('c', inplace=True)
In [116]: obj
Out[116]: 
a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

8.排序

排序涉及到两个方法，sort_values(值)方法和sort_index(索引)方法。

对于Series，直接在对象后面使用方法就行。

obj.sort_index()
obj.sort_values()

对于DataFrame，先讨论sort_index。需要注意一些参数。首先依然是axis，不设置axis默认为0(index)，也可以设置axis=1(columns)，对列索引排序。

In [203]: frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
   .....:                      index=['three', 'one'],
   .....:                      columns=['d', 'a', 'b', 'c'])
In [204]: frame.sort_index()
Out[204]: 
       d  a  b  c
one    4  5  6  7
three  0  1  2  3
In [205]: frame.sort_index(axis=1)
Out[205]:
       a  b  c  d
three  1  2  3  0
one    5  6  7  4

数据默认是按升序排序的，但也可以降序排序，设置参数ascending=False。

In [206]: frame.sort_index(axis=1, ascending=False)
Out[206]: 
       d  c  b  a
three  0  3  2  1
one    4  7  6  5

下面是sort_values的讨论。首先要明确在排序时，任何缺失值默认都会被放到Series的末尾。

刚才讲的axis和ascending=False在sort_values依旧适用。然后是一些额外的补充by参数，需要选择sort_values(by=‘列名’)或者sort_values(by='行名',axis=1)，by也可以放行/列名列表，按优先级进行排序。

frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [212]: frame
Out[212]: 
   a  b
0  0  4
1  1  7
2  0 -3
3  1  2

In [214]: frame.sort_values(by=['a', 'b'])
Out[214]: 
   a  b
2  0 -3
0  0  4
3  1  2
1  1  7

In [215]: frame.sort_values(by=2,axis=1)
Out[215]:
   b  a
0  4  0
1  7  1
2 -3  0
3  2  1

9.汇总和计算描述统计

一些常用count、sum、mean、cumsum等描述汇总统计等，不再赘述。

DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数或协方差矩阵：

# returns有四列数据AAPL、GOOG、IBM、MSFT

In [247]: returns.corr()
Out[247]: 
          AAPL      GOOG       IBM      MSFT
AAPL  1.000000  0.407919  0.386817  0.389695
GOOG  0.407919  1.000000  0.405099  0.465919
IBM   0.386817  0.405099  1.000000  0.499764
MSFT  0.389695  0.465919  0.499764  1.000000
In [248]: returns.cov()
Out[248]: 
          AAPL      GOOG       IBM      MSFT
AAPL  0.000277  0.000107  0.000078  0.000095
GOOG  0.000107  0.000251  0.000078  0.000108
IBM   0.000078  0.000078  0.000146  0.000089
MSFT  0.000095  0.000108  0.000089  0.000215

10.唯一值、值计数以及成员资格

下面更多是对Series对象使用的方法。

可以用unique方法返回唯一值：

In [251]: obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [252]: uniques = obj.unique()
In [253]: uniques
Out[253]: array(['c', 'a', 'd', 'b'], dtype=object)

value_counts()方法对Series里的值计数并倒序返回计数值排序。（注意单词拼写，以及这里value没有复数，区分之前的sort_values）

In [254]: obj.value_counts()
Out[254]: 
c    3
a    3
b    2
d    1
dtype: int64

然后是一个isin方法，可以判断Series里面的元素是否在isin的列表里，返回一个布尔值Series。可以把这个布尔值Series结合之前的汇总描述统计方法配合使用。

In [256]: obj
Out[256]: 
0    c
1    a
2    d
3    a
4    a
5    b
dtype: object
In [257]: mask = obj.isin(['b', 'c'])
In [258]: mask
Out[258]: 
0     True
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [259]: obj[mask]
Out[259]: 
0    c
5    b
dtype: object

最后带一句：关于axis的选择对于DataFrame确实比较复杂，且涉及大部分方法，可以不用死记硬背，使用方法时，可以进行一些试错尝试（使用副本等其他方法避免对原数据操作，以免造成不可逆转的操作），来选择正确的axis参数。

Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
pandas 优雅处理值类型为list的列的csv读写问题 Allocator Python pandas list python
文章目录直接存储joinlist变成字符串存储json.dumps序列化存储以及json.loads反序列化读取总结之所以分析这个问题,是因为读者在跟第三方数据供应商对接数据的时候,老是会遇到数据加载都会出错的问题,其中一个原因就是list类型数据没有正确储存,于是笔者在这篇文章里面详细分析一下list数据怎么优雅的写入csv以及读取.直接存储第一种方法,直接存,不做任何转换defdirect_w
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
【python】pip 国内镜像源叶阿猪 python python pip 开发语言
使用pip下载安装python第三方库的时候，经常会很慢，甚至报错。如下：pip._vendor.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='f而使用Python的镜像源（也称为国内安装源或PyPI镜像源）可以提高Python包（如numpy、pandas等）的安装速度和稳定性。Python的镜像源是在国内设置的代理服
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
【Pandas】pandas DataFrame resample liuweidong0802 DataFrame pandas
Pandas2.2DataFrameTimeSeries-related方法描述DataFrame.asfreq(freq[,method,how,…])用于**将时间序列数据转换为指定频率（resampletofrequency）**的方法DataFrame.asof(where[,subset])用于查找时间序列中最接近指定时间点的非NaN值的方法DataFrame.shift([period
【Pandas】pandas DataFrame max liuweidong0802 DataFrame pandas python 数据挖掘
Pandas2.2DataFrameComputationsdescriptivestats方法描述DataFrame.abs()用于返回DataFrame中每个元素的绝对值DataFrame.all([axis,bool_only,skipna])用于判断DataFrame中是否所有元素在指定轴上都为TrueDataFrame.any(*[,axis,bool_only,skipna])用于判断
【Pandas】pandas Series tz_convert liuweidong0802 Pandas Series pandas
Pandas2.2SeriesTimeSeries-related方法描述Series.asfreq(freq[,method,how,…])用于将时间序列数据转换为指定的频率Series.asof(where[,subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods,freq,axis,…])用于将时间序列数据沿指定轴移动指定的周期数Serie
Python打卡：Day24 剑桥折刀s python打卡 python
importpandasaspdimportnumpyasnpimportreimportxgboostasxgbfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportclassification_report,confusion_matrix,accuracy_score,precision_score
常见的结构化数据转化为字典列表 daoboker python
以下是针对CSV、Parquet、Excel等格式使用pandas统一处理，并将每一行转换为字典的整理方案：一、通用处理逻辑无论何种数据格式，核心步骤均为：用pandas读取为DataFrame将DataFrame转换为列表+字典格式（orient=‘records’）二、具体实现代码CSV→字典列表importpandasaspd#读取CSVdf=pd.read_csv('data.csv',s
Python爬虫（56）Python数据清洗与分析实战：Pandas+Dask双剑合璧处理TB级结构化数据一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫 pandas
目录引言：大数据时代的清洗革命一、数据清洗基础：Pandas核心方法论1.1数据去重策略深度解析1.1.1精确去重与模糊去重1.1.2智能去重策略1.2缺失值处理金字塔模型1.2.1基础处理方法1.2.2智能缺失处理二、Dask架构解析：突破单机内存限制2.1Dask核心组件图谱2.2DaskDataFrame核心API映射表三、TB级数据清洗实战：电商订单数据分析3.1场景描述3.2分布式清洗流
Pandas 系列（二）毛大猫（蓉火科技） pandas
Pandas系列（二）：Series属性（一）：importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt使用matplotlib.pyplot进行绘图时，首先需要导入模块，并根据具体需求调用相关函数来生成图表。通常使用以下语句:importmatplotlib.pyplotasplt导入pyplot模块，并将其简称为plt#s10=pd
DeepSeek在数据分析与科学计算中的革命性应用软考和人工智能学堂 #DeepSeek快速入门 Python开发经验 #深度学习 python 机器学习开发语言
1.数据预处理自动化1.1智能数据清洗fromdeepseekimportDataCleanerimportpandasaspddefauto_clean_data(df):cleaner=DataCleaner()analysis=cleaner.analyze(df)print("数据问题诊断:")forissueinanalysis['issues']:print(f"-{issue['ty
python pandas数据清洗扶子 python 开发语言经验分享 pandas 数据清洗
一、介绍：2024金砖python样题中数据清洗部分代码实现二、任务要求：数据集中有购药时间、社保卡号、商品编码、商品名称、销售数量、应收金额、实收金额几个字段，请你使用NumPy和Pandas按如下要求对数据进行清洗：1.购药时间就是销售时间，为了后续分析更好的理解字段，将"购药时间"改为"销售时间"；2.任何一条数据中只要有一个缺失值就删除该条数据；3.将销售数量、应收金额、实收金额三列的数据
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
对 Boston Housing Dataset（波士顿房价数据集）数据分析程序小K 数据分析数据分析数据挖掘
1.数据加载与初步检查importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#加载数据boston_df=pd.read_csv("boston_housing_data.csv")#查看前5行display(boston_df.head())#检查数据基本信息（列名、数据类型、非空值数量）print(boston_df.inf
“易问易视”——让数据分析像聊天一样简单二十十十十十数据分析数据挖掘
一、项目简介“易问易视”通过自然语言理解和大语言模型技术，将用户的中文查询自动转化为数据处理指令，实现无代码的数据检索与图表生成。你只要在大屏上输入一句话，比如“2024年每月有多少人出境”，它就能自动看懂你要查的时间、指标、维度，然后在后台用Pandas和NumPy把国家统计局或行业CSV里的数据清洗、筛选、聚合好，再用Matplotlib、Plotly画出柱状图、折线图、饼图甚至地图，最后在S
Python 数据分析与可视化 Day 3 - Pandas 数据筛选与排序操作蓝婷儿 python pandas 数据分析 python
今日目标掌握DataFrame的条件筛选（布尔索引）学会多条件筛选、逻辑运算熟练使用排序（sort_values）提升数据组织力结合列选择进行数据提取分析一、列选择与基本筛选✅选择单列/多列df["成绩"]#返回Seriesdf[["姓名","成绩"]]#返回新的DataFrame✅条件筛选（布尔索引）#筛选出成绩大于80的学生df[df["成绩"]>80]#获取性别为“女”的学生df[df["性
金融量化 - 技术分析策略和交易系统_SMA+CCI交易系统帅泽泽金融量化金融量化
双技术指标：SMA+CCI交易系统以SMA作为开平仓信号，同时增加CCI作为过滤器；当股价上穿SMA，同时CCI要小于-100，说明是在超卖的情况下，上穿SMA，做多；交易信号更可信；当股价下穿SMA，同时CCI要大于+100，说明是在超买的情况下，下穿SMA，做空；交易信号更可信；importnumpyasnpimportpandasaspdimporttalibastaimporttushar
Python学习Day10 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行知识点：数据集的划分机器学习模型建模的三行代码机器学习模型分类问题的评估对心脏病数据集采用机器学习模型建模和评估importpandasaspdfile_path="heart.csv"data=pd.read_csv(file_path)data.info()data.isnull().sum()#划分训练集和测试机fromsklearn.model_selectionim
Python训练打卡Day15 编程有点难 Python学习笔记 python 开发语言
复习日回顾一下之前14天的内容：importpandasaspdimportseabornassnsimportmatplotlib.pyplotaspltdata=pd.read_csv('ObesityDataSet.csv')data.head()#分离连续变量与离散变量discrete_features=['Gender','family_history_with_overweight',
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen