我行我素，向往自由

pandas——python

0.导引

1.Series

1.1 Series的创建

1.2 Series的索引

1.3 Series的切片

1.4 Series常用属性和方法

1.5 Series的运算

1.6 Series练习

2.DataFrame

2.1 DataFrame的创建

2.2 DataFrame的索引

2.3 DataFrame的切片

2.4 DataFrame的运算

2.5 DataFrame练习

2.6 pandas中的None和np.nan

2.6.1 基本概念

2.6.2 pandas中的None和np.nan都视为np.nan

2.6.3 pandas中的None与np.nan操作

3.pandas多层级索引

3.1 多层级索引的创建

3.2 多层级索引的访问与切片

3.3 多层级索引的变形操作（stack）

4.pandas汇总操作

4.1 级联

4.1.1 使用pd.concat()级联

4.1.2 不匹配级联

4.1.3 使用append()函数添加

4.2 合并

4.2.1 一对一合并

4.2.2 多对一合并

4.2.3 多对多合并

4.2.4 key的规范化

4.2.5 没有相同的columns也可以合并

4.2.6 内合并与外合并

4.2.7 列冲突的解决

4.2.8 简易回顾+练习

5.pandas的数据处理

5.1 删除重复元素

5.2 映射

5.2.1 replace()函数：替换元素

5.2.2 map()函数：新建一列

5.2.3 小练习

5.2.4 rename()函数：替换索引

5.3 使用聚合操作对数据异常值检测和过滤

5.3.1 查看表格数据信息的常用方法

5.3.2 异常值处理

5.4 排序

5.5 数据分类/组处理【重点】

5.5.1 单字段分组

5.5.2 多字段分组

5.5.3 透视表

5.5.4 交叉表

5.6 高级聚合

5.6.1 apply()函数

5.6.2 transform()函数

5.6.3 小练习

附载numpy学习链接：

0.导引

数据分析三剑客：numpy, pandas, matplotlib

numpy array 提供了运算基础

pandas 提供了业务逻辑的处理方法

matplotlib 做绘图展示
Series，DataFrame

1.Series

一维数组：有序的数据类型相同的集合
Series：一维数组的强化版，增加了像字典一样的key-value一样的访问机制，同时也保留了数组的访问机制

字典：无序的结合

Series是一种类似于一维数组的对象，由下面两个部分组成：

values ：一组数据( ndarray类型)

index：相关的数据索引标签

1.1 Series的创建

两种创建方式︰
(1)由列表或nunpy数组创建
默认索引为0到N-1的整数型索引
还可以通过设置index参数指定索引
特别地，由numpy创建的是引用，而不是副本(列表创建的是副本) 。对Series元素的改变也会改变原来的ndarray对象中的元素。(列表没有这种情况)
(2)由字典创建

1.2 Series的索引

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型)。分为显示索引和隐式索引：

(1)显式索引：

使用index中的元素作为索引值

使用.loc[]（推荐) 配合显式索引

使用.iloc[]（推荐）配合隐式索引

使用带索引的bool型的Series列表访问

注意，此时是闭区间

(1)隐式索引：

像普通列表一样访问

1.3 Series的切片

1.数组

2.字典

3. s.loc[ ]

4. s.iloc[ ]

注意：默认都是左闭右开区间，所有使用显示索引（即自己设定的index）切片的都是闭区间

1.4 Series常用属性和方法

可以把Series看成一个定长的有序字典。

可以通过shape , size , index,values等得到series的属性。

可以使用head(),tail()分别查看前n个和后n个值。

当索引没有对应的值时，可能出现缺失数据显示NaN ( not a number )的情况。

可以使用pd.isnull() , pd.notnull()，或自带isnull(),notnull()函数检测缺失数据。

Series对象本身及其实例都有一个name属性

s.sort_values() ==> 根据值排序 s.sort_index() ==> 根据索引排序

统计所有值出现的次数：s.value_counts()

1.5 Series的运算

(1)适用于numpy的数组运算也适用于Series

Series和numpy运算，隐式索引对齐；当然也有广播机制
(2) Series之间的运算

在运算中自动对齐不同索引的数据

如果索引不对应，则补NaN

注意：要想保留所有的index，则需要使用：

add() 加

sub() 减

mul() 乘

div() 除

1.6 Series练习

1.随机生成两组学生成绩，一组python，一组java，学生包括lucy、mery、tom、jack

2.计算每个学生的平均成绩
3.找出python未及格的学生姓名

4.找出java未及格的学生姓名
5.如果需要给mery的python成绩加10分，如何实现

6.计算各学科的班级平均成绩

2.DataFrame

DataFrame是一个【表格型】的数据结构（二维），可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

行索引：index

列索引：columns

值：values ( numpy的二维数组)

2.1 DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值(一个数组)作为每一列。此外，DataFrame会自动加上每一行的索引(和Series一样）。
同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。
DataFrame属性：values、columns、index、shape

三种创建方法：

构造函数构造 ==>不建议这种，因为每一列数据是一样的

字典构造 ==>建议这种，因为每一列数据可以不一样

从文件中读取DataFrame文件 ==> pd.read_csv() pd.read_table() pd.read_excel()

使用Series构造DataFrame

2.2 DataFrame的索引

(1)对列进行索引

通过类似字典的方式

通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

(2)对行进行索引

使用.ix[ ]来进行行索引

使用.loc[ ]加index来进行行索引

使用.iloc[ ]加整数来进行行索引

同样返回一个Series , index为原来的columns。

(3)对元素索引的方法 ==> 元素访问的逻辑和numpy的访问逻辑一致(先行后列)

使用列索引

使用行索引（iloc[3,1]相当于两个参数；iloc[[3,3]]里面的[3,3]看做一个参数）

使用values属性（二维numpy数组)

2.3 DataFrame的切片

【注意】直接用中括号时：

索引表示的是列索引

切片表示的是行切片

标签处理的切片都是闭区间。

列切片：逻辑和二维数组一样，想切列，必须先把行全部保留下来

2.4 DataFrame的运算

运算的三种情况：

DataFrame和一个数 ==> 广播机制

DataFrame和数组（numpy、Series) ==> 索引对齐，axis控制方向

DataFrame和 DataFrame ==> 索引对齐，不分方向

( 1 ) DataFrame之间的运算
同Series一样：

在运算中自动对齐相同索引的数据

如果索引不对应，则补NaN

默认运算都是列方向
df.mean() df.sum()

2.5 DataFrame练习

练习：
1.假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。

2.假设张三期中考试数学被发现作弊，要记为0分，如何实现?
3.李四因为举报张三作弊立功，期中考i试所有科目加100分，如何实现?
4.后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现?

2.6 pandas中的None和np.nan

2.6.1 基本概念

有两种丢失数据：

None

np.nan(NaN)

在python中尽量用NaN，而不是要用None,因为对象比int类型运算慢的多。

None：

None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。
object类型的运算要比int类型的运算慢得多
计算不同数据类型求和时间
%timeit np.arange(1e5,dtype=xxx).sum()

np.nan：

np.nan和任何数运算，得到结果还是nan。
np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。
但可以使用np.nan*()函数来计算nan，此时视nan为0。

2.6.2 pandas中的None和np.nan都视为np.nan

pandas会把None优化为np.nan。

2.6.3 pandas中的None与np.nan操作

isnull()

notnull()

dropna( )：过滤丢失数据
可以选择过滤的是行还是列(默认为行)
也可以选择过滤的方式how = 'all'

fillna()：填充丢失数据
  ==>   通常的办法就是是用每一列的某一个聚合指标来对每一列进行填充
可以选择前向填充还是后向填充；向前：从下/右往上/左，向后：从上/左往下右
‘backfill' 'bfill' 'pad' 'ffill'
对于DataFrame来说，还要选择填充的轴axis。记住，对于DataFrame来说：

                 axis=0：index/行
                 axis=1：columns/列

3.pandas多层级索引

3.1 多层级索引的创建

1)隐式构造
最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组

Series也可以创建多层索引

2)显示构造pd.Multilndex

使用数组

使用tuple

使用from_product ==> 最简单，推荐使用

3.2 多层级索引的访问与切片

多层级索引访问的核心：
        1.多层级的索引的表达方式变成元组
        2.隐式索引的访问方式不受影响

建议隐式索引，这样不用写乱七八糟的元组。 ==> 隐式索引永远是单层的

1) Series的操作
【重要】对于Series来说，直接中括号[ ]与使用.loc[ ]完全一样，推荐使用.loc[ ]和切片。

索引

切片

2)  DataFrame的操作

可以直接使用列名称来进行列索引
行多级索引的索引和切片操作
列多级索引的索引和切片操作

使用行索引需要用ix()，loc[ ]等函数
【极其重要】推荐使用loc[ ]函数
注意：在对行索引的时候，若一级行索引还有多个，对二级行索引会遇到问题！也就是说，无法直接对二级索引进行索引，必须二级索引变成一级索引后才能对其进行索引！

多级索引用元组表示，其余与Series访问一样。

3.3 多层级索引的变形操作（stack）

stack() ==> column变成index

unstack() ==> index变成column

【小技巧】使用stack()的时候，level等于哪一个，哪一个就消失，出现在行里。
【小技巧】使用unstack()的时候，level等于哪一个，哪一个就消失，出现在列里。

==> 从里往外数，就是-1 -2 -3；从外往里数，就是0 1 2

4.pandas汇总操作

pandas的拼接分为两种：

级联：pd.concat，pd.append

合并：pd.merge，pd.join

4.1 级联

4.1.1 使用pd.concat()级联

级联方向上的形状不同，同样可以连接

以索引对齐的方式连接，所以跟顺序没关系

pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数:
        objs ==> 要参与级联的pandas对象的列表、元组
        axis=0
        join='outer'

        join_axes=None

        ignore_index=False ==> 原始索引无意义，可以忽略索引级联

        keys                           ==> 可以弄多级索引

原始表的索引没有实际意义，可以忽略处理，用ignore_index避免重复；

如果级联后，原始索引不能忽略，但又希望避免重复，可以用keys做成多层级表格

4.1.2 不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致
有3种连接方式：

外连接：补NaN(默认模式) ==> outer 保存连接的表的所有字段，缺失值补空值

内连接：只连接匹配的项 ==> inner 只保留公共字段【不建议】

连接指定轴 join_axes

4.1.3 使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加。
注意：append函数只是沿着axis=0的方向进行级联

4.2 合并

合并只跟列有关，两张表要去找默认内容相同的列来进行合并，也可以columns不相同。
合并的两张表一定存在至少一列，在内容上有对应关系：

一对一合并

多对一合并

多对多合并

key的规范化 ==> 1.使用on=显式指定哪一列为key,当有多个key相同时使用；
==> 2.使用left_on和right_on指定左右两边的列作为key，当左右两边的 key都不想等时使用。

合并可以同时参考多列进行，这取决于你的业务需求。

merge与concat的区别在于，merge需要依据某一共同【列】来进行合并
使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。注意：每一列元素的顺序不要求一致

4.2.1 一对一合并

4.2.2 多对一合并

4.2.3 多对多合并

4.2.4 key的规范化

4.2.5 没有相同的columns也可以合并

4.2.6 内合并与外合并

内合并：只保留两者都有的key (默认模式)

外合并how='guter'：补NaN ==> 【推荐使用】

左合并、右合并: how='left' , how='right' ==> 根据左表和右表来保留内容

pd.merge()
1.都是以列为合并项；
2.参与合并的列必须满足一对一、一对多、多对多关系中的至少一种；

3.参与合并的列的选择应该是选择离散型数据而不是连续型数据。

how='inner'合并的方式内合并外合并左合并右合并

on指定参与合并的列用于有多列标签相同的情况

left_on\right_on分别制定左右表参与合并的列用于两张表参与合并的列标签不同的情况

suffiexes一般与on参数一起使用，给相同列标签但是没有参与合并的列添加后缀

left_index\right_index指定索引作为合并的参考值

merge的内合并与concat的内合并的区别：

inner内合并，只保留相同的【内容】

concat 的内连接：只保留相同的【标签】

4.2.7 列冲突的解决

当列冲突时，即有多个列名称相同时需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名；

可以使用suffixes=自己指定后缀。

4.2.8 简易回顾+练习

【简易回顾】

【练习一】

【练习二】

假设有两个同学都叫李四，ddd5、ddd6都是张三和李四的成绩表，如何合并?

5.pandas的数据处理

先了解数据：

df.read()

df.info()

df.description()

原始数据最基本的操作包括如下三步：

空值的处理

重复值的处理

异常值的处理

5.1 删除重复元素

使用duplicated()函数检测重复的行，返回元素为布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True

使用drop_duplicates()函数删除重复的行

使用duplicated()函数查看重复的行

如果使用pd.concat([df1,df2],axis = 1)生成新的DataFrame，新的df中columns相同，使用duplicate()和drop_duplicates()都会出问题。

5.2 映射

映射的含义︰创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑定包含三种操作︰

replace()函数︰替换元素(DataFramelSeries的函数)

最重要：map()函数︰新建一列(Series的函数)

rename()函数：替换索引(DataFrame的函数)

fillna和replace的区别：

fillna负责空值的填充，而replace是任意值的填充。即replace是fillna的高级版本。

5.2.1 replace()函数：替换元素

使用replace()函数，对values进行替换操作。

Series替换操作：

单值替换

列表替换

字典替换（推荐）

Series参数说明∶

method：对指定的值使用相邻的值填充

limit：设定填充次数

1)替换字符串

2）替换数字

3)使用列表替换多个值

4)使用字典替换

5）使用字典处理某一列的替换

6)正则表达式替换

7）填充

8）小练习

假设课表里有满分的情况，老师认为是作弊，把所有满分的情况r(包括150,300分）都记0分，如何实现?

5.2.2 map()函数：新建一列

map是Series的函数，所以通常被用来对某一列进行整体的映射处理。

map()可以使用字典映射新─列数据

map()中可以使用lambd表达式

map()中可以使用方法，可以是自定义的方法

注意：

map()中不能使用sum之类的函数，for循环

map(字典)字典的键要足以匹配所有的数据，否则出现NaN

1）使用字典映射

2）使用方法映射

3)lambda处理

5.2.3 小练习

新增两列，分别为张三、李四的成绩状态，如果分数低于90，则为"failed"，如果分数高于120，则为"excellent"，其他则为"pass"。

【提示】使用函数作为map的参数

5.2.4 rename()函数：替换索引

使用rename()函数替换行索引：

mapper替换所有索引

index替换行索引

columns替换列索引

level指定多维索引的维度

5.3 使用聚合操作对数据异常值检测和过滤

使用describe()函数查看每一列的描述性统计量。 ==> 只对可以运算的列有效

使用std()函数可以求得DataFrame对象每一列的标准差。==> 异常值的通用界定方法

|data|>3*|std()|

离群点的检测：数值型的数据都可以使用离群点的方式来检测异常

5.3.1 查看表格数据信息的常用方法

df.dtypes df.head() df.tail() df.info() df.describe()

5.3.2 异常值处理

异常值通用的界定办法：

如果数据是呈标准正态分布的，/data >3*/data.std()/

离群点的检测：数值型的数据都可以使用离群点的方式来检测异常

5.4 排序

使用.take()函数排序：
take()函数接受一个索引列表，用数字表示

eg : df.take([1,3,4,2,5])
可以借助np.random.permutation()函数随机排序

随机抽样：
当DataFrame规模足够大时，直接使用np.random.randint()函数，就配合take()函数实现随机抽样。

1)排序

2）随机抽样

5.5 数据分类/组处理【重点】

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

分组：先把数据分为几组

用函数处理：为不同组的数据应用不同的函数以转换数据

合并：把不同组得到的结果合并起来

数据分类处理的核心：

groupby()函数

groups属性查看分组情况

交叉表：
交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。
透视表：
透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上得分组建将数据分配到各个矩形区域中。在Python和pandas中，可以通过本章所介绍的groupby功能以及（能够利用层次化索引的）DataFrame有一个pivot_table方法，此外还有一个顶级的pandas.pivot_table函数。除了能为groupby提供便利之外，pivot_table还可以添加分项小计(也叫margins )。

5.5.1 单字段分组

5.5.2 多字段分组

5.5.3 透视表

透视表：
透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合，并根据行和列上得分组建将数据分配到各个矩形区域中。在Python和pandas中，可以通过本章所介绍的groupby功能以及（能够利用层次化索引的）DataFrame有一个pivot_table方法，此外还有一个顶级的pandas.pivot_table函数。除了能为groupby提供便利之外，pivot_table还可以添加分项小计(也叫margins )。

5.5.4 交叉表

交叉表：
交叉表(cross-tabulation,简称crosstab)是一种用于计算分组频率的特殊透视表。
一种特殊的透视表， 用于统计个数。直接对一个对象操作。

5.6 高级聚合

使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算。

df.groupby("item')['price'].sum() <==> df.groupby('item')['price'].apply(np.sum)

transform和apply都会进行运算，在transform或者apply中传入函数即可

transform和apply也可以传入一个lambda表达式

注意：

transform会自动匹配列索引返回值，不去重

apply 会根据分组情况返回值，去重

5.6.1 apply()函数

5.6.2 transform()函数

注意：

transform会自动匹配列索引返回值，不去重

apply 会根据分组情况返回值，去重

5.6.3 小练习

假设菜市场张大妈在卖菜，有以下属性︰
        菜品(item)：萝卜，白菜，辣椒，冬瓜

        颜色(color)：白，青，红
        重量(weight)
        价格(price)

1.以属性为列索引，创建一个DataFrame对象df

2.对df进行聚合操作，求出颜色为白色的价格总和

        df. groupby ("color")["price"].sum()
3.对df进行聚合操作，求出萝卜的所有重量(包括白萝卜，胡萝卜，青萝卜)以及平均价格

        r = df.groupby("item").agg({"weight" :"sum" ,"price" :"mean"})

4.使用merge合并总重量及平均价格

        pd.merge(df, r，left_on="item",right_index=True)

附载numpy学习链接：

numpy学习https://mp.csdn.net/mp_blog/creation/editor/125643490

你可能感兴趣的:(python,python,pandas,Series,DataFrame,数据分析)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc