小灵宝

利用Python进行数据分析（Ⅲ）

本文参考书籍：《利用Python进行数据分析》

利用Python进行数据分析（Ⅲ）
- 7.数据清洗与准备
- - 7.1 处理缺失值
  - - 7.1.1 过滤缺失值
    - 7.1.2 补全缺失值
  - 7.2 数据转换
  - - 7.2.1 删除重复值
    - 7.2.2 使用函数或映射进行数据转换
    - 7.2.3 替代值
    - 7.2.4 重命名轴索引
    - 7.2.5 离散化和分箱
    - 7.2.6 检测和过滤异常值
    - 7.2.7 置换和随机抽样
    - 7.2.8 计算指标/虚拟变量
  - 7.3 字符串操作
  - - 7.3.1 字符串对象方法
    - 7.3.2 正则表达式
    - 7.3.3 pandas中的向量化字符串函数
- 8. 数据规整：连接、联合与重塑
- - 8.1 分层索引
  - - 8.1.1 重排序和层级排序
    - 8.1.2 按层级进行汇总统计
    - 8.1.3 使用DataFrame的列进行索引
  - 8.2 联合与合并数据集
  - - 8.2.1 数据库风格的DataFrame连接
    - 8.2.2 根据索引合并
    - 8.2.3 沿轴向连接
    - 8.2.4 联合重叠数据
  - 8.3 重塑和透视
  - - 8.3.1 使用多层索引进行重塑
    - 8.3.2 将“长”透视为“宽”
    - 8.3.3 将“宽”透视为“长”
- 9.绘图与可视化
- - 9.1 简明matplotlib API入门
  - - 9.1.1 图片与子图
    - - 9.1.1.1 调整子图周围的间距
    - 9.1.2 颜色、标记和线类型
    - 9.1.3 刻度、标签和图例
    - - 9.1.3.1 设置标题、轴标签、刻度和刻度标签
      - 9.1.3.2 添加图例
    - 9.1.4 注释与子图加工
    - 9.1.5 将图片保存到文件
    - 9.1.6 matplotlib设置
  - 9.2 使用pandas和seaborn绘图
  - - 9.2.1 折线图
    - 9.2.2 柱状图
    - 9.2.3 直方图和密度图
    - 9.2.4 散点图或点图
    - 9.2.5 分面网格和分类数据

7.数据清洗与准备

7.1 处理缺失值

对于数值型数据，pandas使用浮点值NaN（Not a Number表示缺失值）

python内建的None值在对象数组中也被当作NA处理：

以下为处理缺失值的相关函数：

7.1.1 过滤缺失值

在Series上使用dropna，它会返回Series中所有的非空数据及其索引值：

当处理DataFrame对象时，dropna默认情况下会删除包含缺失值的行：

传入how='all’时，将删除所有值均为NA的行：

若要用同样的方式去删除列，传入参数axis=1:

若只想保留包含一定数量的观察值的行，可以用thresh参数表示：

7.1.2 补全缺失值

可使用fillna方法补全缺失值。调用fillna时，可使用一个常数来替代缺失值：

在调用fillna时使用字典，可为不同列设定不同的缺失值：

fillna返回的是一个新的对象，但也可以修改已经存在的对象：

用于重建索引的相同的插值方法也可用于fillna:

可将Series的平均值或中位数用于填充缺失值：

下列为fillna函数的参数：

7.2 数据转换

7.2.1 删除重复值

DataFrame的duplicated方法返回的是一个布尔值Series，该Series反映的是每一行是否存在重复（与之前出现过的行相同）情况：

drop_duplicates返回的是DataFrame，内容是duplicated返回数组中为False的部分：

这些方法默认都是对列进行操作，可以指定数据的任何子集来检测是否有重复。假设有一个额外的列，并想基于’k1’列去除重复值：

duplicated和drop_duplicates默认都是保留第一个观测到的值。传入参数keep='last’将会返回最后一个：

7.2.2 使用函数或映射进行数据转换

若要添加一列用于表明每种食物的动物肉类型。先写下一个食物和肉类的映射：

Series的map方法接收一个函数或一个包含映射关系的字典型对象。先使用Series的str.lower方法将每个值都转换为小写：

也可以传入一个能够完成所有工作的函数：

7.2.3 替代值

若要使用NA替代-999，可以使用replace方法生成新的Series（除非传入了inplace=True）:

若想要一次替代多个值，可以传入一个列表和替代值：

要将不同的值替换为不同的值，可以传入替代值的列表：

参数也可以通过字典传递：

7.2.4 重命名轴索引

和Series中的值一样，可通过函数或某种形式的映射对轴标签进行类似的转换，生成新的且带有不同标签的对象。也可以在不生成新的数据结构的情况下修改轴：

若想要创建数据集转换后的版本，并且不修改原有的数据集，可使用rename:

rename可结合字典型对象使用，为轴标签的子集提供新的值：

若需修改原有的数据集，传入inplace=True:

7.2.5 离散化和分箱

若需将这些年龄分为18~25、26 ~35、36 ~60以及61及以上等若干组。可使用pandas中的cut:

pandas返回的对象是一个Categorical对象。你看到的输出描述了由pandas.cut计算出的箱。可以将它当作一个表示箱名的字符串数组；它在内部包含一个categories数组，它指定了不同的类别名称以及codes属性中的ages（年龄）数据标签：

pd.value_counts(cats)是对pandas.cut的结果中的箱数量的计数
可以通过传递right=False改变哪一边是闭区间：

可通过向labels选项传递一个列表或数组来传入自定义的箱名：

若传给cut整数个的箱来代替显式的箱边，pandas将根据数据中的最小值和最大值计算出等长的箱：（precision=2的选项将10进制精度限制在两位）

qcut基于样本分位数进行分箱。取决于数据的分布，使用cut通常不会使每个箱具有相同数据量的数据点。由于qcut使用样本的分位数，可以通过qcut获得等长的箱：

可以传入自定义的分位数：

7.2.6 检测和过滤异常值

若要找出一列中绝对值大于3的值：

要选出所有值大于3或小于-3的行，可以对布尔值DataFrame使用any方法：

值可以根据这些标准来设置，下列代码限制了-3到3之间的数值：（np.sign(data)根据数据中的值的正负分别生成1和-1的数值）

7.2.7 置换和随机抽样

使用numpy.random.permutation可对DataFrame中的Series或行进行置换（随机重排序）。在调用permutation时根据想要的轴长度可产生一个表示新顺序的整数数组：

整数数组可以用在基于iloc的索引或等价的take函数中：

要选出一个不含有替代值的随机子集，可使用Series和DataFrame的sample方法：

要生成一个带有替代值的样本（允许有重复选择），将replace=True传入sample方法：

7.2.8 计算指标/虚拟变量

若DataFrame中的一列有k个不同的值，则可以衍生出一个k列的值为1和0的矩阵或DataFrame。pandas中的get_dummies可完成该功能

若想在指标DataFrame的列上加入前缀，然后与其他数据合并。在get_dummies方法中有一个前缀参数可实现该功能：

DataFrame中的一行属于多个类别的情况：

首先，从数据集中提取出所有不同流派的列表：

使用全0的DataFrame是构建指标DataFrame的一种方式：

现在，遍历每一部电影，将dummies每一行的条目设置为1.使用dummies.columns来计算每一个流派的列指标：

之后，使用.loc根据这些指标设置值：

之后，可以将结果与movies进行联合：

将get_dummies与cut等离散化函数结合使用：

7.3 字符串操作

7.3.1 字符串对象方法

一个逗号分隔的字符串可以使用split方法拆分成多块：

split常和strip一起使用，用于清除空格（包括换行）：

在字符串’::'的join方法中传入一个列表或元组可以使子字符串连接在一起：

使用python的in关键字可检测子字符串，index和find也能实现同样的功能：

count返回的是某个特定的子字符串在字符串中出现的次数：

replace用一种模式替代另一种模式，它通常也用于传入空字符串来删除某个模式：

下列为一些python字符串方法：

7.3.2 正则表达式

正则表达式提供了一种在文本中灵活查找或匹配（通常更为复杂的）字符串模式的方法。单个表达式通常被称为regex,是根据正则表达式语言形成的字符串。Python内建的re模块是用于将正则表达式应用到字符串上的库
re模块主要有三个主题：模式匹配、替代、拆分。一个正则表达式描述了在文本中需要定位的一种模式，可以用于多种目标。
假设我们想将含有多种空白字符（制表符、空格、换行符）的字符串拆分开。描述一个或多个空白字符的正则表达式是\s+:

当调用re.split（’\s+’，text），正则表达式首先会被编译，然后正则表达式的split方法在传入文本上被调用。可以使用re.compile自行编译，形成一个可复用的正则表达式对象：

若想获得一个所有匹配正则表达式的模式的列表，可以使用findall方法：

match和search与findall相关性很大。findall返回的是字符串中所有的匹配项，而search返回的仅仅是第一个匹配项。match更为严格，它只在字符串的起始位置进行匹配。

在文本上使用findall会生成一个电子邮件地址的列表：

search返回的是文本中第一个匹配到的电子邮件地址。对于前面的正则表达式，匹配对象只能告诉我们模式在字符串中起始和结束的位置：

regex.match只在模式出现于字符串起始位置时进行匹配，若没有匹配到，返回None:

sub会返回一个新的字符串，原字符串中的模式会被一个新的字符串替代：

若想查找电子邮件地址，并把每个地址分为3个部分：用户名、域名和域名后缀，可以用括号将模式包起来：

由这个修改后的正则表达式产生的匹配对象的groups方法，返回的是模式组件的元组：

当模式可以分组时，findall返回的是包含元组的列表：

sub也可以使用特殊符号，如\1和\2，访问每个匹配对象中的分组。符号\1代表的是第一个匹配分组，\2代表的是第二个匹配分组，以此类推：

下列为正则表达式方法：

7.3.3 pandas中的向量化字符串函数

可以使用data.map将字符串和有效的正则表达式方法（以lambda或其他函数的方式传递）应用到每个值上，但是在NA（null）值上会失败。为解决该问题，Series有面向数组的方法用于跳过NA值的字符串操作。这些方法通过Series的str属性进行调用，例如，可以通过str.contains来检查每个电子邮件地址是否含有’gmail’:

正则表达式可结合任意的re模块选项使用，例如IGNORECASE:

有多种方法可以进行向量化的元素检索，可使用str.get或在str属性内部索引：

要访问嵌入式列表中的元素，可以将索引传递给这些函数中的任意一个：

可以使用字符串切片的类似语法进行向量化切片：

下列为pandas中部分向量化字符串方法：

8. 数据规整：连接、联合与重塑

8.1 分层索引

pandas的分层索引允许在一个轴向上拥有多个（两个或两个以上）索引层级。分层索引提供了一种在更低维度的形式中处理更高维度数据的方式
以一个简单的例子开始，先创建一个Series，以列表的列表（或数组）作为索引：

通过分层索引对象，也可称为部分索引，允许选出数据的子集：

在“内部”层级中进行选择也是可以的：

分层索引可在重塑数据和数组透视表等分组操作中发挥作用。如，可以使用unstack方法将数据在DataFrame中重新排列：

unstack的反操作是stack:

在DataFrame中，每个轴都可以有分层索引：

分层的层级可以有名称（可以是字符串或Python对象）。若层级有名称，这些名称会在控制台输出中显示：

通过部分列索引，可选出列中的组：

一个MultiIndex对象可以使用其自身的构造函数创建并复用：

8.1.1 重排序和层级排序

swaplevel接收两个层级序号或层级名称，返回一个进行了层级变更的新对象（但是数据不变）：

sort_index只能在单一层级上对数据进行排序。在进行层级变换时，使用sort_index可使得结果按照层级进行字典排序：

8.1.2 按层级进行汇总统计

DataFrame和Series中很多描述性和汇总性统计有一个level选项，通过level选项可以指定想要在某个特定的轴上进行聚合。

8.1.3 使用DataFrame的列进行索引

DataFrame的set_index函数会生成一个新的DataFrame，新的DataFrame使用一个或多个列作为索引：

默认情况下，这些列会从DataFrame中移除，也可以将它们留在DataFrame中：

reset_index是set_index的反操作，分层索引的索引层级会被移动到列中：

8.2 联合与合并数据集

包含在pandas对象的数据可以通过多种方式联合在一起：

pandas.merge根据一个或多个键将行进行连接。类似于数据库中的连接操作
pandas.concat使对象在轴向上进行黏合或“堆叠”
combine_first实例方法允许将重叠的数据拼接在一起，以使用一个对象中的值填充另一个对象中的缺失值

8.2.1 数据库风格的DataFrame连接

合并或连接操作通过一个或多个键连接行来联合数据集。pandas中的merge函数主要用于将各种join操作算法运用在你的数据上：

上例中没有指定在哪一列上进行连接。若连接的键的信息没有指定，merge会自动将重叠列名作为连接的键。可显式地指定连接键：

若每个对象的列名是不同的，可以分别为它们指定列名：

默认情况下，merge做的是内连接，结果中的键是两张表的交集。其他可选的选项有’left’、‘right’、‘outer’。外连接是键的并集，联合了左连接和右连接的效果：

how参数的不同连接类型如下：

使用多个键进行合并时，传入一个列名的列表：

merge有一个suffixes后缀选项，用于在左右两边DataFrame对象的重叠列名后指定需要添加的字符串：

merge函数的参数如下：

8.2.2 根据索引合并

在某些情况下，DataFrame中用于合并的键是它的索引。在这种情况下，可以传递left_index=True或right_index=True（或者都传）来表示索引需要用来作为合并的键：

在多层索引数据的情况下，在索引上连接是一个隐式的多键合并：

这种情况下，必须以列表的方式指明合并所需多个列（注意使用how='outer’处理重复的索引值）：

可使用两边的索引进行合并：

DataFrame中的join方法可用于按照索引合并。该方法也可以用于合并多个索引相同或相似但没有重叠列的DataFrame对象：

对于一些简单索引-索引合并，可以向join方法传入一个DataFrame列表，这个方法可以替代concat函数：

8.2.3 沿轴向连接

另一种数据组合操作可称为拼接。Numpy的concatenate函数可以在NumPy数组上实现该功能：

假设我们有三个索引不存在重叠的Series:

用列表中的这些对象调用concat方法会将值和索引粘在一起：

默认情况下，concat方法是沿着axis=0的轴向生效的，生成另一个Series。若传递axis=1，返回的结果是一个DataFrame:

在上述例子中另一个轴向上没有重叠，可以看到排序后的索引合集（外连接）。也可以传入join=‘inner’:

可以用join_axes来指定用于连接其他轴向的轴：

假设想在连接轴向上创建一个多层索引，可以使用keys参数实现：

沿着轴向axis=1连接Series的时候，keys则成为DataFrame的列头：

将相同的逻辑拓展到DataFrame对象：

若传递的是对象的字典而不是列表的话，则字典的键会用于keys选项：

还有一些额外的参数负责多层索引生成。例如，可以使用names参数命名生成的轴层级：

考虑行索引中不包含任何相关数据的DataFrame:

传入ignore_index=True:

concat函数的参数如下：

8.2.4 联合重叠数据

可能有两个数据集，这两个数据集的索引全部或部分重叠。作为一个示例，考虑Numpy的where函数，这个函数可以进行面向数组的if-else等价操作：

Series有一个combine_first方法：

在DataFrame中，combine_first逐列做相同的操作，可以认为它是根据传入的对象来“修补”调用对象的缺失值：

8.3 重塑和透视

8.3.1 使用多层索引进行重塑

多层索引在DataFrame中提供了一种一致性方式用于重排列数据。以下是两个基础操作：
stack（堆叠）：
该操作会“旋转”或将列中的数据透视到行
unstack（拆堆）：
该操作会将行中的数据透视到列
考虑一个带有字符串数组作为行和列索引的DataFrame:

在这份数据上使用stack方法会将列透视到行，产生一个新的Series：

从一个多层索引序列中，可以使用unstack方法将数据重排列后放入一个DataFrame中：

默认情况下，最内层是已拆堆的（与stack方法一样）。可以传入一个层级序号或名称来拆分一个不同的层级：

若层级中的所有值并未包含于每个子分组中时，拆分可能会引入缺失值：

默认情况下，堆叠会过滤出缺失值，因此堆叠拆堆的操作是可逆的：

当在DataFrame中拆堆时，被拆堆的层级会变为结果中最低的层级：

在调用stack方法时，可以指明需要堆叠的轴向名称：

8.3.2 将“长”透视为“宽”

可能想获取一个按date列时间戳索引的且每个不同的item独立一列的DataFrame，DataFrame的pivot方法可进行这种转换：

传递的前两个值是分别用作行和列索引的列，然后是可选的数值列以填充DataFrame。假设有两个数值列，想同时进行重塑：

若遗漏最后一参数，会得到一个含有多层列的DataFrame:

pivot方法等价于使用set_index创建分层索引，然后调用unstack:

8.3.3 将“宽”透视为“长”

在DataFrame中，pivot方法的反操作是pandas.melt。与将一列变换为新的DataFrame中的多列不同，它将多列合并成一列，产生一个新的DataFrame，其长度比输入更长。

key列可以作为分组指标，其他列均为数据值。当使用pandas.melt时，必须指明哪些列是分组指标。此处，使用’key’作为唯一的分组指标：

使用pivot方法，可以将数据重塑回原先的布局：

由于pivot的结果根据作为行标签的列生成了索引，可以使用reset_index来将数据回移一列：

也可以指定列的子集作为值列：

pandas.melt的使用也可以无须任何分组指标：

9.绘图与可视化

在jupyter notebook中使用交互式绘图，在进行设置时，需执行：

9.1 简明matplotlib API入门

9.1.1 图片与子图

matplotlib所绘制的图位于图片（Figure）对象中。可以使用plt.figure生成一个新的图片：

plt.figure有一些选项，如figsize是确保图片有一个确定的大小以及存储到硬盘时的长宽比
可使用add_subplot创建一个或多个子图（subplot）:

当输入绘图命令plt.plot([1.5,3.5,-2,1.6])，matplotlib会在最后一个图片和子图（如果需要的话就创建一个）上进行绘制，从而隐藏图片和子图的创建。

'k–'是用于绘制黑色分段线的style选项。fig.add_subplot返回的对象是AxesSubplot对象，使用这些对象可以直接在其他空白的子图上调用对象的实例方法进行绘图：

matplotlib中的方法plt.subplots将创建一个新的图片，然后返回包含了已生成子图对象的Numpy数组：

数组axes可以像二维数组那样方便地进行索引，如，axes[0,1]。也可以通过使用sharex和sharey来表明子图分别拥有相同的x轴或y轴。
pyplot.subplots的选项如下：

9.1.1.1 调整子图周围的间距

默认情况下，matplotlib会在子图的外部和子图之间留出一定的间距。这个间距都是相对于图的高度和宽度来指定的，所以如果通过编程或手动使用GUI窗口来调整图的大小，那么图就会自动调整。可以使用图对象上的subplots_adjust方法更改间距，也可用作顶层函数：

9.1.2 颜色、标记和线类型

matplotlib的主函数plot接收带有x和y轴的数组以及一些可选的字符串缩写参数来指明颜色和线类型。例如，要用绿色破折号绘制x对y的线，需执行：

同样的图表可以使用更为显式的方式来表达：

折线图可以有标记用于凸显实际的数据点。由于matplotlib创建了一个连续性折线图，插入点之间有时并不清楚点在哪。标记可以是样式字符串的一部分，样式字符串中线类型、标记类型必须跟在颜色后面：

上述代码可以显式表示为：

对于折线图，注意到后续的点默认是线性内插的。可通过drawstyle选项进行更改：

这里，由于向plot传递了label，可以使用plt.legend为每条线生成一个用于区分的图例

9.1.3 刻度、标签和图例

pyplot接口设计为交互式使用，包含了像xlim、xticks、xticklabels等方法。这些方法分别控制了绘图范围、刻度位置以及刻度标签。我们可以在两种方式中使用：

在没有函数参数的情况下调用，返回当前的参数值（例如plt.xlim()返回当前的x轴绘图范围）
传入参数的情况下调用，并设置参数值（例如plt.xlim([0,10])会将x轴的范围设置为0到10）

所有的这些方法都会在当前活动的或最近创建的AxesSubplot生效。这些方法中的每一个对应于子图自身的两个方法。如xlim对应于ax.get_lim和ax.set_lim。

9.1.3.1 设置标题、轴标签、刻度和刻度标签

可使用set_xticks和set_xticklabels改变x轴刻度。set_xticks表示在数据范围内设定刻度的位置，set_xticklabels为标签赋值：

轴的类型有一个set方法，允许批量设置绘图属性：

9.1.3.2 添加图例

9.1.4 注释与子图加工

可以使用text、arrow和annote方法来添加注释和文本。text在图表上给定的坐标（x,y）,根据可选的定制样式绘制文本：

注释可以同时绘制文本和箭头


ax.annotate方法可以在指定的x和y坐标上绘制标签。可以使用set_xlim和set_ylim方法手动设置图表的边界
matplotlib含有表示多种常见图形的对象，这些对象的引用是patches。一些图形，如Rectangle和Circle，可以在matplotlib.pyplot中找到，但图形的全集位于matplotlib.patches
想在图表中添加图形时，需要生成patch对象shp，并调用ax.add_patch(shp)将它加入到子图中：

9.1.5 将图片保存到文件

可以使用plt.savefig将活动图片保存到文件。这个方法等价于图片对象的savefig实例方法。例如将图片保存为SVG：

savefig的选项如下：

9.1.6 matplotlib设置

可使用rc方法修改配置。例如，要将全局默认数字大小设置为10X10，可以输入：

rc的第一个参数是想要自定义的组件，比如’figure’、‘axes’、‘xtick’、‘ytick’、‘grid’、'legend’等。之后，可以按照关键字参数的序列指定新参数。字典是一种在程序中设置选项的简单方式：

9.2 使用pandas和seaborn绘图

9.2.1 折线图

Series和DataFrame都有一个plot属性，用于绘制基本的图形。默认情况下，plot()绘制的是折线图：

Series对象的索引传入matplotlib作为绘图的x轴，可以通过传入use_index=False来禁用这个功能。x轴的刻度和范围可以通过xticks和xlim选项进行调整。plot的选项如下：

DataFrame的plot方法在同一个子图中将每一列绘制为不同的折线，并自动生成图例：

DataFrame有多个选项，允许灵活地处理列。例如，是否将各列绘制在同一个子图中，或为各列生成独立的子图。DataFrame的plot参数如下：

9.2.2 柱状图

plot.bar()和plot.barh()可以分别绘制垂直和水平的柱状图。在绘制柱状图时，Series或DataFrame的索引将会被用作x轴刻度（bar）或y轴刻度（barh）

选项color='k’和alpha=0.7将柱子的颜色设置为黑色，并将图像的填充色设置为部分透明
在DataFrame中，柱状图将每一行中的值分组到并排的柱子中的一组：

可以通过传递stacked=True来生成堆积柱状图，会使得每一行的值堆积在一起：

使用value_counts:s.value_counts().plot.bar()可以对Series值频率进行可视化
假设想要绘制一个堆积柱状图，用于展示每个派对在每天的数据点占比：

之后，进行标准化以确保每一行的值和为1，然后进行绘图：

对于在绘图前需要聚合或汇总的数据，使用seaborn包会使工作更简单。用seaborn进行按星期日期计算小费百分比：

seaborn中的绘图函数使用一个data参数，这个参数可以是pandas的DataFrame。其他的参数则与列名有关。因为day列中有多个观测值，柱子的值是tip_pct的平均值。柱子上画出的黑线代表的是95%的置信区间（置信区间可以通过可选参数进行设置）
seaborn.barplot有一个hue选项，允许我们通过一个额外的分类值将数据分离：

9.2.3 直方图和密度图

可以使用Series的plot.hist方法制作小费占总费用百分比的直方图：

密度图是一种与直方图相关的图表类型，它通过计算可能产生观测数据的连续概率分布估计而产生。通常的做法是将这种分布近似为“内核”的混合，也就是像正态分布那样简单的分布。因此，密度图也被称为内核密度估计图（KDE）。plot.kde使用传统法定混合法估计绘制密度图：

distplot方法可以绘制直方图和连续密度估计，通过distplot方法seaborn使直方图和密度图的绘制更为简单。考虑由两个不同的标准正态分布组成的双峰分布：

9.2.4 散点图或点图

seaborn的regplot方法可以绘制散点图，并拟合出一条线性回归线：

在探索性数据分析中，能够查看一组变量中的所有散点图是有帮助的，这被称为成对图或散点图矩阵。seaborn的pairplot函数支持在对角线上放置每个变量的直方图或密度估计值：

9.2.5 分面网格和分类数据

使用分面网格是利用多种分组变量对数据进行可视化的方式。seaborn拥有一个有效的内建函数factorplot，它可以简化多种分面绘图：

除了根据’time’在一个面内将不同的柱分组为不同的颜色，还可以通过每个时间值添加一行来扩展分面网格：

factorplot支持其他图类型，如箱型图（显示中位值、四分位数和异常值）：

零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Linux下安装Mysql环境软件分享工作室 Linux linux mysql 运维
1.mysql说明MySQL是一种开源的关系型数据库管理系统，它具有高性能、可靠性和灵活性的特点。MySQL支持多种操作系统，包括Windows、Linux和MacOS等。它是最流行的数据库管理系统之一，被广泛应用于网站开发、数据存储和数据分析等领域。2.mysql优点1.开源免费：MySQL是开源软件，可以免费使用和修改，没有任何使用限制。2.跨平台：MySQL可以在多种操作系统上运行，包括Wi
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

利用Python进行数据分析（Ⅲ）

利用Python进行数据分析（Ⅲ）

目录

7.数据清洗与准备

7.1 处理缺失值

7.1.1 过滤缺失值

7.1.2 补全缺失值

7.2 数据转换

7.2.1 删除重复值

7.2.2 使用函数或映射进行数据转换

7.2.3 替代值

7.2.4 重命名轴索引

7.2.5 离散化和分箱

7.2.6 检测和过滤异常值

7.2.7 置换和随机抽样

7.2.8 计算指标/虚拟变量

7.3 字符串操作

7.3.1 字符串对象方法

7.3.2 正则表达式

7.3.3 pandas中的向量化字符串函数

8. 数据规整：连接、联合与重塑

8.1 分层索引

8.1.1 重排序和层级排序

8.1.2 按层级进行汇总统计

8.1.3 使用DataFrame的列进行索引

8.2 联合与合并数据集

8.2.1 数据库风格的DataFrame连接

8.2.2 根据索引合并

8.2.3 沿轴向连接

8.2.4 联合重叠数据

8.3 重塑和透视

8.3.1 使用多层索引进行重塑

8.3.2 将“长”透视为“宽”

8.3.3 将“宽”透视为“长”

9.绘图与可视化

9.1 简明matplotlib API入门

9.1.1 图片与子图

9.1.1.1 调整子图周围的间距

9.1.2 颜色、标记和线类型

9.1.3 刻度、标签和图例

9.1.3.1 设置标题、轴标签、刻度和刻度标签

9.1.3.2 添加图例

9.1.4 注释与子图加工

9.1.5 将图片保存到文件

9.1.6 matplotlib设置

9.2 使用pandas和seaborn绘图

9.2.1 折线图

9.2.2 柱状图

9.2.3 直方图和密度图

9.2.4 散点图或点图

9.2.5 分面网格和分类数据

你可能感兴趣的:(机器学习,python,数据分析)