码农a皮

数据挖掘基础学习笔记

文章目录

- 一、数据挖掘基础
- - 1.1、数据挖掘基础环境安装
  - 1.2、Jupyter Notebook
  - - 1.2.1、介绍
    - 1.2.2、快速使用
- 二、Matplotlib画图
- - 2.1、Matplotlib简介
  - 2.2、Matplotlib三层结构
  - 2.3、折线图
  - - 2.3.1、折线图绘制与保存图片
    - 2.3.2、完善原始折线图1（辅助显示层）
    - 2.3.3、完善原始折线图2（图像层）
    - 2.3.4、多个坐标系显示-plt.subplots(面向对象的画图方法)
    - 2.3.5、折线图的应用场景
  - 2.4、散点图
  - - 2.4.1、常见图形虫类及意义
    - 2.4.2、散点图绘制
  - 2.5、柱状图
  - - 2.5.1、柱状图绘制
  - 2.6、直方图
  - - 2.6.1、直方图介绍
    - 2.6.2、直方图绘制
    - 2.6.3、直方图的应用场景
  - 2.7、饼图
  - - 2.7.1、饼图绘制
  - 2.8、小结
- 三、Numpy
- - 3.1、Numpy介绍
  - - 3.1.1、Numpy是什么
    - 3.1.2、ndarray介绍
    - 3.1.3、ndarray属性
    - 3.1.4、基本操作
    - 3.1.5、ndarray运算
    - 3.1.6、其他
- 四、Pandas
- - 4.1、基础处理
  - - 4.1.1、Pandas简介
    - - 4.1.1.1、什么是Pandas
      - 4.1.1.2、问什么使用Pandas
    - 4.1.2、核心数据结构
    - 4.1.3、基本操作
    - - 4.1.3.1、索引操作
      - 4.1.3.2、赋值操作
      - 4.1.3.3、排序
    - 4.1.4、运算
    - 4.1.5、画图
    - 4.1.6、文件的读取与存储
    - - 4.1.6.1、CSV
      - 4.1.6.2、HDF5
      - 4.1.6.3、JSON
  - 4.2、高级处理
  - - 4.2.1、缺失值处理
    - - 4.2.1.1、如何处理缺失值
    - 4.2.2、数据离散化
    - - 4.2.2.1、什么是数据的离散化
      - 4.2.2.2、为什么要离散化
      - 4.2.2.3、如何实现数据的离散化
    - 4.2.3、合并
    - 4.2.4、交叉表与透视表
    - 4.2.5、分组与聚合
    - 4.2.6、综合案例

一、数据挖掘基础

1.1、数据挖掘基础环境安装

虚拟环境创建

# 使用conda创建新的虚拟环境

导入包

# requirements.txt
matplotlib==2.2.2
numpy==1.14.2
pandas==0.20.3
TA-Lib==0.4.16 # 技术指标库
tables==3.4.2 # hdf5
jupyter==1.0.0 # 数据分析与展示的平台
# 执行命令 pip install -r requirements.txt
# pip list 查看已安装列表
# TA-Lib安装报错，https://www.lfd.uci.edu/~gohlke/pythonlibs/#ta-lib 下载

1.2、Jupyter Notebook

1.2.1、介绍

一个支持跨所有编程语言的交互式数据科学计算工具
- web版的ipython
- 编程、写文档、记笔记、展示
- .ipynb文件格式
- 交互式运行环境
为什么使用Jupyter Notebook
- 画图方面的优势
- 数据展示方面的优势

1.2.2、快速使用

启动Jupyter Notebook

# 在终端输入 jupyter notebook 或者ipython notebook

创建文件

主页页面右上角News-Python3
运行代码快捷键

Shift+Enter
Cell
- cell是指一对In Out会话被视作一个代码单元
两种模式
- 编辑模式
  - enter
  - 鼠标点击输入框
- 命令模式
  - 编辑模式下ESC
  - 鼠标点击单元格之外
常用快捷键
- Shift+Enter 执行本单元代码，并跳转到下一单元
- Ctrl+Enter 执行本单元代码，留在本单元
- 命令模式下
  - A：在当前cell的上面添加cell
  - B：在当前cell的下面添加cell
  - 双击D：删除当前cell
- 编辑模式下
  - 回退、重做、不全、注释与其他编译器类似
  - 多光标操作：Ctrl + 点击鼠标
- cell行号前*，代表当前代码正在运行

二、Matplotlib画图

2.1、Matplotlib简介

什么是Matplotlib
- Matplotlib专门用来开发2D图表（包括3D图表）
- 使用起来及其简单
- 以渐进、交互式方式实现数据可视化
- matploltlib ：画二维图表的python库
  - mat - matrix 矩阵
  - plot 画图
  - lib 库
- matlab 矩阵实验室
  - mat -matrix
  - lab 实验室
为什么要学习Matplotlib
- 数据可视化
  - 可视化是在整个数据挖掘的关键辅助工具，可以清晰的理解数据，从而调整我们的分析方法
    - 能将数据进行可视化，更直观的呈现
    - 是数据更客观、更具说服力
- 更炫酷的可视化
  - D3
    - https://d3js.org/
  - 百度 echarts

Matplotlib快速上手

import matplotlib.pylab as plt
%matplotlib inline
plt.figure() # 画布
plt.plot([1,0,9], [4,5,6]) #([x1,x2,x3],[y1,y2,y3])
plt.show() # 展示

2.2、Matplotlib三层结构

容器层
- 画板层(Canvas)
- 画布(Figure)：plt.figure()
- 绘图区（坐标系）：plt.subplots()
辅助显示层
图像层

2.3、折线图

2.3.1、折线图绘制与保存图片

matplotlib.pyplot模块
```
import matplotlib.pylab as plt
```

折线图的绘制与显示

# 展示上海一周的天气
# 创建画布
plt.figure()
# 绘制图像
plt.plot([1,2,3,4,5,6,7],[17,17,18,15,11,11,12])
# 显示图像
plt.show()

设置画布属性

plt.figure(figsize(), dpi=) 
# figsize:指定图的长宽
# dpi：图像的清晰度
# 返回fig对象
# 例：plt.figure(figsize=(20,8),dpi=80)

图片保存

# plt.savefig("test.png")
# 保存图片需要在show()之前

2.3.2、完善原始折线图1（辅助显示层）

准备初始折线图

# 需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度
# 准备数据 x,y
import random
x = range(60)
y_sh = [random.uniform(15,18) for i in x]
plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y_sh)
plt.show()

添加自定义刻度

plt.xticks(x, **kwargs)
plt.yticks(y, **kwargs)
# x，y: 要显示的刻度值
# 例如
# 修改x轴刻度值
x_label = ["11点{}分".format(i) for i in x]
plt.xticks(x[::5], x_label[::5])
# 修改y轴刻度值
plt.yticks(range(0,40,5))

添加网格显示

# 添加网格显示
plt.grid(True, linestyle="--", alpha=0.5)
# grid(是否添加网格，linestyle风格 -- 虚线，透明度)

添加描述信息

# 添加描述信息
plt.xlabel("时间变化")
plt.ylabel("温度变化")
plt.title("某城市温度变化情况图")

中文不显示问题

原因：matplotlib不包含中文字体

解决：

安装字体
删除mapplotlib缓存文件

配置文件

查看配置文件路径

import matplotlib
matplotlib.matplotlib_fname()

# 配置文件增加内容
font.family   :  Microsoft YaHei, sans-serif
font.serif: Microsoft YaHei, DejaVu Serif, Bitstream Vera Serif, Computer Modern Roman, New Century Schoolbook, Century Schoolbook L, Utopia, ITC Bookman, Bookman, Nimbus Roman No9 L, Times New Roman, Times, Palatino, Charter, serif

# C:\Windows\Fonts\Microsoft YaHei UI下的字体 复制到
# matplotlib根目录\mpl-data\fonts\ttf

2.3.3、完善原始折线图2（图像层）

多个plot

# 添加一个城市的温度变化
# y轴数据
y_bj = [random.uniform(1,3) for i in x]
# 添加图像
plt.plot(x, y_bj)

修改图像

# color 颜色
# linestyle 风格
plt.plot(x, y_bj, color = "b", linestyle="--")

颜色字符	风格字符
r 红色	- 实线
g 绿色	– 虚线
b 蓝色	-. 点划线
w 白色	: 点虚线
c 青色	’ ’ 留空、空格
m 洋红
y 黄色
k 黑色

图例

plt.plot(x, y_bj, color = "b", linestyle="--", label = "北京")
# 显示图例
plt.legend()

2.3.4、多个坐标系显示-plt.subplots(面向对象的画图方法)

subplots函数

figure, axes = plt.subplots(nrows=1,ncols=2,**fig_kw)
axes[0] # 第一个
axes[1] # 第二个

# 需求：画出某城市11点到12点1小时内每分钟的温度变化折线图，温度范围在15度~18度
# 准备数据 x,y
import random

x = range(60)
y_sh = [random.uniform(15,18) for i in x]
y_bj = [random.uniform(1,3) for i in x]

# 画布
# plt.figure(figsize=(20,8),dpi=80)
figure, axes = plt.subplots(nrows=1,ncols=2,figsize=(20, 8), dpi=80)

axes[0].plot(x,y_sh, label="上海")
axes[1].plot(x, y_bj, color = "b", linestyle="--", label = "北京")

# 修改x轴刻度值
x_label = ["11点{}分".format(i) for i in x]
axes[0].set_xticks(x[::5], x_label[::5])
# 修改y轴刻度值
axes[0].set_yticks(range(0,40,5))

axes[1].set_xticks(x[::5], x_label[::5])
axes[1].set_yticks(range(0,40,5))

# 添加网格显示
axes[0].grid(True, linestyle="--", alpha=0.5)
axes[1].grid(True, linestyle="--", alpha=0.5)

# 添加描述信息
axes[0].set_xlabel("时间变化")
axes[0].set_ylabel("温度变化")
axes[0].set_title("上海温度变化情况图")

axes[1].set_xlabel("时间变化")
axes[1].set_ylabel("温度变化")
axes[1].set_title("北京温度变化情况图")

# 显示图例
plt.legend()

plt.show()

2.3.5、折线图的应用场景

呈现公司产品(不同区域)每天活跃用户数
呈现app每天下载量
呈现产品新功能上线后，用户点击次数随着时间的变化

拓展：画各种数学函数图像

import matplotlib.pylab as plt
import numpy as np
# 准备x,y数据
x = np.linspace(-10,10,1000) # 生成-1到1之间等距离的1000个数据
y = np.sin(x)
plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)
plt.grid(linestyle='--')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CvxvxlQg-1661236390017)(.\image\sin函数曲线.png)]

2.4、散点图

2.4.1、常见图形虫类及意义

折线图(plot)
- 以折线的上升或下降来表示统计数量的增减变化的统计图
- 特点：能够显示数据的变化趋势，反应事物的变化情况（变化）
散点图(scatter)
- 用两组数据构成多个坐标点，考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式
- 特点：判断变量之间是否存在数量的关联趋势，展示离群点（分布规律）
柱状图(bar)
- 排列在工作表的列或行中的数据可以绘制到柱状图中
- 特点：绘制连离散的数据，能够一眼看出各个数据的大小，比较数据之间的差别（统计/对比）
直方图(histogram)：
- 由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据范围，纵轴表示分布情况
- 特点：绘制连续性的数据展示一组或者多组数据的分布情况（统计）
饼图(pie)：
- 用于表示不同分类的占比情况
- 特点：分类数据的占比情况

2.4.2、散点图绘制

# 探究房屋面积和房屋价格的关系
x = [1,2,3,4,5,6]
y = [7,8,9,10,11,12]

# 创建画布
plt.figure(figsize=(20,8),dpi=80)

# 绘制图像
plt.scatter(x,y)

# 显示图像
plt.show()

2.5、柱状图

2.5.1、柱状图绘制

# 对比电影票房收入
# 准备数据
movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案']
tickets = [11111,22222,33333]

# 创建画布
plt.figure(figsize=(20,8),dpi=80)

# 绘制柱状图
plt.bar(movie_name, tickets,width=0.1)

# 显示图像
plt.show()

# 对比相同时间电影票房收入
movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案']
first_day = [11111,22222,33333]
first_weekend = [22222,33333,44444]

# 创建画布
plt.figure(figsize=(20,8),dpi=80)

# 绘制柱状图
plt.bar(range(3), first_day,width=0.2,label='首日票房')
plt.bar([0.2,1.2,2.2], first_weekend,width=0.2,label='首周票房')

plt.legend()

plt.xticks([0.1,1.1,2.1],movie_name)
# 显示图像
plt.show()

2.6、直方图

2.6.1、直方图介绍

直方图，形状类似柱状图却有着与柱状图完全不同的涵义。直方图牵涉统计学的按年，首先要对数据进行分组，然后统计每个分组内数据元的数量。在坐标系中，横轴标出每个组的端点，纵轴表示频数，每个矩形的高代表对应的频数，称这样的统计图为频数分布直方图。
相关概念
- 组数：在统计数据时，我们把数据按照不同的范围分成几个组，分成的组的个数成为组数
- 组距：每一组两个端点的差
直方图与柱状图对比
- 直方图展示数据的分布，柱状图比较数据的大小
- 直方图X轴为定量数据，柱状图X轴为分类数据
- 直方图柱子无间隔，柱状图柱子有间隔
- 直方图柱子宽度可不一致，柱状图宽度需一致

2.6.2、直方图绘制

# 准备数据
time = [131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]

plt.figure(figsize=(20,8),dpi=80)

# 组距
distance = 2
# 组数
group_num = int((max(time) - min(time)) / distance)
# 绘制直方图
plt.hist(time, bins=group_num,density=True)
# 刻度
plt.xticks(range(min(time),max(time) + 2,2))
# 网格
plt.grid(linestyle="--", alpha=0.5)

plt.show()

注意组距
注意Y轴所代表的变量可以是频次也可以是频率，通过density=True参数控制

2.6.3、直方图的应用场景

用于表示分布的情况
通过直方图还可以观察和估计哪些数据比较继承，异常或者孤立的数据分布在何处

2.7、饼图

2.7.1、饼图绘制

# 准备数据
movie_name = ['雷神3：诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']

place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]

plt.figure(figsize=(20,8),dpi=80)

plt.pie(place_count,labels=movie_name,colors=['b','r','g','y','c','m','y','k','c','g','y'], autopct="%1.2f%%")

plt.show()

2.8、小结

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IX3X2HkK-1661236390019)(.\image\image-20220822135930303.png)]

三、Numpy

3.1、Numpy介绍

3.1.1、Numpy是什么

Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。是一个高效的运算工具
- Numpy：数值计算库
  - num：numerical 数值化的
  - py ：python
- Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用python要简介的多
- Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器
  - ndarray
    - n :任意个
    - d：dimension 维度
    - array 数组

3.1.2、ndarray介绍

NumPy提供了一个N维数组类型ndarray，它描述了相同类型的”items“的集合
为什么使用ndarray存储数据
- 相对于python原生计算，ndarray运算效率大大提高
ndarray的优势
- 存储风格
  - ndarray ：相同类型
  - list：不同类型通用性较强
- 并行化运算
  - ndarray支持并行化运算(向量化运算)
- 底层语言
  - 底层使用C语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受Python解释器的限制，效率远高于Python代码

3.1.3、ndarray属性

ndarray属性

属性名称	属性解释	示例
ndarray.shape	数组维度的元组	(8, 5) 表示二维数组，8行5列
ndarray.ndim	数组维度
ndarray.size	数组中的元素数量
ndarray.itemsize	一个数组元素的长度
ndarray.dtype	数组元素的类型

ndarray的形状
ndarray的类型
- 创建ndarray时可通过dtype=np.float32参数指定类型

3.1.4、基本操作

ndarray.方法()

numpy.函数名()

生成数组的方法
1. 生成0和1
```
# 生成0和1的数组
np.zeros(shape=(3,4))
np.ones(shape=(2,3),dtype=np.int32)
```
2. 从现有数组中生成
```
# 深拷贝
data1 = np.array(score)
data3 = np.copy(score)

# 浅拷贝
data2 = np.asarray(score)
```
3. 生成固定范围的数组
```
# 生成[-10,10]等距离的数组
np.linspace(-10,10,1000)
# 生成[a,b)范围c步长的数组
np.arange(a,b,c)
```
4. 生成随机数组
  - 均匀分布
    - 均匀分布(Uniform Distribution) 是概率统计中的重要分布之一。均匀表示可能性相等的含义
```
# np.random.uniform(low,high,size)
x = np.random.uniform(-1,1,size=100000)
```
  - 正态分布
    - 正态分布是一种概率分布。正态分布是具有两个参数μ和σ的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值。第二个参数σ是此随机变量的标准差，所以正态分布记作N(μ,σ)
    - 正态分布的特点
      - μ决定了其位置，标准差σ决定了分布的幅度。当μ=0，σ=1时的正态分布是标准正态分布
      - σ 幅度、稳定性、波动程度、集中程度、离散程度
```
# np.random.normal(loc=μ,scale=σ,size)
x2 = np.random.normal(loc=1.75,scale=0.1,size=10000)
```

数组的索引、切片

案例：随机生成8只股票2周的加以日涨幅数据

# 案例：随机生成8只股票2周的加以日涨幅数据
stock_change = np.random.normal(loc=0,scale=1,size=(8,10))
# 前三日数据
# 切片
stock_change[0,:3]
a1[1,0,2]

形状修改

# ndarray.reshape(shape) 修改形状，数据排列未改变，不修改原始数据,返回新的ndarray
stock_change.reshape(10,8)
# ndarray.resize(shape)  修改形状，数据排列未改变，原始数据改变
stock_change.resize((10,8))
# ndarray.T 转置  行变列、列边行

类型修改

ndarray.astype(type)
```
stock_change.astype(np.int32)
```
ndarray.tobytes()
```
# 序列化
ndarray.tobytes()
```

数组的去重

temp = np.array([[1, 2, 3, 4],[3, 4, 5, 6]]
np.unique(temp)
# 或者 flatten() 转一维数组
set(temp.flatten())

3.1.5、ndarray运算

逻辑运算

stock_change = np.random.normal(loc=0,scale=1,size=(8,10))
# 逻辑判断，如果涨跌幅>0.5就标记为True，否则为False
stock_change > 0.5

布尔索引

# 布尔值条件索引，操作统一条件的数据
stock_change[stock_change > 0.5]
# 条件修改
stock_change[stock_change > 0.5] = 1.1

通用判断函数
- np.all(布尔值)
  - 只要有一个False就返回False，只有全是True才返回True
```
np.all(stock_change[0:2,0:5] > 0)
```
- np.any()
  - 只要有一个True就返回True，全是False才返回False
```
np.any(stock_change[:5,:] > 0)
```

三元运算符

np.where(布尔值，True的位置的值，False的位置的值)

# 前四个股票前四天的涨跌幅，大于0的置为1，否则为0
temp = stock_change[:4,:4]
np.where(temp > 0,1,0)

复合逻辑运算符

np.logical_and()

np.logical_or()

np.logical_and(temp > 0.5, temp < 1)
np.logical_or(temp > 1, temp < 0.5)

统计运算
- 统计指标函数(np.函数名())
  - axis=0 按列最大值，axis=1 按行最大值
  - 最小值 min
```
np.max(temp,axis=0)
```
  - 最大值 max
  - 平均值 mean
  - 标准差 std
  - 方差 var
  - 中间值 median
- 返回最大值、最小值所在位置
  - np.argmax(temp,axis=)
  - np.argmin(temp,axis=)
数组间运算
- 数组与数的运算
```
arr = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
# 直接运算即可
arr + 1
arr / 10
```
- 数组与数组的运算
- 广播机制
  - 执行broadcast的前提在于，两个ndarray执行的是element-wise的运算，Broadcast机制的功能是为了方便不同形状的ndarray进行数学运算
  - 当操作两个数组时，numpy会逐个比较他们的shape，只有符合下面条件之一，才能进行运算
    - 维度相等（相同维度的元素个数相等）
    - shape（其中相对应的一个地方为1）
- 矩阵运算
  - 什么是矩阵
    - 矩阵是二维数组
    - 二维数组不一定是矩阵
  - 两种方法存储矩阵
    - ndarray二维数组
    - matrix数据结构
  - 矩阵乘法运算
    - 形状
      - (m行,n列) * (n行,l列) = (m行,l列)
    - 运算规则
      - 矩阵1 行 * 矩阵2 列相加
    - 运算方法
      - ndarray
        
        np.matmul(mat1,mat2)
        
        np.dot(mat1,mat2)
      - mat
        
        mat1 * mat2
```
# ndarray存储矩阵
data = np.array([[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]])
# matrix存储矩阵
data_mat = np.mat([[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]])
weights = np.array([[0.3],[0.7]])
weights_mat = np.mat([[0.3],[0.7]])

np.matmul(data,weights)
np.dot(data,weights)
data @ weights

data_mat * weights_mat
```

3.1.6、其他

合并
- numpy.hstack(tup) 水平拼接
- numpy.vstack(tup) 垂直拼接
```
a = np.array([1,2,3])
b = np.array([2,3,4])
np.hstack((a,b))
np.vstack((a,b))
```
- np.concatenate((a,b), axis=0) axis = 0 垂直拼接，axis = 1 水平拼接
分割
- np.split(x, [1,3])
IO操作
- np.genfromtxt(“test.csv”,delimiter=“,”)
数据处理
- 如何处理缺失值
  - 两种思路
    - 直接删除含有缺失值的样本
    - 替换/插补
      - 求行或列的平均值或者中间值，替换缺失值
  - 使用pandas处理数据更简单

四、Pandas

4.1、基础处理

4.1.1、Pandas简介

4.1.1.1、什么是Pandas

pandas = panel + data + analysis
- panel 面板数据 -计量经济学三维数据
- data数据
- analysis 分析
以Numpy为基础，接力Numpy模块在计算方面的优势

4.1.1.2、问什么使用Pandas

便捷的数据处理能力
读取文件方便
封装了matplotlib、Numpy进行画图和计算

4.1.2、核心数据结构

DataFrame

既有行索引又有列索引的二维数组

import pandas as pd
# 基本
pd.DataFrame(stock_change)
# 添加行、列索引
stock = ['股票{}'.format(i) for i in range(10)]
date = pd.date_range(start='20220101',periods=5,freq='B')
pd.DataFrame(stock_change,index=stock,columns=date)

属性
- shape ：形状
- index：行索引
- columus：列索引
- values ：ndarray
- T 转置
方法
- head() : 前几行
- tail()：后几行

DataFrame索引的设置

修改行列索引值

只能整体修改

stock_ = ["股票_{}".format(i) for i in range(10)]
data.index = stock_

重设索引

# 不删除原索引
data.reset_index()
# 删除原索引
data.reset_index(drop=True)

设置新索引

df.set_index("month")
df.set_index("month",drop=False)
# 列表设置多个索引
new_df = df.set_index(["year","month"])
# new_df.index 类型是MultiIndex

MultiIndex
- 属性
  - names
  - levels

Panel
- 存储三维结构的容器
- 已经废弃

Series

带索引的一维数组

创建

pd.Series(np.arange(10))
pd.Series(np.arange(3),index=['a','b','c'])

属性
- index
- values

小结
- DataFrom 是series的容器

4.1.3、基本操作

4.1.3.1、索引操作

直接索引

# 直接索引
data = pd.read_csv("./stock_day.csv")
data["open"]["2018-02-27"] # 先列后行

按名字索引

data.loc["2018-02-27"]["open"]
data.loc["2018-02-27","open"]

按数字索引
```
data.iloc[1,0]
```

组合索引

data.ix[] 已经废弃

# 通过数字获取名字索引，再通过名字索引方法获取
data.loc[data.index[i],['open','name']]
# 通过名字获取索引数字，再用数字索引方法
data.iloc[0,data.columns.get_indexer(['open'，'name'])]

4.1.3.2、赋值操作

data['open'] = 100

4.1.3.3、排序

内容排序(dataframe)

# 按某字段排序
data.sort_values(by='high',ascending=False)
# 按多个字段排序
data.sort_values(by=['high','p_change'],ascending=False

索引排序（dataframe）
```
data.sort_index()
```
Series排序
```
data.sort_values()
data.sort_index()
```

4.1.4、运算

算数运算
- 算数运算符
  - +、-、*、/ ...
- 算数运算函数
  - add()
  - sub()

逻辑运算

逻辑运算符

# > < | &
data[data['open'] > 2] # 布尔索引值

data[(data['open'] > 2) & (data['low'] > 15)]

逻辑运算函数

query() 条件查询函数
```
data.query("open > 2 & low > 15")
```

isin() 是否包含

data[data['turnover'].isin([4.19,2.39])]

统计运算
- min
- max
- mean 平均值
- median
- var
- std
- describe()
- axis=1 按行，默认axis=0 按列
- idmax() 最大值索引
- idmin() 最小值索引
- 累计统计函数
  - cumsum 计算前1/2/3/4…/n个数的和
    - ```
    data['p_change'].cumsum()
    # 画图
    data['p_change'].sort_index().cumsum().plot()
```
- cummax 计算前1/2/3/4…/n个数的最大值
  - data['p_change'].cummax()
- cummin 计算前1/2/3/4…/n个数的最小值
- cumprod 计算前1/2/3/4…/n个数的积
自定义运算
- apply（func, axis=0）
  - func:自定义函数
  - axis:0 默认按列，axis=1 按行
  - ```
  data.apply(lambda x: x.max() - x.min())
```

4.1.5、画图

pandas.Data.Frame.plot
- DataFram.plot(x=None,y=None,kind=‘line’)
  - x:
  - y:
  - kind: str
    - line 折线图
    - bar 柱状图
    - barh
    - hist 直方图
    - pie 饼图
    - scatter 散点图

4.1.6、文件的读取与存储

4.1.6.1、CSV

读取csv文件-pd.read_csv()

usecols=[] 选择读取的列

name=[] 指定数据列名称

pd.read_csv('stock_day2.csv',names=["open", "high", "close", "low", "volume", "price_change", "p_change", "ma5", "ma10", "ma20", "v_ma5", "v_ma10", "v_ma20", "turnover"])

存储csv文件-DataFrame.to_csv()

参数

columns=[], 保存列

data[:10].to_csv('test.csv',columns=['open'])

index=False 不保存行索引

data[:10].to_csv('test.csv',columns=['open'],index=False)

mode=“a” 写入模式， a 追加

data[:10].to_csv('test.csv',columns=['open'],index=False,mode='a')

header=False 不保存列索引

data[:10].to_csv('test.csv',columns=['open'],index=False,mode='a',header=False)

4.1.6.2、HDF5

二进制文件
存储三维数据
- key1 ：df1
- key2：df2
读取hdf5文件
- pandas.read_hdf(path_or_buf, key = None, **kwargs)
  - path_or_buf 文件路径
  - key：读取的键
  - mode：打开模式
  - return
保存hdf5文件
- df.to_hdf(path, key=)
HDF5的优势
- 支持压缩，使用的方式是blosc，这个是速度最快也是pandas默认支持的
- 使用压缩可以提高磁盘利用率，节省空间
- 跨平台，可以轻松迁移到hadoop上

4.1.6.3、JSON

读取
- pd.read_json(path,orient=‘records’,lines=True)
  - orient=‘records’
  - lines 按行读取
- ```
sa = pd.read_json('./Sarcasm_Headlines_Dataset.json',orient='records',lines=True)
```
存储
- df.to_json(path,orient=‘records’,lines=True)

4.2、高级处理

4.2.1、缺失值处理

4.2.1.1、如何处理缺失值

思路
- 删除含有缺失值的样本
- 替换、插补

如何处理nan

判断数据中是否存在NaN

pd.isnull(df)

# 判断是否存在缺失值
np.any(pd.isnull(movie)) # 返回True，说明数据存在缺失值
pd.isnull(movie).any()

pd.notnull(df)

np.all(pd.notnull(movie)) # 返回False，说明数据存在缺失值
pd.isnull(movie).any()

删除缺失值样本
- df.dropna(inplace=False)
  - 默认按行删除
  - inplace
    - True 会修改原始数据
    - False 不修改原始数据生成新的对象
```
# 缺失值处理
# 删除
data1 = movie.dropna()
```

替换/插补

df.fillna(value, inplace=False)

# 替换
# Revenue (Millions)     True
# Metascore              True
movie['Revenue (Millions)'].fillna(movie['Revenue (Millions)'].mean(),inplace=True)
movie['Metascore'].fillna(movie['Metascore'].mean(),inplace=True)

缺失值不是nan，有默认标记的情况
- 替换 ? -> np.nan
  - df.replace(to_replace=‘?’,value=np.nan)

4.2.2、数据离散化

4.2.2.1、什么是数据的离散化

连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或者整数值代表落在每个子区间中的属性值

4.2.2.2、为什么要离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具

4.2.2.3、如何实现数据的离散化

分组

自动分组 sr = pd.qcut(data, bins)

data 数据
bins 组数

# 准备数据
data = pd.Series([165,174,160,180,159,163,192,184], index=['No1:165', 'No2:174','No3:160', 'No4:180', 'No5:159', 'No6:163', 'No7:192', 'No8:184']) 
sr = pd.qcut(data,3)
pd.get_dummies(sr, prefix='height')

自定义分组 sr = pd.cut(data, [])

[] 分组区间列表

bins = [150,165,180,195]
sr2 = pd.cut(data,bins)
pd.get_dummies(sr2,"身高")

sr.value_counts()
- 统计各组数据个数

将分组好的结果转换成one-hot编码
- pd.get_dummies(sr, prefix=)
  - prefix 前缀

4.2.3、合并

按方向拼接
- pd.concat([data1,data2],axis=0) 0:数值拼接，1 水平拼接

按索引拼接

pd.merge(left, right, how=‘inner’, on[索引])

# 内连接
pd.merge(left, right, on=['key1','key2']) # 默认how = 'inner'
# 左连接
pd.merge(left, right, on=['key1','key2'],how='left')
# 右连接
pd.merge(left, right, on=['key1','key2'],how='right')
# 外连接
pd.merge(left, right, on=['key1','key2'],how='outer')

4.2.4、交叉表与透视表

作用
- 探究两个变量之间的关系

使用crosstab(交叉表)实现

pd.crosstab(value1,value2)

data = pd.crosstab(stock['weekday'],stock['pona'])
data.div(data.sum(axis=1),axis=0).plot(kind='bar',stacked=True)

使用pivot_table(透视表)实现

pivot_table(data, index=)

# 透视表
stock.pivot_table(['pona'],index=['weekday'])

4.2.5、分组与聚合

什么是分组与聚合

分组API

DataFrame

DataFrame.groupby(by=key, as_index=False)

col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})

col.groupby(by='color')['price1'].max()

Series

Series.groupby()

col['price1'].groupby(col['color']).max()

#星巴克数据读取
sbs = pd.read_csv('directory.csv')
# 按国家分组
sbs.groupby(by='Country').count()['Brand'].sort_values(ascending=False)[:10].plot(kind='bar',figsize=(20,8))
# 按国家、城市分组
sbs.groupby(by=['Country','City']).count()

4.2.6、综合案例

# 需求：
# 准备数据

你可能感兴趣的:(python,数据挖掘,学习,python)

聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
学习笔记56-(已解决)pip指令下载超时Read timed out错误李卓璐报错整理 pip
(已解决)pip指令下载超时Readtimedout错误下了一上午卡到自闭然后查了很多帖子，最后更换国内安装源和设置超时时间可以解决。在pip3installXXX命令的后面加上–default-timeout=100-ihttps://pypi.tuna.tsinghua.edu.cn/simple
JAVA API (三)：从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略钮祜禄.爱因斯晨 JAVA学习笔记 java 爬虫开发语言
个人主页-爱因斯晨文章专栏-Java学习相关文章：API(一)相关文章：API（二）持续努力中，感谢支持一、爬虫基础（一）爬虫的基本概念定义：爬虫是按照一定规则自动抓取网络信息的程序，在Java环境下，可借助URL、HttpURLConnection等API来实现。应用场景：广泛应用于数据采集，如电商平台的价格监控、各类新闻的聚合；还可用于信息分析，如舆情监测等。（二）Java实现简单爬虫的步骤建
解决pip指令超时问题好学近乎知o pip python
用pip指令，在安装Django3.2时报错，询问ChatGpt后得到的解决方案pip下载超时——是当前网络连接到PyPI官方源太慢或不稳定，甚至可能连不上了，而pip默认的超时时间又太短，就导致了中途失败：ReadTimeoutError:HTTPSConnectionPool(host='files.pythonhosted.org',port=443):Readtimedout.解决方案：换
返利软件哪个返利最高返利app哪个佣金高日常购物技巧呀
在网购盛行的今天，优惠才是吸引用户的真道理，在这么多的返利软件中，哪个最好用呢？现在淘宝返利软件实在是太多了，让人眼花缭乱，那么选择一款有实力、返利高的平台，是当下淘宝用户急切需要的。今天给大家推荐一个返利平台叫：高省。下面是我大号坚持做了6个多月的日收入，月入3万指日可待，只要你是一个爱学习的人，有坚持信心，也可以像我一样！有兴趣的朋友注册后，可以在高省后台联系我，我们全程免费带，不收任何费用，
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
mysql 清理磁盘空间汐猫 mysql 数据库
数据库相关学习资料：https://edu.51cto.com/video/655.htmlMySQL清理磁盘空间：代码示例与流程指南MySQL是一种广泛使用的开源关系数据库管理系统，它在处理大量数据时可能会占用大量的磁盘空间。随着时间的推移，数据库可能会积累许多不再需要的数据，导致磁盘空间不足。本文将介绍如何清理MySQL数据库中的磁盘空间，包括代码示例和流程图。清理磁盘空间的原因性能提升：清理
Python通关秘籍（五）数据结构——元组 Smile丶Life丶 Python 通关指南：从零基础到高手之路 Python python 数据结构 android
前文复习五、数据结构5.1列表（List）列表是一种有序的可变数据集合，可以包含不同类型的元素。5.2元组（Tuple）元组是一种有序的不可变数据集合，通常用于存储一组相关的值。5.2.1元组的定义与创建
闲鱼监控助手实战项目：用 Python 实现闲鱼监控+自动秒拍
项目背景：为什么要做这个闲鱼助手？在闲鱼上抢东西，永远拼不过“秒拍党”。游戏机低价挂出，几秒没了优酷年卡、流量卡一上架立刻被拍想转卖赚差价，总是慢一步于是我写了一个Python闲鱼助手，实现自动闲鱼监控+秒拍下单，帮助我快速捡漏、低买高卖。核心功能一览（关键词自然带入）功能模块说明️‍♀️闲鱼监控实时监控指定关键词商品，自动刷新，发现即处理⚡闲鱼秒拍自动拍下匹配条件商品，支持延迟策略更隐蔽钉钉推送
211104 一日三省（平常心面对一切）康永盛
211104一日三省1）今天要感恩的人与事：乒乓之后小冻感，早上换手机，小区会议，下午忙派资料，兼备出游而停乒乓，晚上派资料，感恩俞总惦记送礼。2）今天做的还好及欠妥的地方：依旧是用眼过度了，为了公事而误接娃，大忌也。3）今天学习或强化的学识、思维与灵感：平常心面对一切。
2020-03-28 f43d9010c5b7
美国社会与美国政治家美国各届道德水平高，确实值得我们学习，所以不少人把子女送到美国，可以有个好的发展。但细究一下，为什么呀，是美的政治家给美国打下了好基础，几百年来不管是用什么手段，总之，美国富了。富了文化，教育才孕育了美国精神，有了丰富的物质。才使世界各国羡慕，富了，才文明，但美国政治家是用了情境功利的手段使美国富裕的，他们还会用这段手段保持他们的富裕，我们不能只看到他国内好的面，更要警惕美国政
vscode创建Python虚拟环境无法激活问题处理
系统环境win7环境，Python3.7，VScode1.70.3问题报错：PSC:\Users\Administrator\PycharmProjects\websites>.\venv\Scripts\activate无法加载文件C:\Users\Administrator\PycharmProjects\websites\venv\Scripts\Activate.ps1，因为在此系统中禁止
学习研读党章，汲取精神力量 498f3f8612e0
党章是党的最高行为准则，集中表达了党的理论基础和政治主张，是全每一位党员都必须严格遵守的基本准则，是党员不断加强自身党性修养的根本标准，学习认识党章的重要性，深刻学习贯彻党的章程，把学习贯彻党章作为学习贯彻党的二十大精神的重要内容，是增强党员干部队伍凝聚力、战斗力的重要法宝。党员是党组织的一份子，是党的事业发展的核心力量，深刻学习贯彻党章、认真领悟党章的要求和内涵，是对每一位党员的基本要求。一、积
python+requests+pytest qiumiaomi 接口 python python pytest 开发语言
|-----api|-----------------init.py|-----------------api_np.py||-----scripts------------------init.py|------------------test01_mp.py|||-----pytest.iniapiinit.py##公共变量#1.请求域名host="127.0.0.1”#2.请求信息头head
Python 线程优先队列 PriorityQueue - Python零基础入门教程猿说编程
目录一.Python线程队列Queue分类二.Python线程优先队列PriorityQueue简介三.Python线程优先队列PriorityQueue函数介绍四.Python线程优先队列PriorityQueue使用五.猜你喜欢零基础Python学习路线推荐:Python学习目录>>Python基础入门在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进
勇毅前行奋力开创组织工作新局面看着太阳打喷嚏
党的二十大举旗定向、继往开来、指路领航，是一次具有开创性、里程碑、划时代意义的大会。贯彻落实党的二十大精神，必须持之以恒推进全面从严治党，深入推进新时代党的建设新的伟大工程，努力为践行新时代中国特色社会主义新篇章提供坚强组织保证。习近平总书记强调，“拥有马克思主义科学理论指导是我们党坚定信仰信念、把握历史主动的根本所在”。在今后的工作中，组织部门要把学习宣传贯彻党的二十大精神作为当前和今后的重大政
2020北京大学西班牙语语言文学考研详情介绍、必看经验指导 xxxedu666
学习方式全日制招生人数2019拟招4人研究方向00.不区分研究方向考试科目①101思想政治理论②201英语一③620综合考试④844西班牙语语言文学复试线18年：总分330政治英语50/专业课9017年：总分330政治英语50/专业课9016年：总分340政治英语50/专业课902018录取闵逸菲初试分数386.5
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
C++编程学习（第13天）武当豆豆带类的C c++学习开发语言
选择结构选择结构一般用if语句表示。if语句是用来判定所给定的条件是否满足，根据判定的结果是真或假来决定执行给出的两种操作之一。if语句的形式if语句的一般形式为：if（表达式）语句1[else语句2]其中方括号一项内容是可选的，可以有，也可以没有。语句1和语句2可以是简单的语句，也可以是复合语句，也可以是一个内嵌的if语句。if语句一般可派生出三种形式1、if（表达式）语句if(x>y)cout
2021-05-29 中和筝行
中原焦点团队初级班第26期张春花分享第117天2021年5月29日今天忙了一天，到现在还没洗完衣服，明天还要到学校去上课，下个星期一定要把课题的申报部分整理出来。从期中到月考，我忙的几乎没有照看孩子的学习情况，不知道这次月考孩子会考得怎么样？希望后天的考试，孩子考出水平。
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
从0开始学习R语言--Day52--weibull Chef_Chen 学习
在分析带有状态变化特征的数据时（如医疗数据的结局特征，手机电池的寿命等等），我们需要分析得不只是什么时候什么时候出发结局，还要分析特征的稳定性，比如电池的续航在初期不稳定，预测里可能两个月就会坏，但用了一个月后手机稳定下来，预测可能就变成用一年都不会坏。weibull分布能帮我们捕捉这种特征，从而能够做后续的处理（比如维修计划，对病人的结局分析作进一步拆解）。以下是一个例子：#加载必要的包libr
从0开始学习R语言--Day53--AFT模型 Chef_Chen 学习
在分析医疗数据时，尽管用cox回归可以分析一切因素对风险的影响，但是有时候因素的影响是非常直接的，比如对于癌症患者的生存风险，治疗手段（如化疗），会直接让肿瘤的生长速度减半，也就相当于延长了患者的生存时间，这个时候如果还要去用cox回归去分析单位时间内风险的概率，就有点本末倒置了，直接用AFT模型分析对生存时间的影响就能得到结果，毕竟在这个背景下，我们用析的最终目的是为了得知因素的效果。以下是一个
最新Java学习路线总结，搬砖工逆袭Java架构师 2401_84266286 程序员 java 学习开发语言
|一文读懂JVM类加载机制过程及原理||跟同事杠上了，ApacheBeanutils为什么被禁止使用？||Java中常见的编码集问题||为什么人们宁可用Lombok，也不把成员设为public？|2、java集合【Java集合1】Java集合基础知识总结（绝对经典）【Java集合2】List遍历删除元素remove()")【Java集合3】List＜T＞和List＜?＞的区别【Java集合4】Ja
【Python练习】056. 编写一个函数，实现简单的CSV文件解析器视睿从零开始学习机器人 python 前端服务器
056.编写一个函数，实现简单的CSV文件解析器056.编写一个函数，实现简单的CSV文件解析器示例代码示例CSV文件内容示例运行代码说明扩展功能支持自定义分隔符的示例注意事项实现CSV文件解析的方法使用标准库csv模块解析使用pandas库解析手动实现基础解析器处理复杂CSV格式性能优化建议056.编写一个函数，实现简单的CSV文件解析器以下是一个简单的Python函数，用于解析CSV文件。这个
android ROOM kotlin官方文档完全学习
androidROOMkotlin官方文档完全学习2.6使用Room将数据保存到本地数据库|AndroidDevelopers(google.cn)一、简介1.1引入dependencies{defroom_version="2.6.1"implementation"androidx.room:room-runtime:$room_version"//如下三选一annotationProcesso
【Python练习】031. 解释python中的深拷贝和浅拷贝
031.解释python中的深拷贝和浅拷贝031.解释python中的深拷贝和浅拷贝1.浅拷贝（ShallowCopy）浅拷贝的实现方式示例代码2.深拷贝（DeepCopy）深拷贝的实现方式示例代码区别总结适用场景注意事项浅拷贝的应用深拷贝的应用不同数据类型的拷贝行为自定义对象的拷贝控制性能与适用场景031.解释python中的深拷贝和浅拷贝在Python中，深拷贝（DeepCopy）和浅拷贝（S
一周学委分享稿(二) 5239林中漫步
各位亲爱的老铁：大家晚上好！我是林中漫步，非常高兴能在这里为大家分享正面管教的基本理念和育儿工具。上一次，我重点分享了什么是和善而坚定，以及如何做到和善而坚定、了解孩子错误行为背后的动机和错误是学习的好机会，今天，我将具体为大家分享一些建立情感链接和与孩子一起解决问题的工具。首先，我先给大家讲一个我在做育儿咨询时遇到的一个案例。一位妈妈看自己上了初中的女儿，依然贪玩。不爱学习，就非常地着急，明里暗
Ajax与axios wwwwdn ajax okhttp 前端 javascript
本文是学习了网上的Ajax的课程总结，并加上了一些自己的总结。AjaxAjax（AsynchronousJavascriptAndXML），即是异步的JavaScript和XML，Ajax其实就是浏览器与服务器之间的一种异步通信方式。XMLHttpRequest（XHR）XMLHttpRequest（XHR）对象用于与服务器交互。通过XMLHttpRequest可以在不刷新页面的情况下请求特定UR
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul