仿生程序员会梦见电子羊吗

【数据挖掘与商务智能决策】第一、二章数据分析与三重工具

前言

本人CSDN博客为“仿生程序员会梦见电子羊吗”，本文基于markdown本文书写，平台及软件为CSDN与Typora，文中图片存储地址为CSDN，故部分图片可能带有“CSDN@仿生程序员会梦见电子羊吗”的水印，属于本人原创，用于“数据挖掘与商务智能决策”的平时作业及大作业部分。

本篇内容为第一、二章内容，数据分析与Numpy、 pandas、 Matplotlib的应用。
为便于阅读，我将文章内容分为以下几个板块：

基础知识
实验内容
拓展研究
心得体会

其中，各板块的介绍如下：

基础知识
- 包含关于本章主题的个人学习理解，总结的知识点以及值得记录的代码及运行结果。
实验内容
- 这是本篇的主题实验部分，也是老师发的实验内容，在电脑上（jupyter notebook）运行成功之后导出为markdown格式。
- 其中，主标题为每一章的小节内容
- 如上图，主标题为PCA主成分分析与代码实现，次级标题为该文件内的子模块。每一个主标题下内容互不相同，也就是说，会出现两个主标题下均有相同python库引用的情况，为保证代码的完整性，在此予以保留。
- 为表明确实是完成了课堂作业，故代码与老师给的代码大致相同，但markdown文本部分加入了自己的理解，同时，因为数据源不一定相同，运行结果和绘图也与教程相异，但实验本身是正确完整的。
- 此外，一些老师发的相关的案（不在课程中心的实验，而是发到课程群中的案例，如 案例航空公司客户价值分析）也会附在这一部分中。
拓展研究
- 这个部分是自己在本课题实验之外尝试的拓展内容，包括代码和知识点，也有自己的实验
心得体会

基础知识

相对路径
文件相对路径，即代码所在的文件夹，例如上面案例中写的
data.to_excel(‘data.xlsx’)就是在代码所在的文件夹生成Excel文件。
绝对路径
文件绝对路径，就是文件完整的路径名称，例如’E:\大数据分析\data.xlsx’就是
绝对路径，不过因为在Python中反斜杠“\”经常有特殊含义，比如说“\n”
表示换行，所以通常建议写绝对路径的时候写两个反斜杠取消可能存在的单个
反斜杠的特殊含义，写成’E:\大数据分析\data.xlsx’。
除了用两个反斜杠来取消一个反斜杠的特殊意义外，还可以在文件路径的字符
串前面加一个r，也可以取消单个反斜杠的特殊含义。

实验内容

numpy基础

numpy与数组

import numpy as np   # 用np代替numpy,让代码更简洁
a = [1, 2, 3, 4]     # 创建列表a
b = np.array([1, 2, 3, 4]) #从列表ach
print(a)
print(b)
print(type(a)) #打印a类型
print(type(b)) #打印b类型

[1, 2, 3, 4]
[1 2 3 4]

# 接下来通过列表索引和数组索引来访问列表和数组中的元素，代码如下：
print(a[1]) 
print(b[1])
print(a[0:2]) 
print(b[0:2])

2
2
[1, 2]
[1 2]

从上面结果可以看到列表和数组有着相同的索引机制，唯一的区别好像就是数组里面是通过空格分隔元素，而列表用的是逗号。

Numpy数组与列表的区别

从上面的分析得知Numpy数组和列表很类似，那么为什么Python又要创建一个Numpy库呢？其原因很多，这里主要讲两点：

1.数组可以比较方便的进行一些数学运算，而列表则比较麻烦；

2.数组可以支持多维的数据，而列表通常只能储存一维的数据。

c = a * 2
d = b * 2
print(c)
print(d)

[1, 2, 3, 4, 1, 2, 3, 4]
[2 4 6 8]

e = [[1,2], [3,4], [5,6]] # 列表里的元素为小列表
f = np.array([[1,2], [3,4], [5,6]]) # 创建二维数组的一种方式
print(e)
print(f)

[[1, 2], [3, 4], [5, 6]]
[[1 2]
[3 4]
[5 6]]

可以看到列表虽然包含着三个小列表，但其还是一个一维的结构，而创建的二维数组则是一个三行两列的二维结构内容，这个也是之后学习pandas库的核心内容了，因为数据数据处理中经常用到二维数组，也即二维表格结构。

# 创建一维数组
b = np.array([1, 2, 3, 4])
# 创建二维数组
f = np.array([[1,2], [3,4], [5,6]])

print(b)
print(f)

[1 2 3 4]
[[1 2]
[3 4]
[5 6]]

除此之外，还有一些常见的创建数组的方式，这里以一维数组为例，我们还可以采用np.arange()函数来产生一维数组，其中括号里可以选择1个或2个或3个参数，代码如下：

# 一个参数 参数值为终点，起点取默认值0，步长取默认值1
x = np.arange(5)
# 两个参数 第一个参数为起点，第二个参数为终点，步长取默认值1，左闭右开
y = np.arange(5,10)
# 三个参数 第一个参数为起点，第二个参数为终点，第三个参数为步长，左闭右开
z = np.arange(5, 10, 0.5)
print(x)
print(y)
print(z)

[0 1 2 3 4]
[5 6 7 8 9]
[5. 5.5 6. 6.5 7. 7.5 8. 8.5 9. 9.5]
我们还可以通过np.random模块来创建随机一维数组，比如可以通过np.random.randn(3)来创建一个服从正太分布（均值为0，方差为1的分布）的3个随机数一维数组，代码如下：

a = np.random.randn(3)
print(a)  # 因为随机，所以每次运行的结果都会不太一样

[ 0.39911225 -0.94948119 0.84185058]

如果把np.random.randn(3)换成np.random.rand(3)，那生成的就是0-1之间的3个随机数，这个在之后2.3.1小节演示绘制散点图的时候会用到。

至于二维数组的创建与学习，可以利用一维数组中的np.arange()函数和reshape方法产生一个二维数组，比如将0到11个数转换成3行4列的二维数组，代码如下：

a = np.arange(12).reshape(3,4)
print(a)

[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]

这里再简单提一种随机二维数组的创建，代码如下。其中np.random.randint()函数用来创建随机整数，括号里第一个元素0表示起始数，第二个元素10表示终止数，第三个元素(4, 4)则表示生成一个4行4列的二维数组

a = np.random.randint(0, 10, (4, 4))
print(a)

[[4 9 8 4]
[1 7 6 0]
[6 6 1 1]
[9 6 7 3]]

pandas基础

引言

相较于Numpy来说，Pandas更善于处理二维数据。Pandas主要有两种数据结构：Series和DataFrame。Series类似于通过Numpy产生的一维数组，不同的是Series对象不仅包含数值，还包含一组索引，其创建方式如下：

import pandas as pd
s1 = pd.Series(['丁一', '王二', '张三'])
print(s1)

0    丁一
1    王二
2    张三
dtype: object

# 它也是一个一维数据结构，并且对于每个元素都有一个行索引可以用来定位，比如可以通过s1[1]来定位到第二个元素“王二”。
print(s1[1])

王二

Series单独使用相对较少，pandas主要采用DataFrame数据结构。DataFrame是一种二维表格数据结构，直观一点的话可以将其看作一个Excel表格。

二维数据表格DataFrame的创建

有三种DataFrame常见的创建方法：通过列表创建、通过字典创建及通过二维数组创建。

1. 通过列表创建DataFrame

import pandas as pd
a = pd.DataFrame([[1, 2], [3, 4], [5, 6]])
a  # 在Jupyter Nobebook中，代码框中最后一行代码可以只输入变量名称，即可自动打印，而无需通过print()函数

	0	1
0	1	2
1	3	4
2	5	6

可以看到通过pandas的DataFrame功能生成的二维数组更像我们在Excel中看到二维表格数据，它也有行索引和列索引，其中这里的索引序号都是从0开始的。

# 我们还可以自定义其列索引和行索引名称，代码如下：
a = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['date', 'score'], index=['A', 'B', 'C'])

# 通过列表生成DataFrame还可以采用如下的方式，演示代码如下：
a = pd.DataFrame()  # 创建一个空DataFrame 
date = [1, 3, 5]
score = [2, 4, 6]
a['date'] = date
a['score'] = score
a

	date	score
0	1	2
1	3	4
2	5	6

2. 通过字典创建DataFrame

# 通过Pandas创建二维数组 - 字典法
b = pd.DataFrame({'a': [1, 3, 5], 'b': [2, 4, 6]}, index=['x', 'y', 'z'])
b  # 在Jupyter Notebook编辑器中可以直接输入b进行查看

	a	b
x	1	2
y	3	4
z	5	6

# 如果想让字典键变成行索引，可以通过from_dict的方式来将字典转换成DataFrame，并同时设置orient参数为index，代码如下：
c = pd.DataFrame.from_dict({'a': [1, 3, 5], 'b': [2, 4, 6]}, orient="index")
c
print(c)  # 也可以直接输入c进行查看变量结果

   0  1  2
a  1  3  5
b  2  4  6

其中orient参数指定字典键对应的方向，默认值为columns，如果不设置成index的话，则还是默认字典键为列索引

补充知识点：通过.T来对表格进行转置

b = pd.DataFrame({'a': [1, 3, 5], 'b': [2, 4, 6]})
print(b)
print(b.T)

3. 通过二维数组创建

import numpy as np
np.arange(12).reshape(3,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

# 通过Numpy产生的二维数组，也可以创建DataFrame，这里以2.1.3小节里提到的二维数组为例生成一个3行4列的DataFrame，代码如下：
import numpy as np
d = pd.DataFrame(np.arange(12).reshape(3,4), index=[1, 2, 3], columns=['A', 'B', 'C', 'D'])
d

	A	B	C	D
1	0	1	2	3
2	4	5	6	7
3	8	9	10	11

补充知识点：修改行索引或列索引名称

a = pd.DataFrame([[1, 2], [3, 4]], columns=['date', 'score'], index=['A', 'B'])
a

	date	score
A	1	2
B	3	4

# 如果想对索引进行重命名的话，rename()函数的使用方法如下：
a = a.rename(index={'A':'阿里', 'B':'腾讯'}, columns={'date':'日期','score':'分数'})
a

	日期	分数
阿里	1	2
腾讯	3	4

补充知识点：这里通过rename之后并没有改变原表格结构，需要重新赋值给a才能改变原表格;或者在rename()中设置inplace参数为True，也能实现真正替换，代码如下：

a = pd.DataFrame([[1, 2], [3, 4]], columns=['date', 'score'], index=['A', 'B'])
a.rename(index={'A':'阿里', 'B':'腾讯'}, columns={'date':'日期','score':'分数'}, inplace=True)  # 另一种方法
a

	日期	分数
阿里	1	2
腾讯	3	4

# 通过.values属性，也可以查看此时的index值
print(a.index.values)

['阿里' '腾讯']

# 如果想给行索引命名，也可以通过如下代码
a.index.name = '艾尔海森'
a

	日期	分数
艾尔海森
阿里	1	2
腾讯	3	4

# 如果想把行索引变成某列的内容，可以使用set_index()函数，代码如下：
a = a.set_index('日期')
a

	分数
日期
1	2
3	4

# 如果此时想把行索引换成数字索引，则可以使用reset_index()函数，代码如下：
a = a.reset_index()
a

	日期	分数
0	1	2
1	3	4

Excel等文件的读取和写入

1. 文件的读取

# 输入以下代码，用于读取Excel数据：
import pandas as pd
data = pd.read_excel('D://coder//randomnumbers//datamining//Chap2//data.xlsx')  # data为DataFrame结构
data.head()  # 通过head()可以查看前5行数据，如果写成head(10)则可以查看前10行数据

D:\coder\randomnumbers\venv\lib\site-packages\openpyxl\worksheet\header_footer.py:48: UserWarning: Cannot parse header or footer so it will be ignored
  warn("""Cannot parse header or footer so it will be ignored""")

	date	score	price
0	2018-09-03	70	23.55
1	2018-09-04	75	24.43
2	2018-09-05	65	23.41
3	2018-09-06	60	22.81
4	2018-09-07	70	23.21

# 其中read_excel还可以设定参数，使用方式如下：
# pd.read_excel('data.xlsx', sheet_name=0, encoding='utf-8')

# 输入以下代码，用于读取CSV文件：
data = pd.read_csv('data.csv')
data.head()

	date	score	price
0	2018-09-03	70	23.55
1	2018-09-04	75	24.43
2	2018-09-05	65	23.41
3	2018-09-06	60	22.81
4	2018-09-07	70	23.21

# read_csv也可以指定参数，使用方式如下：
# data = pd.read_csv('data.csv', delimiter=',', encoding='utf-8')

2. 文件写入

# 先生成一个DataFrame
data = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['A列','B列'])
# 将DataFrame导入到Excel当中
data.to_excel('data_new.xlsx')

运行之后将在代码所在的文件夹生成一个名为data_new的Excel文件m

在上表中，保存的Excel第一列还保留了索引信息，如果想将其删去，可以设置to_excel的参数index为False。to_excel的常见参数有如下一些：sheet_name：数据表名；index：True or False，默认为True保存索引信息，即输出文件的第一列为索引值，选择False的话则忽略索引信息；columns：选择所需要的列；encoding：编码方式。
例如要将数据表格导入到Excel文件中并忽略行索引信息，则代码如下：

data.to_excel('data_new.xlsx', index=False)

# 通过类似的方式，可以将数据写入到CSV文件当中，代码如下：
data.to_csv('data_new.csv')

和to_excel类似，to_csv也可以设置index、columns、encoding等参数。注意，如果在导出CSV文件事出现了中文乱码现象，且encoding参数设置成“utf-8”失效，则需要将encoding参数设置成“utf_8_sig”，代码如下：

data.to_csv('演示.csv', index=False, encoding="utf_8_sig")

补充知识点：文件相对路径与绝对路径

相对路径

文件相对路径，即代码所在的文件夹，例如上面案例中写的data.to_excel(‘data.xlsx’)就是在代码所在的文件夹生成Excel文件。

绝对路径

文件绝对路径，就是文件完整的路径名称，例如’E:\大数据分析\data.xlsx’就是绝对路径，不过因为在Python中反斜杠“\”经常有特殊含义，比如说“\n”表示换行，所以通常建议写绝对路径的时候写两个反斜杠取消可能存在的单个反斜杠的特殊含义，写成’E:\\大数据分析\\data.xlsx’。

除了用两个反斜杠来取消一个反斜杠的特殊意义外，还可以在文件路径的字符串前面加一个r，也可以取消单个反斜杠的特殊含义，代码如下：

data.to_excel('E:\\大数据分析\\data.xlsx')  # 绝对路径推荐写法1，此时E盘要有一个名为“大数据分析”的文件夹
data.to_excel(r'E:\大数据分析\data.xlsx')  # 绝对路径推荐写法2，此时E盘要有一个名为“大数据分析”的文件夹

数据读取与筛选

# 首先创建一个三行三列的表格，行索引设定为r1、r2和r3，列索引设定为c1、c2和c3，以此为例来演示数据的读取与筛选，代码如下：
import pandas as pd
data = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3'])
data

	c1	c2	c3
r1	1	2	3
r2	4	5	6
r3	7	8	9

data = pd.DataFrame(np.arange(1,10).reshape(3,3), index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3'])

data

	c1	c2	c3
r1	1	2	3
r2	4	5	6
r3	7	8	9

1. 数据选取

(1) 按列选取数据

# 通过以下代码可以通过列来选取数据，这里先选取单列。
a = data['c1']
a

r1    1
r2    4
r3    7
Name: c1, dtype: int32

此时返回的结果里没有表头信息了，这是因为通过data[‘c1’]选取一列的时候返回的是一个一维序列结构的类，也可以通过如下代码返回一个二维的表格数据。

b = data[['c1']]
b

	c1
r1	1
r2	4
r3	7

若要选取多列，则需要在中括号[]中给个列表，比如要读取c1和c3列，则可以写为data[[‘c1’, ‘c3’]]。这里需要特别注意的是，必须是一个列表，而不能是data[‘c1’, ‘c3’]，代码如下：

c = data[['c1', 'c3']]
c

	c1	c3
r1	1	3
r2	4	6
r3	7	9

(2) 按行选取数据

# 选取第2到3行的数据，注意序号从0开始，左闭右开
a = data[1:3] 
a

	c1	c2	c3
r2	4	5	6
r3	7	8	9

而pandas推荐使用iloc方法来根据行的序号进行行选取，它是根据行序号选取的另一种方法，pandas觉得这样更加直观，不会像data[1:3]可能会引起混淆，代码如下：

b = data.iloc[1:3]
b

	c1	c2	c3
r2	4	5	6
r3	7	8	9

而且如果要选取单行的话，就必须得用iloc了，比如选择倒数第一行，代码如下：

c = data.iloc[-1]
c

c1    7
c2    8
c3    9
Name: r3, dtype: int32

除了通过行的序号选取外，还可以通过loc方法根据行的名称来进行选取，代码如下：

d = data.loc[['r2', 'r3']]
d

	c1	c2	c3
r2	4	5	6
r3	7	8	9

有的时候如果行数很多，可以通过head()方法来选取前5行，代码如下：

e = data.head()
e

	c1	c2	c3
r1	1	2	3
r2	4	5	6
r3	7	8	9

这里因为只创建了3行数据，所以通过data.head()会把全部数据都取到，如果只想取前两行的数据，可以写成data.head(2)。

(3) 按照区块来选取

# 如果想选取某几行的某几列，则可以通过如下代码来实现，比如获得c1和c3列的前二行。
a = data[['c1', 'c3']][0:2]  # 也可写成data[0:2][['c1', 'c3']]
a

	c1	c3
r1	1	3
r2	4	6

# 在实战中，通常采用iloc和列选取混合的方式来选取特定的区块或值，代码如下：
b = data.iloc[0:2][['c1', 'c3']] 
b

	c1	c3
r1	1	3
r2	4	6

# 如果要选取单个的值，那么该方法就更有优势，比如选取c3列第一行的信息，就不能写成data['c3'][0]或data[0]['c3']了。下面的写法则比较清晰，iloc[0]先选取第一行，然后再选取c3列。
c = data.iloc[0]['c3']
c

# 也可以通过iloc和loc方法来同时选择行和列，代码如下：
d = data.loc[['r1', 'r2'], ['c1', 'c3']]  
e = data.iloc[0:2, [0, 2]]  
print(d)
print(e)

# 老版本DataFrame还有一个ix选择区域的方法，它也可以同时选择行和列，而且里面的内容不像loc或者iloc必须为字符索引或者数字索引，代码如下：
#f = data.ix[0:2, ['c1', 'c3']]
#f

2. 数据筛选

# 在方括号里还可以通过判断条件来过滤行，比如选取c1列数字大于1的行，代码如下：
a = data[data['c1'] > 1]
a

	c1	c2	c3
r2	4	5	6
r3	7	8	9

# 如果有多个筛选条件，则可以通过“&”符号（表示“且”）或“|”（表示“或”）连接，比如这边筛选，c1列数字大于1且c2列数字小于8的行，代码如下，注意要记得加判断条件两旁的小括号。
b = data[(data['c1'] > 1) & (data['c2'] < 8)]
b

	c1	c2	c3
r2	4	5	6

3. 数据整体情况查看

# 通过表格的shape属性，可以查看表格整体的行数和列数，在表格数据量较大的时候能快速了解表格的行数和列数。
data.shape

(3, 3)

# 通过表格的describe()函数可以快速的查看表格每一列的数量、平均值、标准差、最小值、25分位数、50分位数、75分位数、最大值等信息，代码如下：
data.describe()

	c1	c2	c3
count	3.0	3.0	3.0
mean	4.0	5.0	6.0
std	3.0	3.0	3.0
min	1.0	2.0	3.0
25%	2.5	3.5	4.5
50%	4.0	5.0	6.0
75%	5.5	6.5	7.5
max	7.0	8.0	9.0

# 通过value_counts()函数则可以快速的查看某一列都有什么数据，以及该数据出现的频次，代码如下：
data['c1'].value_counts()

1    1
4    1
7    1
Name: c1, dtype: int64

4. 数据运算、排序与删除

(1) 数据运算

# 从已有的列中，通过数据运算创造一个新的一列，代码如下：
data['c4'] = data['c3'] - data['c1']
data.head()

	c1	c2	c3	c4
r1	1	2	3	2
r2	4	5	6	2
r3	7	8	9	2

(2) 数据排序

# 通过sort_values()可以根据列对数据进行排序，比如要对c2列进行降序排序，代码如下：
a = data.sort_values(by='c2', ascending=False) 
a

	c1	c2	c3	c4
r3	7	8	9	2
r2	4	5	6	2
r1	1	2	3	2

# 其实如果是按列筛选，我们也可以直接写成如下代码，不用写“by=”，效果一样：
a = data.sort_values('c2', ascending=False)
a

	c1	c2	c3	c4
r3	7	8	9	2
r2	4	5	6	2
r1	1	2	3	2

# 此外，通过sort_index()可以根据行索引进行排序，如按行索引进行升序排列，代码如下：
a = a.sort_index()
a

	c1	c2	c3	c4
r1	1	2	3	2
r2	4	5	6	2
r3	7	8	9	2

(3) 数据删除

# 例如删除c1列的数据，代码如下：
a = data.drop(columns='c1')
a

	c2	c3	c4
r1	2	3	2
r2	5	6	2
r3	8	9	2

# 删除多列的数据，比如c1和c3列，可以通过列表的方式将所需删除的列声明，代码如下：
b = data.drop(columns=['c1', 'c3'])
b

	c2	c4
r1	2	2
r2	5	2
r3	8	2

# 如果要删除行数据，比如删去第一行和第三行的数据，代码如下：
c = data.drop(index=['r1','r3'])
c

	c1	c2	c3	c4
r2	4	5	6	2

注意这里要输入行索引的名称而不是数字序号，不过如果行索引名称本来就是数字，那么可以输入对应数字。上面删除数据后又赋值给新的变量不会改变原来表格data的结构，如果想改变原来表格的结构，可以令inplace参数为True，代码如下：

data.drop(index=['r1','r3'], inplace=True)
data

	c1	c2	c3	c4
r2	4	5	6	2

数据表拼接

# 假设有如下两个DataFrame表格，需要对它们进行合并：
import pandas as pd
df1 = pd.DataFrame({'公司': ['万科', '阿里', '百度'], '分数': [90, 95, 85]})
df2 = pd.DataFrame({'公司': ['万科', '阿里', '京东'], '股价': [20, 180, 30]})

df1

	公司	分数
0	万科	90
1	阿里	95
2	百度	85

df2

	公司	股价
0	万科	20
1	阿里	180
2	京东	30

1. merge()函数

# merge()函数根据一个或多个键将不同表格中的行连接起来，示例如下：
df3 = pd.merge(df1, df2)
df3

	公司	分数	股价
0	万科	90	20
1	阿里	95	180

可以看到通过merge()函数直接选取相同的列名（“公司”这一列）进行合并，而且默认选取的是两种表共有的列内容（万科、阿里），有的时候如果相同的列名不止一个，可以通过on参数指定按照哪一列进行合并，代码如下：
df3 = pd.merge(df1, df2, on=‘公司’)

默认的合并其实是取交集（inner连接），也即取两表共有的内容，如果想取并集（outer连接），也即选取两表所有的内容，可以设置how参数，代码如下：

df3 = pd.merge(df1, df2, how='outer')
df3

	公司	分数	股价
0	万科	90.0	20.0
1	阿里	95.0	180.0
2	百度	85.0	NaN
3	京东	NaN	30.0

如果想保留左表全部内容，而对右表不太在意的话，可以将how参数设置为left：

df3 = pd.merge(df1, df2, how='left')
df3

	公司	分数	股价
0	万科	90	20.0
1	阿里	95	180.0
2	百度	85	NaN

同理，如果想保留右表全部内容，而对左表不太在意的话，可以将how参数设置为right。

# 如果想根据行索引进行合并，可以通过设置left_index和right_index参数，代码如下：
df3 = pd.merge(df1, df2, left_index=True, right_index=True)
df3

	公司_x	分数	公司_y	股价
0	万科	90	万科	20
1	阿里	95	阿里	180
2	百度	85	京东	30

补充知识点：根据行索引合并的join()函数

通过join()函数也可以根据行索引进行表格合并。join(）函数也是一种数据表拼接的常见函数，它是通过行索引进行合并，演示代码如下：

df3 = df1.join(df2, lsuffix='_x', rsuffix='_y')
df3

	公司_x	分数	公司_y	股价
0	万科	90	万科	20
1	阿里	95	阿里	180
2	百度	85	京东	30

注意在通过join()函数进行拼接的时候，两张表格中不能有名字相同的列名，如果存在的话，则需要设置lsuffix参数（左表同名列的后缀，suffix的中文翻译就是后缀的意思，l表示left）和rsuffix参数（右表同名列的后缀，这里的r表示right），没有相同列名的话，则可以直接写df1.join(df2)，相对于merge()函数写法较为简洁一些。

实战中可以只记merge()函数的用法，这里讲解join()函数的目的是为了看到别人用join()函数的时候能够理解。该知识点在14.3.3小节进行数据表合并的时候便有应用。

2. concat()函数

# 默认情况下，axis=0，按行方向进行连接。
df3 = pd.concat([df1,df2], axis=0)
df3

	公司	分数	股价
0	万科	90.0	NaN
1	阿里	95.0	NaN
2	百度	85.0	NaN
0	万科	NaN	20.0
1	阿里	NaN	180.0
2	京东	NaN	30.0

此时行索引为原来两张表各自的索引，如果想重置索引，可以使用6.2.1小节讲过的reset_index()方法将索引重置，或者在concat()中设置ignore_index=True，忽略原有索引，按新数字索引进行排序。

# 如果想按列方向进行连接，可以设置axis参数为1。
df3 = pd.concat([df1,df2],axis=1)
df3

	公司	分数	公司	股价
0	万科	90	万科	20
1	阿里	95	阿里	180
2	百度	85	京东	30

3. append()函数

# append()函数可以说concat()函数的简化版，效果和pd.concat([df1,df2]) 类似，代码如下：
df3 = df1.append(df2)
df3

	公司	分数	股价
0	万科	90.0	NaN
1	阿里	95.0	NaN
2	百度	85.0	NaN
0	万科	NaN	20.0
1	阿里	NaN	180.0
2	京东	NaN	30.0

# append()函数还有个常用的功能，和列表.append()一样，可用来新增元素，代码如下：
df3 = df1.append({'公司': '腾讯', '分数': '90'}, ignore_index=True)
df3

	公司	分数
0	万科	90
1	阿里	95
2	百度	85
3	腾讯	90

Matplotlib数据可视化基础

基本图形绘制

1. 绘制折线图

%matplotlib inline

import matplotlib.pyplot as plt
x = [1, 2, 3]
y = [2, 4, 6]
plt.plot(x, y)  # 绘制折线图
import pylab as pl
pl.xticks(rotation=45)
plt.show()  # 展示图形

如果想让x和y之间有些数学关系，列表是不太容易进行数学运算的，这时候就可以通过2.1.2小节所讲的Numpy库引入一维数组进行数学运算，代码如下：

import numpy as np
import matplotlib.pyplot as plt

x1 = np.array([1, 2, 3])

# 第一条线：y = x + 1
y1 = x1 + 1
plt.plot(x1, y1) # 使用默认参数画图

# 第二条线：y = x*2
y2 = x1*2
# color设置颜色，linewidth设置线宽，单位像素，linestyle默认为实线，“--”表示虚线
plt.plot(x1, y2, color='red', linewidth=3, linestyle='--')

plt.show()

2. 绘制柱状图

import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [5, 4, 3, 2, 1]
plt.bar(x, y)
plt.show()

3. 绘制散点图

import matplotlib.pyplot as plt
import numpy as np

x = np.random.rand(10)
y = np.random.rand(10)
plt.scatter(x, y)
plt.show()

4. 绘制直方图

import matplotlib.pyplot as plt
import numpy as np  

# 随机生成10000个服从正态分布的数据
data = np.random.randn(10000)

# 绘制直方图，bins为颗粒度，即直方图的长条形数目，edgecolor为长条形边框颜色
plt.hist(data, bins=40, edgecolor='black')

plt.show()

补充知识点：在pandas库中的快捷绘图技巧

# 这种写法只适合pandas中的DataFrame，不能直接用于Numpy的数组
import pandas as pd
df = pd.DataFrame(data)  # 将绘制直方图中的data数组转换成DataFrame()格式
df.hist(bins=40, edgecolor='black')

array([[]],
      dtype=object)

# 此外，除了写df.hist()外，还可以通过下面这种pandas库里的通用绘图代码绘图：
df.plot(kind='hist')

这里是通过设置kind参数为hist来绘制直方图，通过这种通用绘图代码，pandas库除了可以便捷的绘制直方图外，它还可以通过设置kind参数快捷地绘制其他图形，演示代码如下，首先通过2.2.1节的知识点创建一个二维DataFrame表格df。

import pandas as pd
df = pd.DataFrame([[8000, 6000], [7000, 5000], [6500, 4000]], columns=['人均收入', '人均支出'], index=['北京', '上海', '广州'])
df

	人均收入	人均支出
北京	8000	6000
上海	7000	5000
广州	6500	4000

# 此时可以通过pandas同时绘制折线图或者柱状图，代码如下：
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 解决负号'-'显示为方块的问题

df['人均收入'].plot(kind='line')  # kind=line绘制折线图，不设置则默认折线图
df['人均收入'].plot(kind='bar')  # kind=bar绘制柱状图

df['人均收入'].plot(kind='pie')  # kind=pie绘制饼图

df['人均收入'].plot(kind='box')  # kind=box绘制箱体图

数据可视化常见小技巧

1. 添加文字说明

# 通过plt.title(name)给图画添加标题；通过plt.xlable()，plt.ylable()用于添加x轴和y轴标签。
import matplotlib.pyplot as plt

x = [1, 2, 3]
y = [2, 4, 6]
plt.plot(x, y)
plt.title('TITLE')  # 添加标题
plt.xlabel('X')  # 添加X轴标签
plt.ylabel('Y')  # 添加Y轴标签
plt.show()  # 显示图片

2. 添加图例

# 通过plt.legend()来添加图例，添加前需要设置好lable（标签）参数，代码如下：
import numpy as np
import matplotlib.pyplot as plt

# 第一条线, 设定标签lable为y = x + 1
x1 = np.array([1, 2, 3])
y1 = x1 + 1
plt.plot(x1, y1, label='y = x + 1') 

# 第二条线, 设定标签lable为y = x*2
y2 = x1*2
plt.plot(x1, y2, color='red', linestyle='--', label='y = x*2')

plt.legend(loc='upper left') # 图例位置设置为左上角
plt.show()

3. 设置双坐标轴

上面的例子可以在一张图里画出两条线，但如果两条线的取值范围相差比较大，那么画出来的图效果便不太好，那么此时如何来画出两条y坐标轴呢？可以在画完第一个图之后，写如下一行代码即可设置双坐标轴。

plt.twinx()

需要注意的是如果设置了双坐标轴，那么添加图例的时候，每画一次图就得添加一次，而不能在最后统一添加。这里以y = x和y = x^2为例，演示下如何设置双坐标轴，代码如下：

import numpy as np
import matplotlib.pyplot as plt

# 第一条线, 设定标签lable为y = x
x1 = np.array([10, 20, 30])
y1 = x1
plt.plot(x1, y1, color='red', linestyle='--', label='y = x')
plt.legend(loc='upper left')  # 该图图例设置在左上角

plt.twinx()  # 设置双坐标轴

# 第二条线, 设定标签lable为y = x^2
y2 = x1*x1
plt.plot(x1, y2, label='y = x^2') 
plt.legend(loc='upper right')  # 改图图例设置在右上角

plt.show()

4. 设置图片大小

plt.rcParams['figure.figsize'] = (8, 6)
x = [1, 2, 3]
y = [2, 4, 6]
plt.plot(x, y)
plt.show()  # 显示图片

5. 设置X轴刻度的角度

import matplotlib.pyplot as plt
x = [1, 2, 3]
y = [2, 4, 6]
plt.plot(x, y)  # 绘制折线图

import pylab as pl
pl.xticks(rotation=45)  # 设置角度为45度

plt.show()  # 展示图形

6. 解决中文显示问题

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False    # 解决负号'-'显示为方块的问题

x = [1, 2, 3]
y = [2, 4, 6]
plt.plot(x, y)
plt.title('中文标题')  # 添加标题
plt.xlabel('中文X轴')  # 添加X轴标签
plt.ylabel('中文Y轴')  # 添加Y轴标签
plt.show()  # 显示图片

7. 绘制多图

如下图所示，有时我们需要在一张画布上输出多个图形，在Matplotlib库中有当前的图形（figure）以及当前轴（axes）概念，其对应的就是当前画布以及当前子图，在一张画布（figure）上可以绘制多个子图（axes）。绘制多图通常采用subplot()函数或subplots()函数，

首先来讲解subplot()函数，如下图所示，它通常含有三个参数，子图的行数、列数以及第几个子图，例如subplot(221)表示的就是绘制2行2列的子图（共4个子图），并在第1个子图上进行绘图。

# 演示代码如下：
import matplotlib.pyplot as plt
# 绘制第一个子图：折线图
ax1 = plt.subplot(221)  
plt.plot([1, 2, 3], [2, 4, 6])  # 这里plt其实也可以换成ax1

# 绘制第二个子图：柱状图
ax2 = plt.subplot(222)  
plt.bar([1, 2, 3], [2, 4, 6])

# 绘制第三个子图：散点图
ax3 = plt.subplot(223)  
plt.scatter([1, 3, 5], [2, 4, 6])

# 绘制第四个子图：直方图
ax4 = plt.subplot(224)  
plt.hist([2, 2, 2, 3, 4])

(array([3., 0., 0., 0., 0., 1., 0., 0., 0., 1.]),
 array([2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4, 3.6, 3.8, 4. ]),
 )

为了加强大家对画布（figure）和子图（axes）的理解，我们通过下面的代码来做一个简单演示：

plt.rcParams['figure.figsize'] = (8, 4) # 设置画布大小

plt.figure(1)  # 第一张画布
ax1 = plt.subplot(121)  # 第一张画布的第一个子图
plt.plot([1, 2, 3], [2, 4, 6])  # 这里的plt可以换成ax1

ax2 = plt.subplot(122)  # 第一张画布的第二个子图
plt.plot([2, 4, 6], [4, 8, 10])

plt.figure(2)  # 第二张画布
plt.plot([1, 2, 3], [4, 5, 6])

[]

在使用subplot()函数的时候，每次在新的子图上画图时，都得调用subplot()函数，例如第四个子图就得写成ax4 = plt.subplot(224)，那有没有什么办法，一次性就生成多个子图呢？这时候就可以用到subplots()函数，代码如下：

fig, axes = plt.subplots(2, 2, figsize=(10, 8)) 
ax1, ax2, ax3, ax4 = axes.flatten()
ax1.plot([1, 2, 3], [2, 4, 6])  # 绘制第一个子图
ax2.bar([1, 2, 3], [2, 4, 6])  # 绘制第二个子图
ax3.scatter([1, 3, 5], [2, 4, 6])  # 绘制第三个子图
ax4.hist([2, 2, 2, 3, 4])  # 绘制第四个子图

(array([3., 0., 0., 0., 0., 1., 0., 0., 0., 1.]),
 array([2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4, 3.6, 3.8, 4. ]),
 )

此外，如果要在subplot()函数或者subplots()函数生成的子图中设置子图标题、X轴标签或Y轴标签，得通过set_title()函数、set_xlabel()函数、set_ylabel()函数进行设置，演示代码如下：

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
fig, axes = plt.subplots(2, 2, figsize=(10, 8)) 
ax1, ax2, ax3, ax4 = axes.flatten()
ax1.plot([1, 2, 3], [2, 4, 6])  # 绘制第一个子图
ax1.set_title('子图1')
ax1.set_xlabel('日期')
ax1.set_ylabel('分数')
ax2.bar([1, 2, 3], [2, 4, 6])  # 绘制第二个子图
ax3.scatter([1, 3, 5], [2, 4, 6])  # 绘制第三个子图
ax4.hist([2, 2, 2, 3, 4])  # 绘制第四个子图

(array([3., 0., 0., 0., 0., 1., 0., 0., 0., 1.]),
 array([2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4, 3.6, 3.8, 4. ]),
 )

综合案例实战 : 股票数据读取与K线图绘制

%matplotlib inline

import tushare as ts
import mplfinance as mpf
from pylab import mpl
import pandas as pd

pro = ts.pro_api('9d674d000f7c730dd3108701a1a1c534bf51bfb03a0ff169a9d11848')  #
#https://tushare.pro/user/token
df = pro.daily(ts_code='000001.SZ', start_date='20200101', end_date='20201103')

#df.sort_values(by='trade_date',ascending=False)
#取所有行数据，后面取date列，open列等数据
data = df.loc[:, ['trade_date', 'open', 'close', 'high', 'low', 'vol']]
data = data.rename(columns={'trade_date': 'Date', 'open': 'Open', 'close': 'Close', 'high': 'High', 'low': 'Low', 'vol': 'Volume'})  #更换列名，为后面函数变量做准备
#设置date列为索引，覆盖原来索引,这个时候索引还是 object 类型，就是字符串类型。
data.set_index('Date', inplace=True)
#将object类型转化成 DateIndex 类型，pd.DatetimeIndex 是把某一列进行转换，同时把该列的数据设置为索引 index。
data.index = pd.DatetimeIndex(data.index)

#将时间顺序升序，符合时间序列
data = data.sort_index(ascending=True)

# pd.set_option()就是pycharm输出控制显示的设置，下面这几行代码其实没用上，暂时也留在这儿吧
pd.set_option('expand_frame_repr', False)#True就是可以换行显示。设置成False的时候不允许换行
pd.set_option('display.max_columns', None)# 显示所有列
#pd.set_option('display.max_rows', None)# 显示所有行
pd.set_option('colheader_justify', 'centre')# 显示居中


mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
mpl.rcParams["figure.figsize"] = [6.4, 4.8]
mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

mpf.plot(data, type='candle', mav=(5, 10, 20), volume=True, show_nontrading=False)

下面有的代码新版本废弃了，注意新版本用法

初步尝试 - 股票数据读取与可视化

1. 股票数据读取：Tushare库的安装与使用

首先推荐通过PIP安装法来安装可以调用股价数据的Tushare库（Tushare库官方地址为：http://tushare.org/
以Windows系统为例，具体方法是：通过Win + R组合键调出运行框，输入cmd后回车，然后在弹出框中输入pip install tushare后按一下Enter回车键的方法来进行安装。如果在1.2.3节讲到的Jupyter Notebook编辑器中安装的话，只需要在代码框中输入如下代码然后运行该行代码框即可（注意是英文格式下的!）：
!pip install tushare

# 我们只需要通过如下2行代码便可获取到股票基本数据：
import tushare as ts
df = ts.get_k_data('000002', start='2009-01-01', end='2019-01-01')
df.head()

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2

	date	open	close	high	low	volume	code
0	2009-01-05	5.086	5.178	5.178	5.008	936048.88	000002
1	2009-01-06	5.163	5.333	5.372	5.109	1216831.18	000002
2	2009-01-07	5.356	5.302	5.457	5.302	834829.31	000002
3	2009-01-08	5.217	5.333	5.410	5.163	837661.70	000002
4	2009-01-09	5.333	5.325	5.418	5.263	626815.66	000002

# 此时如果想要将股票数据获取到Excel文件中，则可以使用2.2.2节相关知识点，代码如下：
df.to_excel('股价数据.xlsx', index=False)

2. 绘制股价走势图

已经有了股价数据后，我们可以通过可视化的方式将其展示出来，这里我们首先利用2.2.1节的补充知识点中的set_index()函数将日期设置为行索引，这样方便等会直接用pandas库进行绘图，代码如下：

df.set_index('date', inplace=True)
df.head()

	open	close	high	low	volume	code
date
2009-01-05	5.086	5.178	5.178	5.008	936048.88	000002
2009-01-06	5.163	5.333	5.372	5.109	1216831.18	000002
2009-01-07	5.356	5.302	5.457	5.302	834829.31	000002
2009-01-08	5.217	5.333	5.410	5.163	837661.70	000002
2009-01-09	5.333	5.325	5.418	5.263	626815.66	000002

通过2.3.1节补充知识点中pandas绘图的相关知识点来进行图形绘制，代码如下。因为在pandas库中plot()函数默认绘制的是折线图，所以直接写plot()即可，不需要传入kind参数。此外在金融领域，通常用收盘价作为当天价格来绘制股价走势图，因此这里选择的是close这一列。

df['close'].plot()

如果想给图片加一个标题，在pandas库中使用可以在plot()可以在里面传入一个title参数，代码如下，注意因为标题是中文内容，所以要写2.3.2节最后讲到的两行代码防止中文乱码。

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
df['close'].plot(title='万科股价走势图')

补充知识点：直接使用Matplotlib库绘制图表

上面使用的是pandas库中的plot()函数，pandas库其实是集成了Matplotlib库的一些功能，如果有的读者想直接用Matplotlib库进行股价走势画图，可以采用如下代码：

# 通过Tushare库获取股价数据
import tushare as ts
df = ts.get_k_data('000002', start='2009-01-01', end='2019-01-01')

# 要注意的细节：调整日期格式使得横坐标显示清晰
from datetime import datetime
df['date'] = df['date'].apply(lambda x:datetime.strptime(x,'%Y-%m-%d'))

# 绘制折线图
import matplotlib.pyplot as plt
plt.plot(df['date'], df['close'])
plt.show()

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2


C:\Users\LYJZB\Anaconda3\lib\site-packages\matplotlib\cbook\__init__.py:1402: FutureWarning: Support for multi-dimensional indexing (e.g. `obj[:, None]`) is deprecated and will be removed in a future version.  Convert to a numpy array before indexing instead.
  x[:, None]
C:\Users\LYJZB\Anaconda3\lib\site-packages\matplotlib\cbook\__init__.py:1402: FutureWarning: Support for multi-dimensional indexing (e.g. `obj[:, None]`) is deprecated and will be removed in a future version.  Convert to a numpy array before indexing instead.
  x[:, None]
C:\Users\LYJZB\Anaconda3\lib\site-packages\matplotlib\axes\_base.py:276: FutureWarning: Support for multi-dimensional indexing (e.g. `obj[:, None]`) is deprecated and will be removed in a future version.  Convert to a numpy array before indexing instead.
  x = x[:, np.newaxis]
C:\Users\LYJZB\Anaconda3\lib\site-packages\matplotlib\axes\_base.py:278: FutureWarning: Support for multi-dimensional indexing (e.g. `obj[:, None]`) is deprecated and will be removed in a future version.  Convert to a numpy array before indexing instead.
  y = y[:, np.newaxis]

进阶实战: 股票K线图绘制

1. 股票K线图基础知识

一个实际中的股票K线图如下图所示（这个是“贵州茅台”股票的日线级别的K线图）：

没有接触过股票的读者可能会被里面的各个柱状图和折线图搞得一头雾水，而这些图形其实都是通过一些很基础的数据绘制而成，这一节便主要来科普下股票K线图的基本知识。
这些柱状图，通常称之为“K线图”，是由股票的四个价格来绘制的：开盘价（当天上午9点半开始交易时的价格）、收盘价（当天下午3点结束交易时的价格）、最高价（当天股价波动中的最高价）、最低价（当天股价波动中的最低价），简称“高、开、低、收”四个价格。
如下图所示，根据这四个价格便可以绘制出红色和绿色的K线图，因为形似蜡烛，因此也常被称之为蜡烛图。K线图分为两种，如果当天的收盘价高于开盘价，也就是说当天的价格上涨，则称之为阳线，通常绘制成红色；反之如果当天的收盘价低于开盘价，也就是说当天的价格下跌，则称之为阴线，通常绘制成绿色。补充说一句，在美国，反而是红色代表跌，绿色代表涨。

这里再解释下均线图，也就是那些折线图的绘制原理。均线分为5日均线（通常称之为MA5）、10日均线（通常称之为MA10）、20日均线（通常称之为MA20）等，其原理就是将股价的收盘价求均值，例如5日均线就是最近连续5个交易日收盘价之和的平均值，具体的计算公式如下，其中Close1为当天的收盘价，Close2为前一天的收盘价，其余依次类推。
MA5 = (Close1 + Close2 + Close3 + Close4 + Close5)/5

把每个5日均线的值连成一条平滑的曲线就是5日均线图了，同理10日均线图和20日均线图也是类似的原理，这些均线图也就是我们在这一小节最开始看到图中的那些折线图。
了解了股票K线图的基本知识后，下面我们就来进行K线图的绘制工作。

2.绘制股票K线图

(1) 安装绘制K线图的mplfinance库

首先需要安装绘制K线图的相关库：mpl_finance库，其安装办法稍微麻烦一点，推荐通过PIP安装法安装，以Windows系统为例，具体方法是：通过Win + R组合键调出运行框，输入cmd后回车，然后在弹出框中输入如下内容，按一下Enter回车键进行安装：

pip install mplfinance

如果是在在1.2.3节讲到的Jupyter Notebook中安装，则在pip前面加一个英文的感叹号“!”然后运行该代码块即可。

# 通过如下代码，可以在Jupyter Notebook中安装。（需取消注释）
# !pip install https://github.com/matplotlib/mpl_finance/archive/master.zip

(2) 引入绘图相关库

# 首先引入一些绘图需要用到的库，代码如下：
import tushare as ts
import matplotlib.pyplot as plt
import mplfinance as mpf
import seaborn as sns
sns.set()

第一个引入2.4.1节讲到的Tushare库，第二引入2.3.1节讲到的Matplotlib库在；第三个引入刚刚安装的mpl_finance库；第四个seaborn库是一个图表美化库，通过sns.set()即可激活，如果是通过1.2.1节Anaconda安装的Python，那么就自带该库了，无需额外安装。上面的代码直接拿去运行即可。

(3) 通过Tushare库获取股票基本数据

# 通过Tushare库获取股票代码为“000002”的股票“万科A”在2019-06-01至2019-09-30的股价数据，代码如下：
df = ts.get_k_data('000002','2019-06-01', '2019-09-30')
df.head()

本接口即将停止更新，请尽快使用Pro版接口：https://tushare.pro/document/2

	date	open	close	high	low	volume	code
99	2019-06-03	26.81	26.44	27.02	26.28	317567.0	000002
100	2019-06-04	26.47	26.30	26.54	26.25	203260.0	000002
101	2019-06-05	26.64	27.03	27.28	26.63	576164.0	000002
102	2019-06-06	27.01	27.12	27.29	26.92	333792.0	000002
103	2019-06-10	27.29	27.81	28.05	27.17	527547.0	000002

(4) 日期格式调整及表格转换

因为绘制K线图的candlestick_ochl()函数只能接收特定格式的日期格式，以及数组格式的内容，所以我们需要将原来文本类型的日期格式调整一下，代码如下：

# 导入日期格式调整涉及的两个库
from matplotlib.pylab import date2num
import datetime

# 对tushare获取到的日期数据转换成candlestick_ohlc()函数可读取的数字格式
def date_to_num(dates):
    num_time = []
    for date in dates:
        date_time = datetime.datetime.strptime(date,'%Y-%m-%d')
        num_date = date2num(date_time)
        num_time.append(num_date)
    return num_time

# 将DataFrame转换为二维数组，并利用date_to_num()函数转换日期
df_arr = df.values  # 将DataFrame格式的数据，转换为array二维数组
df_arr[:,0] = date_to_num(df_arr[:,0])  # 将原来日期格式的日期换成数字格式

df_arr[0:5] # 查看此时的df_arr的前5项

array([[737213.0, 26.81, 26.44, 27.02, 26.28, 317567.0, '000002'],
       [737214.0, 26.47, 26.3, 26.54, 26.25, 203260.0, '000002'],
       [737215.0, 26.64, 27.03, 27.28, 26.63, 576164.0, '000002'],
       [737216.0, 27.01, 27.12, 27.29, 26.92, 333792.0, '000002'],
       [737220.0, 27.29, 27.81, 28.05, 27.17, 527547.0, '000002']],
      dtype=object)

(5) 绘制K线图

转换好数据格式后，K线图的绘制就比较简单了，通过candlestick_ochl()函数便能够轻松的绘制K线图了，代码如下：

kdata = df.rename(columns={'date':'Date','open':'Open','close':'Close','high':'High','low':'Low','volume':'Volume','code':'Code'})

kdata = kdata.set_index('Date')

kdata.index = pd.DatetimeIndex(kdata.index)

#新版本废弃
#fig, ax = plt.subplots(figsize=(15,6))
#mpf.candlestick_ochl(ax, df_arr, width=0.6, colorup='r', colordown='g', alpha=1.0)
#plt.grid(True)  # 绘制网格
#ax.xaxis_date()  # 设置x轴的刻度为日期

candlestick_ochl()函数的参数：

ax：绘图Axes的实例，也就是画布中的子图；

df_arr：股价历史数据；

width：图像中红绿矩形的宽度；

colorup：收盘价格大于开盘价格时矩形的颜色；

colordown：收盘价格低于开盘价格时矩形的颜色；

alpha：矩形的颜色的透明度；

mpf.plot(kdata, type='candle', show_nontrading=False)

(6) 绘制K线图及均线图

有了K线图之后，我们再来补上均线图，这里我们主要补上5日均线和10日均线图，首先我们通过如下代码构造5日均线和10日均线数据：

df['MA5'] = df['close'].rolling(5).mean()
df['MA10'] = df['close'].rolling(10).mean()

df.head(15)  # 查看此时的前15行

	date	open	close	high	low	volume	code	MA5	MA10
99	2019-06-03	26.81	26.44	27.02	26.28	317567.0	000002	NaN	NaN
100	2019-06-04	26.47	26.30	26.54	26.25	203260.0	000002	NaN	NaN
101	2019-06-05	26.64	27.03	27.28	26.63	576164.0	000002	NaN	NaN
102	2019-06-06	27.01	27.12	27.29	26.92	333792.0	000002	NaN	NaN
103	2019-06-10	27.29	27.81	28.05	27.17	527547.0	000002	26.940	NaN
104	2019-06-11	27.87	28.33	28.45	27.85	449630.0	000002	27.318	NaN
105	2019-06-12	28.24	28.00	28.29	27.81	269372.0	000002	27.658	NaN
106	2019-06-13	28.00	27.83	28.05	27.58	250431.0	000002	27.818	NaN
107	2019-06-14	28.01	27.93	28.29	27.78	311417.0	000002	27.980	NaN
108	2019-06-17	27.80	27.91	28.20	27.75	171672.0	000002	28.000	27.470
109	2019-06-18	28.08	27.70	28.11	27.40	219162.0	000002	27.874	27.596
110	2019-06-19	28.20	27.73	28.38	27.59	390157.0	000002	27.820	27.739
111	2019-06-20	27.70	28.45	28.45	27.63	577484.0	000002	27.944	27.881
112	2019-06-21	28.40	28.31	28.52	28.12	492537.0	000002	28.020	28.000
113	2019-06-24	28.12	28.13	28.25	28.03	270128.0	000002	28.064	28.032

data = data.sort_index(ascending=True)

plt.rcParams['font.sans-serif'] = ['SimHei'] 

my_color = mpf.make_marketcolors(up='red', down='green', edge='i', wick='i', volume='in')
# 解决mplfinance绘制输出中文乱码
my_style = mpf.make_mpf_style(base_mpf_style='yahoo',marketcolors=my_color, gridaxis='both', gridstyle='-.', y_on_right=True,rc={'font.family': 'SimHei'})
mpf.plot(kdata, type='candle',style = my_style,title='万科A',ylabel='价格',xrotation=0,datetime_format='%Y-%m-%d',mav=(5, 10), show_nontrading=False,figratio=(15, 6),figscale=1)
# 绘制5日均线,10日均线

# 有了5日均线和10日均线数据后，就可以将其绘制在图形中了，代码如下：
#plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签

#fig, ax = plt.subplots(figsize=(15,6))

#mpf.candlestick_ochl(ax, df_arr, width=0.6, colorup='r', colordown='g', alpha=1.0) 
#plt.plot(df_arr[:,0], df['MA5'])  # 绘制5日均线
#plt.plot(df_arr[:,0], df['MA10'])  # 绘制10日均线

#plt.grid(True)  # 绘制网格

#plt.title('万科A')  # 设置标题
#plt.xlabel('日期')  # 设置X轴图例
#plt.ylabel('价格')  # 设置Y轴图例

#ax.xaxis_date () # 设置x轴的刻度为日期

(7) 绘制股票K线图、均线图、成交量柱状图

在现实中，和股票K线图、均线图一同出现的还有每日成交量的的柱状图，我们利用2.3.2节绘制多图的知识点，即可通过如下代码在一张画布中绘制两个子图，包含K线图、均线图、成交量柱状图：

#fig, axes = plt.subplots(2, 1, sharex=True, figsize=(15,8))
#ax1, ax2 = axes.flatten()

# 绘制第一张子图：K线图和均线图
#mpf.candlestick_ochl(ax1, df_arr, width=0.6, colorup = 'r', colordown = 'g', alpha=1.0)

#ax1.plot(df_arr[:,0], df['MA5'])  # 绘制5日均线
#ax1.plot(df_arr[:,0], df['MA10'])  # 绘制10日均线

#ax1.set_title('万科A')  # 设置子图标题
#ax1.set_ylabel('价格')  # 设置子图Y轴标签
#ax1.grid(True)
#ax1.xaxis_date()

# 绘制第二张子图：成交量图
#ax2.bar(df_arr[:,0], df_arr[:,5])  # 绘制成交量柱状图
#ax2.set_xlabel('日期')  # 设置子图X轴标签
#ax2.set_ylabel('成交量')  # 设置子图Y轴标签
#ax2.grid(True)
#ax2.xaxis_date()

plt.rcParams['font.sans-serif'] = ['SimHei'] 

my_color = mpf.make_marketcolors(up='red', down='green', edge='i', wick='i', volume='in')
# 解决mplfinance绘制输出中文乱码
my_style = mpf.make_mpf_style(base_mpf_style='yahoo',marketcolors=my_color, gridaxis='both', gridstyle='-.', y_on_right=True,rc={'font.family': 'SimHei'})
mpf.plot(kdata, type='candle',style = my_style,title='万科A',ylabel='价格',xrotation=0,datetime_format='%Y-%m-%d',mav=(5, 10), volume=True,show_nontrading=False,figratio=(15, 6),figscale=1)
# 绘制5日均线,10日均线

其中第1-2行代码利用2.3.2节绘制多图相关知识点先构造一个画布和两个子图，这里同时设置sharex参数为True，这样两张子图就可以共用一个坐标轴了；第4-13行绘制第一张子图，其中在子图中设置标题或者坐标轴标题得使用set_title()、set_ylabel()、set_xlabel()这样的函数；第15-20行绘制第二张子图：成交量图，其中df_arr[:,0]表示二维数组的第1列，也即日期那列，df_arr[:,5]表示二维数组的第6列，也即成交量那列数据，然后通过2.3.1节讲过的bar()函数绘制成柱状图。

我们可以和新浪财经网上的实际图像对比一下，如下图所示，发现通过Python绘制的K线图相关图片和网上的图片基本一致。

至此，数据分析的相关3大武器库已经给大家讲解完毕了，其实关于这三个库还有很多可以挖掘的知识点，由于篇幅有限，这里就不再赘述。这一章内容相对较多，读者朋友可以将这一章当作一个工具章，有需要的时候再返回看看需要用到的知识点。

拓展研究

matplotlib的更多图形

代码来源官网：https://matplotlib.org/stable/gallery/index.html

Scatter

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook

# Load a numpy record array from yahoo csv data with fields date, open, high,
# low, close, volume, adj_close from the mpl-data/sample_data directory. The
# record array stores the date as an np.datetime64 with a day unit ('D') in
# the date column.
price_data = (cbook.get_sample_data('goog.npz', np_load=True)['price_data']
              .view(np.recarray))
price_data = price_data[-250:]  # get the most recent 250 trading days

delta1 = np.diff(price_data.adj_close) / price_data.adj_close[:-1]

# Marker size in units of points^2
volume = (15 * price_data.volume[:-2] / price_data.volume[0])**2
close = 0.003 * price_data.close[:-2] / 0.003 * price_data.open[:-2]

fig, ax = plt.subplots()
ax.scatter(delta1[:-1], delta1[1:], c=close, s=volume, alpha=0.5)

ax.set_xlabel(r'$\Delta_i$', fontsize=15)
ax.set_ylabel(r'$\Delta_{i+1}$', fontsize=15)
ax.set_title('Volume and percent change')

ax.grid(True)
fig.tight_layout()

plt.show()

Scatter Masked

import matplotlib.pyplot as plt
import numpy as np

# Fixing random state for reproducibility
np.random.seed(19680801)


N = 100
r0 = 0.6
x = 0.9 * np.random.rand(N)
y = 0.9 * np.random.rand(N)
area = (20 * np.random.rand(N))**2  # 0 to 10 point radii
c = np.sqrt(area)
r = np.sqrt(x ** 2 + y ** 2)
area1 = np.ma.masked_where(r < r0, area)
area2 = np.ma.masked_where(r >= r0, area)
plt.scatter(x, y, s=area1, marker='^', c=c)
plt.scatter(x, y, s=area2, marker='o', c=c)
# Show the boundary between the regions:
theta = np.arange(0, np.pi / 2, 0.01)
plt.plot(r0 * np.cos(theta), r0 * np.sin(theta))

plt.show()

热图

import numpy as np
import matplotlib
import matplotlib as mpl
import matplotlib.pyplot as plt

vegetables = ["cucumber", "tomato", "lettuce", "asparagus",
              "potato", "wheat", "barley"]
farmers = ["Farmer Joe", "Upland Bros.", "Smith Gardening",
           "Agrifun", "Organiculture", "BioGoods Ltd.", "Cornylee Corp."]

harvest = np.array([[0.8, 2.4, 2.5, 3.9, 0.0, 4.0, 0.0],
                    [2.4, 0.0, 4.0, 1.0, 2.7, 0.0, 0.0],
                    [1.1, 2.4, 0.8, 4.3, 1.9, 4.4, 0.0],
                    [0.6, 0.0, 0.3, 0.0, 3.1, 0.0, 0.0],
                    [0.7, 1.7, 0.6, 2.6, 2.2, 6.2, 0.0],
                    [1.3, 1.2, 0.0, 0.0, 0.0, 3.2, 5.1],
                    [0.1, 2.0, 0.0, 1.4, 0.0, 1.9, 6.3]])


fig, ax = plt.subplots()
im = ax.imshow(harvest)

# Show all ticks and label them with the respective list entries
ax.set_xticks(np.arange(len(farmers)), labels=farmers)
ax.set_yticks(np.arange(len(vegetables)), labels=vegetables)

# Rotate the tick labels and set their alignment.
plt.setp(ax.get_xticklabels(), rotation=45, ha="right",
         rotation_mode="anchor")

# Loop over data dimensions and create text annotations.
for i in range(len(vegetables)):
    for j in range(len(farmers)):
        text = ax.text(j, i, harvest[i, j],
                       ha="center", va="center", color="w")

ax.set_title("Harvest of local farmers (in tons/year)")
fig.tight_layout()
plt.show()

import numpy as np
import matplotlib
import matplotlib as mpl
import matplotlib.pyplot as plt
vegetables = ["cucumber", "tomato", "lettuce", "asparagus",
              "potato", "wheat", "barley"]
farmers = ["Farmer Joe", "Upland Bros.", "Smith Gardening",
           "Agrifun", "Organiculture", "BioGoods Ltd.", "Cornylee Corp."]

harvest = np.array([[0.8, 2.4, 2.5, 3.9, 0.0, 4.0, 0.0],
                    [2.4, 0.0, 4.0, 1.0, 2.7, 0.0, 0.0],
                    [1.1, 2.4, 0.8, 4.3, 1.9, 4.4, 0.0],
                    [0.6, 0.0, 0.3, 0.0, 3.1, 0.0, 0.0],
                    [0.7, 1.7, 0.6, 2.6, 2.2, 6.2, 0.0],
                    [1.3, 1.2, 0.0, 0.0, 0.0, 3.2, 5.1],
                    [0.1, 2.0, 0.0, 1.4, 0.0, 1.9, 6.3]])
def heatmap(data, row_labels, col_labels, ax=None,
            cbar_kw=None, cbarlabel="", **kwargs):
    """
    Create a heatmap from a numpy array and two lists of labels.

    Parameters
    ----------
    data
        A 2D numpy array of shape (M, N).
    row_labels
        A list or array of length M with the labels for the rows.
    col_labels
        A list or array of length N with the labels for the columns.
    ax
        A `matplotlib.axes.Axes` instance to which the heatmap is plotted.  If
        not provided, use current axes or create a new one.  Optional.
    cbar_kw
        A dictionary with arguments to `matplotlib.Figure.colorbar`.  Optional.
    cbarlabel
        The label for the colorbar.  Optional.
    **kwargs
        All other arguments are forwarded to `imshow`.
    """

    if ax is None:
        ax = plt.gca()

    if cbar_kw is None:
        cbar_kw = {}

    # Plot the heatmap
    im = ax.imshow(data, **kwargs)

    # Create colorbar
    cbar = ax.figure.colorbar(im, ax=ax, **cbar_kw)
    cbar.ax.set_ylabel(cbarlabel, rotation=-90, va="bottom")

    # Show all ticks and label them with the respective list entries.
    ax.set_xticks(np.arange(data.shape[1]), labels=col_labels)
    ax.set_yticks(np.arange(data.shape[0]), labels=row_labels)

    # Let the horizontal axes labeling appear on top.
    ax.tick_params(top=True, bottom=False,
                   labeltop=True, labelbottom=False)

    # Rotate the tick labels and set their alignment.
    plt.setp(ax.get_xticklabels(), rotation=-30, ha="right",
             rotation_mode="anchor")

    # Turn spines off and create white grid.
    ax.spines[:].set_visible(False)

    ax.set_xticks(np.arange(data.shape[1]+1)-.5, minor=True)
    ax.set_yticks(np.arange(data.shape[0]+1)-.5, minor=True)
    ax.grid(which="minor", color="w", linestyle='-', linewidth=3)
    ax.tick_params(which="minor", bottom=False, left=False)

    return im, cbar


def annotate_heatmap(im, data=None, valfmt="{x:.2f}",
                     textcolors=("black", "white"),
                     threshold=None, **textkw):
    """
    A function to annotate a heatmap.

    Parameters
    ----------
    im
        The AxesImage to be labeled.
    data
        Data used to annotate.  If None, the image's data is used.  Optional.
    valfmt
        The format of the annotations inside the heatmap.  This should either
        use the string format method, e.g. "$ {x:.2f}", or be a
        `matplotlib.ticker.Formatter`.  Optional.
    textcolors
        A pair of colors.  The first is used for values below a threshold,
        the second for those above.  Optional.
    threshold
        Value in data units according to which the colors from textcolors are
        applied.  If None (the default) uses the middle of the colormap as
        separation.  Optional.
    **kwargs
        All other arguments are forwarded to each call to `text` used to create
        the text labels.
    """

    if not isinstance(data, (list, np.ndarray)):
        data = im.get_array()

    # Normalize the threshold to the images color range.
    if threshold is not None:
        threshold = im.norm(threshold)
    else:
        threshold = im.norm(data.max())/2.

    # Set default alignment to center, but allow it to be
    # overwritten by textkw.
    kw = dict(horizontalalignment="center",
              verticalalignment="center")
    kw.update(textkw)

    # Get the formatter in case a string is supplied
    if isinstance(valfmt, str):
        valfmt = matplotlib.ticker.StrMethodFormatter(valfmt)

    # Loop over the data and create a `Text` for each "pixel".
    # Change the text's color depending on the data.
    texts = []
    for i in range(data.shape[0]):
        for j in range(data.shape[1]):
            kw.update(color=textcolors[int(im.norm(data[i, j]) > threshold)])
            text = im.axes.text(j, i, valfmt(data[i, j], None), **kw)
            texts.append(text)

    return texts

fig, ax = plt.subplots()

im, cbar = heatmap(harvest, vegetables, farmers, ax=ax,
                   cmap="YlGn", cbarlabel="harvest [t/year]")
texts = annotate_heatmap(im, valfmt="{x:.1f} t")

fig.tight_layout()
plt.show()

polar axis

import numpy as np
import matplotlib.pyplot as plt


# Fixing random state for reproducibility
np.random.seed(19680801)

# Compute pie slices
N = 20
theta = np.linspace(0.0, 2 * np.pi, N, endpoint=False)
radii = 10 * np.random.rand(N)
width = np.pi / 4 * np.random.rand(N)
colors = plt.cm.viridis(radii / 10.)

ax = plt.subplot(projection='polar')
ax.bar(theta, radii, width=width, bottom=0.0, color=colors, alpha=0.5)

plt.show()

3D图

from mpl_toolkits.mplot3d import axes3d
import matplotlib.pyplot as plt

ax = plt.figure().add_subplot(projection='3d')
X, Y, Z = axes3d.get_test_data(0.05)

# Plot the 3D surface
ax.plot_surface(X, Y, Z, edgecolor='royalblue', lw=0.5, rstride=8, cstride=8,
                alpha=0.3)

# Plot projections of the contours for each dimension.  By choosing offsets
# that match the appropriate axes limits, the projected contours will sit on
# the 'walls' of the graph.
ax.contour(X, Y, Z, zdir='z', offset=-100, cmap='coolwarm')
ax.contour(X, Y, Z, zdir='x', offset=-40, cmap='coolwarm')
ax.contour(X, Y, Z, zdir='y', offset=40, cmap='coolwarm')

ax.set(xlim=(-40, 40), ylim=(-40, 40), zlim=(-100, 100),
       xlabel='X', ylabel='Y', zlabel='Z')

plt.show()

心得体会

你可能感兴趣的:(信息管理与信息系统,数据分析,数据挖掘,numpy)

DeepSeek爆火背后：AI如何助力GIS发展 GIS前端嘉欣前端 GIS webgis
2025年的春节，一款名为DeepSeek的AI工具以“推理能力超群”“性价比碾压巨头”的标签火遍全网：日活用户突破3000万，微信搜索接入其长思考模式，三大电信运营商全面部署其开源框架。这场由低成本+高性能+开源驱动的技术革命，不仅让AI开发门槛大幅降低，更预示着一个全新的产业趋势——AI与GIS的深度融合，正在重塑城市、环境和商业的底层逻辑。012025年，AI+GIS深度融合的四大趋势1.城
OpenMetadata MySQL 数据库使用率提取管道实现解析 10年JAVA大数据技术研究者数据治理数据库 mysql openmetadata 源码分析
目录架构概述核心组件源码分析使用率指标定义数据提取流程图源码类图配置与扩展指南架构概述OpenMetadata通过可插拔的元数据摄取框架实现对MySQL使用率数据的采集，核心流程包含三个阶段：数据采集层：从MySQLperformance_schema和sysschema获取原始指标指标处理层：将原始数据转换为统一的使用率指标模型数据存储层：将处理后的指标持久化到OpenMetadata服务核心组
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
网络安全常见十大漏洞总结（原理、危害、防御）程序媛西米网络安全数据库 oracle 网络 web安全计算机网络安全安全
一、弱口令【文末福利】产生原因与个人习惯和安全意识相关，为了避免忘记密码，使用一个非常容易记住的密码，或者是直接采用系统的默认密码等。危害通过弱口令，攻击者可以进入后台修改资料，进入金融系统盗取钱财，进入OA系统可以获取企业内部资料，进入监控系统可以进行实时监控等等。防御设置密码通常遵循以下原则：（1）不使用空口令或系统缺省的口令，为典型的弱口令；（2）口令长度不小于8个字符；（3）口令不应该为连
【系统架构设计师】论文：论信息系统的安全体系数据知道系统架构安全系统架构设计师软考高级论文架构
论文：论信息系统的安全体系文章目录摘要正文总结摘要2023年2月，我参加了某水库管理信息系统项目的实施。通过系统的实施和运行，实现防汛、供水、发电、闸门监控、水文等各种数据的采集、分析、存储，并通过网络及时地向有关部门汇报，以便相关领导进行调度指挥，为领导决策提供大力支持，为业务人员办公提供服务。系统的应用将有效提高某市政府水库管理所的工作效率。我作为该项目的项目负责人，主要负责项目管理，同时负责
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例楼台的春风嵌入式开发 STM32 嵌入式 c语言 mcu 自动驾驶嵌入式硬件 stm32 物联网
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例目录ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例引言一、ADC（模数转换器）1.ADC的基本概念2.ADC的工作原理3.ADC的主要类型4.ADC的技术指标5.ADC的应用场景6.ADC在嵌入式系统中的使用案例二、DAC（数模转换器）1.DAC的基本概念2.DAC的工作原理3.DAC的主要类型4.DAC的技术指标5
内外网隔离文件传输解决方案｜系统与钉钉集成+等保合规，安全提升70% CSTechAI 钉钉安全中间件安全架构
内外网隔离文件传输解决方案｜系统与钉钉集成+等保合规，安全提升70%##一、背景与痛点在内外网隔离的企业网络环境中，员工与外部协作伙伴（如钉钉用户）的文件传输面临以下挑战：1.**安全性风险**：内外网直连可能导致病毒传播、数据泄露。2.**操作繁琐**：传统方式需频繁切换网络环境，降低工作效率。3.**审计缺失**：缺乏文件传输的完整日志记录，难以追溯责任。**系统**通过智能中转架构，在保障网
标准制修订信息管理系统：推动企业标准化管理的数字化转型 CSSoftTechAI 运维零售
在数字化转型的浪潮中，标准化管理作为企业高质量发展的基石，正面临着前所未有的机遇与挑战。我们基于多年行业实践经验，推出标准制修订信息管理系统，助力企业实现标准化工作的全生命周期管理与全价值链共享，推动标准化管理从“传统分散”向“智能协同”转型。##行业痛点：标准化管理的挑战1.标准体系不完善：缺乏动态化管理能力，难以适应快速变化的业务需求。2.管理分散，信息孤岛：标准化工作分散在不同部门，无法实现
淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
Salesforce联手阿里云，销售易联手腾讯，还在靠”卖血求生“的CRM独立玩家何去何从？ saas
销售易官宣与腾讯战略合作升级，腾讯集团副总裁、腾讯政企业务总裁李强担任销售易董事长，销售易创始人史彦泽继续担任CEO。这场"资本+技术+生态"的强强联合，将行业竞争推向新维度，融资竞赛不再是SaaS企业生存的唯一筹码，中国企服市场正在发生深层变革。消息一出，便受到很多人的关注，这首当其中，最高兴的算要数销售易的客户，源自其将获得的三大核心价值升级，腾讯将进一步开放云计算、大数据、AI等核心技术能力
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
基于微信小程序的宠物寄养平台的设计与实现图灵软件设计 JAVA SSM 小程序微信小程序小程序 spring boot maven 后端 java mybatis
现在宠物寄养管理中已有一些商家使用了基本的管理软件，这些软件都是依靠客户端，只可以特定人员使用，不能实现信息的共享。虽然可以帮助工作人员减少工作量，但从根本上还是无法满足用户的需求。这些软件都还是基于网络发展之初的要求，没有利用现代网络的技术，体现不了更为实用的功能。依靠客户端的系统开发时没有考虑园际化的问题，所以也满足不了国际化的要求。最近几年来，我国网络快速发展，传统的管理方式也越来越适应不了
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
HarmonyOS Next智能家居控制系统的模型转换与数据处理实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能家居控制系统中模型转换与数据处理技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能家居系统需求与技术选型（一）功能需求分析设备状态监测需求智能家居控制系统需要实时监测各种智能设
2025基金公司私有化部署趋势分析：技术自主权的崛起
标题：基金公司私有化部署：数据主权时代的战略选择与实战指南副标题：从DeepSeek到板栗看板，解密金融巨头如何用私有化部署重塑竞争力【热点引入：一场无声的金融科技革命】2025年2月，、十余家公募基金密集宣布完成DeepSeek大模型的私有化部署，这一现象登上财经热搜榜首。据不完全统计，超60%的头部基金公司已启动私有化部署计划，涉及投研、风控、客户服务等核心场景。这场革命背后的驱动力，正是金融
HarmonyOS Next数据处理与模型训练优化 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中数据处理与模型训练优化相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、数据处理对模型训练的重要性（一）关键作用强调在HarmonyOSNext的模型训练世界里，数据就如同建筑的基石，而数据处
「2024 年度技术精华盘点」IvorySQL & PostgreSQL 技术干货全解析！数据库
2024年，IvorySQL公众号持续输出高质量技术内容，涵盖PostgreSQL核心技术解析和IvorySQL创新实践两大方向。无论您是数据库领域的初学者，还是经验丰富的开发者，这些干货文章都能为您带来新的启发与实用价值。现在，让我们一起回顾这些精彩内容，探索数据库技术的无限可能！PostgreSQL技术干货PostgreSQL16中的新增功能：双向逻辑复制想要在多主数据库间实现无缝同步？Pos
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
如何选择最佳国外邮箱？注册、登录与购买指南 html
在如今的数字化时代，邮箱已经成为我们日常生活和工作中不可或缺的工具。无论是个人通信、商务往来，还是注册各种在线服务，一个功能强大、稳定可靠的邮箱都是必不可少的。而在众多国外邮箱服务中，如何选择最适合自己的邮箱？本文将以Zoho邮箱为例，为您详细讲解如何选择、注册、登录以及购买国外邮箱服务。一、为什么选择国外邮箱？在选择邮箱服务时，很多人会考虑国外邮箱。以下是国外邮箱的几大优势：隐私保护更强国外邮箱
信息获取、扫描与服务识别、漏洞验证、嗅探攻击、代理与隧道、metasploit渗透攻击等 Utopia.️ web安全安全网络
1.信息获取信息获取是渗透测试和安全评估的第一步，主要目的是收集目标系统的各种信息。这些信息可以帮助确定攻击面和潜在的安全漏洞。技术和工具：域名信息：使用whois查询域名注册信息。DNS查询：使用nslookup或dig获取DNS记录，包括A记录、MX记录等。网络扫描：使用nmap或Masscan扫描目标网络，收集IP地址和开放端口信息。公开信息：通过搜索引擎、社交媒体、公司网站等公开资源获取目
Android arcgis加载在线底图 Angie洛林 android arcgis
我整理的一些关于【信息系统】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/mic-position/757.html在Android中使用ArcGIS加载在线底图ArcGIS是Esri提供的一套强大的地理信息系统（GIS）解决方案，支持多种平台，包括Android。本文将介绍如何在Android应用中使用ArcGIS加载在线底图，并配有相关代码示
管理升级的关键：2024年6大国内项目管理平台实测与选择指南（禅道、钉钉、云效、简道云、Tapd、Teambition）
以下是一篇满足您要求的博客稿件：引言在当今快节奏的商业环境中，项目管理的重要性不言而喻。一款优秀的项目管理工具能够助力团队提高效率、优化流程，从而实现项目的成功交付。2024年，国内有众多项目管理平台可供选择，本文将对禅道、TAPD、云效、简道云、钉钉、Teambition这6大国内项目管理平台进行实测与分析，为您提供选择指南，帮助您找到最适合团队的项目管理工具。项目管理工具介绍禅道：开源且专业，
PHP会务会议系统小程序源码云启软件 PHP商业系统小程序 uni-app vue php
会务会议系统一款基于ThinkPHP+Uniapp框架，精心雕琢的会议管理微信小程序，专为各类高端会议场景量身打造。它犹如一把开启智慧殿堂的金钥匙，为会议流程优化、开支精细化管理、数量精准控制、标准严格设定以及供应商严格筛选等关键环节，铺设了一条标准化的高速公路。这一创新之举，不仅引领我们步入了量化成本节约的新时代，更在风险有效缓解与服务质量显著提升方面，树立了业界的全新标杆。会务平台——会议管理
使用Arcgis API for android加载OpenStreetMap底图并完成定位续汉冕移动开发 android android studio arcgis api
为了完成这个应用功能花了三天，代码倒不多就是比较坑！环境：AndroidSDKAPI22，AndroidStudio1.2.2，arcgisandroidSDK10.2.7如何基于ArcgisAPIforandroid在AndroidStudio新建一个项目就不再赘述了，大家可以参考以下网址：使用AndroidStudio与ArcgisandroidSDK的开发环境部署和HelloWorld：ht
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
PHP搜索引擎WindSearch，新增Faker伪数据生成功能
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。Faker数据生成安装导入//将WindSearch代码下载到本地，再像下面这样引入require_once'yourdirname/windsearch/vendor/autoload.php';开始生成//
java 实现TextRank算法提取文章摘要 melck java 算法开发语言
在Java中，常用的文章摘要提取库是“TextRank”算法。该算法从文本中提取主题和段落，并根据主题和文本中的单词计算权重。使用TextRank实现文章摘要提取具体步骤如下：寻找文章中的关键句子：首先需要分割出文章中的句子，可以使用分词库将文章拆分成句子，然后使用TextRank算法找到文章中与主题相关的句子，这些句子通常包含有标题、关键字等。计算句子的权重：针对关键句子，需要对每个句子计算权重
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

【数据挖掘与商务智能决策】第一、二章 数据分析与三重工具

前言