Die Kunst

Python numpy+pandas+matplotlib学习笔记

Python numpy+pandas+matplotlib

本文是根据b站路飞学城Python数据分析全套教程的学习视频整理归纳的学习文档，主要目的是方便自己进行查阅，详细的还得去b站看原视频。另外有很多文字都是根据我自己的理解写的，比较小白，欢迎指正。

文章目录

Python numpy+pandas+matplotlib
- Numpy 使用ipython编译
- - array 创建
  - array索引和切片
  - array布尔型索引
  - array花式索引
  - array通用函数
  - 统计方法和随机数生成
- Pandas
- - pandas介绍
  - Series
  - - series-一维数据对象
    - series整数索引问题
    - series数据对齐
    - series缺失值处理
    - series小结
  - DataFrame
  - - DataFrame的创建
    - DataFrame常用属性
    - DataFrame索引和切片
    - DataFrame-数据对齐与缺失数据
  - pandas常用函数
  - 时间对象
  - - 时间对象处理
    - 时间对象生成
    - 时间序列
  - 文件处理
  - - 文件读取
    - 文件写入
- Matplotlib 使用jupyter编译
- - matplotlib介绍
  - plot函数周边
  - pandas与Matplotlib
  - matplotlib画布与子图
  - matplotlib柱状图和饼图
  - matplotlib K线图
  - Tushare-金融数据接包口
  - 股票分析作业
  - 双均线分析作业

Numpy 使用ipython编译

array 创建

array()	将列表转换为数组，可选择显示指定dtype
arange()	range的numpy版，支持浮点数
linspace()	类似arange()，第三个参数为数组长度
zeros()	根据指定形状和dtype创建全0数组
ones()	根据指定形状和dtype创建全1数组
empty()	根据指定形状和dtype创建空数组（随机值）
eye()	根据指定边长和dtype创建单位矩阵

import numpy as np
np.array([1,2,3])
>>>array([1,2,3])

np.array([0]*10)
>>>array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

np.zeros(10)  # 此时该数组的dtype为float64 ，需转换为int才能正常输出0,后面的ones()同理
>>>array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
np.zeros(10, dtype='int')
>>>array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

np.ones(10, dtype='int')
>>>array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

np.arange(起始数，数字个数，步长)

np.linspace(起始数，最终数，数字个数)  # 最后得出的数组各数之间步长相同

array索引和切片

ndarray-批量运算
数组和标量之间的运算
a+1 a3 1//a a*0.5 a>5
同样大小数组之间的运算
a+b a/b a**b a%b a==b

import numpy as np

a = np.arange(10)
a
>>>array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
a+1
>>>array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
a*3
>>>array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

b = np.arange(10,20)
>>>array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])
a+b
>>> array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28])
a>b
>>>array([False, False, False, False, False, False, False, False, False,False], dtype=bool)

ndarray-索引
一维数组的索引：a[5]
多维数组的索引：
列表式写法： a[2]【3】
新式写法：a[2,3]

# 一维数组检索
a = np.arange(10)
a[0]
>>>0
# 二维数组检索
np.arange(15)
>>>array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10a, 11, 12, 13, 14])
a = np.arange(15).reshape((3,5))  # 一维数组转二维数组
>>>array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
a[0][0]
>>>0
a[0,0]
>>>0  # 两种写法

ndarray-切片
一维数组的切片：a[5:8] a[4:] a[2:10] = 1
多维数组的切片：a[1:2, 3:4] a[:, 3:5] a[:,1]
数组切片与列表切片的不同：数组切片时并不会自动复制（而是创建一个视图），在切片数组上的修改会影响原数组。
copy()方法可以创建数组的深拷贝

In [17]: a
Out[17]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [18]: a[0:4]
Out[18]: array([0, 1, 2, 3])
In [19]: a[4:]
Out[19]: array([4, 5, 6, 7, 8, 9])
In [20]: a[:4]
Out[20]: array([0, 1, 2, 3])  # 一维数组的三种切片方式
In [21]: b = list(range(10))
In [22]: b
Out[22]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
In [23]: c=a[0:4]
In [24]: d = b[0:4]
In [25]: c[0] = 20
In [26]: d[0] = 20
In [27]: c
Out[27]: array([20,  1,  2,  3])
In [28]: d
Out[28]: [20, 1, 2, 3]
# 二维数组
a = np.arange(15).reshape((3,5))
a
>>>array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
a[0:2,0:2]
>>>array([[0, 1],
       [5, 6]])
a[1:,2:4]  # 前一个代表行，后一个代表列
>>>array([[ 7,  8],
       [12, 13]])

array布尔型索引

Q1：给一个数组，选出数组中所有大于5的数

A1：a[a>5]

Q2: 给一个数组，选出数组中所有大于5的偶数

A2: a[(a>5) & (a%2==0)]

Q3: 给一个数组，选出数组中所有大于5的数和偶数

A3: a[(a>5) | (a%2==0)]

a = [random.randint(0,10) for i in range(20)]
a
>>>[3, 8, 7, 7, 2, 3, 7, 8, 4, 2, 0, 0, 6, 3, 9, 0, 1, 7, 6, 7]
a = np.array(a)  # 将a转化为数组
list(filter(lambda x:x>5,a))
>>>[8, 7, 7, 7, 8, 6, 9, 7, 6, 7]  # 原方法
a[a>5]  # 选出数组中所有大于5的数
>>>array([8, 7, 7, 7, 8, 6, 9, 7, 6, 7])
a>5  # 判断数组的每一位是否大于5
>>>array([False,  True,  True,  True, False, False,  True,  True, False, False, False, False,  True, False,  True, False, False,  True,  True,  True])
a = np.arange(4)
a
>>>array([0,1,2,3])
a[[True , False, True, False]]
>>>array([0, 2])  # 对应位的数字不显示

# Q1：给一个数组，选出数组中所有大于5的偶数
a = [random.randint(0,10) for i in range(20)]
a
>>>[10, 9, 0, 10, 6, 8, 0, 5, 7, 3, 10, 3, 10, 1, 9, 5, 9, 5, 8, 4]
a = np.array(a)  # 将a转化为数组
# 错误：a[a>5][a%2==0]
b =  a[a>5]
b
>>>array([10,  9, 10,  6,  8,  7, 10, 10,  9,  9,  8])
b = b[b%2==0]
b
>>>array([10, 10,  6,  8, 10, 10,  8])  # 第一种方法
a[(a>5) & (a%2==0)]
>>>array([10, 10,  6,  8, 10, 10,  8])  # 第二种方法

# Q2:筛选出数组中大于5的数和偶数
a[(a>5) | (a%2==0)]
>>>array([10,  9,  0, 10,  6,  8,  0,  7, 10, 10,  9,  9,  8,  4])

array花式索引

Q1:对于一个数组，选出其第1，3，4，6，7个元素，组成新的二维数组。

A1:a[[1,3,4,6,7]]

Q2:对一个二维数组，选出其第一列和第三列，组成新的二维数组。

A2:a[:,[1,3]]

a = np.arange(20)
a
>>>array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19])
# Q1
a[[1,3,4,6,7]]  
>>>array([1, 3, 4, 6, 7])
# Q2
a = np.arange(20).reshape(4,5)  # 转为二维数组
a
>>>array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])
 a[:,[1,3]]
>>>array([[ 1,  3],
       [ 6,  8],
       [11, 13],
       [16, 18]])
# 将6，8，16，18单独组成一个二维数组
a[[1,3],:][:,[1,3]]
>>>array([[ 6,  8],
       [16, 18]])

array通用函数

通用函数：能同时对数组中所有元素进行运算的函数
常见通用函数：
- 一元函数：abs,sqrt,exp,log,ceil,floor,rint,trunc,modf,isnan,isinf,cos,sin,tan
- 二元函数：add,substract,multiply,divide,power,mod,maximum,mininum

补充-浮点数特殊值

nan(Not a Number): 不等于任何浮点数(nan != nan)
nif(infinity): 比任何浮点数都大,趋于无限值
NumPy中创建特殊值： np.nan np.inf
在数据分析中，nan常被用作表示数据缺失值

a = np.arange(-5,5)
a
>>>array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4])
np.abs(a)   # 可以直接写abs(a)
>>>array([5, 4, 3, 2, 1, 0, 1, 2, 3, 4])
np.sqrt(a)
>>>array([nan, nan, nan, nan, nan, 0. , 1. , 1.41421356, 1.73205081, 2. ])
a = np.arange(-5.5,5.5)
a
>>> array([-5.5, -4.5, -3.5, -2.5, -1.5, -0.5,  0.5,  1.5,  2.5,  3.5,  4.5])
np.ceil(a)   # 向上取整，例1.2取2，-2.3取-3
>>>array([-5., -4., -3., -2., -1., -0.,  1.,  2.,  3.,  4.,  5.])
np.floor(a)  # 向下取整，例1.2取1，-2.3取-2
>>>	array([-6., -5., -4., -3., -2., -1.,  0.,  1.,  2.,  3.,  4.])
np.round(a)  # 四舍五入
>>>array([-6., -4., -4., -2., -2., -0.,  0.,  2.,  2.,  4.,  4.])
np.trunc(a)  # 向0取整，
>>>array([-5., -4., -3., -2., -1., -0.,  0.,  1.,  2.,  3.,  4.])
np.rint(a)  # 同round
np.modf(a)  # 将小数与整数部分分开
>>>(array([-0.5, -0.5, -0.5, -0.5, -0.5, -0.5,  0.5,  0.5,  0.5,  0.5,  0.5]),
 array([-5., -4., -3., -2., -1., -0.,  0.,  1.,  2.,  3.,  4.]))
a = np.arange(0,5)
>>> array([0, 1, 2, 3, 4])
b = a/a
b
>>>array([nan,  1.,  1.,  1.,  1.])
np.isnan(b)  # 判断数组内是否含有nan
>>>array([ True, False, False, False, False])
np.maximum(a,b)  # 取出每一位最大的数字
>>>array([nan,  1.,  2.,  3.,  4.])  # nan无法进行比较
np.minimum(a,b)  # 取出每一位最小的数字
>>>array([nan,  1.,  1.,  1.,  1.])

统计方法和随机数生成

统计方法		统计方法
sum	求和	min	求最小值
mean	求平均数	max	求最大值
std	求标准差	argmin	求最小值索引
var	求方差	argmax	求最大值索引

a = array([0, 1, 2, 3, 4])
a.sum()  # 求和
>>>10
a.mean()  # 求平均值
>>>2.0
a.var()  # 求方差，方差：每一位数减平均数后平方的和再除以数字的个数
>>>2.0
a.std()  # 求标准差，标准差及方差的开根
>>>1.4142135623730951
a.argmax()	# 求最大值索引，返回最大值的下标
>>>4

随机数生成

随机数函数在np.random子包内
- rand 给定形状产生随机数组（0到1之间的数）
- randint 给定形状产生随机整数
- choice 给定形状产生随机选择
- shuffle 与random.shuffle相同
- uniform 给定形状产生随机数组

np.random.randint(0,10,10)  # 随机生成10个0到10的整数,第三个参数为输出结果的shape，例如第三个参数为(3,5)将会生成三行五列的随机0到10的整数
>>>array([8, 6, 9, 7, 1, 1, 6, 3, 9, 0])
array([0, 1, 2, 3, 4])
np.random.shuffle(a)	# 打乱数组
a
>>>array([4, 0, 3, 2, 1])
np.random.rand(10)	# 随机生成0到1之间的数组，括号内为输出结果shape
>>>array([0.59299055, 0.62454554, 0.22663945, 0.19710862, 0.40294187, 0.69161135, 0.13875322, 0.62038921, 0.96111296, 0.32484364])
np.random.choice(a,(2,1))	# 在数组中随机选择输出，第二个参数为shape
>>>array([[3],
       [4]])
np.random.uniform(2.0,4.0,5)	# 生成范围内随机数组，第三个shape
>>>array([3.6005868 , 2.54784429, 2.62126056, 2.45776224, 2.68572162])

Pandas

pandas介绍

pandas是一个强大的Python数据分析的工具包，是基于Numpy构建的
pandas的主要功能：
- 具备对其功能的数据结构DataFrame、Series
- 集成时间序列功能
- 提供丰富的数学运算和操作
- 灵活处理缺失数据

Series

series-一维数据对象

series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。
创建方式：pd.Series([4,7,-5,3])

pd.Series([4,7,-5,3],index=[‘a’,‘b’,‘c’,‘d’])

pd.Series({‘a’:1,‘b’:2})

pd.Series(0,index=[‘a’,‘b’,‘c’,‘d’])
获取值数组和索引数组：values属性和index属性
Series比较像列表（数组）和字典的结合体

series-使用特性

series支持array的特性（下标）：	series支持字典的特性（标签）：
从ndarray创建Series:Series(arr)	从字典创建Series:Series(dic)
与标量运算：sr*2	in运算：‘a’ in sr
两个Series运算：sr1+sr2	键索引：sr[‘a’], sr[[‘a’, ‘b’, ‘d’]]
索引：sr[0], sr[[1,2,4]]
切片：sr[0:2]
通用函数：np.abs(sr)
布尔值过滤：sr[sr>0]

import pandas as pd
pd.Series([2,3,4,5])
>>>
0    2
1    3
2    4
3    5
dtype: int64
pd.Series([4,7,-5,3],index=['a','b','c','d'])  # 自定义索引
>>>
a    4
b    7
c   -5
d    3
dtype: int64
a = array([4, 0, 3, 2, 1])
pd.Series(a)	# 对数组
>>>
0    4
1    0
2    3
3    2
4    1
dtype: int32

series整数索引问题

整数索引的pandas对象往往会使新手抓狂

例：

sr = pd.Series(np.arange(4.))

sr[-1]

如果索引是整数类型，则根据整数进行下标获取值时总是面向标签。

解决方法：loc属性（将索引解释为标签）和iloc属性（将索引解释为下标）

sr = pd.Series(np.arange(20))
>>>
0      0
1      1
2      2
3      3
...
16    16
17    17
18    18
19    19
dtype: int32
sr2 = sr[10:].copy()
sr2
>>>
10    10
11    11
...
17    17
18    18
19    19
dtype: int32
sr2[10]		# 此时索引默认为标签，不推荐
>>>10
sr2.loc[10]		# 同sr2[10]，loc为属性，iloc相反
>>>10
sr2.iloc[9]		# 将索引解释为下标
>>>19

series数据对齐

例：
- sr1 = pd.Series([12,23,34],index=[‘c’, ‘a’, ‘d’])
- sr2 = pd.Series([11,20,10],index=[‘d’, ‘c’, ‘a’])
- sr1+sr2

会自动根据标签对齐，所以sr1+sr2 最终结果为

>>>
a    33
c    32
d    45
dtype: int64

如果数组sr2中有sr1中不存在的标签，则最后sr1+sr2的结果中该标签的值为NaN

(反之同理)

例：

sr1 = pd.Series([12,23,34],index=['c', 'a', 'd'])
sr2 = pd.Series([11,20,10,15],index=['d', 'c', 'a','b'])
sr1+sr2
>>>
a    33.0
b     NaN
c    32.0
d    45.0
dtype: float64

当sr1 = pd.Series([12,23,34],index=[‘c’, ‘a’, ‘d’])，

sr2 = pd.Series([11,20,10],index=[‘b’, ‘c’, ‘a’])时，sr1+sr2的结果中b标签和d标签的值分别为NaN，那如何使结果在索引’b’处的值为11，索引’d’处的值为34呢？

运用算术方法：add,sub,div,mul

sr1.add(sr2,fill_value=0)

series缺失值处理

例如 sr

sr
>>>
a    33.0
b     NaN
c    32.0
d     NaN
dtype: float64

在sr中索引’b’和’d’的值都是NaN，缺失状态。对这些缺失值的处理可以有以下几种方法。

1.删除

sr.isnull()	# 首先判断是否有缺失值
>>>a    False
b     True
c    False
d     True
dtype: bool
# sr.notnull()	返回结果与isnull()相反
sr[sr.notnull()]	# 可以删除缺失值
>>>
a    33.0
c    32.0
dtype: float64
sr.dropna()		# 可以删除缺失值

2.填充

sr.fillna(0)	# 将缺失值填充为'0'
>>>
a    33.0
b     0.0
c    32.0
d     0.0
dtype: float64
sr.fillna(sr.mean())	# 将缺失值填充为平均值
>>>
a    33.0
b    32.5
c    32.0
d    32.5
dtype: float64

series小结

series 数组+字典的集合体
整数索引 loc和iloc
数据对齐 nan
缺失数据处理 dropna fillna

DataFrame

DataFrame的创建

DataFrame-二维数据对象

DataFrame是一个表格型的数据结构，含有一组有序的列。DataFrame可以被看做是由Series组成的字典，并且共用一个索引。

创建方式：

pd.DataFrame({‘one’:[1,2,3,4], ‘two’:[4,3,2,1]})

pd.DataFrame({‘one’:pd.Series([1,2,3],index=[‘a’, ‘b’, ‘c’]), ‘two’:pd.Series([1,2,3,4],index=[‘b’, ‘a’, ‘c’, ‘d’])})

…

csv文件读取与写入：

df.read_csv(‘filename.csv’)

df.to_csv()

pd.DataFrame({
     'one':[1,2,3,4], 'two':[4,3,2,1]})
>>>
   one  two
0    1    4
1    2    3
2    3    2
3    4    1
pd.DataFrame({
     'one':pd.Series([1,2,3],index=['a', 'b', 'c']), 'two':pd.Series([1,2,3,4],index=['b', 'a', 'c', 'd'])})
>>>
 one  two
a  1.0    2
b  2.0    1
c  3.0    3
d  NaN    4

DataFrame常用属性

DataFrame-常用属性
index	获取行索引
T	转置行列
columns	获取列索引
values	获取值数组（二维数组）
describe()	获取快速统计

df
>>>
   one  two
0    1    4
1    2    3
2    3    2
3    4    1
df.index
>>>RangeIndex(start=0, stop=4, step=1)
df.values
>>>
array([[1, 4],
       [2, 3],
       [3, 2],
       [4, 1]], dtype=int64)
df.T	# 行列交换
>>>
     0  1  2  3
one  1  2  3  4
two  4  3  2  1
df.describe()	# 对每一列进行统计
>>>
            one       two
count  4.000000  4.000000
mean   2.500000  2.500000
std    1.290994  1.290994
min    1.000000  1.000000
25%    1.750000  1.750000
50%    2.500000  2.500000
75%    3.250000  3.250000
max    4.000000  4.000000

DataFrame索引和切片

DataFrame是一个二维数据类型，所以由行索引和列索引。
DataFrame同样可以通过标签和位置两种方法进行索引和切片
loc属性和iloc属性
- 使用方法：逗号隔开，前面是行索引，后面是列索引
- 行/列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配

DataFrame-数据对齐与缺失数据

DataFrame对象在运算时，同样会进行数据对齐，其行索引和列索引分别对齐
DataFrame处理缺失数据的相关方法：
- dropna(axis=0,where=‘any’,…)
- fillna()
- isnull()
- notnull()

df
>>>
  one  two
a    1.0    2.0
b    2.0    1.0
c    3.0    NaN
d    NaN    Nan
df.dropna()		# 删除NaN
>>>
  one  two
a    1.0    2.0
b    2.0    1.0
df.dropna(how='all')	# 删除都是NaN的行
>>>
  one  two
a    1.0    2.0
b    2.0    1.0
c    3.0    NaN
df.dropna(how='any')	# 默认，删除所有含有NaN的行
>>>
  one  two
a    1.0    2.0
b    2.0    1.0
df.drop(axis=1)		# 默认axis=0按行为标准，写成1后按列为标准

pandas常用函数

pandas-其他常用方法
mean(axis=0,skipna=False)	对列（行）求平均值
sum(axis=1)	对列（行）求和
sort_index(axis,…,ascending)	对列（行）索引排序按标签排序
sort_values(by,axis,ascending)	按某一列（行）的值排序
Numpy的通用函数同样适用于pandas

df = pd.DataFrame({
     'one':pd.Series([1,2,3],index=['a','b
   ...: ','c']),'two':pd.Series([5,2,1,6],index=['a','b','c
   ...: ','d'])})
>>>
   one  two
a  1.0    5
b  2.0    2
c  3.0    1
d  NaN    6
df.mean()		# 对列（行）求平均值 括号内axis值默认为0，若为1则对行求平均值
>>>
one    2.0
two    3.5
dtype: float64
df.sum()		# 求和 括号内参数与mean()相同
>>>
one     6.0
two    14.0
dtype: float64
df.sort_values(by='具体行',accending=False,axis=1或0)  # 其中accending表示升序，False则表示为降序，含有NaN的行不参与排序默认放到最后一行

时间对象

时间对象处理

时间序列类型：

时间戳：特定时刻

固定时间：如2017年7月

时间间隔：起始时间—结束时间

Python标准库处理时间对象：datetime

灵活处理时间对象：datautil

dateutil.parser.parse() # 无法处理中文格式但是可以处理JAN等缩写

成组处理时间对象：pandas

pd.to_datetime()

dateutil.parser.parse('20010130')	# 可以将任何格式的时间形式转换 
>>>datetime.datetime(2001, 1, 30, 0, 0)
pd.to_datetime(['2001.1.30','20010813'])	# 可以批量处理时间对象 无论格式是否相同
>>> DatetimeIndex(['2001-01-30', '2001-08-13'], dtype='datetime64[ns]', freq=None)

时间对象生成

产生时间对象数组：date_range
- start 开始时间
- end 结束时间
- periods 时间长度
- freq 时间频率，默认为’D’，可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es),S(econd),A(year),…

pd.date_range('2001.1.30','2001.8.13',periods=10)	# periods表示输出的时间个数
>>>
DatetimeIndex(['2001-01-30 00:00:00', '2001-02-20 16:00:00',
               '2001-03-14 08:00:00', '2001-04-05 00:00:00',
               '2001-04-26 16:00:00', '2001-05-18 08:00:00',
               '2001-06-09 00:00:00', '2001-06-30 16:00:00',
               '2001-07-22 08:00:00', '2001-08-13 00:00:00'],
              dtype='datetime64[ns]', freq=None)

时间序列

时间序列就是以时间对象为索引的Series或DataFrame。
datetime对象作为索引时是存储在DatetimeIndex对象中的。
时间序列特殊功能：
- 传入“年”或“年月”作为切片方式
- 传入日期范围作为切片方式
- 丰富的函数支持：resample(),truncate(),…

sr = pd.Series(np.arange(100),index=pd.date_range('200
   ...: 10130',periods=100))	# 首先生成以时间对象为索引的Series
>>>
2001-01-30     0
2001-01-31     1
              ..
2001-05-09    99
Freq: D, Length: 100, dtype: int32
sr['2001-03','2001-04']		# 然后可以根据具体的日期进行索引，可以对一个时间段进行索引
>>>
2001-03-01    30
2001-03-02    31
...
2001-03-30    59
2001-03-31    60
Freq: D, dtype: int32

#	一些函数

sr.resample('W').sum()	# resample()就是对括号内的单位时间进行重新采样，例如对将每一周的数据和统计出来就是上面这样，括号内的参数与时间对象创建的频率是一样的单位
>>>
2001-02-04     15
2001-02-11     63
2001-02-18    112
...
2001-05-13    294
Freq: W-SUN, dtype: int32
sr.truncate(before='2001-01-30')	# 该函数就是输出你输入的时间后的所有记录，功能类似切片，实用性不高，括号内还有after

文件处理

数据文件格式：csv（以某间隔符分割数据）
pandas读取文件：从文件名、URL，文件对象中加载数据
- read_csv 默认分隔符为逗号
- read_table 默认分隔符为制表符

文件读取

read_csv,read_table函数主要参数：
- sep 指定分隔符
- header=None 指定文件无列名
- name 指定列名
- index_col 指定某列作为索引
- skip_row 指定跳过某些行（不常用）
- na_values 指定某些字符串表示缺失值
- parse_dates 指定某些列是否被解析为日期，类型为布尔值或列表

pd.read_csv('training.csv',index_col='Time')	# 可以更改索引，这里是将第0列作为索引，index_col的参数也可以是自定义的列名，例如这里的Time
>>>
               ID name  score
Time
2001/1/1   202001    A     98
2001/1/2   202002    B     95
...
2001/1/11  202011    K     68
2001/1/12  202012    L     65
# 但是这里的Time序列无法直接进行检索，输出只是index，所以需要将其转化为时间序列
pd.read_csv('training.csv',index_col='Time'，parse_dates=['Time'])	# 可以指定其中一列转化为时间序列，如果parse_dates=True会自动转化

# 如果文件没有列名读取时会自动把第一行当作列名，为了避免这种情况会使用下面的方法
pd.read_csv('training.csv',header=None)
>>>0       1  2   3
0    2001/1/1  202001  A  98
...
11  2001/1/12  202012  L  65
pd.read_csv('training.csv',header=None,names=list('abcd'))	# 也可以指定输出列名
>>>
            a       b  c   d
0    2001/1/1  202001  A  98
1    2001/1/2  202002  B  95
...
11  2001/1/12  202012  L  65

文件写入

写入到csv文件：to_csv函数
写入文件函数的主要参数：
- sep 指定文件分隔符
- na_rep 指定缺失值转换的字符串，默认为空字符串
- header=False 不输出列名一行
- index=False 不输出行索引一列
- columns 指定输出的列，传入列表

df		# df[0,0]的位置值为NaN
>>>
            0       1  2   3
0         NaN  202001  A  98
1    2001/1/2  202002  B  95
...
11  2001/1/12  202012  L  65
df.to_csv('training.csv', header=False, index=False, na_rep='null', columns=[0,1,2,3])		# 此步骤可以将df存储的内容保存至training.csv中

pandas支持其他文件类型：json,XML,HTML,数据库,pickle,excel…

Matplotlib 使用jupyter编译

matplotlib介绍

数据可视化

Matplotlib是一个强大的Pytho绘图和数据可视化的工具包
安装方法：pip install matplotlib
引用方法：import matplotlib.pyplot as plt
绘图函数：plt.plot()
显示图像：plt.show()

plt.plot([1,2,3,4],[2,3,1,7])	# 折线图,第一个方括号里对应X轴的值，第二个方括号对应Y轴的值
plt.plot([1,2,3,4],[2,3,1,7],'o')	# 后面有个o是只用点点出来，'o-'的话就是点和线组成

plot函数：绘制折线图
- 线性linestyle(-,-.,–,…)
- 点型marker(v,^,s,*,H,+,x,D,o,…)
- 颜色color(b,g,r,y,k,w,…)
plot函数绘制多条曲线
pandas包对plot的支持

plot函数周边

Matplotlib-图像标注
设置图像标题：plt.title()	设置y轴范围：plt.ylim()
设置x轴名称：plt.xlabel()	设置x轴刻度：plt.xticks()
设置y轴名称：plt.ylabel()	设置y轴刻度：plt.yticks()
设置x轴范围：plt.xlim()	设置曲线图例：plt.legend()

plt.xticks(np.arange(0,11,2),['a','b','c','d','e','f'])
# 该行语句其中括号里第一个参数设置了x轴的长度以及步长，第二个参数将x轴的每一个数字替换成英文字母
plt.legend()
# 这个如果直接打上去是不会有任何的改变的，首先必须每一条线有lable属性，对应图例名称，例如plt.plot([1,2,3,4],[2,3,1,7],label='line 1')，这样才可以在图像空白处显示曲线图例

pandas与Matplotlib

df = pd.read_csv('training.csv', parse_dates=['Date'], index_col='Date')[['Name','Score']]
# 这里就是读取了training.csv文件，将Date标签设置为索引，然后再设置了需要显示的变量

题目：Matplotlib实例——绘制数学函数图像

使用Matplotlib模块再一个窗口中绘制数学函数y=x,y=x²，y=3x³+5x²+2x+1的图像，使用不同颜色的线加以区别，并使用图例说明各个线代表什么函数。

x = np.linspace(-100,100,10000)
y1 = x.copy()
y2 = x ** 2
y3 = 3*x**3+5*x**2+2*x+1
plt.plot(x,y1,label='y=x',color='red')
plt.plot(x,y2,label='y=x^2',color='green')
plt.plot(x,y3,label='y=3x^3+5x^2+2x+1',color='blue')
plt.ylim(-1000,1000)
plt.legend()
plt.show()

matplotlib画布与子图

画布：figure
- fig = plt.figure
图：subplot
- ax1 = fig.add_subplot(2,2,1)
调节子图间距：
- subplots_adjust(left,bottom,right,top,wspace,hspace)

# 举例
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax1.plot([1,2,3,4],[5,4,2,6])
ax2 = fig.add_subplot(2,2,2)
plt.show()

matplotlib柱状图和饼图

函数	说明
plt.plot(x,y,fmt,…)	坐标图
plt.boxplot(data,notch,position)	箱型图
plt.bar(left,height,width,bottom)	条形图
plt.barh(width,bottom,left,height)	横向条形图
plt.polar(theta,r)	极坐标图
plt.pie(data.explode)	饼图
plt.psd(x,NFFT=256,pad_to,Fs)	功率谱密度图
plt.specgram(x,NFFT=256,pad_to,F)	谱图
plt.cohere(x,y,NFFT=256,Fs)	X-Y相关性函数
plt.scatter(x,y)	散点图
plt.step(x,y,where)	步阶图
plt.hist(x,bins,normed)	直方图

# 柱状图
data = [21,22,41,100]	# 确定各值
labels = ['Jan','Feb','Mar','Apr']	# 确定各条的名字
plt.bar(np.arange(len(data)),data,color=['red','blue','yellow','green'])	# 确定属性，包括条形图的对应位置，值，以及各条的颜色 
plt.xticks(np.arange(len(data)),labels)	# 改变x轴
plt.show()

# 饼图
plt.pie([10,20,30,40],labels=['a','b','c','d'],autopct='%.2f%%',explode=[0.1,0,0,0])	# 这里面第一个参数是对应饼内各块的值，labels就是各块的标签，autopct可以设置值的显示形式，这里是百分号后显示两位小数，explode是可以让其中几块突出显示，括号内的数值指突出的距离
plt.axis('equal')	# 刻度等长
plt.show

matplotlib K线图

现在已经没有matplotlib.finance子包了，已经单独分离出mplfinance包

mplfinanace包中有许多绘制金融相关图的函数接口。

绘制k线图：mpf.plot()函数

import mplfinance as mpf
mpf.plot(data)	# data里为传入的数据

修改plot绘图类型

通过参数type修改绘图类型，默认是ohlc，可改为type='candle’或者type=‘line’

mpf.plot(data,type='candle')

增加绘制均线

关键字参数mav=(2,5,10),多条均线使用元组，只绘制一条均线，可以mav=10

mpf.plot(data,type='candle',mav=(2,5,10))
mpf.plot(data,type='candle',mav=(10,))

绘制成交量

关键字参数volume=True

mpf.plot(data,type='candle',mav=(2,5,10),volume=True)

自动剔除非交易日空白

关键字参数show_nontrading，默认是False，设置为True，就可以看到停盘的时间段

mpf.plot(data,type='candle',mav=(2,5,10),volume=True,show_nontrading=True)
# 由于上述读取的数据没有停盘时间段，因此绘图没有什么不同。

Tushare-金融数据接包口

Tushare是一个免费、开源的python财经数据接口包,更多信息可以上官网查看

tushare.org

需要另外安装一个Tushare的包pip install Tushare

import tushare as ts
ts.get_k_data('601318')		# 可以显示近几年该代码股票的交易情况

股票分析作业

使用tushare包获取某股票的历史行情数据
输出该股票所有收盘比开盘上涨3%以上的日期
输出该股票所有开盘比前日收盘跌幅超过2%的日期
假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import tushare as ts

# 获取该股票的历史行情数据
df = ts.get_k_data('601318',start='1988-01-01')
df.to_csv('601318.csv')  # 存储成csv文件
# 以时间为索引
df = pd.read_csv('601318.csv',index_col='date',parse_dates=['date'])

# 输出该股票所有收盘比开盘上涨3%以上的日期
df[(df['close']-df['open'])/df['open']>=0.03].index

# 输出该股票所有开盘比前日收盘跌幅超过2%的日期
df[(df['open']-df['close'].shift(1))/df['close'].shift(1)<=-0.02]
#shift()的功能是将该列的数据全部往下移一行，括号内的数字代表向下移几行，不知道该函数也可以用循环做

# 假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？
price_last = df['open'][-1]
df = df['2010-01':'2021-07']
df_monthly = df.resample('M').first()  # 重新取样，取每个月的第一天的数据并存储
df_yearly = df.resample('A').last()[:-1]  # 重新取样，取每年的最后一天的数据并存储
cost_money = 0
hold = 0
for year in range(2010,2022):
    
    cost_money = df_monthly[str(year)]['open'].sum()*100  # 买入所花费的钱
    hold += len(df_monthly[str(year)]['open'])*100  # 手中持有的股数
    if year !=2021:
        cost_money -= df_yearly[str(year)]['open'][0] * hold  # 卖出该年股票后花费的钱
        hold = 0
    print (cost_money)
        
cost_money -= hold * price_last
print (-cost_money)

双均线分析作业

查找历史金叉死叉日期

均线：对于没一个交易日，都可以计算出前N天的移动平均值，然后把这些移动平均值连起来，成为一条线，就叫做N日移动平均线。移动平均线常用线有5天、10天、30天、60天、120天、240天的指标。
- 5天和10天的是短线操作的参照指标，称做日均线指标；
- 30天和60天的是中期均线指标，称做季均线指标；
- 120天和240天的是长期均线指标，称做年均线指标。
金叉：短期均线上穿长期均线，买入信号
死叉：短期均线下穿长期均线，卖出信号

题目：

使用tushare包获取某股票的历史行情数据
使用pandas包计算该股票历史数据的5日均线和60日均线
使用matplotlib包可视化历史数据的收盘价和两条均线
分析输出所有金叉日期和死叉日期
假如我从2010年1月1日开始，初始资金为100000元，金叉尽量买入，死叉全部卖出，则到今天为止，我的炒股收益率如何？

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import tushare as ts
# 获取该股票的历史行情数据
df = ts.get_k_data('600519',start='2001-01-01')
df.to_csv('600519.csv',index=False)  # 存储成csv文件
# 以时间为索引
df = pd.read_csv('600519.csv',index_col='date',parse_dates=['date'])[['open','close','low','high']]
# 循环方法
# df['ma5'] = np.nan
# df['ma30'] = np.nan

# for i in range(4,len(df)):
#     df.loc[df.index[i],'ma5'] = df['close'][i-4:i+1].mean()
    
# for i in range(29,len(df)):
#     df.loc[df.index[i],'ma30'] = df['close'][i-29:i+1].mean()
# rolling方法 
df['ma5'] = df['close'].rolling(5).mean()
df['ma30'] = df['close'].rolling(30).mean()
# 画出三条线
df[['close','ma5','ma30']].plot()
plt.show()
# 方法1
# golden_cross = []
# death_cross = []
# for i in range(1,len(df)):
#     if df['ma5'][i] >= df['ma30'][i] and df['ma5'][i-1] < df['ma30'][i-1]:
#         golden_cross.append(df.index[i])
#     if df['ma5'][i] <= df['ma30'][i] and df['ma5'][i-1] > df['ma30'][i-1]:
#         death_cross.append(df.index[i])
# 方法2
sr1 = df['ma5'] < df['ma30']
sr2 = df['ma5'] >= df['ma30']

death_cross = df[sr1 & sr2.shift(1)].index
golden_cross = df[~(sr1 | sr2.shift(1))].index
first_money = 100000
money = first_money
hold = 0  # 持有股数
sr1 = pd.Series(1,index=golden_cross)
sr2 = pd.Series(0,index=death_cross)
sr = sr1.append(sr2).sort_index()
for i in range(0,len(sr)):
    p = df['open'][sr.index[i]]
    if sr.iloc[i] == 1:
        # 金叉
        buy = (money // (100 * p))
        hold += buy*100
        money -= buy*100*p
    else:
        # 死叉
        money += hold * p
        hold = 0
     
p = df['open'][-1]    
now_money = hold * p + money

print(now_money - first_money)

你可能感兴趣的:(python,笔记,python,numpy,pandas,matplotlib)

CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
fastapi和php,Sanic vs Fastapi 性能对比扫盲君 fastapi和php
Sanic，Fastapi都是优秀的pythonweb异步框架，找了半天没找到靠谱的性能对比测试，只能自己做一个。测试内容：纯get请求、异步ORM读测试工具：WRK测试代码：由于两者代码非常相似，本文就直接放上fastapi的代码demo了。1、纯get请求压测：1.1：代码代码demo1.2:结果1.2.1SanicRunning30stest@http://0.0.0.0:7006/4thr
基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现 rockmelodies 信息安全网络安全机器学习集成学习 python 机器学习人工智能
标题：基于异构特征融合与轻量级集成学习的软件漏洞挖掘方案设计与Python实现一、方案设计原理异构特征工程静态特征：基于AST的代码属性图（CPG）解析（使用Joern+NetworkX）动态特征：内存访问模式分析（通过QEMU模拟执行）上下文特征：CWE漏洞模式匹配（集成Semgrep规则引擎）轻量级模型架构
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
如何使用Flask或Django框架构建一个简单的Web应用？清水白石008 Python题库 python flask django 前端
如何使用Flask或Django框架构建一个简单的Web应用？Flask和Django是两个流行的PythonWeb框架，用于构建Web应用。Flask是一个轻量级、易于扩展的框架，而Django则是一个功能全面的框架，包含了更多开箱即用的工具和功能。下面将分别介绍如何使用Flask和Django构建一个简单的Web应用。使用Flask构建简单Web应用1.安装Flask首先，确保安装了Flask
Flask 高并发部署方案详细教程！爬遍天下无敌手
前言虽然标题写的是Flask，但是下面这个教程不仅仅只适用于Flask,还适用于其他Pythonweb框架，记得帮忙点赞！众所周知Flask是一个同步的框架，处理请求的时候是以单进程的方式，当同时访问的人数过多时，Flask服务就会出现阻塞的情况。就像我们买火车票一样，当买火车票的人多的时候，排队的人就会很多，队伍就会很长，相应的等待的时间会变得很长！因此Flask,Django，webpy等框架
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
【python】setuptools Eternal-Student Python python 开发语言
setuptools是Python的一个核心工具包，用于构建、打包和分发Python项目。它是Python生态系统中最重要的工具之一，主要用于定义项目的元数据（如名称、版本、依赖等）以及构建和安装过程。以下是关于setuptools的详细介绍：1.setuptools的主要功能setuptools提供了以下核心功能：项目元数据管理：定义项目的名称、版本、作者、描述、依赖等信息。通过setup()函
【Visual Studio 2019 C++ 编译器的路径添加到系统 PATH 环境变量】 Eternal-Student Windows visual studio c++java
对于某些Python包，特别是那些涉及本地扩展或需要编译C/C++代码的包，需要一个支持C++开发的环境。VisualStudio是一个全面的开发环境，它提供了编译器、调试器以及其他许多工具，这些工具对于开发和编译C++代码非常有用。下载网址：ThankYouforDownloadingVisualStudioCommunityEdition(microsoft.com)以下是安装VisualSt
元组（tuple）转换为列表（list） Eternal-Student Python list windows 数据结构
在编程中，特别是在Python中，经常需要将元组（tuple）转换为列表（list）。元组通常使用圆括号()表示，如(x,y)，而列表使用方括号[]表示，如[x,y]。以下是如何将(x,y)转换为[x,y]的详细方法和示例。一、单个元组转换为列表方法1：使用list()函数Python提供了内置的list()函数，可以将元组直接转换为列表。示例代码：#定义一个元组tuple_point=(3,5)
【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
人工智能_大模型091_大模型工作流001_使用工作流的原因_处理复杂问题_多轮自我反思优化ReAct_COT思维链---人工智能工作笔记0236 添柴程序猿大模型开发&神经网络人工智能大模型工作流 COT思维链 ReAct自我反思优化大模型工作流开发
#清理环境信息，与上课内容无关importosos.environ["LANGCHAIN_PROJECT"]=""os.environ["LANGCHAIN_API_KEY"]=""os.environ["LANGCHAIN_ENDPOINT"]=""os.environ["LANGCHAIN_TRACING_V2"]=""#安装所需要使用的包!pipinstallopenailanggraphA
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。