汪雯琦

机器学习之Numpy：Numpy介绍、N维数组-ndarray、基本操作、ndarray运算、数学矩阵、数组间运算（超长篇，建议收藏慢慢看）

文章目录

Numpy

学习目标

1 Numpy优势

学习目标
1 Numpy介绍
2 ndarray介绍
3 ndarray与Python原生list运算效率对比
4 ndarray的优势

4.1 内存块风格
4.2 ndarray支持并行化运算（向量化运算）
4.3 效率远高于纯Python代码

5 小结

2 N维数组-ndarray

学习目标
1 ndarray的属性
2 ndarray的形状
3 ndarray的类型
4 总结

3 基本操作

学习目标
1 生成数组的方法

1.1 生成0和1的数组
1.2 从现有数组生成

1.2.1 生成方式
1.2.2 关于array和asarray的不同

1.3 生成固定范围的数组
1.4 生成随机数组
1.4.1 使用模块介绍
1.4.2 均匀分布
1.4.3 正态分布

1.4.3.1 基础概念复习：正态分布（理解）

a. 什么是正态分布
b. 正态分布的应用
c. 正态分布特点

方差
标准差与方差的意义

1.4.3.2 正态分布创建方式

案例：随机生成8只股票2周的交易日涨幅数据
股票涨跌幅数据的创建

2 数组的索引、切片
3 形状修改
4 类型修改
5 数组的去重
6 小结

4 ndarray运算

学习目标
问题
1 逻辑运算
2 通用判断函数
3 np.where（三元运算符）
4 统计运算

4.1 统计指标
4.2 案例：股票涨跌幅统计运算

5 小结

5 数学：矩阵

学习目标
1 矩阵和向量

1.1 矩阵
1.2 向量

2 加法和标量乘法
3 矩阵向量乘法
4 矩阵乘法

练一练

5 矩阵乘法的性质
6 逆、转置
7 小结

6 数组间运算

学习目标
1 场景
2 数组与数的运算
3 数组与数组的运算
4 广播机制
5 矩阵运算

5.1 矩阵乘法api：
5.2 矩阵应用场景

6 小结

Numpy

学习目标

了解Numpy运算速度上的优势
知道数组的属性，形状、类型
应用Numpy实现数组的基本操作
应用随机数组的创建实现正态分布应用
应用Numpy实现数组的逻辑运算
应用Numpy实现数组的统计运算
应用Numpy实现数组之间的运算

1 Numpy优势

学习目标

目标
- 了解Numpy运算速度上的优势
- 知道Numpy的数组内存块风格
- 知道Numpy的并行化运算
应用
- 机器学习,深度学习各种框架的基础库

1 Numpy介绍

Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。

Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用Python要简洁的多。

Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。

2 ndarray介绍

NumPy provides an N-dimensional array type, the ndarray, which describes a collection of “items” of the same type.

NumPy提供了一个N维数组类型ndarray，它描述了相同类型的“items”的集合。

用ndarray进行存储：

import numpy as np

# 创建ndarray
score = np.array([[80, 89, 86, 67, 79],
[78, 97, 89, 67, 81],
[90, 94, 78, 67, 74],
[91, 91, 90, 67, 69],
[76, 87, 75, 67, 86],
[70, 79, 84, 67, 84],
[94, 92, 93, 67, 64],
[86, 85, 83, 67, 80]])

score

返回结果：

array([[80, 89, 86, 67, 79],
       [78, 97, 89, 67, 81],
       [90, 94, 78, 67, 74],
       [91, 91, 90, 67, 69],
       [76, 87, 75, 67, 86],
       [70, 79, 84, 67, 84],
       [94, 92, 93, 67, 64],
       [86, 85, 83, 67, 80]])

使用Python列表可以存储一维数组，通过列表的嵌套可以实现多维数组，那么为什么还需要使用Numpy的ndarray呢？

3 ndarray与Python原生list运算效率对比

在这里我们通过一段代码运行来体会到ndarray的好处

import random
import time
import numpy as np
a = []
for i in range(100000000):
    a.append(random.random())

# 通过%time魔法方法, 查看当前行的代码运行一次所花费的时间
%time sum1=sum(a)

b=np.array(a)

%time sum2=np.sum(b)

其中第一个时间显示的是使用原生Python计算时间,第二个内容是使用numpy计算时间:

CPU times: user 852 ms, sys: 262 ms, total: 1.11 s
Wall time: 1.13 s
CPU times: user 133 ms, sys: 653 µs, total: 133 ms
Wall time: 134 ms

从中我们看到ndarray的计算速度要快很多，节约了时间。

机器学习的最大特点就是大量的数据运算，那么如果没有一个快速的解决方案，那可能现在python也在机器学习领域达不到好的效果。

Numpy专门针对ndarray的操作和运算进行了设计，所以数组的存储效率和输入输出性能远优于Python中的嵌套列表，数组越大，Numpy的优势就越明显。

思考：ndarray为什么可以这么快？

4 ndarray的优势

4.1 内存块风格

ndarray到底跟原生python列表有什么不同呢，请看一张图：

从图中我们可以看出ndarray在存储数据的时候，数据与数据的地址都是连续的，这样就给使得批量操作数组元素时速度更快。

这是因为ndarray中的所有元素的类型都是相同的，而Python列表中的元素类型是任意的，所以ndarray在存储元素时内存可以连续，而python原生list就只能通过寻址方式找到下一个元素，这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list，但在科学计算中，Numpy的ndarray就可以省掉很多循环语句，代码使用方面比Python原生list简单的多。

4.2 ndarray支持并行化运算（向量化运算）

4.3 效率远高于纯Python代码

Numpy底层使用C语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受Python解释器的限制，所以，其效率远高于纯Python代码。

5 小结

numpy介绍【了解】
- 一个开源的Python科学计算库
- 计算器来要比python简洁高效
- Numpy使用ndarray对象来处理多维数组
ndarray介绍【了解】
- NumPy提供了一个N维数组类型ndarray，它描述了相同类型的“items”的集合。
- 生成numpy对象:np.array()
ndarray的优势【掌握】
- 内存块风格
  - list – 分离式存储,存储内容多样化
  - ndarray – 一体式存储,存储类型必须一样
- ndarray支持并行化运算（向量化运算）
- ndarray底层是用C语言写的,效率更高,释放了GIL

2 N维数组-ndarray

学习目标

目标
- 说明数组的属性，形状、类型
应用
- 无

1 ndarray的属性

数组属性反映了数组本身固有的信息。

属性名字	属性解释
ndarray.shape	数组维度的元组
ndarray.ndim	数组维数
ndarray.size	数组中的元素数量
ndarray.itemsize	一个数组元素的长度（字节）
ndarray.dtype	数组元素的类型

2 ndarray的形状

首先创建一些数组。

# 创建不同形状的数组
>>> a = np.array([[1,2,3],[4,5,6]])
>>> b = np.array([1,2,3,4])
>>> c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])

分别打印出形状

>>> a.shape
>>> b.shape
>>> c.shape

(2, 3)  # 二维数组
(4,)    # 一维数组
(2, 2, 3) # 三维数组

如何理解数组的形状？

二维数组：

三维数组：

3 ndarray的类型

>>> type(score.dtype)

<type 'numpy.dtype'>

dtype是numpy.dtype类型，先看看对于数组来说都有哪些类型

名称	描述	简写
np.bool	用一个字节存储的布尔类型（True或False）	‘b’
np.int8	一个字节大小，-128 至 127	‘i’
np.int16	整数，-32768 至 32767	‘i2’
np.int32	整数，-2 31 至 2 32 -1	‘i4’
np.int64	整数，-2 63 至 2 63 - 1	‘i8’
np.uint8	无符号整数，0 至 255	‘u’
np.uint16	无符号整数，0 至 65535	‘u2’
np.uint32	无符号整数，0 至 2 ** 32 - 1	‘u4’
np.uint64	无符号整数，0 至 2 ** 64 - 1	‘u8’
np.float16	半精度浮点数：16位，正负号1位，指数5位，精度10位	‘f2’
np.float32	单精度浮点数：32位，正负号1位，指数8位，精度23位	‘f4’
np.float64	双精度浮点数：64位，正负号1位，指数11位，精度52位	‘f8’
np.complex64	复数，分别用两个32位浮点数表示实部和虚部	‘c8’
np.complex128	复数，分别用两个64位浮点数表示实部和虚部	‘c16’
np.object_	python对象	‘O’
np.string_	字符串	‘S’
np.unicode_	unicode类型	‘U’

创建数组的时候指定类型

>>> a = np.array([[1, 2, 3],[4, 5, 6]], dtype=np.float32)
>>> a.dtype
dtype('float32')

>>> arr = np.array(['python', 'tensorflow', 'scikit-learn', 'numpy'], dtype = np.string_)
>>> arr
array([b'python', b'tensorflow', b'scikit-learn', b'numpy'], dtype='|S12')

注意：若不指定，整数默认int64，小数默认float64

4 总结

知道数组的基本属性，不同形状的维度表示以及数组的类型

3 基本操作

学习目标

目标
- 理解数组的各种生成方法
- 应用数组的索引机制实现数组的切片获取
- 应用维度变换实现数组的形状改变
- 应用类型变换实现数组类型改变
- 应用数组的转换
应用
- 应用正态分布实现模拟股票的涨跌幅数据操作

1 生成数组的方法

1.1 生成0和1的数组

np.ones(shape[, dtype, order])
np.ones_like(a[, dtype, order, subok])
np.zeros(shape[, dtype, order])
np.zeros_like(a[, dtype, order, subok])

>>> zero = np.zeros([3, 4])
array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

1.2 从现有数组生成

1.2.1 生成方式

np.array(object[, dtype, copy, order, subok, ndmin])
np.asarray(a[, dtype, order])

a = np.array([[1,2,3],[4,5,6]])
# 从现有的数组当中创建
a1 = np.array(a)
# 相当于索引的形式，并没有真正的创建一个新的
a2 = np.asarray(a)

1.2.2 关于array和asarray的不同

1.3 生成固定范围的数组

np.linspace (start, stop, num, endpoint)

生成等间隔的序列

start 序列的起始值
stop 序列的终止值，
num 要生成的等间隔样例数量，默认为50
endpoint 序列中是否包含stop值，默认为ture
# 生成等间隔的数组
np.linspace(0, 100, 11)

返回结果：

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.])

其它的还有
- numpy.arange(start,stop, step, dtype)
- numpy.logspace(start,stop, num)

np.arange(10, 50, 2)

返回结果：

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48])
# 生成10^x
np.logspace(0, 2, 3)

返回结果:

array([  1.,  10., 100.])

1.4 生成随机数组

1.4.1 使用模块介绍

np.random模块

1.4.2 均匀分布

np.random.rand(d0, d1, …, dn)

返回**[0.0，1.0)**内的一组均匀分布的数。
np.random.uniform(low=0.0, high=1.0, size=None)

功能：从一个均匀分布[low,high)中随机采样，注意定义域是左闭右开，即包含low，不包含high.

参数介绍:

low: 采样下界，float类型，默认值为0；

high: 采样上界，float类型，默认值为1；

size: 输出样本数目，为int或元组(tuple)类型，例如，size=(m,n,k), 则输出mnk个样本，缺省时输出1个值。

返回值：ndarray类型，其形状和参数size中描述一致。
np.random.randint(low, high=None, size=None, dtype=‘l’)

从一个均匀分布中随机采样，生成一个整数或N维整数数组，取数范围：若high不为None时，取[low,high)之间随机整数，否则取值[0,low)之间随机整数。

# 生成均匀分布的随机数
x1 = np.random.uniform(-1, 1, 100000000)

返回结果：

array([ 0.22411206,  0.31414671,  0.85655613, ..., -0.92972446,
0.95985223,  0.23197723])

画图看分布状况：

import matplotlib.pyplot as plt

# 生成均匀分布的随机数
x1 = np.random.uniform(-1, 1, 100000000)

# 画图看分布状况
# 1）创建画布
plt.figure(figsize=(10, 10), dpi=100)

# 2）绘制直方图
plt.hist(x=x1, bins=1000)  # x代表要使用的数据，bins表示要划分区间数

# 3）显示图像
plt.show()

1.4.3 正态分布

1.4.3.1 基础概念复习：正态分布（理解）

a. 什么是正态分布

正态分布是一种概率分布。正态分布是具有两个参数μ和σ的连续型随机变量的分布，第一参数μ是服从正态分布的随机变量的均值，第二个参数σ是此随机变量的方差，所以正态分布记作N(μ，σ )。

b. 正态分布的应用

生活、生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。

c. 正态分布特点

μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

标准差如何来？

方差

是在概率论和统计方差衡量一组数据时离散程度的度量

其中M为平均值，n为数据总个数，S为标准差，S^2可以理解一个整体为方差

标准差与方差的意义

可以理解成数据的一个离散程度的衡量

1.4.3.2 正态分布创建方式

np.random.randn(d0, d1, …, dn)

功能：从标准正态分布中返回一个或多个样本值
np.random.normal(loc=0.0, scale=1.0, size=None)

loc：float

此概率分布的均值（对应着整个分布的中心centre）

scale：float

此概率分布的标准差（对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高）

size：int or tuple of ints

输出的shape，默认为None，只输出一个值
np.random.standard_normal(size=None)

返回指定形状的标准正态分布的数组。

x2 = np.random.normal(1.75, 1, 100000000)

返回结果：

array([2.90646763, 1.46737886, 2.21799024, ..., 1.56047411, 1.87969135,
       0.9028096 ])
# 生成均匀分布的随机数
x2 = np.random.normal(1.75, 1, 100000000)

# 画图看分布状况
# 1）创建画布
plt.figure(figsize=(20, 10), dpi=100)

# 2）绘制直方图
plt.hist(x2, 1000)

# 3）显示图像
plt.show()

例如：我们可以模拟生成一组股票的涨跌幅的数据

案例：随机生成8只股票2周的交易日涨幅数据

8只股票，**两周(10天)**的涨跌幅数据，如何获取？

两周的交易日数量为：2 X 5 =10
随机生成涨跌幅在某个正态分布内，比如均值0，方差1

股票涨跌幅数据的创建

# 创建符合正态分布的8只股票10天的涨跌幅数据
stock_change = np.random.normal(0, 1, (8, 10))
stock_change

返回结果：

array([[-0.03862668, -1.46128096, -0.75596237,  0.89737022, -1.86978433,
         0.38845392,  1.14856354, -1.10912275,  1.28900021, -0.86801677],
       [ 1.8701446 ,  0.50407342, -0.74396489, -1.69641331, -0.89969227,
         2.42459765,  0.78987443, -0.82935223,  0.82546455,  0.40524289],
       [-1.7365776 , -0.81501515, -1.08974743, -1.4138561 ,  0.85495155,
         0.30076624, -2.0813311 ,  1.52886975,  0.62945643, -1.48714683],
       [-1.12084983, -0.63070289, -0.20677245, -0.49096973, -0.40551104,
        -0.46320893, -0.73190969,  0.00392486,  2.524498  ,  0.25843191],
       [ 0.05001371,  0.52267878,  1.31974783,  0.64840953,  1.56360431,
        -0.79233575,  1.47275167,  0.61070343, -0.33247221, -0.57492172],
       [ 0.7092757 ,  0.00928591,  0.27008373,  0.79050681, -0.95887888,
         0.03661459,  0.81303927, -0.54139691,  0.69623969,  0.06570421],
       [-1.40481949,  0.49151272,  1.01992235,  1.89152928, -0.76415623,
         0.3100241 ,  1.27156806, -1.76199057, -0.77419965, -0.17574386],
       [-0.21745814, -1.78433763, -0.7953073 ,  0.4765644 , -0.2589575 ,
         0.97014013,  1.67321489,  1.73370987,  0.29886514,  1.27186522]])

2 数组的索引、切片

获取第一个股票的前3个交易日的涨跌幅数据

# 二维的数组，两个维度 
stock_change[0, 0:3]

返回结果：

array([-0.03862668, -1.46128096, -0.75596237])

一维、二维、三维的数组如何索引？

# 三维，一维
a1 = np.array([ [[1,2,3],[4,5,6]], [[12,3,34],[5,6,7]]])
# 返回结果
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[12,  3, 34],
        [ 5,  6,  7]]])
# 索引、切片
>>> a1[0, 0, 1]   # 输出: 2

3 形状修改

让刚才的股票行、日期列反过来，变成日期行，股票列

ndarray.reshape(shape[, order]) Returns an array containing the same data with a new shape.

# 在转换形状的时候，一定要注意数组的元素匹配
stock_change.reshape([10, 8])
stock_change.reshape([-1,20])  # 数组的形状被修改为: (4, 20), -1: 表示通过待计算

ndarray.resize(new_shape[, refcheck]) Change shape and size of array in-place.

stock_change.resize([10, 8])

ndarray.T 数组的转置
- 将数组的行、列进行互换

stock_change.shape
(10, 8)
stock_change.T.shape
(8, 10)

4 类型修改

ndarray.astype(type)

stock_change.astype(np.int32)

ndarray.tostring([order])或者ndarray.tobytes([order]) Construct Python bytes containing the raw data bytes in the array.
- 转换成bytes

arr = np.array([[[1, 2, 3], [4, 5, 6]], [[12, 3, 34], [5, 6, 7]]])
arr.tostring()

拓展：如果遇到

IOPub data rate exceeded.
    The notebook server will temporarily stop sending output
    to the client in order to avoid crashing it.
    To change this limit, set the config variable
    `--NotebookApp.iopub_data_rate_limit`.

这个问题是在jupyer当中对输出的字节数有限制，需要去修改配置文件

创建配置文件

jupyter notebook --generate-config
vi ~/.jupyter/jupyter_notebook_config.py

取消注释,多增加

## (bytes/sec) Maximum rate at which messages can be sent on iopub before they
#  are limited.
c.NotebookApp.iopub_data_rate_limit = 10000000

但是不建议这样去修改，jupyter输出太大会崩溃

5 数组的去重

np.unique()

temp = np.array([[1, 2, 3, 4],[3, 4, 5, 6]])
>>> np.unique(temp)
array([1, 2, 3, 4, 5, 6])

6 小结

创建数组【掌握】
- 均匀
  - np.random.rand()
  - np.random.uniform(0, 1, 100)
  - np.random.randint(0, 10, 10)
- 随机（正态分布）
  - 里面需要关注的参数:均值:u, 标准差:σ
    - u – 决定了这个图形的左右位置
    - σ – 决定了这个图形是瘦高还是矮胖
  - np.random.randn()
  - np.random.normal(0, 1, 100)
数组索引【知道】
- 直接进行索引,切片
- 对象[:, :] – 先行后列
数组形状改变【掌握】
- 对象.reshape()
  - 没有进行行列互换,新产生一个ndarray
- 对象.resize()
  - 没有进行行列互换,修改原来的ndarray
- 对象.T
  - 进行了行列互换
数组去重【知道】
- np.unique(对象)

4 ndarray运算

学习目标

目标
- 应用数组的通用判断函数
- 应用np.where实现数组的三元运算
应用
- 股票涨跌幅数据逻辑运算

问题

如果想要操作符合某一条件的数据，应该怎么做？

1 逻辑运算

# 重新生成8只股票10个交易日的涨跌幅数据
>>> stock_change = np.random.normal(0, 1, (8, 10))
>>> stock_change = stock_change[0:5, 0:5]
# 逻辑判断, 如果涨跌幅大于0.5就标记为True 否则为False
>>> stock_change > 0.5
array([[ True, False, False,  True, False],
       [ True,  True, False, False, False],
       [ True, False,  True, False,  True],
       [False,  True, False, False, False],
       [False, False, False,  True,  True]])
# BOOL赋值, 将满足条件的设置为指定的值-布尔索引
>>> stock_change[stock_change > 0.5] = 1
array([[ 1.        , -0.72404879, -1.33045773,  1.        ,  0.3869043 ],
       [ 1.        ,  1.        ,  0.20815446, -1.67860823,  0.06612823],
       [ 1.        ,  0.42753488,  1.        , -0.24375089,  1.        ],
       [-0.971945  ,  1.        , -0.95444661, -0.2602084 , -0.48736497],
       [-0.32183056, -0.92544956, -0.42126604,  1.        ,  1.        ]])

2 通用判断函数

np.all()

# 判断stock_change[0:2, 0:5]是否全是上涨的
>>> np.all(stock_change[0:2, 0:5] > 0)
False

np.any()

# 判断前5只股票这段期间是否有上涨的
>>> np.any(stock_change[0:5, :] > 0 )
True

3 np.where（三元运算符）

通过使用np.where能够进行更加复杂的运算

np.where()

# 判断前四个股票前四天的涨跌幅 大于0的置为1，否则为0
temp = stock_change[:4, :4]
np.where(temp > 0, 1, 0)

复合逻辑需要结合np.logical_and和np.logical_or使用

# 判断前四个股票前四天的涨跌幅 大于0.5并且小于1的，换为1，否则为0
# 判断前四个股票前四天的涨跌幅 大于0.5或者小于-0.5的，换为1，否则为0
np.where(np.logical_and(temp > 0.5, temp < 1), 1, 0)
np.where(np.logical_or(temp > 0.5, temp < -0.5), 1, 0)

4 统计运算

如果想要知道涨幅或者跌幅最大的数据，应该怎么做？

4.1 统计指标

在数据挖掘/机器学习领域，统计指标的值也是我们分析问题的一种方式。常用的指标如下：

min(a[, axis, out, keepdims])
- Return the minimum of an array or minimum along an axis.
max(a[, axis, out, keepdims])
- Return the maximum of an array or maximum along an axis.
median(a[, axis, out, overwrite_input, keepdims])
- Compute the median along the specified axis.
mean(a[, axis, dtype, out, keepdims])
- Compute the arithmetic mean along the specified axis.
std(a[, axis, dtype, out, ddof, keepdims])
- Compute the standard deviation along the specified axis.
var(a[, axis, dtype, out, ddof, keepdims])
- Compute the variance along the specified axis.

4.2 案例：股票涨跌幅统计运算

进行统计的时候，axis 轴的取值并不一定，Numpy中不同的API轴的值都不一样，在这里，axis 0代表列, axis 1代表行去进行统计

# 接下来对于这4只股票的4天数据，进行一些统计运算
# 指定行 去统计
print("前四只股票前四天的最大涨幅{}".format(np.max(temp, axis=1)))
# 使用min, std, mean
print("前四只股票前四天的最大跌幅{}".format(np.min(temp, axis=1)))
print("前四只股票前四天的波动程度{}".format(np.std(temp, axis=1)))
print("前四只股票前四天的平均涨跌幅{}".format(np.mean(temp, axis=1)))

如果需要统计出哪一只股票在某个交易日的涨幅最大或者最小？

np.argmax(temp, axis=)
np.argmin(temp, axis=)

# 获取股票指定哪一天的涨幅最大
print("前四只股票前四天内涨幅最大{}".format(np.argmax(temp, axis=1)))
print("前四天一天内涨幅最大的股票{}".format(np.argmax(temp, axis=0)))

5 小结

逻辑运算【知道】
- 直接进行大于,小于的判断
- 合适之后,可以直接进行赋值
通用判断函数【知道】
- np.all()
- np.any()
统计运算【掌握】
- np.max()
- np.min()
- np.median()
- np.mean()
- np.std()
- np.var()
- np.argmax(axis=) — 最大元素对应的下标
- np.argmin(axis=) — 最小元素对应的下标

5 数学：矩阵

学习目标

目标
- 知道什么是矩阵和向量
- 知道矩阵的加法,乘法
- 知道矩阵的逆和转置

1 矩阵和向量

1.1 矩阵

矩阵，英文matrix，和array的区别矩阵必须是2维的，但是array可以是多维的。

如图:这个是 3×2 矩阵，即 3 行 2 列，如 m 为行，n 为列，那么 m×n 即 3×2\left[ \begin{matrix} 1 & 2 \ 3 & 4 \ 5 & 6 \end{matrix} \right]⎣⎡135246⎦⎤矩阵的维数即行数×列数

矩阵元素(矩阵项):A = \left[ \begin{matrix} 1 & 2 \ 3 & 4 \ 5 & 6 \end{matrix} \right]A=⎣⎡135246⎦⎤Aij 指第 i 行，第 j 列的元素。

1.2 向量

向量是一种特殊的矩阵，讲义中的向量一般都是列向量，下面展示的就是三维列向量(3×1)。)A = \left[ \begin{matrix} 1 \ 2 \ 3 \end{matrix} \right]A=⎣⎡123⎦⎤

2 加法和标量乘法

矩阵的加法:行列数相等的可以加。

例:\left[ \begin{matrix} 1 & 2 \ 3 & 4 \ 5 & 6 \end{matrix} \right] + \left[ \begin{matrix} 1 & 2 \ 3 & 4 \ 5 & 6 \end{matrix} \right] = \left[ \begin{matrix} 2 & 4 \ 6 & 8 \ 10 & 12 \end{matrix} \right]⎣⎡135246⎦⎤+⎣⎡135246⎦⎤=⎣⎡26104812⎦⎤矩阵的乘法:每个元素都要乘。

例:3 * \left[ \begin{matrix} 1 & 2 \ 3 & 4 \ 5 & 6 \end{matrix} \right] = \left[ \begin{matrix} 3 & 6 \ 9 & 12 \ 15 & 18 \end{matrix} \right]3∗⎣⎡135246⎦⎤=⎣⎡391561218⎦⎤组合算法也类似。

3 矩阵向量乘法

矩阵和向量的乘法如图：m×n 的矩阵乘以 n×1 的向量，得到的是 m×1 的向量

例:\left[ \begin{matrix} 1 & 3 \ 4 & 0 \ 2 & 1 \end{matrix} \right] * \left[ \begin{matrix} 1 \ 5 \end{matrix} \right] = \left[ \begin{matrix} 16 \ 4 \ 7 \end{matrix} \right]⎣⎡142301⎦⎤∗[15]=⎣⎡1647⎦⎤

1*1+3*5 = 16
4*1+0*5 = 4
2*1+1*5 = 7

4 矩阵乘法

矩阵乘法：

m×n 矩阵乘以 n×o 矩阵，变成 m×o 矩阵。

举例：比如说现在有两个矩阵 A 和 B，那么它们的乘积就可以表示为图中所示的形式。

练一练

答案:

5 矩阵乘法的性质

矩阵的乘法不满足交换律：A×B≠B×A

矩阵的乘法满足结合律。即：A×（B×C）=（A×B）×C

单位矩阵：在矩阵的乘法中，有一种矩阵起着特殊的作用，如同数的乘法中的 1,我们称这种矩阵为单位矩阵．它是个方阵，一般用 I 或者 E 表示，从左上角到右下角的对角线（称为主对角线）上的元素均为 1 以外全都为 0。如：

6 逆、转置

矩阵的逆：如矩阵 A 是一个 m×m 矩阵（方阵），如果有逆矩阵，则：

AA-1 = A-1A = I

低阶矩阵求逆的方法:

1.待定系数法

2.初等变换

矩阵的转置：设 A 为 m×n 阶矩阵（即 m 行 n 列），第 i 行 j 列的元素是 a(i,j)，即：

A=a(i,j)

定义 A 的转置为这样一个 n×m 阶矩阵 B，满足 B=a(j,i)，即 b (i,j)=a (j,i)（B 的第 i 行第 j 列元素是 A 的第 j 行第 i 列元素），记 AT =B。

直观来看，将 A 的所有元素绕着一条从第 1 行第 1 列元素出发的右下方 45 度的射线作镜面反转，即得到 A 的转置。

例：

7 小结

1.矩阵和向量【知道】
- 矩阵就是特殊的二维数组
- 向量就是一行或者一列的数据
2.矩阵加法和标量乘法【知道】
- 矩阵的加法:行列数相等的可以加。
- 矩阵的乘法:每个元素都要乘。
3.矩阵和矩阵(向量)相乘【知道】
- (M行, N列)*(N行, L列) = (M行, L列)
4.矩阵性质【知道】
- 矩阵不满足交换率,满足结合律
5.单位矩阵【知道】
- 对角线都是1的矩阵,其他位置都为0

6 数组间运算

学习目标

目标
- 说明数组间运算的广播机制
- 知道数组与数之间的运算
- 知道数组与数组之间的运算
- 理解矩阵的特点以及运算规则
- 应用np.matmul实现矩阵运算
应用
- 学生综合成绩矩阵运算

1 场景

数据：

[[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]

2 数组与数的运算

arr = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
arr + 1
arr / 2

# 可以对比python列表的运算，看出区别
a = [1, 2, 3, 4, 5]
a * 3

3 数组与数组的运算

arr1 = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
arr2 = np.array([[1, 2, 3, 4], [3, 4, 5, 6]])

上面这个能进行运算吗，结果是不行的！

4 广播机制

执行 broadcast 的前提在于，两个 ndarray 执行的是 element-wise的运算，Broadcast机制的功能是为了方便不同形状的ndarray（numpy库的核心数据结构）进行数学运算。

当操作两个数组时，numpy会逐个比较它们的shape（构成的元组tuple），只有在下述情况下，两个数组才能够进行数组与数组的运算。

维度相等
shape（其中相对应的一个地方为1）

例如：

Image (3d array):  256 x 256 x 3
Scale (1d array):              3
Result (3d array): 256 x 256 x 3

A      (4d array):  9 x 1 x 7 x 1
B      (3d array):      8 x 1 x 5
Result (4d array):  9 x 8 x 7 x 5

A      (2d array):  5 x 4
B      (1d array):      1
Result (2d array):  5 x 4

A      (3d array):  15 x 3 x 5
B      (3d array):  15 x 1 x 1
Result (3d array):  15 x 3 x 5

如果是下面这样，则不匹配：

A  (1d array): 10
B  (1d array): 12
A  (2d array):      2 x 1
B  (3d array):  8 x 4 x 3

思考：下面两个ndarray是否能够进行运算？

arr1 = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
arr2 = np.array([[1], [3]])

5 矩阵运算

5.1 矩阵乘法api：

np.matmul
np.dot

>>> a = np.array([[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]])
>>> b = np.array([[0.7], [0.3]])

>>> np.matmul(a, b)
array([[81.8],
       [81.4],
       [82.9],
       [90. ],
       [84.8],
       [84.4],
       [78.6],
       [92.6]])
>>> np.dot(a,b)
array([[81.8],
       [81.4],
       [82.9],
       [90. ],
       [84.8],
       [84.4],
       [78.6],
       [92.6]])

np.matmul和np.dot的区别:

二者都是矩阵乘法。 np.matmul中禁止矩阵与标量的乘法。在矢量乘矢量的內积运算中，np.matmul与np.dot没有区别。

5.2 矩阵应用场景

大部分机器学习算法需要用到

6 小结

1.数组运算,满足广播机制,就OK【知道】
- 1.维度相等
- 2.shape(其中对应的地方为1,也是可以的)
2.矩阵运算【掌握】
- np.matmul
- np.dot
- 注意：二者都是矩阵乘法。 np.matmul中禁止矩阵与标量的乘法。在矢量乘矢量的內积运算中，np.matmul与np.dot没有区别。

你可能感兴趣的:(【数据分析与挖掘】)

AI提示工程实战：从零开始利用提示工程学习应用大语言模型【附PDF】程序员丸子人工智能学习语言模型大模型自然语言处理 AI提示工程提示工程
01内容简介本书旨在探讨AI提示工程(通常简称提示工程或Prompt工程)在各领域的应用。大语言模型是人工智能领域的重要成果，在自然语言处理和生成任务中发挥着重要的作用。读者通过深入了解和应用提示工程，能充分挖掘和利用大语言模型的潜力，提升效率、促进创新，并解决实际问题。本书涵盖人工智能发展历程，提示工程的概念和设计原则、策略和技巧、不同领域的典型应用，以及数据分析与挖掘领域的应用。本书旨在以通俗
知识图谱智能应用系统：数据分析与挖掘技术文档光芒再现0394 知识图谱数据分析人工智能
一、概述在知识图谱智能应用系统中，数据分析与挖掘模块是实现知识发现和智能应用的核心环节。该模块负责处理和分析来自数据采集与预处理模块的结构化和半结构化数据，提取有价值的知识，并将其转化为可用于知识图谱构建和应用的三元组数据。本技术文档详细介绍了数据分析与挖掘模块中使用到的关键技术，包括SparkML、StanfordNLP、JNA、Jena、Python调用以及定时调度。二、技术栈介绍（一）Spa
文武双全！为什么数据分析师需要既懂业务又懂技术 R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。在企业中，数据分析
从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版 weixin_37988176
给大家带来的一篇关于数据挖掘相关的电子书资源，介绍了关于Python、数据分析、数据挖掘方面的内容，本书是由清华大学出版社出版，格式为PDF，资源大小67.8MB，刘顺祥编写，目前豆瓣、亚马逊、当当、京东等电子书综合评分为：7.5。内容介绍从零开始学Python数据分析与挖掘本书以Python3版本作为数据分析与挖掘实战的应用工具，从Pyhton的基础语法开始，陆续介绍有关数值计算的Numpy、数
商业分析能力是怎样炼成的？ R3eE9y2OeFcU40
感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。作者：接地气的陈老师链接：https://www.zhihu.com/question/
阿里云服务器内存型r7、r8a、r8y实例区别参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e、通用算力型u1实例来说，这些实例规格等性能更强，与计算型和通用型相比，它的内存更大，因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘，Hadoop、Spark集群等场景，本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。2核16G可
python金融数据分析与挖掘实战黄恒秋_金融数据分析与挖掘——股票时间序列数据处理... weixin_39849930 黄恒秋
1、什么是时间序列分析时间序列分析(timeseriesanalysis)方法,强调的是通过对一个区域进行一定时间段内的连续观察计算，提取相关特征，并分析其变化过程。时间序列分析主要有确定性变化分析和随机性变化分析确定性变化分析：移动平均法，移动方差和标准差、移动相关系数随机性变化分析：AR、ARMA模型2、移动平均法2.1移动窗口主要用在时间序列的数组变换，不同作用的函数将它们统称为移动窗口函数
阿里云服务器内存型r7、r8a、r8y实例区别及最新活动价格参考阿里云最新优惠和活动汇总
在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e和通用算力型u1等实例规格来说，这些实例规格等性能更强，适用于数据分析与挖掘，Hadoop、Spark集群、数据库、中间件、大数据等场景。本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格，以供参考。一、内存型实例规格族r7性能介绍1、r7的内存型、存储、网络
numpy和matplotlib小例子 Roy Teng numpy matplotlib
最近准备学《Python数据分析与挖掘实战》这本书，刚看到第二章numpy和matplotlib这一部分，发现这个图挺有意思的，就做个笔记记录一下，日后发现有意思的继续更。importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)y=np.sin(x)+1z=np.cos(x**2)+1plt.figure(figsize
Python3数据分析与挖掘建模（7）使用matplotlib和seaborn画图鮀城小帅 python 数据分析 matplotlib python 柱状图饼图
1.可视化分析1.1概述可视化分析是数据分析中重要的一环，它可以帮助我们更直观地理解数据的特征、趋势和关系。在Python中，有多个库可以用于数据可视化，包括matplotlib、seaborn和plotly等。1.2常用的可视化方法和对应的库：（1）折线图和曲线图：用于显示数据随时间或其他连续变量的变化趋势。可以使用matplotlib和seaborn来创建这些图形。（2）柱状图和条形图：用于比
面试算法LeetCode刷题班—BAT面试官带你刷真题、过笔试 Dan Boneh 高级程序设计算法
课程名称:《面试算法LeetCode刷题班》——BAT面试官带你刷真题、过笔试主讲老师:林老师BAT资深研发工程师(T7/P8级)，致力于搜索引擎及其子系统的研发、迭代与优化，数据分析与挖掘领域专家，多年担任校园招聘、社会招聘面试官，丰富的面试候选人经验。课程简介:掌握算法与数据结构是成为优秀程序员的必经之路，众多国内外知名互联网企业都将算法面试作为程序员招聘的重要和必需途径，只有高效应对各类题目
python财政收入预测分析_python 数据分析-- 实战1（收入预测分析） weixin_39572152 python财政收入预测分析
说明：本文用途只做学习记录：参考书籍：从零开始学Python数据分析与挖掘／刘顺祥著．—北京：清华大学出版社，2018首先看一下刘老师介绍的数据分析和数据挖掘的区别：1.预览数据集，明确分析目的通过Excel工具打开income文件，可发现该数据集一共有32561条样本数据，共有15个数据变量，其中9个离散型变量，6个数值型变量。数据项主要包括：年龄，工作类型，受教育程度，收入等，具体可见下面两个
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格阿里云最新优惠和活动汇总
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为2439.24元/1年起，购买4核32G配置活动价格最低为4499.88元/1年起，购买8核64G配置活动价格最低为8621.16元/1年起，本文介绍这些配置
《Python数据分析与挖掘实战》第12章——电子商务网站用户行为分析及服务推荐（协同推荐）数据探索分析篇①1 背景与目标分析2.数据探索分析 marraybug python
文章目录1背景与目标分析2.数据探索分析2.1网页类型分析2.1.1统计各个网页类型所占的比例2.1.2网页107类型中的内部统计2.1.3统计带"?"问号网址类型统计2.1.4统计199类型中的具体类型占比2.1.5统计瞎逛用户中各个类型占比2.2点击次数分析2.2.1统计点击次数2.2.2点击次数与用户数量关系2.2.3统计1~7次数及7次以上的点击数2.2.4浏览一次的用户行为分析2.3网页
阿里云服务器2024年2核16G、4核32G、8核64G配置最新收费标准及活动价格 qq_3304559116 阿里云阿里云服务器云计算
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8，这种配比的云服务器一般适用于数据分析与挖掘，Hadoop、Spark集群和数据库，缓存等内存密集型场景，因此，多为企业级用户选择，目前用户购买2核16G配置活动价格最低为1473.41元/1年起，购买4核32G配置活动价格最低为2896.42元/1年起，购买8核64G配置活动价格最低为5742.43元/1年起，本文介绍这些配置
并行化K-means聚类算法的实现与分析 OverlordDuke 聚类算法算法 kmeans 聚类并行聚类算法
并行化K-means聚类算法并行化K-means聚类算法的实现与分析项目背景与意义算法原理与串行实现分析并行化策略与关键细节实验结果与讨论未来改进方向结语并行化K-means聚类算法的实现与分析在大数据时代，对数据进行高效的聚类是数据分析与挖掘的重要工具之一。本文将介绍并讨论使用OpenMP在C++中实现的并行化K-means聚类算法。我们将深入探讨算法的原理、并行化策略以及实验结果，以期为相关领
从零开始学python第二版_从零开始学Python数据分析与挖掘-从零开始学Python数据分析与挖掘第二版pdf下载电子版-精品下载... weixin_39874366 从零开始学python第二版
从零开始学Python数据分析与挖掘第二版以Python3.7版本作为数据分析与挖掘实战的应用工具，从Python的基础语法开始，陆续介绍有关数值计算的numpy、数据处理的pandas、数据可视化的matplotlib和数据挖掘的sklearn等内容编辑推荐"为满足用人单位对数据分析和挖掘人员在编程方面的技能要求，本书遵循由浅入深的原则，详细地介绍了利用Python及其相关工具实现数据分析和挖掘
【毕设选题指导】2024 数据分析与挖掘方向毕业设计选题推荐 Mini_hailang_IT 毕设选题指导人工智能毕业设计算法数据挖掘数据分析毕设
目录前言数据挖掘方向选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。对毕设有任何疑问都可以问学
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
数据中台概念大数据驱动 #8数据中台-S级信息可视化大数据
数据中台1.数据中台模块数据采集数据存储数据处理数据分析数据应用2.数据中台的核心功能数据采集与集成数据清洗与预处理数据建模与存储数据分析与挖掘数据可视化与报告数据质量管理数据安全与隐私保护数据共享与开放3.如何建立数据中台确定业务需求收集数据源数据清洗和预处理数据建模和存储数据分析和挖掘数据可视化和报告数据质量管理数据安全和隐私保护数据共享和开放持续优化和升级4.数据中台的优点5.数据中台的缺点
1688商品数据API接口的数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析 java 数据库安全大数据
随着电子商务的发展，越来越多的商家开始将业务拓展到线上。而1688作为中国最大的B2B电商平台之一，其商品数量和交易额均居于世界前列。因此，对于商家来说，了解商品的实时信息非常重要，可以帮助他们更好地管理商品、制定营销策略等。本文将介绍如何使用API接口来获取1688商品详情。一、API简介1688提供了丰富的API接口，用于获取商品数据、交易数据、用户数据等。其中，商品详情API是常用的接口之一
Python环境下基于自适应滤波器的音频信号（wav格式）降噪方法哥廷根数学学派 python 开发语言
Python的集成环境我一般使用的是Winpython，Winpytho脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；Winpytho强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个文件夹，移动文件夹甚至放到U盘里在其他电脑上也能用。抛开软件包的差异，我个人也推荐初学者用winpython，
数据分析与挖掘简介数据蜗牛
20世纪40年代第一台数字计算机出现到90年代中期之前，信息化建设可归为以单机应用为主要特征的数字化阶段（可称为信息化1.0），而第一次的信息化浪潮，始自20世纪80年代个人计算机的大规模普及应用。从90年代中期开始，以美国提出“信息高速公路”建设计划为重要标志，互联网开始了其大规模商用进程，带来了信息化建设的第二次浪潮，即以联网应用为主要特征的网络化阶段（可称为信息化2.0）。当前，信息化建设的
电商API接口的大数据分析与挖掘技巧爱吃猫的菜菜 api接口数据分析信息可视化数据挖掘大数据数据库
随着电商行业的快速发展，电商平台上的交易数据量也越来越大。如何对这些数据进行分析和挖掘，从中获取有价值的信息，已经成为电商企业和开发者关注的重点。本文将介绍电商API接口的大数据分析与挖掘技巧。一、数据采集1.确定分析目标：在进行大数据分析之前，需要明确分析的目标和问题，以便针对性地采集数据。2.选择数据源：根据分析目标，选择合适的数据源。电商平台提供的API接口是获取数据的重要途径，可以通过调用
大数据分析与挖掘-期末复习大纲[HBU] 洛杉矶县牛肉板面 AI学习数据分析数据挖掘
前言这篇博客针对河北大学大数据分析与挖掘课程期末复习，目的是给同学们一个比较清晰的复习方向，具体的学习还需要平时认真听讲、写作业。我们使用的教材是这本：练习题目我只更新了部分答案，至于剩下的答案老师上课的时候会带着讲解的。在这里我只是为同学们提供一个复习纲要和复习方向。希望大家能快速抓到考试重点，不在其他方向上浪费精力。选择题答案：1.C2.D判断题答案：1.X2.√3.X4.X(若答案有误，请及
Pytorch环境下基于Transformer的滚动轴承故障诊断哥廷根数学学派 pytorch python 人工智能
关于python的集成环境，我一般Anaconda和winpython都用，windows下主要用Winpython，IDE为spyder（类MATLAB界面）。winpython脱胎于pythonxy，面向科学计算，兼顾数据分析与挖掘；Anaconda主要面向数据分析与挖掘方面，在大数据处理方面有自己特色的一些包；winpython强调便携性，被做成绿色软件，不写入注册表，安装其实就是解压到某个
Python+MySQL+PowerBI 抖音用户浏览行为数据分析与挖掘材哥儿 mysql python 数据库数据分析 powerbi 数据挖掘
项目概述：抖音作为当下最火热的短视频软件，探索其产生的数据可以得到极高的价值。本项目模拟从将csv文件导入python工具进行数据分析并对用户点赞预测建模分析，且将python处理后的数据存储到MySQL数据库中，最后用可视化工具输出分析结果，最终可以更好地进行内容优化、产品运营。数据具体字段信息：字段字段说明字段字段说明uid用户idlike是否点赞user_city用户城市music_id音乐
python数据分析与挖掘论文_《Python数据分析与机器学习实战-唐宇迪》读书笔记第10章-特征工程... weixin_39616477 python数据分析与挖掘论文
第10章特征工程特征工程是整个机器学习中非常重要的一部分，如何对数据进行特征提取对最终结果的影响非常大。在建模过程中，一般会优先考虑算法和参数，但是数据特征才决定了整体结果的上限，而算法和参数只决定了如何逼近这个上限。特征工程其实就是要从原始数据中找到最有价值的信息，并转换成计算机所能读懂的形式。本章结合数值数据与文本数据来分别阐述如何进行数值特征与文本特征的提取。10.1数值特征实际数据中，最常
数据分析与挖掘入门——学习笔记（八）Pandas基本操作、运算、画图和IO操作无敌的白金之星数据分析与挖掘
一、基本操作为了更好的理解这些基本操作，我们将读取一个真实的股票数据。关于文件操作，后面在介绍，这里只先用一下API#读取文件data=pd.read_csv("./stock_day/stock_day.csv")#删除一些列，让数据更简单些，再去做后面的操作data=data.drop(["ma5","ma10","ma20","v_ma5","v_ma10","v_ma20"],axis=1
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

机器学习之Numpy：Numpy介绍、N维数组-ndarray、基本操作、ndarray运算、数学矩阵、数组间运算（超长篇，建议收藏慢慢看）

文章目录

Numpy

学习目标

1 Numpy优势

学习目标

1 Numpy介绍

2 ndarray介绍

3 ndarray与Python原生list运算效率对比

4 ndarray的优势

4.1 内存块风格

4.2 ndarray支持并行化运算（向量化运算）

4.3 效率远高于纯Python代码

5 小结

2 N维数组-ndarray

学习目标

1 ndarray的属性

2 ndarray的形状

3 ndarray的类型

4 总结

3 基本操作

学习目标

1 生成数组的方法

1.1 生成0和1的数组

1.2 从现有数组生成

1.2.1 生成方式

1.2.2 关于array和asarray的不同

1.3 生成固定范围的数组

1.4 生成随机数组

1.4.1 使用模块介绍

1.4.2 均匀分布

1.4.3 正态分布

1.4.3.1 基础概念复习：正态分布（理解）

a. 什么是正态分布

b. 正态分布的应用

c. 正态分布特点

方差

标准差与方差的意义

1.4.3.2 正态分布创建方式

案例：随机生成8只股票2周的交易日涨幅数据

股票涨跌幅数据的创建

2 数组的索引、切片

3 形状修改

4 类型修改

5 数组的去重

6 小结

4 ndarray运算

学习目标

问题

1 逻辑运算

2 通用判断函数

3 np.where（三元运算符）

4 统计运算

4.1 统计指标

4.2 案例：股票涨跌幅统计运算

5 小结

5 数学：矩阵

学习目标

1 矩阵和向量

1.1 矩阵

1.2 向量

2 加法和标量乘法

3 矩阵向量乘法

4 矩阵乘法

练一练

5 矩阵乘法的性质

6 逆、转置

7 小结

6 数组间运算

学习目标

1 场景

2 数组与数的运算

3 数组与数组的运算

4 广播机制

5 矩阵运算

5.1 矩阵乘法api：

5.2 矩阵应用场景

6 小结

你可能感兴趣的:(【数据分析与挖掘】)