新兴IT民工

机器学习读书笔记：线性模型

文章目录

前言
线性回归
- 一元线性回归
- 一元线性回归python代码
- 多元线性回归
- 多元线性回归python代码
二分类问题
- 对数机率回归
- LDA-线性判别分析
多分类问题
- - 1对1 O(One) v O(One)
  - 一对其他 O(One) v R(Rest)
- 多对多 M(Many) v M & ECOC
类别不平衡

前言

从线性模型开始，就开始涉及到不同的学习算法和模型了。根据预测结果的不同，可以有几种类型的问题：

回归问题，也就是预测值为连续值， $\in R$ 。
分类问题，也就是预测值为离散值， $\in [C_1, C_2 ... C_n]$ 。
还有一种是一种特定的分类问题，也就是二分类。 $\in [TRUE, FALSE]$ 。

我自己对学习的理解就是想学习获得一个属性集合 $X$ 到预测值 $y$ 的一个映射： $x\in X$ 。 $f (x)$ 是未知的，机器学习的任务就是通过数据去猜 $f (x)$ 长什么样。但是猜不能瞎猜，得有章法的猜。线性模型就时假设预测值与属性集合之间是一个线性关系。后续的各种模型就是各种不同的猜法。

线性回归

一元线性回归

拿之前的栗子来说，假设火车晚点只与下雨的雨量有关系，而且假设雨量与晚点的时间成线性关系。那么这就是一个典型的一元线性回归问题。这个函数我们在初高中就学过：
$y = a x + b$
如果我们确定了等号右侧的参数a和b，每来一个数据属性x，自然就可以计算得到预测值y。

那么怎么得到参数a和b呢。当然是用已知的数据集，假设有数据集 $D=\{(x_i, y_i)\}_{i=1}^m$ ，也就是说有m个(x, y)这样的数据样本集。我们需要获得一个(a, b)参数，这个参数是的映射 $f (x)$ 在数据集 $D$ 上的输出与标记值的差异最小。那么怎么计算差异呢，直接计算输出值与标记值之间的差值就好： $f (x) - y$ ，但是因为会对所有的样本差异进行求和，此时会正负抵消，所以我们加个平方，变成：
$\sum_{i=1}^m{(f(x_i)-y_i)^2}$
然后因为 $f (x) = a x + b$ ，就把公式变成：
$\sum_{i=1}^m{(y_i-ax_i-b)^2}$
然后就是对a和b求偏导(各种公式变换，有兴趣的可以去看一下，编辑公式太费劲)，就可以得到a和b的取值了。

让这样一个数据偏差的乘方最小的方法就叫做**“最小二乘法”**。
$=\frac{\sum_{i=1}^m{y_i(x_i-\overline{x})}}{\sum_{i=1}^m{x_i^2} - \frac{1}{m}(\sum_{i=1}^m{x_i})^2}$

$\frac{1}{m}\sum_{i=1}^m{(y_i-ax_i)}$

我们用点数据来试一下。

一元线性回归python代码

关于雨量和晚点的问题，假设我们有10个样本：

(50, 3)

(45, 2.4)

(70, 4)

(75, 4.2)

(80, 4.1)

(30, 2)

(90, 7)

(80, 4.3)

(65, 3.5)

(70, 4.3)

将点画到坐标系中，再通过计算得到a和b(下面有python代码)，然后画一根 $y = a x + b$ 的直线：

可以看出，基本上还是贴着这些点过去的。

附代码如下：

import numpy as np;
import matplotlib.pyplot as plt;

x = [50,45,70,75,80,30,90,80,65,70];
y = [3,2.4,4,4.2,4.1,2,7,4.3,3.5,4.3];


plt.scatter(x,y,alpha=0.7)
plt.xlabel('rain');
plt.ylabel('time');


avarage_x = np.sum(x)/len(x);
a = np.sum(np.multiply(y,(x-avarage_x)));
b = np.sum(np.multiply(x,x));
c = np.sum(x)*np.sum(x)/len(x);

w = a/(b-c);
print(w);

b = np.sum(np.subtract(y,np.multiply(w,x)))/len(x);
print(b);

y_= np.multiply(w,x)+b;

plt.plot(x,y_);
plt.show();

多元线性回归

假设上面的a不止一个属性，比如上面的问题变成火车晚点由“雨量”、“乘车人数”、“风级”等一堆七七八八的原因导致，那么我们就需要获得这些属性的值。我们可以把 $a$ 从一个标量变成矢量 $a^T$ 。
$f(x_i) = a^Tx_i + b$
更进一步的，把常量 $b$ 也弄到向量里：令 $\hat{a} = (a^T;b)$ 。

和一元线性回归类似，我们也是使用最小二乘法去获得参数向量 $\hat{a}$ 。

把m个样本的d个属性组成一个矩阵 $X$ ，因为属性向量 $\hat{a}$ 将常量 $b$ 放进去了，为了满足矩阵乘法运算，所以将矩阵 $X$ 的最后一列置为1：
$\begin{bmatrix}x_{11}&x_{12}&...&x_{1d}&1\\ x_{21}&x_{12}&...&x_{1d}&1\\ ...&...&...&...&1\\ x_{m1}&x_{m2}&...&x_{mn}&1\end{bmatrix}$
“最小二乘法”的矩阵式为，求得一个向量 $\hat{a}$ ，使得：
$\hat{a} = min(y-Xa)^T(y-Xa)$
这里所有的乘法、减法都是矩阵计算，第一个括号里的 $y-Xa)^T$ 是对计算后的矩阵 $(y - X a)$ 进行转置操作。转置之后恰好可以与原矩阵 $(y - X a)$ 相乘，达到了和标量类似的 $y-f(x))^2$ 的效果。

同样，对上面的公式进行求导并使求导后的式子等于0得到：
$2X^T(Xa-y) = 0 \\ X^TXa = X^Ty \\ a = (X^TX)^{-1}X^Ty$
公式里的 $X^TX)^{-1}$ 是X的转置乘以X之后矩阵的逆矩阵。

在很多情况下，矩阵 $X^TX)$ 是不可逆的。这里我讲下我理解的工程：

矩阵 $X$ 是一个 $m * d$ 的矩阵，m为样本数(行数)；d为属性数(列数)；那么转置矩阵 $X^T$ 就是一个 $d * m$ 的矩阵。 $X^TX$ 就是一个 $d * d$ 的矩阵。
在很多情况下，样本的属性数是远大园样本数的，也就是 $d > m$ 。这就是在矩阵 $X^TX)$ 中有很多为0的整行，这样的矩阵是不可逆的。具体是啥原因，大家可以去翻一下矩阵相关的数学书，和矩阵的秩啊、行列式啊等七七八八的概念有关。

不可逆的话也不是说没办法，只是说无法求得准确的解析解。

如果选择偏好的话，也就是选择其中某些属性集 $d\prime$ ，就可以组成一个可逆的矩阵进行计算，因为这样的 $d\prime$ 集合有多个，所以就要选择偏好，比如那些重要的参数组成这个属性集。常见的做法是引入正则化
使用梯度下降法进行求解。

多元线性回归python代码

假设上面就是加入了乘车人数这一个属性，同样的搞10个样本出来：

(雨量，乘车人数，晚点时间)

(50, 100, 3)

(45, 80, 2.4)

(70, 120, 4)

(75, 140, 4.2)

(80, 120, 4.1)

(30, 80, 2)

(90, 140, 7)

(80, 100, 4.3)

(65, 90, 3.5)

(70, 95, 4.3)

通过 $X^TX)^{-1}X^Ty$ 来计算得到 $a$ 值。

参考代码：

import numpy as np;
import matplotlib.pyplot as plt;

x_1 = [50,45,70,75,80,30,90,80,65,70];
x_2 = [100,80,120,140,120,80,140,100,90,95];
b = [1,1,1,1,1,1,1,1,1,1];
y = [3,2.4,4,4.2,4.1,2,7,4.3,3.5,4.3];

X=[];
X.append(x_1);
X.append(x_2);
X.append(b);

Y=[]
Y.append(y);

X_T=np.matrix(X);
X_=np.matrix(np.transpose(X));
Y_=np.matrix(np.transpose(Y));


A = X_T*X_;

tt= A.I*X_T;
w = A.I*X_T*Y_

print(w)

print('new value coming: x=(100, 130)');
x1_new = 100;
x2_new = 130;

x_new = [100, 130, 1];

NEW = [];
NEW.append(x_new);

NEW_ = np.matrix(NEW);
y_new = NEW_*w

print('the new value is: ')
print(y_new);

计算得到的a值：

[[ 0.05277084]
[ 0.01405861]
[-1.07373189]]

结果：

new value coming: x=(100, 130)
the new value is:
[[6.03097126]]

预测在雨量100，乘车人数130的情况下，会晚点6分钟。

二分类问题

对数机率回归

书上给出了一个广义线性模型的概念，也就是说在上面提到的线性模型 $a^Tx + b)$ 的基础上，可以再叠加一个单调可微函数 $g (x)$ ，同样是满足线性关系。

然后再引入一个函数Sigmold函数：
$\frac{1}{1+e^{-z}}$
那么x，y的映射关系就变成了：
$\frac{1}{1+e^{-(a^T+b)}}$

将这个公式两边再变化一下：
$ln\frac{y}{1-y}=a^T+b$
通过这个公式就可以看出， $\frac{y}{1-y}$ 中，可以将y视作样本x为正例的比例，那么1-y就正好是样本x为反例的比例。两者一比基本上就可以看做是正例与反例的比例，也可以看做是正例的机率。再取个对数操作，所以叫做对数机率回归。

如果是满足对数机率回归的 $x^T,y)$ 的分类问题，需要使用梯度下降的方法来求解a和b。那个后续再说吧。

LDA-线性判别分析

LDA的思想是，计算每个正例和反例点到某条直线(二维)，或者平面(三维)上的投影，多维的情况也是投影计算。通过各种计算方法得到一个 $\omega$ ，是的正例之间的投影距离和最小，而反例和正例之间的投影距离最大。

至于后面那一串公式，实在看不懂。后续再说吧。

多分类问题

多分类问题，可以看成是多个二分类问题的组合。那么对于问题的拆分组合，有三种方式：

1对1 O(One) v O(One)

假设总体样本总共有N类，那么对N个样本分类进行一一配对，总共会有 $N (N - 1) / 2$ 中配对，每一个配对就是一个二分类问题。假设分类 $C_i$ 和 $C_j$ 在一个配对中，可以假设 $C_i$ 为正例， $C_j$ 为反例进行二分类训练。把同一个样本放到所有的 $N (N - 1) / 2$ 个分类器中去，每一个样本就有 $N (N - 1) / 2$ 个输出结果。此时就可以做一个决策问题了，比如最简单的，那种分类占比大就选哪个。

一对其他 O(One) v R(Rest)

假设总体样本总共有N类，首先挑出一个分类 $C_i$ ，将此类别作为正例，其他的都作为反例进行训练和输出。可以总共准备N个这样的分类算法，每次都选择一个 $C_i$ 作为正例，其他作为反例进行训练和测试。样本进入每个这个N个学习算法进行输出，同样需要做一个决策问题，可以选占比最大的那个,或者是置信度最高的那一个等等。

和OvO方式相比：OvR只需要训练N个算法就可以了，而OvO需要训练 $N (N - 1) / 2$ 个算法。明显是OvR比较划算。但是OvO每个算法的训练样本量是要低于OvR的，因为OvR的每个算法训练都需要将所有的样本进行训练，而OvO只需要将配对的相应类别( $C_i, C_j$ )的样本进行训练即可。所以，如果类别比较多的话，OvO的计算量也许还会小一点。

多对多 M(Many) v M & ECOC

多对多的话就没那么极端，选出若干个类别来作为正例，剩下的若干类别就成为反例。那么就有两个问题：

怎么分？
训练完了怎么决策？

直接来看一个比较常用的策略：ECOC（纠错输出码：Error Correcting Output Codes）。

这个书上文字描述的挺绕，举个栗子简单一点，假设我们有一个5分类的问题，

第一步就是把这些类别进行划分，N个类别进行M次划分，分别作为正例和反例，在ECOC方法中就叫做编码。

假设我们令M=4：

M1：{1， 3}为正例，{2，4，5}为反例。训练出来的算法为 $f_1(x)$ 。那么 $f_1(x)$ 对5个类别的编码情况如下(1表示正例，-1表示反例)：

1, -1, 1, -1, -1

M2：{2， 5}为正例，{1，3，4}为反例。训练出来的算法为 $f_2(x)$ 。那么 $f_2(x)$ 对5个类别的编码情况如下(1表示正例，-1表示反例)：

-1, 1, -1, -1, 1

M3：{2， 3， 5}为正例，{1，4}为反例。训练出来的算法为 $f_3(x)$ 。那么 $f_3(x)$ 对5个类别的编码情况如下(1表示正例，-1表示反例)：

-1, 1, 1, -1, 1

M4：{3， 5}为正例，{1，2，4}为反例。训练出来的算法为 $f_4(x)$ 。那么 $f_4(x)$ 对5个类别的编码情况如下(1表示正例，-1表示反例)：

-1, -1, 1, -1, 1

建立一个和书上类似的矩阵，这就完成了编码：

把测试样本丢到算法中去进行预测(解码)：

总共有2个样本如下：

(x, y)

(100, 1)

(132, 2)

假设第一个样本的预测值为： $f_1: 1, f2: -1， f_3: -1, f_4: -1$ ，那么，拿这个编码去上面的矩阵中匹配行，明显能匹配上C1行，那么这个样本的预测值就是1。

什么情况下纠错呢，假设第二个样本的预测值为： $f_1: -1, f2: 1， f_3: -1, f_4: -1$ 。此时，算法 $f_3$ 对样本判断失误。所以这个编码与上述编码矩阵中的每一行都匹配不上，此时，就需要求这个编码与每一行的距离了。以海明距离为例：此错误编码与C1的海明距离为2，与C2的海明距离为1，C3为4，C4为1，C5为4。此时，可能会被判断为C2类或者C5类。

这个时候能看出，如果某个算法发生错误，实际上是可以通过编码的距离来进行纠错的。

但是为啥我们这还是出了两个类别呢，这是因为我们的M不够多，对于有限类别，M的越多，纠错能力就越强，比如M=7。那么每个编码的码长就越长，错一个与其他编码的重复概率就会降低，有兴趣的可以去看一看编码相关的内容。

但是增加编码的代价是要增加算法的个数，也就也为这增加训练的计算量。

类别不平衡

假设训练样本中的正例、反例比例不平均，1000个样本中10个正例，990个反例。那么此时训练出来的算法对正例的判断能力是不够的，但是如果反例多的话，学习算法的准确率还是能达到99%。这样的算法是没有太大用处的。

解决这个问题的策略就是“再缩放”，简单的说就是减少这个比例的差异。

对反例进行“欠采样”，就是丢掉一些反例，自然训练集中的正例、反例比例下降了
对正例进行“过采样”，在正例里重复引入一些正例样本做为训练集。但是这样可能会破坏样本的一些分布信息。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
《对生命说是》读书笔记2021-5-27 Diana_58d9
静心技巧——换个视角看待问题。尝试一下这个实验，1坐在椅子上，允许自己全身心的沉浸在你最爱的问题当中，你知道头脑热爱咀嚼他们，记录当你被卷入问题时的感受。2站起来有意识地离开那张椅子，想象你现在离开了你的问题。缓缓的围绕椅子走一圈，从不同的角度看看你的问题。在房间中找一个远离问题的空间，开始仔细深入的看看这个问题，他是真实的还是你制造出来的，同样的状况对于其他人来说会是问题吗？3反复体会作战问题里
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
精力是碎片化时代的核心竞争力——精力管理介绍爱写作的harry
《掌控：开启不疲惫、不焦虑的人生》读书笔记精力是碎片化时代的核心竞争力精力包括身、心两个层面，包括体力、专注力和意志力等多个维度。在信息爆炸、全球化竞争的时代，谁的体力充沛，专注力和意志力更强，谁获胜的机会就更大。而要做到这些，不做精力管理，一切都是空谈。另外，人的精力是有限的，表现会有高低起伏，所以需要管理，需要规划使用。怎样才算做到了精力管理精力管理是指主动掌握自己的体力、专注力和意志力，让自
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
《经营者养成记》读书笔记分享 37度杉杉
何为经营者：变革的能力、赚钱的能力、建设团队的能力和追求理想的能力。读书笔记：（一）经营的含义1、所谓经营者，就是取得成果的人2、所谓经营者，是抱持使命感，将使命与成果相结合的人3、经营者必须是领导者，具备“建设团队的能力”4、经营者必须为使命而生的人，具备“追求理想的能力”（二）为什么必须培养经营者？一、变革的能力1、抱持高远的目标2、质疑常识，不受常识束缚3、树立高标准、不放松不放弃4、不畏风
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
财富自由之路读书笔记2 Elaine_a963
继续财富自由读书笔记，今天就第十-二十三章进行归纳总结思考。这本书可以说是边学边练的武功秘籍。秘籍一：注意力。先从认知上刷新，先前谈到价值的重要性及单位价值提升的必要性。这里就引出了：“注意力”是在任何地方“挖掘”价值的最基本工具。那么，要自如运用注意力，就得练习。这里李老师给的无他，就是基本功训练扎实-坐享。秘籍二：活在未来。再一次颠覆认知，大众的思维是活在当下，而这里指引我们要活在未来。用正确
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
读书笔记语馨_f389
王聪丽坚持分享第1008天《亲密关系》期望就是通往地狱之路，因为期望会把接受和让人自由等充满爱意的感觉挡在门外。如果我不能接受别人现在的样子或不让他们自由地走自己的路，那么我就不是真的爱他们，我只是想从他们身上得到满足，与他们建立亲密关系的目的并不是为了爱，而是为了满足我小小的自私需求。我们可以觉察一下，在潜意识里，我对他有什么要求。让人惊讶的是，不开心的原因往往是沉睡多年的需求。不论是用暗示还是
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
《掌控习惯》第二遍读书笔记尼古拉斯咚
这本书反反复复看了两遍，每一遍对书中的内容都有不同的认识；以下是我的读书笔记和行动感悟读书的笔记和感悟好习惯+复利的力量是巨大的，这个可能是老生常谈的话题，但当我真正意识到，并重新开始审视自己日常生活中的习惯时才发现，坏习惯让我自己每天有不少时间浪费在了平庸上，随着时间的消逝我损失的也越来越多；生活中经常说“做时间的朋友”，“延迟满足”之类的话，但这些都有一个前提条件是只有当你真正是养成了好的习惯
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &