算法小生

MLAPP(翻译)—第一章

1 什么是机器学习

我们沉浸在信息中，渴望知识。—约翰奈斯比特。

我们正在进入大数据时代。例如，大约有1万亿个网页；每秒钟有一小时的视频上传到youtube上，每天的内容相当于10年的总和；1000多人的基因组，每一个都有 $3.8\times 10^{9}$ 个碱基对，已被各种实验室测序；沃尔玛每小时处理超过100万笔交易，并且包含超过2.5千兆字节（ $2.5\times 10^{15}$ ）信息的数据库（Cukier 2010）等等。

这种大量的数据需要自动化的数据分析方法，这就是机器学习所提供的。特别是，我们将机器学习定义为一套可以自动检测数据中的模式，然后使用未发现的模式预测未来数据，或在不确定的情况下执行其他类型的决策（例如计划如何收集更多数据）。

本书认为解决这些问题的最好办法是使用概率论工具。概率论可以应用于任何涉及不确定性的问题。在机器学习中，不确定性有多种形式：给定一些历史数据如何做最好的预测？解释一些数据什么模型最好？执行下一步应该用什么测量等。机器学习的概率方法与统计领域相似，但在重点和术语方面略有不同。

我们将描述各种各样的概率模型，适用于各种各样数据和任务。我们还将描述各种学习和使用此类模型的算法。我们的目标不是开发一本专门技术的烹饪书，而是呈现一个统一的通过概率建模和推理的视角来观察这个领域。尽管我们会注意计算效率，但是关于如何将这些方法扩展到真正的海量数据集的细节在其他书籍中有更好的描述，如（Rajaraman and Ullman 2011; Bekkermanet al. 2011）

然而，应该注意的是，即使一个人有一个明显巨大的数据集，对于某些感兴趣的情况，数据点的有效数量可能非常少。实际上，跨越各种域的数据表现出称为长尾的属性，这意味着一些事物（例如，单词）非常常见，但大多数事物都非常罕见（见第2.4.6节详细信息）。例如，每天有20%的谷歌搜索从未出现过。这个意味着我们在本书中讨论的核心统计问题，涉及到从相对较小的样本量中归纳，仍然是非常重要，即使在大数据时代。

1.1 机器学习的分类

机器学习通常分为两种主要类型。在预测或监督学习方法，目标是学习一种映射从输入x到输出y，在给定输入输出对标签 $D=\left \{(x_i,y_i) \right \}_{i=1}^N$ ，这里D被叫为训练集，N是训练样本数量。在最简单的设置中，每个训练输入用数值的D维向量表示，比如说，一个人的身高和体重。这些被叫特征，属性或者协变量。然而，一般来说，可以是一个复杂的结构化对象，例如图像，句子，电子邮件消息，时间序列，分子形状，图形等。

同样，输出或反应变量的形式原则上可以是任何形式，但是大多数方法都假定是来自某个有限集的分类或定类变量， $y_i\in \left \{ 1,\cdots ,C \right \}$ (如男性或女性)，或者是一个实值的标量（如收入水平）。当是分类时，问题被称为分类或模式识别，当是实值时，这个问题被称为回归，另一种变体，被称为序数回归，出现在标签空间y具有一些自然顺序的地方，例如等级a-f。

机器学习的第二种主要类型是描述性的或无监督的学习方法。这里我们只给出给定的输入， $D=\left \{ x_i \right \}_{i=1}^N$ ，目标是在数据中找到“有趣模式”。这是一个很少被明确定义的问题，因为我们没有被告知需要寻找什么样的模式，并且没有明显的误差度量标准可供使用（与监督学习不同，我们可以将给定x的y预测与观察值进行比较）。

还有第三种类型的机器学习，称为强化学习，这种学习很少被使用。这对于如何学习行动或行为是很有用，当给定偶尔的奖励或惩罚信号时。（例如，考虑婴儿如何学会走路）不幸的是，RL超出了本书的范围，尽管我们确实在第5.7节中讨论RL的基础决策理论。参见例如（Kaelbling et al. 1996; Sutton and Barto 1998;Russell and Norvig 2010; Szepesvari 2010; Wiering and van Otterlo 2012）了解更多信息关于RL。

(a)

(b)

图1.1左：一些彩色形状的标记训练示例，以及3个未标记的测试用例。右：将训练数据表示为N×D设计矩阵。行i代表特征向量。最后一列是标签， $y_i\in\left \{ 0,1 \right \}$ 。根据Leslie Kaelbling的一个数字。

2 监督学习

我们从讨论监督学习开始对机器学习的研究，这是在实践中最广泛使用的ML形式。

2.1 分类

在本节中，我们将讨论分类。这里的目标是学习从输入x到输出y的映射，其中 $y\in \left \{ 1,\cdots ,C \right \}$ ，其中c是类的数目。如果c=2，这被称为二分类（在这种情况下，我们通常假设 $y\in\left \{ 0,1 \right \}$ ）；如果c>2，这被称为多类分类。如果类标签不是互斥的（例如，某人可能被分类为高的和强壮的），我们将其称为多标签分类，但最好将其视为预测多个相关的二分类标签（所谓的多输出模型）。当我们使用术语“分类”时，我们将指具有单个输出的多类分类，除非我们另有说明。

将问题形式化的一种方法是函数逼近。对于一些未知的函数f，我们假设，学习的目的是估计函数f在给定一个标记训练集上，然后使用进行预测。（我们用帽子符号表示一个估计）我们的主要目标是对新输入进行预测，这意味着我们以前没有见过（这称为泛化），因为预测训练集上的输出很容易（我们只需查找答案）。

2.1.1 例子

作为分类的简单玩具示例，请考虑图中1.1(a)所示的问题。我们有两类对象，分别对应标签0和1。输入是彩色形状。这些已由一组D特征或属性描述，这些特征或属性存储在N×D设计矩阵X中，如图1.1（b）所示。输入特征x可以是离散的，连续的或两者的组合。除了输入之外，我们还有一个训练标签y的向量。

在图1.1中，测试用例是蓝色新月形，黄色圆形和蓝色箭头。以前都没有见过这些。因此，我们需要在训练集之外进行概括。一个合理的猜测是蓝色新月应该是y = 1，因为所有蓝色形状在训练集中都标记为1。黄色圆圈是难分类，因为一些黄色的东西被标记为y = 1而一些被标记为y = 0，并且一些圆圈被标记为y = 1一些y = 0。因此，在黄色圆圈的情况下，不清楚正确的标签应该是什么。同样，蓝色箭头的正确标签也不清楚。

2.1.2 概率预测的必要

要处理不明确的情况，如上面的黄色圆圈，需要返回一个概率。假定读者已经对概率的基本概念有了一些熟悉。如果没有，有必要，请参阅第2章进行复习。

在给定输入向量x和训练集D，我们将通过表示可能标签上的概率分布。通常，这表示长度为C的向量。（如果只有两个类，只返回单个就足够了，因为p（y = 1 | x，D）+ p（y =0 | x，D）= 1）在我们的符号中，我们明确表示概率是在测试输入x和训练集d上，将这些条件放在竖线的右侧。我们也在隐式地调节我们用来做预测模型的形式。在选择不同的模型时，我们将通过写p（y| x，d，m）来明确这个假设，其中m表示模型。但是，如果模型在上下文中是清晰的，为了简洁起见，我们将从符号中去掉m。

给定概率输出，我们总是能够使用“真实标签”来计算我们的“最佳猜测”

$\hat{y}=\hat{f(x)}=ar\overset{c}{}g\underset{c=1}max p(y=c|x,D))$

这对应于最可能的类标签，被称为分布p（y| x，d）的模式；它也被称为map估计（map代表最大后验概率）。使用最可能的标签是直观的，但是我们将在第5.7节中给出这个过程更正式的理由。

现在考虑一个例子，例如黄色圆圈，其中 $p(\hat{y}|x,D)$ 远离1.0。在这种情况下，我们对自己的答案不是很有信心，所以最好说“我不知道”，而不是返回一个我们并不真正信任的答案。正如我们在第5.7节中所解释的，这在医学和金融等我们可能会规避风险的领域尤为重要。评估风险很重要的另一个应用程序是在播放电视游戏节目时，例如jeopardy。在这个游戏中，参赛者必须解决各种字谜和回答各种琐碎的问题，但如果回答错误，他们就会赔钱。2011年，ibm推出了一款名为watson的计算机系统，它击败了人类最危险的冠军。Watson使用了各种有趣的技术（Ferrucci等人，但就我们目前的目的而言，最相关的是它包含了一个模块，可以估计它对自己的答案有多自信。系统只有在充分确信答案是正确的情况下才会选择“嗡嗡”作响。类似地，谷歌也有一个名为smartass（广告选择系统）的系统，它可以根据你的搜索历史和其他用户、广告特定功能预测你点击广告的概率（metz 2010）。这种可能性被称为点击率或CTR,，可用于最大化预期利润。我们将在本书后面讨论系统背后的一些基本原则，比如smartass。

图1.2 20个新闻组数据中16242 x 100大小的子集。为了清楚起见，我们只显示1000行每一行是一个文档（表示为词袋模型字位向量），每一列是一个字。红线分隔了4个类，它们是（按降序排列的）comp、rec、sci、talk（这些是usenet组的标题）我们可以看到有一些词的子集，它们的存在或不存在都表示这个类。数据来自http://cs.nyu.edu/~roweis/data.html.NewsGroupsVisualize生成的图

1.2.1.3 真实世界的应用

分类可能是最广泛使用的机器学习形式，并已被使用来解决许多有趣的、通常很困难的现实问题。我们已经提到了一些重要的应用。下面我们再举几个例子。

文档分类和垃圾邮件过滤

在文档分类中，目标是对文档进行分类，例如网页或电子邮件消息，分为C类之一，即计算p（y = c | x，D），其中x是某些的文本表示。一个特例是垃圾邮件过滤，其中的类是垃圾邮件y = 1或y = 0。

大多数分类器假设输入向量x的大小是固定的。用特征向量方式表示可变长度文档的一种常见方法是使用词袋表示法。这在第3.4.4.1节中有详细的解释，但基本思想是定义 $x_{ij}=1$ iff单词j在文档i中发生。如果我们将此转换应用于我们数据集中的每个文档，我们将得到二进制文档×词共现矩阵：示例见图1.2。本质上，文档分类问题已经简化为寻找位的模式。例如，我们可能会注意到大多数垃圾邮件很可能包含“买”，“便宜”，“伟哥”等字样。在练习8.1和练习8.2中，您将获得将各种分类技术应用于垃圾邮件过滤问题的实践经验。

（a）（b）（c）

图1.3 鸢尾花的三种类型：山鸢尾，变色鸢尾和维吉尼亚鸢尾.来源:http://www.statlab.uni-heidelberg.de/data/iris/.在马丁·克拉姆和西娜的允许下使用

图1.4虹膜数据作为成对散点图的可视化。对角线绘制4个特征的边缘直方图。非对角线包含所有可能特征对的散点图。红圈=山鸢尾，绿钻石=变色鸢尾，蓝星=维吉尼亚鸢尾。Fisheririsdemo生成的图形

分类花

图1.3给出了另一个分类示例，由统计学家Ronald Fisher提供。目标是学会区分三种不同的鸢尾花，称为山鸢尾，变色鸢尾和维吉尼亚鸢尾。

（a）

（b）

图1.5（a）前9个测试mnist灰度图像。（b）与（a）相同，但特征是随机排列的。两个版本的数据的分类性能相同（假设训练数据以相同的方式排列）。由ShuffledDigitsDemo生成的图。

幸运的是，植物学家没有直接处理图像，而是提取了4个有用的特征或特点：萼片的长度和宽度，以及花瓣的长度和宽度。（这种特征提取是一项重要而困难的任务。大多数机器学习方法使用一些人为选择的特性。稍后我们将讨论一些可以从数据中学习好特性的方法。）如果我们对鸢尾花数据做一个散点图，如图1.4所示，我们可以通过检查它们的花瓣长度或宽度是否低于某个阈值，很容易将山鸢尾（红色圆圈）与其他两类区分开来。然而，从维吉尼亚鸢尾中区分变色鸢尾，是稍微困难的；任何决定都需要基于至少两个特性（在应用机器学习方法之前，最好先进行探索性数据分析，例如绘制数据）。

图像分类与笔迹识别

现在考虑直接对图像进行分类的难题，人类没有对数据进行预处理。我们可能想要将图像整体分类，例如，它是室内还是室外场景？它是水平还是垂直的照片？它是否包含一只狗？这称为图像分类。

在特殊情况下，图像由孤立的手写字母和数字组成，例如，在信件上的邮政编码或ZIP编码中，我们可以使用分类来执行手写识别。在该领域中使用的标准数据集称为MNIST，其代表“Modified National Institute of Standards”。（使用“modified”一词是因为图像已经过预处理，以确保数字大部分位于图像的中心）该数据集包含60000个训练图像和10000个由不同的人编写的数字0到9的测试图像。图像大小为28×28，具有灰度范围为0:255的值。有关一些示例图像，请参见图1.5（a）。

许多通用分类方法忽略了输入特征中的任何结构，如空间布局。因此，它们也可以像图1.5（b）一样轻松地处理数据，这是相同的数据，只是我们随机排列了所有特性的顺序。（您将在练习1.1中验证这一点）这种灵活性既是一种幸事（因为方法是通用的）也是一种灾难（因为方法忽略了明显有用的信息源）。我们将在本书后面讨论如何在输入特性中开发结构。

（a）（b）

图1.6人脸检测示例。（a）输入图像（墨菲家族，2010年8月5日摄）。经舍伍德工作室的伯纳德·迪德里奇允许使用。（b）分类器的输出，检测5个不同姿态的人脸。这是使用http://demo.PITTPAT.COM/在线演示程序制作的。分类器在人脸和非人脸的手工标记图像的1000s上进行训练，然后应用于测试图像中的密集重叠块。仅返回包含面部的概率足够高的补丁。经pittpatt.com允许使用

人脸检测与识别

一个比较困难的问题是在图像中查找目标；这称为目标检测或目标定位。一个重要的特殊情况是人脸检测。解决这个问题的一种方法是将图像分成多个位于不同位置、比例和方向的小重叠块，并根据每个重叠块是否包含面部特征对其进行分类。这被称为滑动窗探测器。然后系统返回人脸概率足够高的位置，示例见图1.6。这种人脸检测系统内置于大多数现代数码相机中，检测到的人脸的位置是用于确定自动对焦的中心。另一个应用程序是在谷歌街景系统中自动模糊人脸。

找到人脸后，可以继续进行人脸识别，这意味着估计此人的身份（见图1.10（a））。在这种情况下，类标签的数量可能非常大。此外，人们应该使用的特征可能与人脸检测问题中的特征不同。对于识别来说，诸如发型之类的面部细微差别可能对确定身份很重要，但对于检测来说，重要是对这些细节保持不变，并且仅关注面部和非面部的差别。有关视觉对象检测的更多信息，请参阅例如（Szeliski 2010）。

2.2 回归

回归就像分类一样，除了反应变量是连续的。图1.7显示了一个简单的例子：我们有一个实值输入 $x_i\in R$ 和一个实值输出 $y_i\in R$ 。我们考虑将两个模型拟合到数据中：直线和二次函数（我们将在下面解释如何适合这样的模型）。这一基本问题的各种扩展可能会出现，例如具有高维输入、异常值、非平稳响应等。我们将在本书后面讨论处理此类问题的方法。

(a)

(b)

图1.7（a）一些一维数据的线性回归。（b）多项式回归的相同数据（次数2）。由linregpolyvsdegree生成的图形

下面是一些实际回归问题的例子

根据当前市场状况和其他可能的侧面信息，预测明天的股票市场价格。

预测在YouTube上观看给定视频的观众的年龄。

预测机器人手臂末端执行器在3D空间中的位置，给定发送到其各个电机的控制信号（扭矩）。

预测体内前列腺特异性抗原（PSA）的量作为多种不同临床测量的函数。

利用天气数据、时间、门传感器等预测建筑物内任何位置的温度。

3 无监督学习

我们现在考虑无监督学习，我们只给出输出数据，没有任何输入。目标是发现数据中的“有趣结构”，这有时被称为知识发现。与监督学习不同，我们不知道每个输入的期望输出是什么。相反，我们将我们的任务形式化为密度估计，也就是说，我们要建立形式 $p(x_i|\theta )$ 的模型。与监督学习情况有两个不同之处。首先，我们用 $p(x_i|\theta )$ 代替 $p(y_i|x_i,\theta )$ ，也就是说，有监督学习是条件密度估计，而无监督学习是无条件密度估计。第二，是特征向量，所以我们需要创建多元概率模型。相比之下，在有监督的学习中，通常只是我们试图预测的一个单一变量。这意味着对于大多数有监督的学习问题，我们可以使用单变量概率模型（具有与输入相关的参数），这大大简化了问题。我们将在第19章中讨论多输出分类，我们将看到它也涉及多变量概率模型。

无监督学习可以说是人类和动物学习中比较典型的一种。它也比监督学习更广泛地应用，因为它不需要一个人类专家手动标记数据。标记的数据不仅获取成本高昂，而且还包含信息相对较少，当然不足以可靠地估计复杂模型的参数。多伦多大学医学硕士的著名教授杰夫辛顿说:

当我们学会看的时候，没有人告诉我们正确的答案是什么——我们只是看看。你妈妈经常说

“那是条狗”，但信息很少。如果你能以这种方式获得一些信息，即使是每秒一点，那你就太幸运了。大脑的视觉系统有 $10^{14}$ 个神经连接。你只能活 $10^{9}$ 秒。所以每秒钟学习一个比特是没有用的。你需要更多像 $10^{5}$ 比特每秒。只有一个地方你能得到这么多信息：从输入本身。----杰弗里·辛顿，1996年（引用于（Gorder 2006年））。

下面我们描述一些无监督学习的典型例子

3.1 发现集群

（a）

（b）

图1.8（a）一些人的身高和体重。（b）使用k=2个聚类的可能聚类。由kmeansheightweight生成的数字。

作为无监督学习的典型例子，考虑将数据分组的问题。例如，图1.8(a)绘制了一些二维数据，表示一组210人的身高和体重。看起来可能有不同的集群或子群，尽管不清楚有多少。让k表示簇的数目，我们的第一个目标是估计集群数量上的分布，这告诉我们数据中是否有子种群。为了简单起见，我们通常用它的模式近似的分布，。在监督的情况下，我们被告知有两个类（男性和女性），但在在无监督的情况下，我们可以自由选择我们喜欢的多个或几个集群。选择“正确”复杂性的模型称为模型选择，并将在下面详细讨论。我们的第二个目标是估计每个点属于哪个簇，让 $z_i\in \left \{ 1,\cdots ,K \right \}$ 表示为其分配数据点i的集群，是一个隐藏或潜在变量的例子，因为它在训练集中从未被观察到，通过计算。可以推断出每个数据点属于哪个簇。如图1.8（b）所示，假设k=2，我们使用不同的颜色来表示赋值。在这本书中，我们关注基于模型的聚类，这意味着我们将概率模型拟合到数据中，而不是运行一些特殊的算法。基于模型的方法的优点是可以客观地比较不同类型的模型（根据它们分配给数据的可能性），我们可以将它们组合成更大的系统，等等。

下面是聚类的一些实际应用。

在天文学中，自动分类系统（Cheeseman等人1988年）发现了一种新型恒星，基于聚类天体物理测量。在电子商务中，通常根据用户的购买或上网行为将用户分组，然后向每个组发送定制的有针对性的广告（参见例如（Berkhin 2006））。

3.2 发现潜在因素

在处理高维数据时，通常通过将数据投影到一个低维子空间，来捕获数据的“本质”。

（a）

(b)

图1.9（a）一组点，位于嵌入3d的2d线性子空间上。实心红线是第一主分量方向。黑色虚线是第二个PC方向。（b）数据的二维表示。由pcademo3d生成的图形。

(a)

(b)

图1.10（a）25从Olivetti人脸数据库中随机选择64×64像素图像。（b）平均值和前三个主分量基向量（特征面）。

这叫做降维。一个简单的例子如图1.9所示，其中将一些三维数据投影到二维平面。二维近似相当好，因为大多数点靠近这个子空间。减少到1d将涉及将点投影到图1.9（a）中的红线上，这是一个相当差的近似值（我们将在第12章中阐明这一概念）。这种技术背后的动机是，尽管数据可能看起来很高维度，但可能只有少量的可变度，与潜在因素相对应。例如，在对人脸图像的外貌进行建模时，可能只有一些潜在的因素可以描述大多数的变化，例如灯光、姿势、身份等如图1.10所示。

当被用作其他统计模型的输入时，这种低维的表示通常会产生更好的预测精度，因为它们关注对象的“本质”，过滤掉不重要的特征。此外，低维表示对于实现快速近邻搜索非常有用，而二维投影对于可视化高维数据非常有用。

最常见的降维方法称为主成分分析（pca）。这可以被认为是（多输出）线性回归的无监督版本，在这里我们观察高维输出y，而不是低维“原因”z。因此，模型具有z→y的形式，我们必须“反转箭头”，从观测到的高维y推断出潜在的低维z。详情见第12.1节。

降维，特别是主成分分析，已经被应用于许多不同的领域。一些例子包括：

在生物学中，通常使用主成分分析来解释基因微阵列数据，以解释每个测量通常是许多基因的结果，这些基因通过它们属于不同生物途径的事实而在它们的行为中相关。

在自然语言处理中，通常使用称为潜在语义分析的pca变体进行文档检索（见第27.2.2节）。

在信号处理（例如，声音或神经信号）中，通常使用ica（pca的一种变体）将信号分离成不同的信号源（见第12.6节）。

在计算机图形学中，通常将运动捕捉数据投影到低维空间，并使用它创建动画。解决此类问题的方法见第15.5节。

图1.11使用图形套索（第26.7.2节）学习的稀疏无向高斯图形模型应用于一些流式细胞术数据（来自Sachs等人，它测量了11种蛋白质的磷酸化状态。

3.3 发现图结构

有时我们测量一组相关变量，我们想发现哪些变量与哪些其他变量最相关。这可以用一个图g来表示，其中的节点表示变量，边表示变量之间的直接依赖关系（当我们讨论图形模型时，我们将在第10章中详细说明这一点）。然后我们可以从数据中学习这个图形结构，即我们计算 $\hat{G}=argmax p(G|D)$ 。

与一般的无监督学习一样，稀疏图的学习主要有两种应用：发现新知识和获得更好的联合概率密度估计。我们现在分别举几个例子

学习稀疏图形模型的大部分动机来自系统生物学社区。例如，假设我们测量细胞中某些蛋白质的磷酸化状态（Sachs等人，2005）。图1.11给出了从这些数据中学习到的图形结构的示例（使用第26.7.2节中讨论的方法）。另一个例子是，Smith等人（2006）研究表明，可以从时间序列的脑电数据中恢复某种鸟类的神经“接线图”。恢复的结构与鸟脑这一部分已知的功能连接紧密匹配。

在某些情况下，我们对解释图结构不感兴趣，我们只是想用它来建立相关性模型并进行预测。这方面的一个例子是在金融投资组合管理中，对大量不同股票之间协方差的精确模型非常重要。Carvalho和West（2007）表明，通过学习稀疏图，然后将其作为交易策略的基础，有可能超越不利用稀疏图的方法（即，赚更多的钱）。另一个例子是预测高速公路上的交通堵塞，霍维茨等人，（2005）描述一个被称为jambayes的部署系统，用于预测西雅图地区的交通流量。使用图形模型进行预测，其结构是从数据中学习的。

(a)

（b）

图1.12（a）用封堵器的噪声图像。（b）基于成对mrf模型的基本像素强度的估计。资料来源：图8（Felzenszwalb和Huttenlocher，2006年）。在佩德罗·费尔岑斯瓦布的允许下使用。

3.4 矩阵完成

有时我们会丢失数据，也就是说，值未知的变量。例如，我们可能进行了一项调查，有些人可能没有回答某些问题。或者我们可能有各种各样的传感器，其中一些失灵了。相应的设计矩阵中会有“洞”，这些缺失的条目通常用NaN表示，NaN代表“不是数字”。插补的目的是为缺失的条目推断合理的值。这有时被称为矩阵完成。下面我们给出一些应用实例。

3.4.1 图像修复

一个有趣的类似于插补的任务被称为图像修复。目标是在具有真实结构的图像中“填充”孔洞（例如，由于划痕或遮挡）。如图1.12所示，我们对图像进行去噪，并输入隐藏在遮挡后面的像素。这可以通过建立像素的联合概率模型来解决，给定一组干净的图像，然后在给定已知变量（像素）的情况下推断未知变量（像素）。这有点像masket-basket分析，只是数据是实值的，并且是空间结构的，所以我们使用的概率模型种类是完全不同的。一些可能的选择见第19.6.2.7和13.8.4节。

3.4.2 协同过滤

另一个类似于插补的任务的有趣例子是协作过滤。这方面的一个常见例子是，根据人们和其他人对已经看过的电影的评价，预测人们希望看哪些电影。关键的思想是，预测不是基于电影或用户的特征（尽管它可能是），而是仅仅基于评分矩阵。更准确地说，我们有一个矩阵x，其中x（m，u）是电影m的用户u的评分（比如1到5之间的整数，其中1表示不喜欢，5表示喜欢）。请注意，x中的大多数条目将丢失或未知，因为大多数用户不会对大多数电影进行分级。因此我们只观察x矩阵的一个很小的子集，我们希望预测一个不同的子集。特别是，对于任何给定的用户u，我们可能希望预测他/她最希望观看哪些未分级的电影。

图1.13电影分级数据示例。训练数据为红色，测试数据用？，空单元格未知。

为了鼓励这方面的研究，DVD租赁公司Netflix于2006年发起了一项竞赛，奖金100万美元（见http://netflix prize.com/）。特别是，他们提供了一个大的收视率矩阵，大小为1到5，用约50万用户创建的约18,000部电影。整个矩阵将有 $9\times 10^9$ 个条目，但只观察到约1%的条目，因此矩阵非常稀疏。其中一部分用于训练，其余部分用于测试，如图1.13所示。竞争的目标是比Netflix现有系统更准确地预测。2009年9月21日，该奖项授予了一个名为“BellKor’s Pragmatic Chaos”的研究团队。第27.6.2节讨论了他们的一些方法。有关团队及其方法的更多详细信息，请访问http://www.netflixprize.com/community/viewtopic.php?id=1537。

1.3.4.3 市场篮子分析

在商业数据挖掘中，人们对一个叫做市场篮子分析的任务非常感兴趣。数据由一个（通常很大但稀疏的）二进制矩阵组成，其中每一列表示一个项或产品，每一行表示一个事务。如果项目j是在第i次交易中购买的，我们 $x_{ij}$ 将设置为1。许多商品都是一起购买的（如面包和黄油），因此它们之间会有关联。给定一个新的部分观测位向量，表示消费者购买的商品的子集，目标是预测哪些其他位可能打开，表示消费者可能购买的其他商品。（与协作过滤不同，我们通常假设训练数据中没有丢失数据，因为我们知道每个客户过去的购物行为）

除了建模采购模式之外，这项任务还出现在其他领域。例如，可以使用类似的技术来建模复杂软件系统中文件之间的依赖关系。在这种情况下，任务是在给定已更改的文件子集的情况下，预测需要更新哪些其他文件以确保一致性（参见，例如，hu等人,2010）

使用频繁项集挖掘（frequency itemset mining）来解决这类任务是很常见的，它会创建关联规则（参见例如haste等人,2009年，第14.2节）。或者，我们可以采用概率方法，并拟合联合密度模型 $p(x_i,\cdots ,x_D)$ 到位向量，参见例如（hu等人2010）这类模型通常比关联规则具有更好的预测准确性，尽管它们可能不太容易解释。这是数据挖掘和机器学习之间的典型区别：在数据挖掘中，更强调可解释的模型，而在机器学习中，更强调精确的模型。

(a)

(b)

图1.14（a）k=3时二维k近邻分类器的图解。测试点x1的3个最近邻具有标签1、1和0，因此我们预测p（y=1 x1，d，k=3）=2/3。测试点x2的3个最近邻具有0、0和0标签，因此我们预测p（y=1 x2，d，k=3）=0/3。（b）1-nn引起的voronoi镶嵌图解。根据图4.13（Duda等人2001）。

4 机器学习中的一些基本概念

在本节中，我们将介绍机器学习中的一些关键思想。我们将在本书的后面对这些概念进行扩展，但是我们将在这里简要介绍它们，以使我们对即将到来的事情有一个了解。

4.1 参数模型与非参数模型

在这本书中，我们将集中讨论或形式的概率模型，这取决于我们分别对有监督学习还是无监督学习感兴趣。定义此类模型的方法有很多，但最重要的区别是：模型是否有固定数量的参数，或者参数数量是否随着训练数据的数量而增长？前者称为参数模型，后者称为非参数模型。参数模型的优点是通常使用起来更快，但缺点是对数据分布的性质作出更强的假设。非参数模型更为灵活，但对于大型数据集来说，往往难以计算。我们将在下面的章节中给出这两种模型的示例。为了简单起见，我们将重点放在有监督的学习上，尽管我们的大部分讨论也适用于无监督的学习。

4.2 一种简单的非参数分类器：k近邻

非参数分类器的一个简单示例是K最近邻（KNN）分类器。这只是“查看”训练集中最接近测试输入x的k个点，计算每个类中有多少成员在这个集合中(k点集合)，并返回该经验分数作为估计值，如图1.14所示。更正式一点

$p(y=c|x,D,K)=\frac{1}{K}\sum_{i\in N_K(x,D)}I(y_i=c)$

其中是x在D中的K个最近点，而是指示函数，定义如下:

$I(e)=\left\{\begin{matrix} 1&if\: e\: is\: true \\ 0&if\: e\: is\: false \end{matrix}\right.\:$

这种方法是基于记忆的学习或基于实例的学习的一个例子。它可以从第14.7.3节中解释的概率框架中导出。最常用的距离度量是欧几里德距离（它限制了该技术对实值数据的适用性），尽管可以使用其他度量。

图1.15给出了一个实际方法的例子，其中输入是二维的，我们有三个类，k=10。（我们在下面讨论k的影响)面板（a）绘制了训练数据。面板（b）绘制，其中x在点网格上评估。面板（c）绘制。我们不需要绘制，因为概率等于1。面板（d）绘制地图估计值 $y\hat{(}x)=argmax_c(y=c|x,D)$ 。

K = 1的KNN分类器引起点的Voronoi曲面细分（见图1.14（b））。这是一个空间分区，它将区域与每个点关联起来，使得中的所有点都比任何其他点更接近于。在每个单元格中，预测的标签是对应训练点的标签。

图1.15（a）二维三类综合训练数据。（b）k=10时knn的一类概率。（c）二类概率。（d）类别标签的地图估计。

图1.16维度灾难图解。（a）我们在一个更大的单位立方体中嵌入一个S边的小立方体。（b）我们绘制一个立方体的边缘长度，以覆盖单位立方体的给定体积，作为维数的函数。根据图2.6（Haste等人2009）。

4.3 维度灾难

只要给出一个良好的距离度量，并有足够的标记训练数据，knn分类器就简单且能很好地工作。事实上，可以证明，如果n→∞（cover和hart 1967），knn分类器可以达到最佳性能的2倍之内。

然而，knn分类器的主要问题是它们不能很好地处理高维输入。在高维环境中表现不佳是由于维数灾难。

为了解释这个灾难，我们举了一些例子（Haste等人2009年，第22页）。考虑将knn分类器应用于输入均匀分布在d维单位立方体中的数据。假设我们通过在x周围“生长”一个超立方体来估计测试点x周围类标签的密度，直到它包含数据点的期望分数f。这个立方体的预期边长是 $e_D(f)=f^{1/D}$ 。如果d=10，我们希望根据10%的数据进行估计，我们得到了 $e_{10}(0.1)=0.8$ ，因此我们需要将立方体沿着x周围的每个维度扩展80%。即使我们只使用1%的数据，我们也会发现 $e_{10}(0.01)=0.63$ ，见图1.16。由于数据的整个范围在每个维度上只有1个，我们看到该方法不再是非常局部的，尽管它的名称是“最近的邻居”。观察距离如此之远的邻居的问题在于，它们可能不能很好地预测给定点上输入输出函数的行为。

图1.17（a）均值为0，方差为1的高斯分布函数。由gaussplotdemo生成的图形。（b）条件密度模型 $p(y|x,\theta )=N(y|w_0+w_1x,\sigma ^2)$ 的可视化。当我们离开回归线时，密度以指数速度下降。

4.4 分类和回归的参数模型

对抗维数灾难的主要方法是对数据分布的性质作出一些假设（对于有监督问题或对于无监督问题)。这些假设被称为归纳偏差，通常以参数模型的形式体现，参数模型是一个具有固定参数数的统计模型。下面我们将简要介绍两个广泛使用的示例；我们将在本书后面更深入地讨论这些模型和其他模型。

4.5 线性回归

最广泛使用的回归模型之一是线性回归。这表明输出是输入的线性函数。这可以写成如下

$y(x)=w^Tx+\epsilon =\sum_{j=1}^{D}w_jx_j+\epsilon$

其中，表示输入向量x和模型权重向量之间的内积或标量积， $\epsilon$ 是线性预测和真实输出之间的残差。

我们经常假设 $\epsilon$ 是高斯分布或正态分布。我们用 $\epsilon\sim N(\mu ,\sigma ^2)$ 表示，其中 $\mu$ 是平均值， $\sigma ^2$ 是方差（详见第2章）。当我们绘制这个分布图时，我们得到如图1.17（a）所示的众所周知的钟形曲线。

为了使线性回归和高斯之间的连接更加明确，我们可以用以下形式重写模型：

$p(y|x,D)=N(y|\mu (x),\sigma ^2(x))$

这说明模型是一个条件概率密度。在最简单的情况下，我们假设 $\mu$ 是x的线性函数，所以 $\mu =w^Tx$ ，并且噪声是固定的， $\sigma ^2(x)=\sigma ^2$ 。在这种情况下， $\theta =(w,\sigma ^2)$ 是模型的参数。

例如，假设输入为一维。我们可以表示预期的输出如下：

$\mu (x)=w_0+w_1x=w^Tx$

其中是截距或偏差项，是斜率，这里我们定义了向量（在输入向量前加上常数1项是一种常见的符号技巧，它允许我们将截距项与模型中的其他项结合起来）。如果为正，则意味着我们期望输出随着输入的增加而增加。这在图1.17（b）的1d中进行了说明；图1.7（a）中显示了平均输出与 x的更常规的曲线图。

线性回归可以通过用输入的非线性函数 $\o (x)$ 代替x来模拟非线性关系。也就是说，我们用

$p(y|x,\theta )=N(y|w^T\o (x),\sigma ^2)$

这称为基函数展开。例如，图1.18说明了 $\o (x)=[1,x,x^2,\cdots ,x^d]$ ，对d=14和d=20。这被称为多项式回归。我们将在本书后面考虑其他类型的基函数。事实上，许多流行的机器学习方法（如支持向量机、神经网络、分类和回归树等）可以被看作是从数据估计基函数的不同方式，正如我们在第14章和第16章中讨论的。

图1.18 14度和20度多项式通过最小二乘法拟合到21个数据点

图1.19（a）sigmoid或logistic功能。我们有sigm（－∞）=0，sigm（0）=0.5，sigm（∞）=1。（b）SAT分数的逻辑回归。实心黑点是数据。开放的红色圆圈是预测的概率。绿色十字表示两个学生的SAT成绩相同，为525分（因此输入表示X相同），但训练标签不同（一个学生通过，Y=1，另一个失败，Y=0）。因此，仅使用sat特征并不能完全分离这些数据。

4.6 逻辑回归

我们可以通过两个改变将线性回归推广到（二元）分类设置，首先我们用伯努利分布代替y的高斯分布，这更适合于输出为二元 $y\in\left \{ 0,1 \right \}$ 的情况。也就是说，我们用

$p(y|x,w)=Ber(y|\mu (x))$

其中 $\mu (x)=E[y|x]=p(y=1|x)$ ，其次，我们像以前一样计算输入的线性组合，但是我们通过一个函数传递它，通过定义确保 $0\leq \mu \leq1$

$\mu(x)=sigm(x^wx)$

其中是指 $sigm(\eta )$ 函数，也称为logistic或logit函数。这被定义为

$sigm(\eta )\overset{\bigtriangleup }{=}\frac{1}{1+exp(-\eta )}=\frac{e^\eta }{e^\eta +1}$

术语“sigmoid”是指S形，图1.19（a）为一个图。它也被称为挤压函数，因为它将整条实线映射到[0，1]，这是将输出解释为概率所必需的。

把这两个步骤放在一起

这被称为逻辑回归，因为它与线性回归相似（尽管它是一种分类形式，而不是回归）。

图1.19（b）显示了逻辑回归的一个简单例子

其中是学生i和的 $SAT^{10}$ 分数，无论他们是否通过了课程。实心黑点显示训练数据，红色圆圈绘制 $p(y=1|x,\hat{w})$ ，其中 $\hat{w}$ 是从训练数据估计的参数（我们在第8.3.4节中讨论了如何计算这些估计值）。

如果我们将输出概率阈值设为0.5，我们就可以得到一个形式为

$y\hat{(}x)=1\Leftrightarrow p(y=1|x)>0.5$

通过查看图1.19（b），我们看到， $x\approx 545=x^*$ 。我们可以想象在处画一条垂直线；这就是所谓的决策边界。该垂直线左侧的所有内容都归为0，右侧的所有内容都归为1。

我们注意到，即使在训练集上，此决策规则也具有非零错误率。这是因为数据不是线性可分的，也就是说，没有直线可以把0和1分开，我们可以用基函数展开来创建具有非线性决策边界的模型，就像非线性回归一样。我们将在本书后面看到许多这样的例子。

4.7 过度拟合

当我们拟合高度灵活的模型时，我们需要注意不要过度拟合数据，也就是说，我们应该避免尝试对输入中的每一个微小变化进行建模，因为这更可能是噪声而不是真实信号。这如图1.18（b）所示，在图中我们看到，使用高次多项式会导致曲线非常“摇摆”。真正的函数不太可能有如此极端的振荡。因此，使用这样一个模型可能会导致对未来产出的准确预测。

作为另一个例子，考虑knn分类器。k值对模型的行为有很大的影响。当k=1时，该方法在训练集上没有错误（因为我们只返回原始训练点的标签），但是得到的预测曲面非常“摇摆”（见图1.20（a））。因此，该方法在预测未来数据时可能效果不佳。在图1.20（b）中，我们看到使用k=5可以得到更平滑的预测曲面，因为我们在更大的邻域上求平均值。随着K增加时，预测变得更平滑，直到在K = N的极限中，我们最终预测整个数据集的多数标签。下面我们讨论如何选择K的“正确”值。

4.8 模型选择

当我们有各种不同复杂度的模型（例如，具有不同程度多项式的线性或logistic回归模型，或具有不同k值的knn分类器）时，我们应该如何选择合适的模型？一种自然的方法是计算每种方法在训练集上的误分类率。定义如下：

$err(f,D)=\frac{1}{N}\sum \sum_{i=1}^{N}I(f(x_i)\neq y_i)$

其中是我们的分类器。在图1.21（a）中，我们绘制了一个KNN分类器的错误率与K的关系（蓝色虚线）。我们发现增加k会增加训练集上的错误率，因为我们过度平滑。如上所述，我们可以使用k=1在训练集上获得最小的错误，因为这个模型只是存储数据。

图1.20基于图1.15（a）中数据的knn预测面。（a）k＝1。（b）k＝5。

然而，我们关心的是泛化误差，它是对未来数据进行平均时误分类率的期望值。（详见第6.3节）。这可以通过计算大型独立测试集上的错误分类率来近似，而不是在模型训练期间使用。我们在图1.21(a)中用实心红色(上部曲线)绘制测试误差与K的关系。现在我们看到一条U形曲线：对于复杂模型（小K），方法过拟合；对于简单模型（大K），方法欠拟合。因此，选择k的一个明显方法是在测试集上选择误差最小的值（在本例中，10到100之间的任何值都应该很好）。

不幸的是，在训练模型时，我们没有访问测试集的权限（通过假设），因此我们不能使用测试集来选择正确复杂度的模型。但是，我们可以通过将训练集分成两部分来创建测试集：用于训练模型的部分和第二部分，称为验证集，用于选择模型复杂性。然后，我们将所有模型都拟合到训练集上，并在验证集上评估它们的性能，然后选择最佳的模型。一旦我们选出了最好的，我们就可以把它改装成所有可用的数据。如果我们有一个单独的测试集，我们可以评估在这方面的性能，以估计我们的方法的准确性。（我们将在第6.5.3节中对此进行更详细的讨论。）

通常我们使用大约80%的数据用于训练集，20%用于验证集。但是，如果训练案例的数量很少，这种技术就会遇到问题，因为模型没有足够的数据进行训练，而且我们也没有足够的数据对未来的性能做出可靠的估计。

一个简单但流行的解决方案是使用交叉验证（cv）。这个想法很简单：我们将训练数据分成k个折叠；然后，对于每个折叠 $k\in\left \{ 1,\cdots ,k \right \}$ ，我们以循环的方式在除k以外的所有折叠上进行训练，并在k上测试。如图1.21（b）所示。然后计算所有折叠的平均误差，并将其用作测试误差。（注意，每个点只预测一次，尽管它将用于训练k-1次）。通常使用k=5；这称为5-fold CV.。如果我们设置K = N，那么我们得到一个名为leave-one out cross validation或LOOCV的方法，因为在折叠i中，我们训练所有数据情况除了i，然后在i上测试。练习1.3要求您计算K和5-fold CV测试误差估计值，并将其与图1.21（a）中的经验测试误差进行比较。

为knn分类器选择k是一个更为普遍的问题，即模型选择的特殊情况，在这个问题中，我们必须在具有不同灵活性的模型之间进行选择。交叉验证广泛用于解决此类问题，尽管我们将在本书后面讨论其他方法。

图1.21（a）k近邻分类器的误分类率与k的关系。在左边，k很小，模型很复杂，因此我们过拟合。在右边，k很大，模型很简单，我们欠拟合。蓝色虚线：训练集（大小200）。实心红线：测试集（大小500）。（b）5倍交叉验证示意图。

4.9 无免费午餐定理

所有的模型都是错误的，但是有些模型是有用的。-乔治·博克斯（Box and Draper 1987，第424页）

许多机器学习都涉及设计不同的模型，以及适合它们的不同算法。我们可以使用交叉验证等方法来根据经验为我们的特定问题选择最佳方法。然而，没有普遍最好的模型 - 这有时被称为无免费午餐定理（Wolpert 1996）。这样做的原因是，在一个域中运行良好的一组假设在另一个域中可能效果不佳。

由于没有免费午餐定理，我们需要开发许多不同类型的模型，以涵盖现实世界中出现的各种各样的数据。对于每个模型，我们可以使用许多不同的算法来训练模型，从而进行不同的速度 - 精度 - 复杂度权衡。我们将在后续章节中研究这种数据，模型和算法的组合。

你可能感兴趣的:(MLAPP(翻译)—第一章)

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
App Store上架：Guideline 4.3(a) - Design - Spam 申述过审九月紫 App Store上架 Apple Store 上架 4.3
从六月苹果开展了全球开发大会后，苹果内部对于新系统的生成进行了多次会议，针对新系统和商店app管理进行的升级和管控，导致近期许多开发者遇到过不了审、难过审的问题，今天来讲一下关于4.3垃圾邮件怎么去申述与修改。标题拒审邮件Guideline4.3(a)-Design-Spam排查方向修改申述拒审邮件Guideline4.3(a)-Design-Spam如下：翻译过来是：准则4.3（a）-设计-垃圾
【译】2018 前端性能优化清单 —— 第一部分 qq_36320160 前端前端
原文地址：Front-EndPerformanceChecklist2018-Part1原文作者：VitalyFriedman译文出自：掘金翻译计划本文永久链接：https://github.com/xitu/gold-miner/blob/master/TODO/front-end-performance-checklist-2018-1.md译者：tvChan校对者：mysterytonyry
ARM 和 x86_64是什么关系 riverz1227 linux
什么是ARM和x86_64？它们都是CPU指令集架构（ISA）指令集架构（InstructionSetArchitecture）就是：CPU能够理解和执行的“语言”和“命令格式”。类比解释：指令集就像“语言”类比对象ARMCPUx86_64CPU（Intel/AMD）语言西班牙语英语编译器翻译成西班牙语的代码翻译成英语的代码执行者会西班牙语的CPU会英语的CPUARM架构是一种低功耗、高能效的CP
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
使用Word/Excel管理需求的10个痛点及解决方案Perforce ALM 龙智DevSecOps解决方案软件开发需求管理 ALM devops 测试管理
还在用Word和Excel管理需求和测试？你以为方便，实则隐患重重！本文源自perforce.com，由Perforce中国授权合作伙伴——龙智翻译整理，旨在提醒广大研发小伙伴们，是时候告别低效的手动工具，拥抱专业ALM解决方案了！有些企业使用Word和Excel来跟踪需求、问题和测试。但随着产品和软件可追溯性的复杂度增加，手动工具已经难以胜任。特别是在开发流程日益复杂的当下，继续依赖旧式的手动跟
单片机原理及应用——C51语言版（第2版，林立、张俊亮编著）课后习题及答案
第一章习题1.1单项选择题（1）单片机又称为单片微计算机，最初的英文缩写是____。答案(D)A.MCPB.CPUC.DPJD.SCM（2）Intel公司的MCS-51系列单片机是______的单片机。答案(C)A.1位B.4位C.8位D.16位（3）单片机的特点里没有包括在内的是______。答案(C)A.集成度高B.功耗低C.密封性强D.性价比高（4）单片机的发展趋势中没有包括的是______
Swift 2.0 下面向协议的MVVM架构实践
本文由CocoaChina译者lynulzy（社区ID,博客）翻译原文：Swift2.0:Protocol-OrientedMVVM自从令人兴奋的[《面向协议的编程方法》]在Swift的WWDC大会上发布以来。我对协议的使用考虑了很多。但是在现实中，我并没有太多的顾及和使用这些功能。我还仍旧在消化到底面向协议的编程方法是什么，在代码的哪些地方应该使用，而不是使用我目前使用的`go-to`编程方法。
从零开始：手把手教你用 Uniapp 搭建多平台应用儿歌八万首 uniapp uni-app 移动端跨平台 harmonyOS
这个框架能帮你解决什么问题？想象一下，你需要开发一个移动应用，但是你的老板说：“我们需要同时上线Android、iOS还有华为的鸿蒙系统”。传统的做法是什么？雇三个团队，写三套代码，维护三个项目…想想都头疼对吧？这个框架就是来拯救你的！一套代码，三个平台同时搞定。不用学Java、Swift、ArkTS，只要你会Vue，就能轻松上手。简单来说，这个框架就像是一个"翻译官"，你用熟悉的Vue语法写代码
95%程序员不知道的JVM调优技巧：让GC时间从2秒降到50ms的实战案例小筱在线 jvm 测试工具
前言：为什么JVM调优如此重要？在现代Java应用开发中，JVM调优是提升应用性能的关键环节。一个经过精心调优的JVM可以显著减少垃圾回收(GC)停顿时间，提高吞吐量，从而为用户提供更流畅的体验。本文将分享一个真实案例，展示如何通过系统化的调优方法，将GC时间从2秒降低到50ms，提升近40倍的性能表现。第一章：理解JVM内存结构与GC机制1.1JVM内存结构详解（JDK1.8）Java虚拟机内存
如何获取微信公众号用户的个人信息（包括OpenId）一杯冰美式_丶 Java相关知识
最近，对微信公众号有点兴趣，就自己研究了研究里面的一些内容，发现还挺有意思的，而且通过微信公众号可以调用一些比较有意思的接口，就比如百度开发服务平台点击进入里面的很有接口，就比较常见的翻译，语音识别，地理位置等等，都挺好的。好了，不多说，进入正题好了。我想，做微信公众号开发的，对于想获取关注了公众号的用户信息，或者说是当前与后台服务器进行交互的当前用户信息，这个功能是很重要的吧。因为，通过这个，可
【CPU】不同核数下的翻译 oahrzvq CPU 英文
CPU核心数的翻译英文术语中文标准译法示例用法Single-core单核单核处理器Dual-core双核双核CPUQuad-core四核四核芯片Hexa-core六核六核中央处理器Octa-core八核八核移动平台
android adb连接_Android安全仔细检查您的adb连接 weixin_26727575 python mysql java 数据库 https
androidadb连接We’vegotasayinginPortuguesethatitcanroughlybetranslatedto:我们有葡萄牙语谚语，它可以大致翻译为：Theonewhowarnsyou,isyourfriend!警告您的人是您的朋友！ThatiscommonlytranslatedtoEnglish:通常将其翻译成英文：Forewarnedisforearmed.有备则
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
AI技术正在深度重构全球产业格局，其影响已超越工具属性，演变为推动行业变革的核心引擎。
一、AI如何重塑AI的工作与行业（AI助手领域）能力升级理解与生成：基于LLM（大语言模型），AI能处理开放式问题、撰写报告、翻译代码，替代部分人类知识工作。个性化交互：通过用户历史对话分析，提供定制化建议（如学习计划、投资策略）。多模态扩展：结合图像/语音识别（如GPT-4V），实现图文分析、医学影像解读等跨模态任务。行业变革客服行业：AI客服处理70%+常规咨询（如阿里小蜜），人力转向复杂问题
windows中dify本地部署，非docker环境
第一章win11中安装配置Archlinux文章目录第一章win11中安装配置Archlinux一、安装Archlinux1.直接在wsl中安装2.本地镜像安装3.wsl中卸载archlinux二、在Archlinux中创建新用户1.包管理工具升级2.使用useradd创建用户3.设置新用户密码4.测试用户5.删除用户三、其他设置1.wsl的互作性2.systemd支持四、安装vim1.安装前准备
【Linux | 网络】socket编程 - 使用TCP实现服务端向客户端提供简单的服务是阿建吖! 【网络】【Linux】网络 linux tcp/ip
目录一、Comm.hpp（公共数据）二、Log.hpp（日志）三、InetAddr.hpp（管理sockaddr_in相关信息）四、NoCopy.hpp（防拷贝）五、Lockguard.hpp（自动管理锁）六、Thread.hpp（封装线程）七、ThreadPool.hpp（线程池）八、dict.txt（配置文件、简单字典）九、Translate.hpp（提供翻译服务）十、Daemon.hpp（使
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
BabelDOC入门手册一点就通 AhriProGramming 算法 ocr python
BabelDOC入门手册一点就通【#BubbleDOC震撼发布！科研党的终极翻译神器，PDF翻译从此告别排版灾难！】你是否经历过翻译PDF时公式错位、图表乱飞、版式崩坏的绝望？传统翻译工具的时代结束了！#BubbleDOC横空出世，凭借三大革命性突破，成为全球科研、金融、法律从业者的新宠✨核心亮点1️⃣无损解析：精准提取PDF内嵌公式、图表、脚注，误差<0.5mm，翻译后与原版像素级对齐；2️⃣智
Three.js（three入门）
theme:condensed-night-purpleThree.js学习指南：在响应式世界里玩转三维魔法第一章：Three.js突破次元壁指南Three.js简介three.js官网：https://threejs.org/three.js中文官网https://threejs.org/docs/index.html#manual/zh/1.什么是Three.js?Three.js是用Java
人工智能怎么入门？零基础入门指南：从小白到AI实战者的第一步 OpenCV图像识别人工智能人工智能计算机视觉自然语言处理神经网络机器学习
人工智能（AI）是当今最具前景的科技领域之一。从聊天机器人到自动驾驶，从图像识别到语音翻译，AI正在以前所未有的速度改变世界。但对于初学者来说，一个最常见的问题是：“我没有基础，也不是学数学或计算机的，人工智能还能学吗？我该怎么入门？”答案是：可以学，而且你并不孤单。越来越多的人正在以“跨专业、转行、自学”的方式进入AI领域。关键是，你需要一个清晰的入门路径，理解应该先做什么、学什么、避开什么误区
【C语言入门】函数返回局部变量指针的底层原理与实践陷阱
第一章内存管理基础：C语言的内存布局与生命周期1.1C程序的内存分区C程序运行时，内存通常分为五个区域（以典型的32位系统为例）：栈（Stack）：自动分配和释放，用于存储函数参数、局部变量等临时数据由编译器管理，遵循“后进先出”原则，空间大小有限（通常几MB）变量生命周期：从声明处开始，到函数/代码块结束时自动销毁堆（Heap）：手动分配（malloc/calloc/realloc）和释放（fr
十分钟聊明白DDD领域驱动设计 roykingw java java 架构 DDD 领域驱动
文章目录一、什么是领域？二、领域如何驱动设计？三、如何发挥DDD的价值最后十分钟聊明白DDD领域驱动设计--楼兰关于DDD，大部分朋友应该都听说过。全称DomainDrivenDesign，翻译过来就是领域驱动设计。这个神秘的架构思想，虽然远没有SpringBoot这类框架这么名声在外，但是却经常时不时冒出来，牵动一下大家的神经。美团、阿里每年的技术年会都会有关于DDD的经验分享，而另一方面，又有
第一章入门
5.定义变量5.1举一个例子如果将变量想象成一个“数据”的盒子，盒子上有一个唯一的标注盒子名字的贴纸。这样我们能更轻松地掌握“变量”的概念。例如，变量message可以被想象成一个标有"message"的盒子，盒子里面的值为"Hello!":我们可以在盒子内放入任何值。并且，这个盒子的值，我们想改变多少次，就可以改变多少次：letmessage;message='Hello!';message='
第一章入门陌路玥 javascript 开发语言前端
14.if条件判断语句14.1ifelse语句if(...)语句计算括号里的条件表达式，如果计算结果是true，就会执行对应的代码块。letyear=prompt('请输入年份');if(year==2015)alert('Youareright!');if(…)语句会计算圆括号内的表达式，并将计算结果转换为布尔型。数字0、空字符串""、null、undefined和NaN都会被转换成false。
深度探索：现代翻译技术的核心算法与实践（第一篇）软考和人工智能学堂 #DeepSeek快速入门人工智能 #深度学习算法
引言：翻译技术的演进之路从早期的基于规则的机器翻译(RBMT)到统计机器翻译(SMT)，再到如今主导行业的神经机器翻译(NMT)，翻译技术已经走过了漫长的发展道路。现代翻译系统不仅能够处理简单的句子，还能理解上下文、识别领域术语，甚至捕捉微妙的文化差异。本系列文章将带您深入探索现代翻译技术的核心算法与实践。作为开篇之作，本文将重点介绍神经机器翻译的基础架构——序列到序列(Seq2Seq)模型，并通
Overlay网络如何颠覆互联网规则？来自于狂人网络云计算
引言：当网络变成“俄罗斯套娃”2010年，阿里云工程师王坚盯着机柜发愁：“要把5000台服务器伪装成1台超级计算机，传统网络像钢筋水泥墙——必须发明‘隐形通道’！”这就是Overlay网络的诞生现场——它用软件魔法在物理网络上“挖地道”，最终让阿里云扛住双11洪峰。第一章前传：为什么传统网络像“老城区单行道”？1.1困局：交换机统治下的黑暗时代场景还原：2005年某网吧老板愤怒拍桌：“加台机器就要
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
当争论者还在讨论AI的边界，实践者早已用这些技术解决实际问题渡难繁辰人工智能拥抱AI 人工智能 ai
——普通人参与AI革命的关键路径一、AI应用五大核心组件（通俗拆解版）1️⃣LLM：AI的「决策核心」本质：大型语言模型（如DeepSeek、通义千问），具备语言理解与生成能力能力边界：✅处理文本类任务（写作/翻译/摘要）❌无法获取实时信息（如最新股价）⚠️存在“幻觉”（虚构信息）风险案例对比：问：“鲁迅和周树人什么关系？”基础LLM：“两位都是著名作家”（错误）增强版LLM：“周树人是鲁迅本名”
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，