iteye_6945

面向开发人员的机器学习指南(一)

转载：http://blog.jobbole.com/109702/

现如今，大多数的开发人员都听说过机器学习，但是当他们试图寻找捷径来学习这些技术时，却有很多人都对机器学习中的一些抽象概念望而却步，诸如回归、无监督学习、概率密度函数和其他许多定义。如果诉诸于书本，代表著作有《An Introduction to Statistical Learning with Applications in R》与《Machine Learning for Hackers》，其中的实例是用 R 语言实现的。

然而，R 实际上跟 Java、C#、Scala 等用于开发日常应用的编程语言不同。这也是本文采用 Smile 来介绍机器学习的原因，Smile 是关于机器学习的一个库，它可以在 Java 与 Scala 中使用，而这两种语言对大多数开发者来说至少是不陌生的。

第一部分“机器学习的整体框架”包含了学习下文应用实例要用到的所有重要概念。“应用实例”这一部分参考了《Machine Learning for Hackers》这本书的例子。另外，《Machine Learning in Action》这本书将用于验证。

第二部分“应用实例”包含了各种机器学习 (ML) 应用实例，以 Smile 作为 ML 库。

注意在本文中，“新”定义会添加超链接，以备读者了解该主题的更多相关内容，但是完成这些实例，并不需要阅读全部的内容。

最后，我想感谢以下这些人:

Haifeng Li ：感谢他给予的支持，还写了那么出色、且能免费使用的 Smile 库。
Erik Meijer：感谢在我写这篇博文的时候他给予的建议与指导。
Richard van Heest 、Lars Willems：感谢他们审阅了这篇博文并做了反馈。

机器学习的整体框架

也许你曾听说过机器学习这个概念。然而，如果要你向另一个人解释什么是机器学习，你要怎么做呢？在继续阅读之前，请先考虑一下这个问题。

机器学习有很多不同的定义方式，其中一些更加精确，然而，在这些定义中也有许多不一致之处。有些定义认为机器学习就是根据历史数据建立一个静态的模型，然后可以用于预测未来的数据。另一些则认为随着数据的增加，它是一个随时间不断变化的动态模型。

我是比较支持动态说的，但是由于某些限制，我们的实例只用来阐释静态的模型方法。不过，在动态机器学习这一节中，我们也对动态原则怎样运作做了解释。

接下来的这一部分给出了机器学习中常用的定义和概念。我们建议读者在进入应用实例的学习之前先通读这部分。

特征

一个特征就是用来训练模型的一种性质。例如，基于文字“买”和“钱”出现的频率可以把邮件分类为垃圾邮件和正常邮件。这些用来分类的单词就是特征，如果把它们与其他单词组合在一起，那它们就是特征的一部分。如果你想用机器学习来预测一个人是否是你的朋友，那么“共同的朋友”可以作为一个特征。注意，在这个领域中，特征有时也指属性。

模型

一提到机器学习，模型是经常会碰到的一个术语。模型就是一种机器学习方法的结果以及该方法采用的算法。这个模型可以在监督学习中用来做预测，或者在无监督学习中用来检索聚类。在这个领域中，在线训练和离线训练这两个术语也有很大机会见到。在线训练指的是往一个已经存在的模型中添加训练数据，而离线训练指的是从头开始建立一个新模型。由于性能原因，在线训练方法是最可取的。然而，对某些算法来说，也有例外。

学习方法

在机器学习领域中，有两种前沿的的学习方式，也就是监督学习和无监督学习，简要地介绍一下还是很有必要的，因为在机器学习的应用中，选择合适的机器学习方法和算法是一个重要而有时又有点乏味的过程。

监督学习

在监督学习中，你可以明确地定义要使用的特征，以及你预期的输出结果。例如，通过身高和体重预测性别，这是一个分类的问题。此外，你还可以通过回归分析预测绝对值。用同样的数据做回归分析的一个例子是通过性别和体重预测一个人的身高。某些监督算法只能用来解决分类问题和回归分析中的一种，例如 K-NN。不过也有一些算法如 Support Vector Machines 在两种情况下都适用。

分类

在监督学习的范围内，分类问题是相对简单的。考虑一组标签以及一些已经打上正确标签的数据，我们想要做的就是为新数据预测标签。然而，在把数据考虑为分类问题之前，你应该分析一下数据的特点。如果数据的结构明显可以让你轻松地画出一条回归线，那么应用回归算法反而会更好。如果数据无法拟合出一条回归线，或者当算法的性能不理想时，那么分类就是一个很好的选择。

分类问题的一个例子是，根据邮件的内容把邮件分为正常或垃圾邮件。考虑一个训练组，其中的邮件被标为正常或垃圾，可以应用一个分类算法来训练模型。这个模型就可以用来预测未来的邮件是正常或是垃圾。分类算法的一个典型的例子是 K-NN 算法，分类问题的常用实例是将邮件分为垃圾邮件或正常邮件，这也是本文当中使用到的例子之一。

回归

回归要比分类要强大很多。这是因为，回归分析预测的是实际值而不是标签。一个简单的例子可以说明这一点。考虑一个表格，其中包含体重、身高和性别等数据，当给定一个体重和身高数据时，你可以应用 K-NN 算法来预测某人的性别。对这个同样的数据集使用回归分析，如果是给定性别以及其他各个缺失的参数，反过来，你可以预测某人的体重或身高。

能力越大，责任就越大，所以在用回归分析建立模型时必须格外小心。常见的陷阱是过拟合、欠拟合以及对模型如何控制外推法与内插法欠缺考虑。

无监督学习

相比监督学习，无监督学习不需要你事先确切地了解输出结果。应用无监督学习的中心思想是发掘出一个数据集内在的结构。PCA 就是一个例子，它通过组合特征从而减小特征数。组合过程基于这些特征之间可能隐含的关联。另一个无监督学习的例子是 K-均值聚类。K-均值聚类就是要找出一个数据集中的分组，之后这些分组可以用于其他目的，例如用于监督学习中。

主成分分析（PCA）

主成分分析是统计学中的一种技术，它用于将一组相关列转化为较小的一组无关列，以化简一个问题的特征数。这组较小的列就叫做主成分。这种技术主要用于探索性数据分析中，因为它揭示了数据中的内部结构，这样的结构无法直观地看出来。

PCA 一个最大弱点就是数据中的异常值。这些异常值严重地影响了结果，所以，事先观察数据，排除较大的异常值能够极大地提高这种方法的性能。

为了清楚 PCA 到底是做什么用的，我们将一组二维点数据的图与同样数据经 PCA 处理后的图作了对比。

原始数据表示在左图中，其中每个颜色表示不同的类别。显然，这些数据可以从二维约化到一维之后，仍然能够恰当的分类。这就是 PCA 被提出的缘故了。根据每个数据点的原始维度，通过 PCA 可以计算出一个新的值来。

右图是对这些数据点应用了 PCA 后的结果。注意，这些数据有一个y值，但这纯粹是为了能够将数作图展示出来。所有这些数据点的Y值都是0，因为 PCA 算法只返回 X 值。同时注意，右图数据点中的 X 值并不对应左图中各点的X值，这表明 PCA 并不仅仅是“丢掉”一个维度。

验证技术

在这部分中我们会介绍一些用于模型验证的技术方法，以及一些与机器学习验证方法相关的专业术语。

交叉验证

交叉验证法是机器学习领域中最常用的验证方法之一。它的基本思想是，将原始数据分为训练集和验证集，先用训练集对模型进行训练，然后再用模型来预测验证集的数据。将预测值与实际值进行对比，以此来评价模型的性能和训练数据的质量。

这种交叉验证法最重要的环节是分割数据。应用这种方法时，应该始终使用整个数据集。换言之，你不可以随机选取 X 个数据点作为训练集然后随机选取X个数据点作为验证集，这样的话，在两个数据集中可能就有些点是重复的，而另一些点又没有被利用到。

2-折交叉验证

在2-折交叉验证中，每一“折”（所以要执行两次）都要将数据分割为验证集和训练集，用训练集训练模型，再用验证集做验证。这样做就可以在验证模型时计算两次误差。这些误差值不应该相差太大。万一差太大，那么不是你的数据有问题，就是你选来建立模型的特征有问题。无论是哪种情况，你都应该再看看数据，找出具体的问题，因为以数据为基础来训练一个模型有可能因为错误数据而出现模型过度拟合的情况。

正则化

正则化的基本思想是，通过简化一个模型而防止它过度拟合。假设你的数据满足一个三次多项式函数，但是数据中有噪声，这会使模型函数的次数加高一级。于是，尽管模型刚开始好像不错，但碰到新的数据就表现不理想了。正则化通过一个特定的 λ 值来简化模型，有利于防止这种情况的发生。然而，要找到一个合适的 λ 值却不易，因为你不知道模型什么时候才会过度拟合。这也是交叉验证法经常被用来寻找适合模型的最佳 λ 值的原因。

精确率

在计算机科学中，我们用精确率这个术语来描述相关的选中条目的数量。因此，当你计算一个文档搜索算法的精确率时，那个算法的精确率就定义为在设定的结果中有多少个文档是确实相关的。

这个值由下式算出：

掌握这个内容可能会有点难，所以我举个例子：

假设有一个完备的文档集 {aa，ab，bc，bd，ee}，我们要查找名字带有 a 的文档。如果算法返回的文档集是 {aa，ab}，那么直觉告诉我们精确率是100%。我们可以代入公式验证一下：

事实上就是100%。如果我们再查找一次，除了{aa，ab}这个结果，我们还得到{bc，de}这个结果，精确率就会受到影响如下：

这里，结果中包含了相关的结果，也包含了两个不相关的结果，导致精确率降低了。然而，如果给这个例子计算召回率，那它将是100%，这就是精确率与召回率之间的不同之处。

召回率

召回率是指，给定查找条件和一个数据集，算法检索到的相关条目的数量。因此，给定一组文档以及能够返回一个文档子集的查找条件，召回率就表示相关的文档中有多少被实际返回。召回率由下式计算：

我们举个例子看看如何应用该公式：

假设有一个完备的文档集 { aa, ab, bc, bd, ee }，我们要查找名字带有a的文档。如果算法返回{aa，ab}，那么召回率显然就是100%。我们可以代入公式验证一下：

事实上就是100%。下面我们看看如果算法只返回部分相关结果会怎么样：

这里，结果只包含一半的相关结果，导致召回率降低了。然而，如果计算这种情况下的精确率，结果是会100%，因为所有返回结果都是相关的。

先验

给定一个数据点，一个分类器的先验值代表了这个数据点属于该分类器的可能性大小。在实践中，这意味着当你在一个数据点处得到一个预测值时，先验值就表示模型对那个数据点的分类的确信度有多高。

均方根误差（RMSE）

均方根误差（RMSE 或 RMSD，D 代表 deviation，即偏差）是指对实际值与预测值之差先平方，再求均值，然后开方。我举个例子来解释一下好帮助理解。假设我们有以下数据：

模型的平方差的均值是 4.33333，该值的平方根是 2.081666. 因此，该模型的预测值的平均误差为 2.08。RMSE 值越低，模型的预测效果越好。这就是为什么在选择特征时，人们会分别计算包含和不包含某个特征的 RMSE 值，以判断那个特征是如何影响模型的性能的。通过这些信息，人们就可以确定，和模型的效率提升比起来，由于该特征值增加的额外的计算时间是否值得。

此外，因为 RMSE 值是一个绝对值，所以它可以归一化以进行模型之间的比较。这就是归一化均方根误差 (NRMSE)。然而，要计算这个值，首先要知道系统所包含的最小值与最大值。假设我们有一个最小值为 5 度、最大值为 25 度的温度范围，那么可用下式来计算 NRMSE 值：

若代入实际值，可得到如下结果：

那这个 10.4 表示什么呢？这是模型对数据点进行预测的平均误差百分数。

最后，我们可以利用 RMSE 值来计算拟合度 (R Squared)。拟合度反映的是，与各个值的平均值作比较（不考虑模型的情况），模型的预测效果有多好。我们首先要计算出平均法的 RMSE 值。对上文的表格最后一列值的取平均，结果是 4.22222，其平方根是 2.054805。首先注意到这个值比模型的值要小。这不是个好现象，因为这表明模型的预测效果比单单取平均值要差。然而，我们主要是演示怎么计算拟合度，所以我们继续计算过程。

现在，模型与平均法的 RSME 值都求出来了，接着用下式计算拟合度：

代入实际值得到以下结果：

常见陷阱

这部分要介绍的是在应用机器学习技术的过程中经常会碰到的问题，主要内容是向读者解析这些陷阱以帮助读者避开它们。

过度拟合

对数据进行拟合时，数据本身可能会包含噪声（例如有测量误差）。如果你精确地把每一个数据点都拟合进一个函数中，那你会把噪声也耦合到模型中去。这虽然能使模型在预测测试数据时表现良好，但在预测新数据时会相对较差。

把数据点和拟合函数画在图表中，下列左图反映过度拟合的情况，右图表示一条穿过数据点的回归曲线，它对数据点能够适当拟合。

应用回归分析时容易产生过度拟合，也很容易出现在朴素贝叶斯分类算法中。在回归分析中，产生过度拟合的途径有舍入操作、测量不良和噪声数据。在朴素贝叶斯分类算法中，选定的特征可能导致过度拟合。例如，对垃圾和正常邮件的分类问题保留所有停用词。

通过运用验证技术、观察数据的统计特征以及检测和剔除异常值，可以检测出过度拟合。

欠拟合

当你对数据进行建模时，把很多统计数据都遗漏掉了，这叫做欠拟合。有很多原因可以导致欠拟合，例如，对数据应用不合适的回归类型。如果数据中包含了非线性结构，而你却运用线性回归，这就产生了一个欠拟合模型。下列左图代表了一条欠拟合的回归线，右图右图表示一条合适的回归线。

为了防止欠拟合，你可以画出数据点从而了解数据的内在结构，以及应用验证技术，例如交叉验证。

维度灾难

对于已知的数据量存在一个最大的特征数（维数），当实际用于建立机器模型的特征数超过这个最大值时，就产生维度灾难问题。矩阵秩亏就是这样的一种问题。普通最小二乘 (OLS) 算法通过解一个线性系统来建立模型。然而，如果矩阵的列数多于行数，那这个系统不可能有唯一解。最好的解决办法是获取更多数据点或者减小特征数。

如果读者想了解更多关于维度灾难的内容，可以参考一个关于这方面的研究。在这个研究中，研究人员 Haifeng Li，Keshu Zhang 和 Tao Jiang 发展一种用少量数据点改善肿瘤分类的算法。他们还将其与支持向量机和随机森林算法做了比较。

动态机器学习

在几乎所有你能找到的机器学习文献中，静态模型就是首先通过建立、验证流程，然后作预测或建议用途。然而在实践中，仅仅这样做还不足以应用好机器学习。所以，我们在这部分中将要介绍怎么样把一个静态模型改造成一个动态模型。因为（最佳的）实现是依赖于你所使用的算法的，所以我们将只作概念介绍而不给出实例了。鉴于文本解释不够清晰，我们首先用一个图表展示整个体系，然后用这个图表介绍机器学习以及如何做成一个动态系统。

机器学习的基本流程如下：

1、搜集数据

2、把数据分割为测试集和训练集

3、训练一个模型（应用某种机器学习算法）

4、验证模型，验证方法需要使用模型和测试数据

5、基于模型作出预测。

在该领域的实际应用中，以上的流程是不完整的，有些步骤并未包含进去。在我看来，这些步骤对于一个智能学习系统来说至关重要。

所谓的动态机器学习，其基本思路如下：模型作出预测后，将预测信息连同用户反馈一起返回给系统，以改善数据集和模型。那么，这些用户反馈是怎么获得的呢？我们以为 Facebook 的朋友推荐为例。用户面临两种选择：“添加朋友”或“移除”。基于用户的决定，对于那个预测你就得到了用户的直接反馈。

因此，假设你获得了这些用户反馈，那么你可以对模型应用机器学习来学习这些用户反馈。听起来可能有点奇怪，我们会更详细地解释这一过程。然而在那之前，我们要做一个免责声明：我们关于脸书朋友推荐系统的解释是一个100%的假说，并且绝对没有经过脸书本身的证实。就我们所知，他们的系统对外是不公开的。

假设该系统基于以下特征进行预测：

1、共同朋友的数量
2、相同的户籍
3、相同的年龄

然后你可以为脸书上的每一个人计算出一个先验值，这个先验值描述了他/她是你的朋友的概率有多大。假设你把一段时间内所有的预测信息都存储下来，就可以用机器学习分析这些数据来改善你的系统。更详细地说，假设大多数的“移除好友”推荐在特征 2 上具有较高评级，但在特征 1 上评级相对较低，那么我们可以给预测系统加入权重系数，让特征 1 比特征 2 更重要。这样就可以为我们改善推荐系统。

此外，数据集随时间而增大，所以我们要不断更新模型，加入新数据，使预测更准确。不过，在这个过程中，数据的量级及其突变率起着决定性作用。

实例

在这部分中，我们结合实际环境介绍了一些机器学习算法。这些实例主要为了方便读者入门之用，因此我们不对其内在的算法作深入讲解。讨论的重点完全集中在这些算法的功能方面、如何验证算法实现以及让读者了解常见的陷阱。

我们讨论了如下例子：

基于下载/上传速度的互联网服务提供商标记法 (K-NN)
正常/垃圾邮件分类（朴素贝叶斯法）
基于内容的邮件排序（推荐系统）
基于身高预测体重（线性回归：普通最小二乘法）
尝试预测最畅销书排行（文本回归）
应用无监督学习合并特征（主成分分析）
应用支持向量机（支持向量机）

我们在这些实例中都使用了 Smile 机器学习库，包括 smile-core 和 smile-plot 这两个库。这些库在 Maven, Gradle, Ivy, SBT 和 Leiningen 等工具上都是可用的。如何把这些库添加到这些工具中去，对于 core 库，参考这里，对于 plot 库，参考这里。

所以，在开始做这些实例之前，我假定你在自己最喜欢的 IDE 上建立了一个新项目，并把 smile-core 库和 smile-plot 库添加到了你的项目中。其他需要用到的库以及如何获取实例的数据会在每个例子中分别予以说明。

基于下载/上传速度的互联网服务供应商标记法（使用 K-NN 算法、Smile 库、Scala 语言）

这一部分的主要目标是运用 K 最近邻算法，根据下载/上传速度对将互联网服务供应商 (ISP) 分为 Alpha 类（由 0 代表）或 Beta 类（由 1 代表）。K-NN 算法的思路如下：给定一组已经分好类的点，那么，对新点的分类可以通过判别它的 K 个最近邻点的类别（K 是一个正整数）。K 个最近邻点可以通过计算新点与其周围点之间的欧氏距离来查找。找出这些邻近点，你就得到了最具代表性的类别，并将新点分到这一类别中。

做这一案例需要先下载示例数据。此外，还要把代码段中的路径改为你存储示例数据的地方。

首先要加载 CSV 数据文件。这没什么难的，所以我直接给代码，不做进一步解释：

object KNNExample {
   def main(args: Array[String]): Unit = {
    val basePath = "/.../KNN_Example_1.csv"
    val testData = getDataFromCSV(new File(basePath))
    }

  def getDataFromCSV(file: File): (Array[Array[Double]], Array[Int]) = {
    val source = scala.io.Source.fromFile(file)
    val data = source
        .getLines()
        .drop(1)
        .map(x => getDataFromString(x))
        .toArray

    source.close()
    val dataPoints = data.map(x => x._1)
    val classifierArray = data.map(x => x._2)
    return (dataPoints, classifierArray)        
  }

  def getDataFromString(dataString: String): (Array[Double], Int) = {

    //Split the comma separated value string into an array of strings
    //把用逗号分隔的数值字符串分解为一个字符串数组
    val dataArray: Array[String] = dataString.split(',')

    //Extract the values from the strings
    //从字符串中抽取数值
    val xCoordinate: Double = dataArray(0).toDouble
    val yCoordinate: Double = dataArray(1).toDouble
    val classifier: Int = dataArray(2).toInt

    //And return the result in a format that can later 
    //easily be used to feed to Smile
    //并以一定格式返回结果，使得该结果之后容易输入到Smile中处理
    return (Array(xCoordinate, yCoordinate), classifier)
  }
}

你首先可能会奇怪为什么数据要使用这种格式。数据点与它们的标记值之间的间隔是为了更容易地分割测试数据和训练数据，并且在执行 K-NN 算法以及给数据绘图时，API 需要这种数据格式。其次，把数据点存储为一个数组 (Array[Array[Double]])，能够支持 2 维以上的数据点。

给出这些数据之后，接下来要做的就是将数据可视化。Smile 为这一目的提供了一个很好的绘图库。不过，要使用这一功能，应该把代码转换到 Swing 中去。此外还要把数据导入到绘图库中以得到带有实际绘图结果的 JPane 面板。代码转换之后如下：

object KNNExample extends SimpleSwingApplication { 
  def top = new MainFrame {
    title = "KNN Example"
    val basePath = "/.../KNN_Example_1.csv"

    val testData = getDataFromCSV(new File(basePath))

    val plot = ScatterPlot.plot(testData._1,
                                 testData._2, 
                                 '@', 
                                 Array(Color.red, Color.blue)
                                )
    peer.setContentPane(plot)
    size = new Dimension(400, 400)

  }
  ...

将数据绘成图是为了检验 K-NN 在这种具体情况中是否为合适的机器学习算法。绘图结果如下：

在这个图中可以看到，蓝点和红点在区域 3

考虑到 K-NN 算法是这个问题的一个不错的选择，我们可以继续机器学习的实践。GUI 在这里实际上没有用武之地，我们摒弃不用。回顾机器学习的全局体系这部分，其中提到机器学习的两个关键部分：预测和验证。首先我们进行验证，不作任何验证就把模型拿来使用并不是一个好主意。这里验证模型的主要原因是为了防止过拟合。不过在做验证之前，我们要选择一个合适的 K 值。

这个方法的缺点就是不存在寻找最佳 K 值的黄金法则。然而，可以通过观察数据来找出一个合理的 K 值，使大多数数据点可以被正确分类。此外，K 值的选取要小心，以防止算法引起的不可判定性。例如，假设 K=2，并且问题包含两种标签，那么，当有一个点落在两种标签之间时，算法会选择哪一种标签呢？有一条经验法则是这样的：K应该是特征数（维数）的平方根。那在我们的例子中就会有K=1，但这真不是一个好主意，因为它会在决策边界导致更高的误分率。考虑到我们有两种标签，让 K=2 会导致错误，因此，目前来说，选择 K=3 是比较合适。

在这个例子中，我们做 2 折交叉验证。一般来讲，2 折交叉验证是一种相当弱的模型验证方法，因为它将数据集分割为两半并且只验证两次，仍有可能产生过拟合，不过由于这里的数据集只包含 100 个点，10 折验证（一个较强的版本）发挥不了作用，因为这样的话，将只有 10 个点用于测试，会导致误差率倾斜。

 def main(args: Array[String]): Unit = {
   val basePath = "/.../KNN_Example_1.csv"
    val testData = getDataFromCSV(new File(basePath))

    //Define the amount of rounds, in our case 2 and 
    //initialise the cross validation
    //在这第二种情况中我们设置了交叉验证的次数并初始化交叉验证
    val cv = new CrossValidation(testData._2.length, validationRounds)

    val testDataWithIndices = (testData
                                ._1
                                .zipWithIndex, 
                                testData
                                ._2
                                .zipWithIndex)

    val trainingDPSets = cv.train
      .map(indexList => indexList
      .map(index => testDataWithIndices
      ._1.collectFirst { case (dp, `index`) => dp}.get))

    val trainingClassifierSets = cv.train
      .map(indexList => indexList
      .map(index => testDataWithIndices
      ._2.collectFirst { case (dp, `index`) => dp}.get))

    val testingDPSets = cv.test
      .map(indexList => indexList
      .map(index => testDataWithIndices
      ._1.collectFirst { case (dp, `index`) => dp}.get))

    val testingClassifierSets = cv.test
      .map(indexList => indexList
      .map(index => testDataWithIndices
      ._2.collectFirst { case (dp, `index`) => dp}.get))


    val validationRoundRecords = trainingDPSets
      .zipWithIndex.map(x => (  x._1,           
                                trainingClassifierSets(x._2),
                                testingDPSets(x._2),
                                testingClassifierSets(x._2)
                               )
                        )

    validationRoundRecords
        .foreach { record =>

      val knn = KNN.learn(record._1, record._2, 3)

      //And for each test data point make a prediction with the model
      //对每个测试数据点，用模型做一次预测
      val predictions = record
        ._3
        .map(x => knn.predict(x))
        .zipWithIndex

      //Finally evaluate the predictions as correct or incorrect
      //and count the amount of wrongly classified data points.
      //最后检验预测结果正确与否，并记下被错误分类的数据点的个数

      val error = predictions
        .map(x => if (x._1 != record._4(x._2)) 1 else 0)
        .sum

      println("False prediction rate: " + error / predictions.length * 100 + "%")
    }
  }

如果你多次执行上面这段代码，你可能发现错误预测率会有一些波动。这是由于用来做训练和测试的随机样本。如果不幸地取到不好的随机样本，误差率会比较高，若取到好的随机样本，则误差率会极低。

不幸的是，关于如何为模型选取最好的随机样本来训练，我没有这样的黄金法则。也许有人会说，产生最小误差率的模型总是最好的。不过，再回顾一下过拟合这个概念，选用这样的特殊模型也可能会对新数据束手无策。这就是为什么获得一个足够大且具有代表性的数据集对一个成功的机器学习应用来说非常关键。然而，当遇到这种问题时，你可以用新的数据和已知的正确分类不断更新模型。

我们概括一下目前为止的进展状况。首先小心地选取训练和测试数据；下一步，建立几个模型并验证，选出给出最好结果的模型。接下来我们到达最后一步，就是用这个模型做预测：

val knn = KNN.learn(record._1, record._2, 3)
val unknownDataPoint = Array(5.3, 4.3)
val result = knn.predict(unknownDatapoint)
if (result == 0)
{
    println("Internet Service Provider Alpha")
}
else if (result == 1)
{
    println("Internet Service Provider Beta")
}
else
{
    println("Unexpected prediction")
}

执行这段代码之后，未标记点 (5.3, 4.3) 就被标记为 ISP Alpha。这个点是最容易分类的点之一，它明显落在数据图的 Alpha 区域中。如何做预测已经显而易见，我不再列举其他点，你可以随意尝试其它不同点，看看预测结果。

正常/垃圾邮件分类（朴素贝叶斯法）

在这个实例中，基于邮件内容，我们将用朴素贝叶斯算法把邮件分为正常邮件与垃圾邮件。朴素贝叶斯算法是计算一个目标在每个可能类别中的几率，然后返回具有最高几率的那个类别。要计算这种几率，算法会使用特征。该算法被称为朴素贝叶斯是由于它不考虑特征之间的任何相关性。换言之，每个特征都一样重要。我举个例子进一步解释：

假设你正在征颜色、直径和形状这几个特征将水果和蔬菜进行分类，现在有以下类别：苹果、番茄和蔓越莓。

假设你现在要把一个具有如下特征值的目标分类：（红色、4cm、圆形）。对我们来说，它显然是一个番茄，因为对比苹果它比较小，对比蔓越莓它太大了。然而，朴素贝叶斯算法会独立地评估每个特征，它的分类过程如下：

苹果 66.6% 可能性（基于颜色和形状）
番茄 100.0% 可能性（基于颜色、形状和大小）
蔓越莓 66.6% 可能性（基于颜色和形状）

因此，尽管实际上很明显它不可能是蔓越莓或苹果，朴素贝叶斯仍会给出 66.6% 的机会是这两种情况之一。所以即使它正确地把目标分类为番茄，在边界情况（目标大小刚好超出训练集的范围）下，它也可能给出糟糕的结果。不过，在邮件分类中，朴素贝叶斯算法表现还是不错的，这是由于邮件的好坏无法仅仅通过一个特征（单词）来分类。

你现在应该大概了解朴素贝叶斯算法了，我们可以继续做之前的实例了。在这个例子中，我们使用 Scala 语言，利用 Smile 库中的朴素贝叶斯实现，将邮件按内容分为垃圾邮件和正常邮件。

在开始之前还需要你从 SpamAssasins 公共文库上下载这个例子的数据。你所要用到的数据在 easy_ham 和 spam 文件里，但其余的文件在你需要做更多实验时也会用到。把这些文件解压之后，修改代码段里的文件路径以适应文件夹的位置。此外，在做筛选时，你还需要用到停用词文件。

对于每一个机器学习实现，第一步是要加载训练数据。不过在这个例子中，我们需要进一步深入机器学习。在 K-NN 实例中，我们用下载速度和上传速度作为特征。我们并不指明它们是特征，因为它们就是唯一可用的属性。对邮件分类这个例子来说，拿什么作为特征并非毫无意义。要分类出垃圾或正常邮件。你可以使用的特征有发送人、主题、邮件内容，甚至发送时间。

在这个例子中，我们选用邮件内容作为特征，也就是，我们要在训练集中，从邮件正文中选出特征（此例中是单词）。为了做到这一点，我们需要建立一个词汇文档矩阵 (TDM)。

我们从编写一个加载案例数据的函数开始。这个函数就是 getMessage 方法，在给定一个文件作为参数后，它从一个邮件中获取过滤文本。

def getMessage(file : File)  : String  =
  {
    //Note that the encoding of the example files is latin1,
    // thus this should be passed to the fromFile method.
    //注意案例文件采用latin1编码，所以应该把它们传递给fromFile方法
    val source = scala.io.Source.fromFile(file)("latin1")
    val lines = source.getLines mkString "n"
    source.close()
    //Find the first line break in the email, 
    //as this indicates the message body
    //在邮件中找出第一个换行符，因为这暗示信息的主体
    val firstLineBreak = lines.indexOf("nn")
    //Return the message body filtered by only text from a-z and to lower case
    //返回过滤后的信息主体，即只包含a-z并且为小写的文本。
    return lines
        .substring(firstLineBreak)
        .replace("n"," ")
        .replaceAll("[^a-zA-Z ]","")
        .toLowerCase()
  }

到此，在我们提供的案例数据文件夹中，我们需要一个方法来获取所有邮件的文件名。

def getFilesFromDir(path: String):List[File] = {
    val d = new File(path)
    if (d.exists && d.isDirectory) {
      //Remove the mac os basic storage file, 
      //and alternatively for unix systems "cmds"
      //移除mac os的基本存储文件或者unix系统的“cmd”文件

      d .listFiles
        .filter(x => x  .isFile &&
                     !x .toString
                        .contains(".DS_Store")  &&
                     !x .toString
                        .contains("cmds"))
                        .toList
    } 
    else {
      List[File]()
    }
  }

然后，我们要定义一组路径，它们可以方便我们从案例数据中加载不同的数据集。与此同时，我们也直接定义一组大小为 500 的样本，这是垃圾邮件训练集的总数。为了让训练集在两种分类上保持平衡，我们把正常邮件的样本总数也定为 500。

def main(args: Array[String]): Unit = {
    val basePath = "/Users/../Downloads/data"
    val spamPath = basePath + "/spam"
    val spam2Path = basePath + "/spam_2"
    val easyHamPath = basePath + "/easy_ham"
    val easyHam2Path = basePath + "/easy_ham_2"

    val amountOfSamplesPerSet = 500
    val amountOfFeaturesToTake = 100
    //First get a subset of the filenames for the spam 
    // sample set (500 is the complete set in this case)
    //首先取出一个包含文件名的子集作为垃圾邮件样本集（在这个案例中，全集是500个文件名）
    val listOfSpamFiles =   getFilesFromDir(spamPath)
        .take(amountOfSamplesPerSet)
    //Then get the messages that are contained in these files
    //然后取得包含在这些文件中的信息
    val spamMails = listOfSpamFiles.map(x => (x, getMessage(x)))

     //Get a subset of the filenames from the ham sample set
     //取出一个文件名子集作为正常邮件样本集
     // (note that in this case it is not necessary to randomly
     // sample as the emails are already randomly ordered)
     //（注意在本案例中没有必要随机取样，因为这些邮件已经是随机排序）

    val listOfHamFiles =   getFilesFromDir(easyHamPath)
        .take(amountOfSamplesPerSet)
    //Get the messages that are contained in the ham files
    //取得包含在正常邮件中的信息
    val hamMails  = listOfHamFiles
        .map{x => (x,getMessage(x)) }
  }

既然我们已经获取了正常邮件和垃圾邮件的训练数据，就可以开始建立两个 TDM 了。不过在给出实现这个过程的代码之前，我们首先简短解释下这么做的原因。TDM 包含了所有出现在训练集正文中的单词，以及词频。然而，词频可能不是最好的量度方法（比如，一封含有 1000000 个“cake”的邮件就能把整个表搞砸），因此我们也会计算出现率，也就是，包含那个特定词汇的文档数量。现在我们开始生成两个 TDM。

 val spamTDM  = spamMails
      .flatMap(email => email
        ._2.split(" ")
        .filter(word => word.nonEmpty)
        .map(word => (email._1.getName,word)))
        .groupBy(x => x._2)
        .map(x => (x._1, x._2.groupBy(x => x._1)))
        .map(x => (x._1, x._2.map( y => (y._1, y._2.length))))
        .toList

    //Sort the words by occurrence rate descending 
    //以出现率降序排列这些单词
    //(amount of times the word occurs among all documents)
    //（该单词在所有文档中出现的总次数）
  val sortedSpamTDM = spamTDM
    .sortBy(x =>  - (x._2.size.toDouble / spamMails.length))

  val hamTDM  = hamMails
      .flatMap(email => email
      ._2.split(" ")
      .filter(word => word.nonEmpty)
      .map(word => (email._1.getName,word)))
      .groupBy(x => x._2)
      .map(x => (x._1, x._2.groupBy(x => x._1)))
      .map(x => (x._1, x._2.map( y => (y._1, y._2.length))))
      .toList

    //Sort the words by occurrence rate  descending 
    //以出现率降序排列这些单词
    //(amount of times the word occurs among all documents)
    //（该单词在所有文档中出现的总次数）
    val sortedHamTDM = hamTDM
        .sortBy(x =>  - (x._2.size.toDouble / spamMails.length))

给定了那些表格，为了更深入了解它们，我用 wordcloud 将它们生成图片。这些图片中反映了频率最高的 50 个单词 (top 50)的情况，我们观察一下。注意红色单词来自垃圾邮件，绿色单词来自正常邮件。此外，单词的大小代表出现率。因此，单词越大，至少出现一次该单词的文档越多。

你可以看到，停用词大多出现在前面。这些停用词是噪声，在特征选择过程中我们要尽可能避开它们。所以在选出特征之前，我们要从表格中剔除这些词。案例数据集已经包含了一列停用词，我们首先编写代码来获取这些词。

def getStopWords() : List[String] =
  {
    val source = scala.io.Source
        .fromFile(new File("/Users/.../.../Example Data/stopwords.txt"))("latin1")
    val lines = source.mkString.split("n")
    source.close()
    return  lines.toList
  }

现在我们可以扩展前文中的 TDM 生成代码，剔除停用词：

val stopWords = getStopWords

val spamTDM  = spamMails
      .flatMap(email => email
      ._2.split(" ")
      .filter(word => word.nonEmpty && !stopWords.contains(word))
      .map(word => (email._1.getName,word)))
      .groupBy(x => x._2)
      .map(x => (x._1, x._2.groupBy(x => x._1)))
      .map(x => (x._1, x._2.map( y => (y._1, y._2.length))))
      .toList


 val hamTDM  = hamMails
      .flatMap(email => email
      ._2.split(" ")
      .filter(word => word.nonEmpty && !stopWords.contains(word))
      .map(word => (email._1.getName,word)))
      .groupBy(x => x._2)
      .map(x => (x._1, x._2.groupBy(x => x._1)))
      .map(x => (x._1, x._2.map( y => (y._1, y._2.length))))
      .toList

如果马上观察垃圾邮件和正常邮件的 top 50 单词，就可以看到大多数停用词已经消失了。我们可以再作调整，但现在就用这个结果吧。

在了解了什么是“垃圾单词”和“正常单词”之后，我们就可以决定建立一个特征集了，稍后我们会把它用在朴素贝叶斯算法中以创建一个分类器。注意：包含更多的特征总是更好的，然而，若把所有单词都作为特征，则可能出现性能问题。这就是为什么在机器学习领域，很多开发者倾向于弃用没有明显影响的特征，纯粹就是性能方面的原因。另外，机器学习过程可以通过在完整的 Hadoop 集群上运行来完成，但是阐明这方面的内容就超出了本文的范围。

现在我们要选出出现率（而不是频率）最高的 100 个“垃圾单词”和 100 个“正常单词”，并把它们组合成一个单词集，它将输入到贝叶斯算法。最后，我们要转换这些训练数据以适应贝叶斯算法的输入格式。注意最终的特征集大小为 200（其中，#公共单词×2）。请随意用更大或更小的特征数做实验。

//Add the code for getting the TDM data and combining it into a feature bag.
//添加生成TDM数据并将其合成一个特征包的代码
val hamFeatures = hamTDM
    .records
    .take(amountOfFeaturesToTake)
    .map(x => x.term)

val spamFeatures = spamTDM
    .records
    .take(amountOfFeaturesToTake)
    .map(x => x.term)

//Now we have a set of ham and spam features,
//现在我们有了一套正常邮件和垃圾邮件特征，
// we group them and then remove the intersecting features, as these are noise.
//我们将它们组合在一起并将公共特征去除，因为它们是噪声
var data = (hamFeatures ++ spamFeatures).toSet
hamFeatures
    .intersect(spamFeatures)
    .foreach(x => data = (data - x))

//Initialise a bag of words that takes the top x features 
//from both spam and ham and combines them
//初始化一个单词包，从垃圾特征集和正常特征集中取出最前的x个特征，将它们合并
var bag = new Bag[String] (data.toArray)
//Initialise the classifier array with first a set of 0(spam)
//and then a set of 1(ham) values that represent the emails
//将该分类器数组初始化，首先用一组数值0代替垃圾邮件，然后用一组数值1代替正常邮件
var classifiers =   Array.fill[Int](amountOfSamplesPerSet)(0) ++
                    Array.fill[Int](amountOfSamplesPerSet)(1)

//Get the trainingData in the right format for the spam mails
//取得正确格式的垃圾邮件训练数据
var spamData = spamMails
    .map(x => bag.feature(x._2.split(" ")))
    .toArray

//Get the trainingData in the right format for the ham mails
//取得正确格式的正常邮件训练数据
var hamData = hamMails
    .map(x => bag.feature(x._2.split(" ")))
    .toArray

//Combine the training data from both categories
//将两种训练数据合并
var trainingData = spamData ++ hamData

给定了这个特征包以及一个训练数据集，我们就可以开始训练算法。为此，我们有几个模型可以采用：General 模型、Multinomial 模型和Bernoulli 模型。General 模型需要一个定义好的分布，而这个分布我们事先并不知道，因此这个模型并不是个好的选择。Multinomial 和Bernoulli 两个模型之间的区别就是它们对单词出现率的处理方式不同。Bernoulli模型仅仅是验证一个特征是否存在（二元值 1 或 0），因此它忽略了出现率这个统计值。反之，Multinomial 模型结合了出现率（由数值表示）。所以，与 Multinomial 模型比较，Bernoulli 模型在长文档中的表现较差。既然我们要对邮件排序，并且也要使用到出现率，因此我们主要讨论 Multinomial 模型，但尽管试试 Bernoulli 模型。

//Create the bayes model as a multinomial with 2 classification
// groups and the amount of features passed in the constructor.
//建立一个多项式形式的贝叶斯模型，将类别数2以及特征总数传递给该构建函数
  var bayes = new NaiveBayes(NaiveBayes.Model.MULTINOMIAL, 2, data.size)
  //Now train the bayes instance with the training data,
  // which is represented in a specific format due to the 
  //bag.feature method, and the known classifiers.
  //现在可以用训练数据和已知的分类器对贝叶斯模型进行训练，
  //训练数据已经用bag.feature方法表示为特定的格式

  bayes.learn(trainingData, classifiers)

现在我们有了一个训练好的模型，可以再次进行验证环节。不过呢，在案例数据中，我们已经将简单的和复杂的垃圾邮件（正常邮件）分开来，因此我们就不使用交叉验证了，而是用这些测试集来验证模型。以垃圾邮件分类作为开始，为此，我们使用 spam2 文件夹中的 1397 封垃圾邮件。

val listOfSpam2Files =   getFilesFromDir(spam2Path)
val spam2Mails = listOfSpam2Files
    .map{x => (x,getMessage(x)) }

val spam2FeatureVectors = spam2Mails
    .map(x => bag.feature(x._2.split(" ")))

val spam2ClassificationResults = spam2FeatureVectors
    .map(x => bayes.predict(x))

//Correct classifications are those who resulted in a spam classification (0)
//正确的分类是那些分出垃圾邮件（0）的结果
val correctClassifications = spam2ClassificationResults
    .count( x=> x == 0)

println (   correctClassifications + 
            " of " + 
            listOfSpam2Files.length + 
            "were correctly classified"
        )

println ((  (correctClassifications.toDouble / 
             listOfSpam2Files.length) * 100)  +
              "% was correctly classified"
        )

//In case the algorithm could not decide which category the email 
//belongs to, it gives a -1 (unknown) rather than a 0 (spam) or 1 (ham)
//如果算法无法确定一封邮件属于哪一类，
//它会给出-1（未知的）的结果而不是0（垃圾邮件）或1（正常邮件）

val unknownClassifications = spam2ClassificationResults
    .count( x=> x == -1)

println(    unknownClassifications + 
            " of " + 
            listOfSpam2Files.length +
            "were unknowingly classified"
        )

println(    (   (unknownClassifications.toDouble / 
                listOfSpam2Files.length) * 100)  +
                % was unknowingly classified"
        )

如果以不同的特征数多次运行这段代码，就可以得到下列结果：

注意，被标记为垃圾的邮件数量正是由模型所正确分类的。有趣的是，在只有 50 个特征的情况，这个算法分类垃圾邮件表现的最好。不过，考虑到在这50个最高频特征词中仍然有停用词，这个结果就不难解释了。若观察被分类为垃圾邮件的数目随特征数增加的变化（从 100 开始），可以看到，特征数越多，结果越大。注意还有一组被分为未知邮件。这些邮件在“正常”和“垃圾”两个类别中的先验值是相等的。这种情况也适用于那些其中未包含正常或垃圾邮件特征词的邮件，因为这样的话，算法会认为它有 50% 是正常邮件, 50% 是垃圾邮件。

现在我们对正常邮件进行相同的分类过程。通过将变量 listOfSpam2Files 的路径改为 easyHam2Path，并重新运行该代码，我们可以得到以下结果：

注意现在被正确分类的是那些被标记为“正常”的邮件。从这里可以看到，事实上当只用50个特征时，被正确分类为正常邮件的数目明显低于使用100个特征时的情况。你应该注意到这点并且对所有类别验证你的模型，就如在这个例子中，用垃圾邮件和正常邮件的测试数据对模型都做了验证。

概括一下这个实例，我们演示了如何应用朴素贝叶斯算法来分类正常或垃圾邮件，并得到如下的结果：高达 87.26% 的垃圾邮件识别率和 97.79% 的正常邮件识别率。这表明朴素贝叶斯算法在识别正常或垃圾邮件时表现得确实相当好。

朴素贝叶斯算法实例到这里就结束了。如果你还想多研究一下这个算法和垃圾邮件分类，文库里还有一组“困难级别的”正常邮件，你可以通过调整特征数、剔除更多停用词来尝试正确分类。

基于内容的邮件排序（推荐系统）

这个实例完全是关于建立你自己的推荐系统的。我们将基于如下特征对邮件进行排序：“发送人”、“主题”、“主题中的公共词汇”和“邮件正文中的公共词汇”。稍后我们会对实例中的这些特征一一做解释。注意在设计你自己的推荐系统时，你要自己定义这些特征，而这正是最困难的环节之一。想出合适的特征来非常重要，而且就算最终选好了特征，已有的数据往往可能无法直接利用。

这个实例旨在教你如何选取特征以及解决在这个过程中使用你自己的数据时会遇到的问题。

我们将会使用邮件数据的一个子集，这些邮件数据已在实例“垃圾/正常邮件分类”中使用过了。这个子集可以从这里下载。此外，你还需要停用词文件。注意这些数据是一组接收到的邮件，因此我们还缺少一半数据，也就是这个邮箱发送出去的邮件。然而，就算没有这些信息，我们还是可以做一些相当漂亮的排序工作，待会儿就知道了。

在我们开始建立排序系统之前，我们首先需要从邮件数据集中抽取出尽可能多的数据来。因为这些数据本身有点冗长，我们给出处理这个过程的代码。行内注释对代码的作用进行了解释。注意，该程序一开始就是一个在 GUI 中的 swing 应用。之所以这样做，是因为稍后我们要将数据绘成图以洞悉其隐含的模式。同时注意，我们直接将数据分割为测试数据和训练数据，为我们之后验证模型做准备。

import java.awt.{Rectangle}
import java.io.File
import java.text.SimpleDateFormat
import java.util.Date
import smile.plot.BarPlot

import scala.swing.{MainFrame, SimpleSwingApplication}
import scala.util.Try

object RecommendationSystem extends SimpleSwingApplication {

 case class EmailData(emailDate : Date, sender : String, subject : String, body : String)

  def top = new MainFrame {
    title = "Recommendation System Example"

    val basePath = "/Users/../data"
    val easyHamPath = basePath + "/easy_ham"

    val mails = getFilesFromDir(easyHamPath).map(x => getFullEmail(x))
    val timeSortedMails = mails
      .map  (x => EmailData (   getDateFromEmail(x),
                                getSenderFromEmail(x), 
                                getSubjectFromEmail(x), 
                                getMessageBodyFromEmail(x)
                            )
            )
      .sortBy(x => x.emailDate)

    val (trainingData, testingData) = timeSortedMails
            .splitAt(timeSortedMails.length / 2)

      }

  def getFilesFromDir(path: String): List[File] = {
    val d = new File(path)
    if (d.exists && d.isDirectory) {
      //Remove the mac os basic storage file, 
      //and alternatively for unix systems "cmds"
      //移除mac os的基本存储文件或者unix系统的“cmds”文件
      d.listFiles.filter(x =>   x.isFile &&
                                !x.toString.contains(".DS_Store") &&
                                !x.toString.contains("cmds")).toList
    } else {
      List[File]()
    }
  }

  def getFullEmail(file: File): String = {
    //Note that the encoding of the example files is latin1, 
    //thus this should be passed to the from file method.
    //注意案例文件采用latin1编码，因此应该把它们传递给fronFile方法
    val source = scala.io.Source.fromFile(file)("latin1")
    val fullEmail = source.getLines mkString "n"
    source.close()

    fullEmail
  }

  def getSubjectFromEmail(email: String): String = {

    //Find the index of the end of the subject line
    //找出主题行的结束标志
    val subjectIndex = email.indexOf("Subject:")
    val endOfSubjectIndex = email   
    .substring(subjectIndex)                        .indexOf('n') + subjectIndex

    //Extract the subject: start of subject + 7 
    // (length of Subject:) until the end of the line.
    //抽取主题：主题开端+7（主题的长度），直到该行结束
    val subject = email
    .substring(subjectIndex + 8, endOfSubjectIndex)
    .trim
    .toLowerCase

    //Additionally, we check whether the email was a response and 
    //remove the 're: ' tag, to make grouping on topic easier:
    //此外，我们检查邮件是否是一封回复并删除“re：”标签，使对话题的分组更容易
    subject.replace("re: ", "")
  }

  def getMessageBodyFromEmail(email: String): String = {

    val firstLineBreak = email.indexOf("nn")
    //Return the message body filtered by only text 
    //from a-z and to lower case
    //返回过滤后的信息主体，即只包含a-z小写形式的文本
    email.substring(firstLineBreak)
    .replace("n", " ")
    .replaceAll("[^a-zA-Z ]", "")
    .toLowerCase
  }

  def getSenderFromEmail(email: String): String = {
    //Find the index of the From: line
    //找出带有“From:”标志的行
    val fromLineIndex = email
    .indexOf("From:")

    val endOfLine = email
    .substring(fromLineIndex)
    .indexOf('n') + fromLineIndex

    //Search for the <> tags in this line, as if they are there,
    // the email address is contained inside these tags
    //在该行中搜索“<>”标签，如果标签存在，则邮件地址包含在其中

    val mailAddressStartIndex = email
    .substring(fromLineIndex, endOfLine)
    .indexOf('<') + fromLineIndex + 1

    val mailAddressEndIndex = email
    .substring(fromLineIndex, endOfLine)
    .indexOf('>') + fromLineIndex

    if (mailAddressStartIndex > mailAddressEndIndex) {

      //The email address was not embedded in <> tags,
      // extract the substring without extra spacing and to lower case
      //邮件地址不是括在<>标签内，抽取子字符串并去除空格，转为小写形式
      var emailString = email
      .substring(fromLineIndex + 5, endOfLine)
      .trim
      .toLowerCase

      //Remove a possible name embedded in () at the end of the line,
      //for example in [email protected] (tester) the name would be removed here
      //删除行末可能包含在()内的名字，例如，在[email protected](tester) 中，名字会被删除掉
      val additionalNameStartIndex = emailString.indexOf('(')
      if (additionalNameStartIndex == -1) {
        emailString
        .toLowerCase
      }
      else {
        emailString
        .substring(0, additionalNameStartIndex)
        .trim
        .toLowerCase
      }
    }
    else {
      //Extract the email address from the tags. 
      //抽取标签中的邮件地址
      //If these <> tags are there, there is no () with a name in
      // the From: string in our data
      //我们的数据中，如果“From：”字符串存在标签<>，则不会有带()的名字出现
      email
      .substring(mailAddressStartIndex, mailAddressEndIndex)
      .trim
      .toLowerCase
    }
  }

  def getDateFromEmail(email: String): Date = {
    //Find the index of the Date: line in the complete email
    //在整封邮件中找出日期行的标志
    val dateLineIndex = email
    .indexOf("Date:")

    val endOfDateLine = email
    .substring(dateLineIndex)
    .indexOf('n') + dateLineIndex

    //All possible date patterns in the emails.
    //邮件中所有可能的日期格式
    val datePatterns = Array(   "EEE MMM dd HH:mm:ss yyyy",
                                "EEE, dd MMM yyyy HH:mm",
                                "dd MMM yyyy HH:mm:ss",
                                "EEE MMM dd yyyy HH:mm")

    datePatterns.foreach { x =>
      //Try to directly return a date from the formatting.
      //尝试用一种日期格式直接返回一个日期
      //when it fails on a pattern it continues with the next one
      // until one works
      //对于一种格式，当返回错误时，它接着尝试下一种格式直到成功。

      Try(return new SimpleDateFormat(x)
                    .parse(email
                            .substring(dateLineIndex + 5, endOfDateLine)
                            .trim.substring(0, x.length)))
    }
    //Finally, if all failed return null
    //最后，如果都失败了则返回null
    //(this will not happen with our example data but without 
    //this return the code will not compile)
    //（对于我们的案例数据，这不会发生，但是没有这一返回，代码就不会编译）
    null
  }
}

这一数据预处理过程非常普遍，并且，一旦你的数据格式不标准，如带有邮件的日期和发送人，那这个过程将会令人非常纠结。不过，给出了这段代码之后，我们的实例数据现在就有了以下这些可用的属性：完整邮件、接收日期、发送人、主题和正文。有了这些，我们得以确定推荐系统实际要用到的特征。

我们建议选取的第一个特征来源于邮件的发送人。那些你经常收到 Ta 邮件的人应该排在那些你很少收到 Ta 邮件的人的前面。这是个很有力的假设，但是你应该会本能地认同我们没有考虑垃圾邮件这件事。我们来看看发送人在整个邮件集上的分布。

//Add to the top body:
//添加到主体的顶部

//First we group the emails by Sender, then we extract only the sender address 
//and amount of emails, and finally we sort them on amounts ascending
//首先我们按发送人给邮件分组，然后只抽取发送人的地址以及邮件数，
//最后按邮件数给这些地址按升序排序
val mailsGroupedBySender = trainingData
.groupBy(x => x.sender)
.map(x => (x._1, x._2.length))
.toArray
.sortBy(x => x._2)

//In order to plot the data we split the values from the addresses as 
//this is how the plotting library accepts the data.
//为了将数据绘图，我们将数值与这些地址分离开，因为绘图库只接收这样的数据
val senderDescriptions = mailsGroupedBySender
    .map(x => x._1)

val senderValues = mailsGroupedBySender
    .map(x => x._2.toDouble)

val barPlot = BarPlot.plot("", senderValues, senderDescriptions)

//Rotate the email addresses by -80 degrees such that we can read them
//将邮件地址旋转80度以方便阅读
barPlot.getAxis(0).setRotation(-1.3962634)
barPlot.setAxisLabel(0, "")
barPlot.setAxisLabel(1, "Amount of emails received ")
peer.setContentPane(barPlot)

bounds = new Rectangle(800, 600)

这里可以看到，给你发送邮件最多的人发了45封，其后是37封，然后就迅速下降了。这些异常值的存在，会导致直接使用这些数据时，推荐系统仅将邮件发送最多的 1 到 2 位发送人列为重要级别，而剩下的则不考虑。为了防止出现这个问题，我们将通过 log1p 函数对数据进行重缩放。 log1p 函数是将数据加 1，然后再对其取对数 log。将数据加 1 的操作是考虑到发送人只发送一封邮件的情况。在对数据进行这样一个取对数操作之后，其图像是这样的。

//Code changes:
//代码更新
val mailsGroupedBySender = trainingData
    .groupBy(x => x.sender)
    .map(x => (x._1, Math.log1p(x._2.length)))
    .toArray
    .sortBy(x => x._2)

barPlot.setAxisLabel(1, "Amount of emails received on log Scale ")

事实上，这些数据仍是相同的，只不过用了不同的比例来展示。注意数据的数值范围在 0.69 与 3.83 之间。这个范围小了很多，异常值也不会太偏离其他数据。在机器学习领域，这种数据操作技巧是很常用的。找到合适的缩放比例需要某种洞察力。所以，在做重缩放时，应用 Smile 的绘图库画出多幅不同缩放比例的图，会给工作带来很大的帮助。

下一个我们要分析的特征是主题出现的频率和时段。如果一个主题经常出现，那它有可能更重要。此外，我们还考虑了一个邮件会话的持续时间。因此，一个主题的频率可以用这个主题下邮件会话的持续时间来标准化。这样，高度活跃的邮件会话会被排在最前面，再次强调，这也是我们的一个假设。

我们来看看这些主题和它们的出现次数：

//Add to 'def top'  
//添加到‘def top’
val mailsGroupedByThread = trainingData
    .groupBy(x => x.subject)

//Create a list of tuples with (subject, list of emails)
//创建一列元组（主题，邮件列表）
val threadBarPlotData = mailsGroupedByThread
    .map(x => (x._1, x._2.length))
    .toArray
    .sortBy(x => x._2)

val threadDescriptions = threadBarPlotData
    .map(x => x._1)
val threadValues = threadBarPlotData
    .map(x => x._2.toDouble)

//Code changes in 'def top'
//改变的‘def top’代码
val barPlot = BarPlot.plot(threadValues, threadDescriptions)
barPlot.setAxisLabel(1, "Amount of emails per subject")

可以看出这与发送人的情况有类似的分布，因此我们再一次应用 log1p 函数。

//Code change:
//代码更新
val threadBarPlotData = mailsGroupedByThread
    .map(x => (x._1, Math.log1p(x._2.length)))
    .toArray
    .sortBy(x => x._2)

现在，每个主题的邮件数的取值范围变为 0.69 到 3.41，对推荐系统来说，这比 1 到 29 的范围要好。不过，我们还没有把时间段考虑进去，因此我们回到标准频率上来，着手对数据作变换。为此，我们首先要获取每个邮件会话中，第一个邮件到最后一个邮件的时间间隔：

//Create a list of tuples with (subject, list of emails, 
//time difference between first and last email)
//创建一列元组（主题，邮件列表，首末两封邮件的时间间隔）
val mailGroupsWithMinMaxDates = mailsGroupedByThread
 .map(x => (x._1, x._2,
             (x._2
                .maxBy(x => x.emailDate)
                .emailDate.getTime - 
             x._2
                .minBy(x => x.emailDate)
                .emailDate.getTime
                            ) / 1000
              )
      )

//turn into a list of tuples with (topic, list of emails, 
// time difference, and weight) filtered that only threads occur
//转换为一列过滤后的元组（话题，邮件列表，时间间隔，权重），其中只出现邮件对话
val threadGroupedWithWeights = mailGroupsWithMinMaxDates
 .filter(x => x._3 != 0)
 .map(x => (x._1, x._2, x._3, 10 + 
                Math.log10(x._2.length.toDouble / x._3)))
 .toArray
 .sortBy(x => x._4)

val threadGroupValues = threadGroupedWithWeights
 .map(x => x._4)
val threadGroupDescriptions = threadGroupedWithWeights
 .map(x => x._1)

//Change the bar plot code to plot this data:
//改变条形图代码以将这些数据绘图
val barPlot = BarPlot.plot(threadGroupValues, threadGroupDescriptions)
barPlot.setAxisLabel(1, "Weighted amount of emails per subject")

注意代码中我们是如何确定时间差的，并将其除以 1000。这是为了把时间单位从毫秒化成秒。此外，我们用一个主题的频率除以时间差来计算权重。因为该值很小，我们对其取 log10 函数以使它放大一些。但这样做会把数值变负数，因此，我们将每个数值都加上 10 使其为正数。这个加权过程的结果如下：

我们想要的数值大概落在 4.4 到 8.6 的范围，这表明异常值对特征的影响已经很小。此外，我们观察权重最高的 10 个主题和最低的 10 个主题，看看到底发生了什么。

权重最高的 10 个主题

权重最低的 10 个主题

可以看到，权重最高的是那些短时间内就收到回复的邮件，而权重最低的则是那些回复等待时间很长的邮件。这样的话，即使是那些频率很低的主题也可以根据其往来邮件之间时间间隔短而被排在重要的位置。因此，我们可以得到两个特征：来自发送人的邮件数量 mailsGroupedBySender 和属于一个已知邮件会话的邮件的权重 threadGroupedWithWeights。

如前所述，我们的排序系统是要基于尽可能多的特征的，我们继续找下一个特征。这个特征是以我们刚刚计算出的权重值为基础的。我们的想法是，邮箱会收到带有不同主题的新邮件。不过，这些邮件的主题有可能含有类似于之前收到的重要邮件主题的关键词。因此，在一个邮件会话（一个主题下的多封往来邮件）开始之前，我们就能够将邮件排序。为此，我们把关键词的权重指定为含有这些关键词的主题的权重。如果多个主题都含有这些关键词，我们就选择权重最高的一个排在第一位。

这个特征有个问题，那就是停用词。还好，目前我们有一个停用词文件可以让我们剔除（大部分）英语停用词。然而，当你在设计自己的系统时，还应该考虑到可能会有多种语言出现，这时你就要剔除所有这些语言的停用词了。此外，在不同的语言中，某些单词会有多种不同的意思，因此，在这种情况下剔除停用词就要小心了。就现在来说，我们继续剔除英语停用词。这个特征的代码如下：

  def getStopWords: List[String] = {
    val source = scala.io.Source
        .fromFile(new File("/Users/../stopwords.txt"))("latin1")
    val lines = source.mkString.split("n")
    source.close()
    lines.toList
   }

//Add to top:
//添加到顶部
val stopWords = getStopWords

val threadTermWeights =  threadGroupedWithWeights
    .toArray
    .sortBy(x => x._4)
    .flatMap(x => x._1
            .replaceAll("[^a-zA-Z ]", "")
            .toLowerCase.split(" ")
            .filter(_.nonEmpty)
            .map(y => (y,x._4)))

val filteredThreadTermWeights = threadTermWeights
    .groupBy(x => x._1)
    .map(x => (x._1, x._2.maxBy(y => y._2)._2))
    .toArray.sortBy(x => x._1)
    .filter(x => !stopWords.contains(x._1))

给定这段代码，我们就得到了一张列表 filteredThreadTermWeights，该列表基于已有邮件会话中的权重列出了一些关键词。这些权重可以用来计算新邮件的主题的权重，即使这封邮件不是对已有会话的回复。

对于第四个特征，我们打算合并考虑在所有邮件中出现频率很高的词汇的权重。为此，我们要创建一个 TDM，不过这一次和前一个例子中的有点不同，这次，我们只将所有文档中的词汇频率取对数。此外，我们还要对出现率取 log10 函数。这么做可以缩小词汇频率的比例，防止结果被可能的异常值影响。

val tdm = trainingData
      .flatMap(x => x.body.split(" "))
      .filter(x => x.nonEmpty && !stopWords.contains(x))
      .groupBy(x => x)
      .map(x => (x._1, Math.log10(x._2.length + 1)))
      .filter(x => x._2 != 0)

这个 TDM 列表可以帮助我们根据历史数据计算新邮件正文的权重，这个权重很重要。

准备了这 4 个特征之后，我们就可以对训练数据做实际的排序计算。为此，我们要计算出每封邮件的 senderWeight （代表发送人的权重）、termWeight （代表主题词汇的权重）、threadGroupWeight （代表邮件会话的权重）以及 commonTermsWeight （代表邮件正文的权重），并将它们相乘以得到最后的排序。由于我们是做乘法而不是加法，我们需要小心那些小于1的数值。例如，有人发送了一封邮件，那么其 sengerWeight 就是 0.69，若将其与那些还未发送过任何邮件的人作比较就会不公平，因为对方的 senderWeight 值是 1。因此，对于那些数值可能低于 1 的各个特征，我们取函数 Math.max(value,1)。我们来看看代码：

val trainingRanks = trainingData.map(mail => {

      //Determine the weight of the sender, if it is lower than 1, pick 1 instead
      //确定发送人的权重，如果小于1，则设为1
      //This is done to prevent the feature from having a negative impact
      //这是为了防止特征出现负面影响
      val senderWeight = mailsGroupedBySender
        .collectFirst { case (mail.sender, x) =>  Math.max(x,1)}
        .getOrElse(1.0)

      //Determine the weight of the subject
      //确定主题的权重
      val termsInSubject = mail.subject
        .replaceAll("[^a-zA-Z ]", "")
        .toLowerCase.split(" ")
        .filter(x =>    x.nonEmpty &&
        !stopWords.contains(x)
        )

      val termWeight = if (termsInSubject.size > 0)
        Math.max(termsInSubject
          .map(x => {
          tdm.collectFirst { case (y, z) if y == x => z}
            .getOrElse(1.0)
        })
          .sum / termsInSubject.length,1)
      else 1.0

      //Determine if the email is from a thread,
      //and if it is the weight from this thread:
      //判断邮件是否来自一个会话，如果是，其在该会话的权重:
      val threadGroupWeight: Double = threadGroupedWithWeights
        .collectFirst { case (mail.subject, _, _, weight) => weight}
        .getOrElse(1.0)

      //Determine the commonly used terms in the email and the weight belonging to it:
      //确定邮件中的常用词汇及其权重:
      val termsInMailBody = mail.body
        .replaceAll("[^a-zA-Z ]", "")
        .toLowerCase.split(" ")
        .filter(x =>    x.nonEmpty &&
        !stopWords.contains(x)
        )

      val commonTermsWeight = if (termsInMailBody.size > 0)
        Math.max(termsInMailBody
          .map(x => {
          tdm.collectFirst { case (y, z) if y == x => z}
            .getOrElse(1.0)
        })
          .sum / termsInMailBody.length,1)
      else 1.0

      val rank =    termWeight *
        threadGroupWeight *
        commonTermsWeight *
        senderWeight

      (mail, rank)
    })

    val sortedTrainingRanks = trainingRanks
      .sortBy(x => x._2)
    val median = sortedTrainingRanks(sortedTrainingRanks.length / 2)._2
    val mean =  sortedTrainingRanks
      .map(x => x._2).sum /
                sortedTrainingRanks.length

我们计算了训练集中所有邮件的排序，还将它们做了排序并取中位数和平均值。我们取中位数和平均值是为了确定一个决策边界，通过该边界来评估一封邮件是优先级还是非优先级。在实践中，这个办法通常并不管用。实际上最好的办法是让用户标记一组邮件作为优先级，与另一组邮件作为非优先级。然后就可以用这些邮件的排序来计算出决策边界，此外还可以确认排序系统的特征是否选得正确。如果最终用户标记为非优先级的邮件评级比标记为优先级的邮件还高，那你可能要重新评估你所选取的特征。

我们之所以提出这个决策边界，而不是仅仅对用户邮件进行排序，是考虑了时间这个因素。如果你纯粹根据排序来整理邮件，那结果将会令人讨厌，因为人们通常喜欢根据时间来整理邮件。然而，假设我们要把这一排序系统融合到一个邮件客户端中，有了这个决策边界之后，我们就可以标记优先级邮件，然后把它们单独显示在一个列表中。

我们来看看在训练集中，有多少封邮件被标记为优先级。为此，我们首先需要添加下列代码：

val testingRanks = trainingData.map(mail => {
      //mail contains (full content, date, sender, subject, body)
      //包含（全部内容、日期、发送人、主题、正文）的邮件

      //Determine the weight of the sender
      //确定发送人的权重
      val senderWeight = mailsGroupedBySender
        .collectFirst { case (mail.sender, x) =>  Math.max(x,1)}
        .getOrElse(1.0)

      //Determine the weight of the subject
      //确定主题的权重
      val termsInSubject = mail.subject
        .replaceAll("[^a-zA-Z ]", "")
        .toLowerCase.split(" ")
        .filter(x =>    x.nonEmpty &&
        !stopWords.contains(x)
        )

      val termWeight = if (termsInSubject.size > 0)
        Math.max(termsInSubject
        .map(x => {
        tdm.collectFirst { case (y, z) if y == x => z}
          .getOrElse(1.0)
      })
        .sum / termsInSubject.length,1)
      else 1.0

      //Determine if the email is from a thread,
      //and if it is the weight from this thread:
      //判断一封邮件是否来自一个会话，如果是，其在该会话的权重:
      val threadGroupWeight: Double = threadGroupedWithWeights
        .collectFirst { case (mail.subject, _, _, weight) => weight}
        .getOrElse(1.0)

      //Determine the commonly used terms in the email and the weight belonging to it:
      //确定邮件中的常用词汇及其权重:
      val termsInMailBody = mail.body
        .replaceAll("[^a-zA-Z ]", "")
        .toLowerCase.split(" ")
        .filter(x =>    x.nonEmpty &&
        !stopWords.contains(x)
        )

      val commonTermsWeight = if (termsInMailBody.size > 0)
        Math.max(termsInMailBody
        .map(x => {
        tdm.collectFirst { case (y, z) if y == x => z}
          .getOrElse(1.0)
      })
        .sum / termsInMailBody.length,1)
      else 1.0

      val rank =    termWeight *
        threadGroupWeight *
        commonTermsWeight *
        senderWeight

      (mail, rank)
    })


    val priorityEmails = testingRanks
        .filter(x => x._2 >= mean)

    println(priorityEmails.length + " ranked as priority")

在实际执行了这个测试代码以后，你将看到这个测试集被标记为优先级的邮件数量实际是 563，占到测试集邮件数的 45%。这是一个相当大的值，所以我们可以用决策边界进行调节。不过，我们仅以此作为说明的目的，这个值并不应该拿去代表实际情况，所以我们就不再去纠结那个百分比。反之，我们来看看优先级邮件中评级最高的10封。

注意我已经将电子邮件地址的部分内容删除了，以防止垃圾邮件程序抓取这些地址。从下表中可以看到，这10封优先级最高的邮件中，大部分邮件都来自不同的会话，这些会话的活动性很高。以评级最高的那封邮件为例，这封邮件是一封9分钟前的邮件的回复。这就表明了这个邮件会话的重要性。

此外，我们还看到 tim.One… 在这个表中出现很多次。这反映出他的所有邮件都很重要，或者，他发送了这么多邮件以致排序系统自动将其评为优先。作为这个实例的最后一步，我们对这一点再做些讨论：

val timsEmails = testingRanks
    .filter(x => x._1.sender == "tim.one@...")
    .sortBy(x => -x._2)
timsEmails
    .foreach(x => println(  "| " +
                            x._1.emailDate +
                            " | "  +
                            x._1.subject + 
                            " | " +
                            df.format(x._2) + 
                            " |")
                         )

运行这一段代码后，一个包含 45 封邮件的列表就会被打印出来，评级最低的 10 封邮件如下：

我们知道决策边界就是平均值，这里是 25.06，那么可以看出，Tim 只有一封邮件没有被标记为优先级。这表明

，一方面，我们的决策边界太低了，而另一方面，Tim也许真的发送了很多重要邮件，否则很多邮件的评级就会

低于决策边界。不幸的是，我们无法为你提供确切的答案，因为我们不是这些测试数据的原主人。

当你手中的数据并非一手数据时，验证一个像这样的排序系统是相当困难的。验证并改善这个系统最常用的方式

是将它开放给客户使用，让他们标记、纠正错误。而这些纠错就可以用来改善系统。

总的来说，我们介绍了如何从含有异常值的原始数据中获取特征，以及如何把这些特征耦合到最终的排序值中。

此外，我们还尝试对这些特征进行验证，但由于缺乏对数据集的确切把握，我们无法得出明确的结论。不过，

如果你想使用自己的直接数据进行同样的过程，那么这个实例就可以帮助你建立自己的排序系统。

根据身高预测体重（应用普通最小二乘法）

在这部分中，我们将介绍普通最小二乘法，它是一种线性回归方法。因为这种方法十分强大，所以开始实例之前

，有必要先了解回归与常见的陷阱。我们将在这部分介绍一部分这些问题，其他的相关问题我们已在欠拟合与过

拟合这两小节中介绍过了。

线性回归的基本思想是用一条“最优的”回归线来拟合数据点。注意这只对线性数据并且无过大异常值的情况才

适用。如果你的数据不满足这种条件，那你可以尝试对数据进行操作，例如将数据取平方或取对数，直到满足

适用条件。

与往常一样，在一项工程开始时，首先要导入一个数据集。为此，我们提供了如下 csv 文件以及读取文件用的

代码：

def getDataFromCSV(file: File): (Array[Array[Double]], Array[Double]) = {
    val source = scala.io.Source.fromFile(file)
    val data = source.getLines().drop(1).map(x => getDataFromString(x)).toArray
    source.close()
    var inputData = data.map(x => x._1)
    var resultData = data.map(x => x._2)

    return (inputData,resultData)
  }

  def getDataFromString(dataString: String): (Array[Double], Double) = {

    //Split the comma separated value string into an array of strings
    //把用逗号分隔的数值字符串分解为一个字符串数组
    val dataArray: Array[String] = dataString.split(',')
    var person = 1.0

    if (dataArray(0) == ""Male"") {
      person = 0.0
    }

    //Extract the values from the strings
    //从字符串中抽取数值
    //Since the data is in US metrics 
    //inch and pounds we will recalculate this to cm and kilo's
    //因数据是采用美制单位英寸和磅，我们要将它们转换为厘米和千克
    val data : Array[Double] = Array(person,dataArray(1).toDouble * 2.54)
    val weight: Double = dataArray(2).toDouble * 0.45359237

    //And return the result in a format that can later easily be used to feed to Smile
    //并以一定格式返回结果，使得该结果之后容易输入到Smile中处理
    return (data, weight)
  }

你可能感兴趣的:(机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交