Rich Dad

2021-03-06 大数据课程笔记 day45

@R星校长

机器学习05【机器学习】

主要内容

模型评估方式
理解协同过滤思想
理解推荐系统架构
理解推荐系统流程

学习目标

第一节模型评估

1. 混淆矩阵：
对以上混淆矩阵的解释：

P：样本数据中的正例数。

N：样本数据中的负例数。

Y：通过模型预测出来的正例数。

N：通过模型预测出来的负例数。

True Positives:真阳性，表示实际是正样本预测成正样本的样本数。

Falese Positives:假阳性，表示实际是负样本预测成正样本的样本数。

False Negatives:假阴性，表示实际是正样本预测成负样本的样本数。

True Negatives:真阴性，表示实际是负样本预测成负样本的样本数。

2. ROC和AUC:

ROC(Receiver Operating Characteristic)曲线和AUC(Area Under the Curve)值常被用来评价一个二值分类器(binary classifier) 的优劣。

ROC曲线是以假阳性率FPR为横轴，以真阳性率TPR为纵轴的一个曲线图像。图像中的每一点是一个分类阈值，根据一些连续的分类阈值可以得到ROC的图像，如下图：有20个样本，其中真实正例有10个，用p表示，负例有10个，用n表示。Inst# 代表样本编号，Class代表样本真实的类别，Score表示利用模型得出每个测试样本属于真实样本的概率。依次将Score概率从大到小排序，得到下表：
从第一个样本开始直到第20个样本，依次将Score当做分类阈值threshold。当预测测试样本属于正样本的概率大于或等于该threshold时，我们认为该样本是正样本，否则是负样本。

如：拿到第一个样本，该样本真实类别是p,Score=0.9，将0.9看成分类阈值threshold，那么该样本预测是正例，TPR=1/10,FPR=0/10=0，拿到第二个样本，该样本真实类别是p,Score=0.8,将0.8作为threshold,该样本预测是正例，TPR=2/10,FPR=0/10=0 … … 以此类推,当拿到第7个样本时，该样本真实类别是n,Score=0.53，将0.53看成分类阈值threshold，预测为正例，但是预测错误，将本该属于负例的样本预测为正例，那么当阈值为0.53时，共预测7个样本，预测正确的样本标号为1,2,4,5,6。预测错误的样本标号为：3,7。那么此时，TPR=5/10=0.5,FPR=2/10=0.2。

按照以上方式，每选择一个阈值threshold时，都能得出一组TPR和FPR,即ROC图像上的一点。通过以上，可以得到20组TPF和FPR，可以得到ROC图像如下，当threshold取值越多，ROC曲线越平滑。
上图图像当样本真实类别为正例时，模型预测该样本为正例那么图像向上画一步（TPR方向）。如果该样本真实类别是负例，模型预测该样本为正例那么图像向右画一步（FPR方向）。

下图中，如果ROC的图像是通过（0,0）点和（1.1）点的一条直线也就是①线，那么当前模型的预测能力是0.5，即：模型在预测样本时，预测对一次，预测错一次，会形成①曲线。如果ROC曲线是②线，那么该模型预测数据的真阳性率大于假阳性率，也就是模型预测对的次数多，预测错的次数少，模型越好。当模型的ROC曲线为③线时，模型的假阳性率比真阳性率大，模型预测错的次数多，预测对的次数少，还不如随机瞎蒙的概率0.5。综上所述，ROC的曲线越是靠近纵轴，越陡，该模型越好。那么如何根据ROC来量化评价一个模型的好坏，这就要用到AUC面积。
AUC面积是ROC曲线与横轴（假阳性率，FPR）围成的面积,也就是曲线下方的面积。AUC面积越大越好，代表模型分类效果更准确。

计算AUC的公式：
其中，是属于正例的样本。M：测试样本中的正例数。N：测试样本中的负例数。代表将测试样本（正例和负例都有）中的Score值按照正序排序，找到样本属于正例的索引号累加和。

AUC=1，完美的分类器，采用这个预测模型时，不管设定什么样的阈值都能正确的预测结果。绝大多数情况下，不存在这种分类器。

0.5

AUC=0.5,和随机分类一样，就是随机瞎蒙，模型没有预测价值。

AUC<0.5,比随机分类还差，大多数情况下成功避开了正确的结果。

第二节决策树和随机森林

决策树和随机森林都是非线性有监督的分类模型。

决策树是一种树形结构，树内部每个节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶子节点代表一个分类类别。通过训练数据构建决策树，可以对未知数据进行分类，

随机森林是由多个决策树组成，随机森林中每一棵决策树之间没有关联，在得到一个随机森林后，当有新的样本进入的时候，随机森林中的每一棵决策树分别进行判断，分析出该样本属于哪一类，然后最后看哪一类被选择最多，就预测该样本属于这一类。

1. 认识决策树

术语：

根节点：最顶层的分类条件

叶节点：代表每一个类别号

中间节点：中间分类条件

分支：代表每一个条件的输出

二叉树：每一个节点上有两个分支

多叉树：每一个节点上至少有两个分支

2. 决策树分类原则

如下图数据集：
要按照前 4 列的信息，使用决策树预测车祸的发生，如何选择根节点呢？

按照 “天气” 列作为根节点，使用决策树预测，如图：
按照 “温度” 列作为根节点，使用决策树预测，如图：
按照 “湿度” 列作为根节点，使用决策树预测，如图：
使用 “风” 列作为根节点，使用决策树预测，如图：
通过以上发现，只有使用天气作为根节点时，决策树的高度相对低而且树的两边能将数据分类的更彻底（其他列作为根节点时，树两边分类不纯粹，都有天气）。

决策树的生成原则：数据不断分裂的递归过程，每一次分裂，尽可能让类别一样的数据在树的一边，当树的叶子节点的数据都是一类的时候，则停止分类。这样分类的数据，每个节点两边的数据不同，将相同的数据分类到树的一侧，能将数据分类的更纯粹。减少树的高度和训练决策树的迭代次数。注意：训练决策树的数据集要离散化，不然有可能造成训练出来的树有些节点的分支特别多，容易造成过拟合。

3. 选择分类条件

下图：
上图中箱子①中有100个红球。箱子②中有50个红球和50个黑球。箱子③中有10个红球和30个篮球，60个绿球。箱子④中各个颜色均有10中球。发现箱子①中球类单一，信息量少，比较纯粹，箱子④中，球的类别最多，相对①来说比较混乱，信息量大。

如何量化以上每个箱子中信息的纯粹和混乱（信息量的大小）指标，可以使用信息熵或者基尼系数。

1). 信息熵：信息熵是香农在1948年提出来量化信息信息量的指标，熵的定义如下：

计算 “是否购买电脑” 这列的信息熵，当前类别 “是否购买电脑” 有 2 个类别，分别是 “是” 和 “否”，那么 “是否购买电脑” 类别的信息熵如下：
通过以上计算可以得到，某个类别下信息量越多，熵越大，信息量越少，熵越小。假设“是否购买电脑”这列下只有“否”这个信息类别，那么“是否购买电脑”这列的信息熵为：
上图中，如果按照“年龄”，“收入层次”，“学生”，“信用等级”列使用决策树来预测“是否购买电脑”。如何选择决策树的根节点分类条件，就是找到某列作为分类条件时，使“是否购买电脑”这列分类的更彻底，也就是找到在某个列作为分类条件下时，“是否购买电脑”信息熵相对于没有这个分类条件时信息熵降低最大（降低最大，就是熵越低，分类越彻底），这个条件就是分类节点的分类条件。这里要使用到条件熵和信息增益。
H(是否购买电脑|年龄)=H(是否购买电脑|青少年)+H(是否购买电脑|中年)+H(是否购买电脑|老年)
在“年龄”条件下，“是否购买电脑”的信息增益为：

g(是否购买电脑，年龄)=H(是否购买电脑)-H(是否购买电脑,年龄)
=0.94-0.69=0.25

由以上可知，按照“记录ID”，“年龄”，“收入层次”，“学生”，“信用等级”列使用决策树来预测“是否购买电脑”，选择分类根分类条件时步骤：

a.计算 “是否购买电脑” 的信息熵
b.计算在已知各个列的条件熵

H(是够购买电脑|年龄)，H(是够购买电脑|收入层次)，H(是够购买电脑|是否学生)，H(是够购买电脑|信用等级)

c.求各个条件下的信息增益，选择信息增益大的作为分类条件。选择中间节点时，以此类推。

在构建决策树时，选择信息增益大的属性作为分类节点的方法也叫ID3分类算法。

2).基尼系数：基尼系数也可以表示样本的混乱程度。公式如下：基尼系数越小代表信息越纯，类别越少，基尼系数越大，代表信息越混乱，类别越多。基尼增益的计算和信息增益相同。假设某列只有一类值，这列的基尼系数为0。

4. 信息增益率
在上图中，如果将“记录ID”也作为分类条件的话，由于“记录ID”对于“是否购买电脑”列的条件熵为0，可以得到“是否购买电脑”在“记录ID”这个分类条件下信息增益最大。如果选择“记录ID”作为分类条件，容易造成分支特别多，对已有记录ID的数据可以分类出结果，对于新的记录ID有可能不能成功的分类出结果。

使用信息增益来筛选分类条件，更倾向于选择更混杂的属性。容易出现过拟合问题。可以使用信息增益率来解决这个问题。

信息增益率的公式：gr(D,A) = g(D,A)/H(A)，在某个条件下信息增益除以这个条件的信息熵。

例如:在“记录ID”条件下，“是否购买电脑”的信息增益最大，信息熵H(记录ID)也比较大，两者相除就是在“记录ID”条件下的信息增益率，结果比较小，消除了当某些属性比较混杂时，使用信息增益来选择分类条件的弊端。使用信息增益率来构建决策树的算法也叫 C4.5 算法。一般相对于信息增益来说，选择信息增益率选择分类条件比较合适。

如果决策树最后一个条件依然没能将数据准确分类，那么在这个节点上就可以使用概率来决定。看看哪些情况出现的多，该情况就是该节点的分类结果。

5. 使用决策树来做回归或者预测值
如上图，使用学历、收入、身高、行业使用决策树来预测收到的邮件数。可以将邮件数分为几类（也可以按照其他列，将邮件数分类），比如邮件数<=23封属于A类，邮件数大于23<邮件数<=30为B类，A类中取邮件的平均数，B类中也取邮件的平均数。就是可以将某些列作为分类条件划分邮件数的类别，再取邮件数的平均数，这样可以使用决策树来预测大概值的范围。

6. 决策树预剪枝和后剪枝

决策树对训练集有很好的分类能力，但是对于未知的测试集未必有好的分类能力，导致模型的泛化能力弱，可能发生过拟合问题，为了防止过拟合问题的出现，可以对决策树进行剪枝。剪枝分为预剪枝和后剪枝。

预剪枝：就是在构建决策树的时候提前停止。比如指定树的深度最大为3，那么训练出来决策树的高度就是3,预剪枝主要是建立某些规则限制决策树的生长，降低了过拟合的风险，降低了建树的时间，但是有可能带来欠拟合问题。

后剪枝：后剪枝是一种全局的优化方法，在决策树构建好之后，然后才开始进行剪枝。后剪枝的过程就是删除一些子树，这个叶子节点的标识类别通过大多数原则来确定，即属于这个叶子节点下大多数样本所属的类别就是该叶子节点的标识。选择减掉哪些子树时，可以计算没有减掉子树之前的误差和减掉子树之后的误差，如果相差不大，可以将子树减掉。一般使用后剪枝得到的结果比较好。

剪枝可以降低过拟合问题，如下图：
当来一条数据年龄为中年，信用高，孩子个数是4个时，没有办法分类。可以通过剪枝，降低过拟合问题。
7. 随机森林

随机森林是由多个决策树组成。是用随机的方式建立一个森林，里面由很多决策树组成。随机森林中每一棵决策树之间都是没有关联的。得到随机森林之后，对于一个样本输入时，森林中的每一棵决策树都进行判断，看看这个样本属于哪一类，最终哪一类得到的结果最多，该输入的预测值就是哪一类。
随机森林中的决策树生成过程是对样本数据进行行采样和列采样，可以指定随机森林中的树的个数和属性个数，这样当训练集很大的时候，随机选取数据集的一部分，生成一棵树，重复上面过程，可以生成一堆形态各异的树，这些决策树构成随机森林。
随机森林中的每个决策树可以分布式的训练，解决了单棵决策树在数据量大的情况下预算量大的问题。当训练样本中出现异常数据时，决策树的抗干扰能力差，对于随机森林来说也解决了模型的抗干扰能力。

第三节决策树和随机森林代码

1. 决策树：

object ClassificationDecisionTree {

  def main(args: Array[String]): Unit = {
	  val conf = new SparkConf()
			  conf.setAppName("analysItem")
			  conf.setMaster("local[3]")
			  val sc = new SparkContext(conf)
    val data = MLUtils.loadLibSVMFile(sc, "汽车数据样本.txt")
    // Split the data into training and test sets (30% held out for testing)
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))
    //指明类别
    val numClasses=2
    //指定离散变量，未指明的都当作连续变量处理
    //1,2,3,4维度进来就变成了0,1,2,3
    //这里天气维度有3类,但是要指明4,这里是个坑,后面以此类推
    val categoricalFeaturesInfo=Map[Int,Int](0->4,1->4,2->3,3->3)
    //设定评判标准  "gini"/"entropy"
    val impurity="entropy"
    //树的最大深度,太深运算量大也没有必要  剪枝   防止模型的过拟合！！！
    val maxDepth=3
    //设置离散化程度,连续数据需要离散化,分成32个区间,默认其实就是32,分割的区间保证数量差不多  这个参数也可以进行剪枝
    val maxBins=32
    //生成模型
    val model =DecisionTree.trainClassifier(trainingData,numClasses,categoricalFeaturesInfo,impurity,maxDepth,maxBins)
    //测试
   val labelAndPreds = testData.map { point =>
     val prediction = model.predict(point.features)
     (point.label, prediction)
   }
    val testErr = labelAndPreds.filter(r => r._1 != r._2).count().toDouble / testData.count()
    println("Test Error = " + testErr)
    println("Learned classification tree model:\n" + model.toDebugString)

  }
}

2. 随机森林：

object ClassificationRandomForest {
  def main(args: Array[String]): Unit = {
	  val conf = new SparkConf()
			  conf.setAppName("analysItem")
			  conf.setMaster("local[3]")
			  val sc = new SparkContext(conf)
    //读取数据
    val data =  MLUtils.loadLibSVMFile(sc,"汽车数据样本.txt")
    //将样本按7：3的比例分成
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))
    //分类数
    val numClasses = 2
    // categoricalFeaturesInfo 为空，意味着所有的特征为连续型变量
    val categoricalFeaturesInfo =Map[Int, Int](0->4,1->4,2->3,3->3)
    //树的个数
    val numTrees = 3 
    //特征子集采样策略，auto 表示算法自主选取
    //"auto"根据特征数量在4个中进行选择
    // 1,all 全部特征 2,sqrt 把特征数量开根号后随机选择的 3,log2 取对数个 4,onethird 三分之一
    val featureSubsetStrategy = "auto"
    //纯度计算  "gini"/"entropy"
    val impurity = "entropy"
    //树的最大层次
    val maxDepth = 3
    //特征最大装箱数,即连续数据离散化的区间
    val maxBins = 32
    //训练随机森林分类器，trainClassifier 返回的是 RandomForestModel 对象
    val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
      numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
    //打印模型
    println(model.toDebugString)
    //保存模型
   //model.save(sc,"汽车保险")
    //在测试集上进行测试
    val count = testData.map { point =>
        val prediction = model.predict(point.features)
    //    Math.abs(prediction-point.label)
        (prediction,point.label)
     }.filter(r => r._1 != r._2).count()
    println("Test Error = " + count.toDouble/testData.count().toDouble)
    println()
  }
}

第四节协同过滤

协同过滤（Collaborative Filtering）技术，是推荐系统中应用最为广泛的技术之一，协同过滤算法主要有两种，一种是基于用户的协同过滤算法(UserBaseCF)，另一种是基于物品的协同过滤算法(ItemBaseCF）。

1. 基于用户的协同过滤

基于用户的协同过滤：跟你喜好相似的人喜欢的东西你也很有可能喜欢。如图假设用户A喜欢商品A，C。用户B喜欢商品B。用户C喜欢商品A,C,D。我们可以发现用户A和C的行为和偏好是比较类似的。用户C喜欢物品D，那么就可以将物品D推荐给用户A。
2. 基于商品的协同过滤

基于商品的协同过滤：跟你喜欢的东西类似的东西你也可能喜欢。用户A喜欢商品A和C，用户B喜欢商品A,B,C。用户C喜欢物品A。从所有用户的历史喜好中假设商品A与商品C比较类似，也就是喜欢商品A的都喜欢商品C，那么基于这个结论我们可以将商品C推荐给用户C。多数情况下基于商品的协同过滤经常使用。

第五节 App 推荐系统

1. app推荐系统介绍

个性化商品营销和信息过载是推荐系统产生的根本原因。app推荐的最根本就是根据用户历史下载的App去找到与这个App相似的app，推荐给该用户。如何找到与此App相似的app?这就需要基于所有用户的下载历史计算挖掘出基于物品相似的矩阵。

app推荐系统是基于用户的隐式转换数据和基于商品的协同过滤来实现app个性化推荐。当用户登录应用商店时，根据之前用户的行为信息来推荐对应感兴趣的app。

思考：假设自己实现一个商品推荐系统需要什么样的数据？

商品的基本信息、用户商品购买记录、用户对购买商品的评价。

2. 推荐的应用场景

推荐的应用场景有很多种，例如：商品信息推荐，新闻推荐、app推荐、好友推荐、音乐推荐、广告推荐等。以上场景都是推荐系统的应用场景。

第六节推荐系统流程

1. 推荐系统架构

推荐系统中一般都会分为两部分，一部分是离线训练模型，另一部分是在线使用模型推荐。离线训练模型需要经过数据采集、清洗、特征抽取等步骤，然后训练模型，这里训练模型一般是周期性训练模型，比如一天训练一次，或者一周训练一次，因为模型的数据不同，训练出来模型的效果不同，将模型训练好之后，可以将模型保存到HDFS中。在线使用模型时，从HDFS中加载模型，将对应的实时数据获取过来组织特征，然后带入模型使用，得到对应的推荐结果即可。

一般在做推荐系统时使用的架构如下图，左侧为推荐系统在线推荐部分，右侧为推荐系统模型离线训练部分，另外最下层是实时数据与离线数据结合部分。过程如下：
离线部分：当用户访问 application 时，将用户的行为数据收集起来放入 Hbase 或者 Hive 中，基于此数据构建训练集，离线训练推荐系统模型，将训练好的模型参数保存到 Redis 或者模型文件中，待使用。

在线部分：当用户访问 application 时，根据用户的基本信息去数据库中拿到用户的最近行为数据，基于模型数据实时计算出用户的推荐列表。

2. App推荐系统架构
离线训练：

在准备训练集时，如果数据是放在HBase中，数据量太大，可以通过Hive映射，随机样本抽取一部分数据当做训练数据的源数据，只要抽取的数据能代表整体即可，这样即增大了构成的源数据集的时间跨度又可能使训练模型的时间会大大缩短。如果全量数据不多，也可以将所有数据直接当做源数据集。
如果Hive或者Hbase中的数据列太多，可以对数据进行特征抽取，构成训练模型的训练集。同时将所有的特征保存到特征文件中构成特征索引，供推荐系统在线推荐使用。
训练集准备好之后，对于训练集中的每条数据来说就是用户针对当前App的行为信息，结果上来看，要么下载了App，要么没有下载App,这就是二分类问题，可以使用逻辑回归结合训练集训练模型。
当模型训练好之后，就是一些特征参数，可以将模型保存到Redis或者文件中，供实时推荐部分调用。

在线推荐：

用户访问系统时，通过服务路由可以拿到用户的id，根据用户id首先去数据库中拿到当前用户的一些基础数据信息，将基础数据结合特征文件将有用的特征过滤出来，进行基础数据的格式化。
加载模型文件数据，将用户格式化后的特征数据带入模型文件得到推荐列表。

3. App推荐系统使用数据

App推荐系统使用的数据应该包括如下：

要推荐物品或内容的元数据，例如关键字，基本描述等。
用户对物品或者信息的偏好，根据应用本身的不同，可能包括用户对物品的评分，用户查看物品的记录，用户的购买记录等。其实这些用户的偏好信息可以分为两类：
- 显式的用户反馈：这类是用户在网站上自然浏览或者使用网站以外，显式的提供反馈信息，例如用户对物品的评分，或者对物品的评论。
- 隐式的用户反馈：这类是用户在使用网站时产生的数据，隐式的反应了用户对物品的喜好，例如用户购买了某物品，用户查看了某物品的信息等等。

基于以上数据分析，App推荐系统使用的数据有：

App基本信息表、用户app历史下载表、用户浏览app信息表。

4. 推荐系统详细流程

想要为用户推荐App，按照协同过滤的思想，要构建所有App的同现矩阵，还要知道每个用户对每个App的评分，这里无法获取用户对app的评分。我们根据逻辑回归模型使用app与app关联当做特征，基于用户浏览app信息表和用户历史下载表来基于所有用户数据构建出app之间的关联权重（特征的权重分值当做app与app关联的重要程度）。进而计算出每个App值得推荐的总分值，按照分值从大到小排序，将分值大的推荐给用户即可。

这里我们不可能拿到用户对所有App的评分。但是我们可以对用户下载或者浏览的每个App与该用户历史下载的每个App,构建不同App的同现情况，把同现情况当做特征维度，然后根据用户是否下载了该App（是或否），针对二分类问题，使用逻辑回归计算每两个App同现的权重，也就是每个特征维度的权重值。两个App同现的权重越大，说明两个App的关联性越强，比如：下载A应用的用户，都下载了B应用，而极少数用户下载B的同时还下载了C应用，那么AB同现的次数远远大于AC同现的次数，可以针对下载A的用户，推荐应用B。反映到逻辑回归中就是AB特征的权重大于AC特征的权重。

我们可以针对不同的用户将商家有的每个App与该用户下载历史App构建App同现特征，然后去训练好的模型中取对应维度的权重值累加，最终计算出每个App值得为该用户推荐的分值，进而得到推荐列表。

当一个新用户登录系统后，没有App的历史下载记录，那么就没有办法构建每个App与历史下载App的同现特征，就没有办法为用户计算出推荐列表，这就是推荐系统中的冷启动问题。

冷启动：当新用户登录系统后，没有办法生成对应的推荐列表。

如何解决冷启动问题？

在构建训练集时，不仅构建每个App与当前用户的下载历史App的同现特征，还要构建针对每个App各个维度的基本特征。这样训练出来的模型，当用户是新用户时，可以基于App本身的特征权重为用户推荐App列表，解决冷启动问题。

离线训练模型：

根据用户的下载或者浏览历史可以拿到用户对 App 的操作详细信息，比如：用户是否下载了该 App、用户手机是否支付了该 App、当前用户的手机型号、当前用户浏览或者下载的 App 的大小、版本号、设计者、评价星级、下载数量等信息。将这些信息当做 App 的基本特征。

根据用户下载和浏览每个 App 的历史，与该用户的历史下载 App 列表形成每个关联特征，作为 App 的关联特征。

综合上面基本特征和关联特征当做训练集的 features，是否下载 App 作为训练集的 Label，使用逻辑回归离线训练模型。

在线使用模型：

用户登录系统之后，根据用户 ID，获取当前用户历史下载 App 列表，将商店中每个 App 与用户下载列表中的每个 App 构成关联特征，同时每个 App 还有基本特征，得到关联特征和基本特征之后可以去训练好的模型文件中拿到相应特征对应的权重值，将每个关联特征权重累加得到关联特征的总值（这就是根据用户偏好得到的当前 App 值得推荐给该用户的分值），将基本特征权重累加得到基本特征的总值，最后将关联特征总值和基本特征总值相加得到一个总分值，该分值就是该 App 值得推荐给该用户的推荐值。

商店中的每个 App 最终都会计算出一个值得为当前用户推荐的总分值，再按照分值取前 N 大，取出最值得推荐给该用户的 App，构成推荐列表。

注意：在训练模型构建“商品基本特征”维度时，可能有“设计者”，“手机型号”等这种非数字化的可分类的文本特征属性（比如“性别”维度下有男女两类，“职业”类别下有老师、学生、工人等可分类的数据），由于模型只能使用数字化的数据来训练，可以对训练集含有这种可分类的文本特征属性自己定义一个特征变换规则：如果男用 1 表示，女用 0 表示。老师用 0 表示，学生用 1 表示，工人用 2 表示，那么使用模型时，相对应的将测试数据中当前维度的文本特征属性也要按照相对应的同一个特征变换规则来变换，对最终的结果没有影响。这里对文本特征属性设置不同的数字来表示不同的类别时，如果设置的值的跳度大（比如男用 1 表示，女用 1000 来表示），影响的是训练模型中按照梯度下降寻找最优解的迭代次数。

第七节推荐流程-数据模拟

推荐整体从数据处理开始，默认数据从关系型数据到每天增量导入到 hive，在 hive 中通过中间表和调用 python 文件等一系列操作，将数据处理为算法数学建模的入口数据，这里只是模拟一下，所以用一个 scala 文件产生所有准备数据，并直接 load 到 hive 中去做数据处理。

数据处理完以后开始数学建模，通过 recommend.scala 文件对逻辑回归算法的调用，产生模型文件，将三个模型文件加载到 Redis 中，启动项目，访问测试。整个过程默认已经有 hive 环境，intellij idea 的环境，并且可以执行 scala 文件。

整体流程如下：
1. 数据模拟

通过DataGenerator类创建数据，参见附件DataGenerator.scala文件，传入参数两个，数据条数和输出目录。会生成对应的三个文件：
2. Hive 建表

真实的生产场景涉及到大概五十张表的字段，这里全部简化流程，直接给出最终的三张表：

1) App基本信息表

2) 用户App历史下载表

3) 正负例样本表(用户浏览app下载表)

建表语句：

App基本信息表：

1.	CREATE EXTERNAL TABLE IF NOT EXISTS dim_rcm_hitop_id_list_ds
2.	(
3.	  hitop_id STRING,
4.	  name STRING,
5.	  author STRING,
6.	  sversion STRING,
7.	  ischarge SMALLINT,
8.	  designer STRING,
9.	  font STRING,
10.	  icon_count INT,
11.	  stars DOUBLE,
12.	  price INT,
13.	  file_size INT, 
14.	  comment_num INT,
15.	  screen STRING,
16.	  dlnum INT
17.	)row format delimited fields terminated by '\t';
18.

用户App历史下载表：

1.	CREATE EXTERNAL TABLE IF NOT EXISTS dw_rcm_hitop_userapps_dm
2.	(
3.	  device_id STRING,
4.	  devid_applist STRING,
5.	  device_name STRING,
6.	  pay_ability STRING
7.	)row format delimited fields terminated by '\t';

正负例样本表：

1.	CREATE EXTERNAL TABLE IF NOT EXISTS dw_rcm_hitop_sample2learn_dm 
2.	(
3.	  label STRING,
4.	  device_id STRING,
5.	  hitop_id STRING,
6.	  screen STRING,
7.	  en_name STRING,
8.	  ch_name STRING,
9.	  author STRING,
10.	  sversion STRING,
11.	  mnc STRING,
12.	  event_local_time STRING,
13.	  interface STRING,
14.	  designer STRING,
15.	  is_safe INT,
16.	  icon_count INT,
17.	  update_time STRING,
18.	  stars DOUBLE,
19.	  comment_num INT,
20.	  font STRING,
21.	  price INT,
22.	  file_size INT,
23.	  ischarge SMALLINT,
24.	  dlnum INT
25.	)row format delimited fields terminated by '\t';

3. 加载数据

分别向三张表加载数据：

1.	商品词表：
2.	load data local inpath '/root/test/applist.txt' into table dim_rcm_hitop_id_list_ds;
3.	用户历史下载表：
4.	load data local inpath '/root/test/userdownload.txt' into table dw_rcm_hitop_userapps_dm;
5.	正负例样本表：
6.	load data local inpath '/root/test/sample.txt' into table dw_rcm_hitop_sample2learn_dm;

本节作业

ROC 和 AUC 模型评估方式。
理解协同过滤的思想
理解 app 推荐架构和原理

你可能感兴趣的:(西行日记,决策树,大数据,数据挖掘,python,机器学习)

Flask python 开发篇：蓝图的使用 ignativs amor Python flask python flask 后端
蓝图引言一、为什么使用蓝图？二、蓝图的概念三、创建蓝图四、注册蓝图五、分享我的creat_app方法六、写在最后引言falsk是个轻量级的框架，核心实现简单，但同事可以让开发人员自由的扩展功能。开发中，使用模块导入的方式。一、为什么使用蓝图？将一个应用程序分解为一组蓝图。这对于较大的应用程序是理想的；一个项目可以实例化一个应用程序对象，初始化多个扩展，并注册许多蓝图。-在URL前缀和（或）子域的应
Python生成成绩报告单：从理论到实践 Tech Synapse python 开发语言
在教育信息化日益普及的今天，自动化生成和处理学生成绩报告单已成为学校和教育机构的一项重要任务。Python作为一种功能强大且易于学习的编程语言，非常适合用于这种数据处理和报告生成任务。本文将详细介绍如何使用Python生成成绩报告单，包括理论概述和完整的代码示例。一、理论概述1.数据存储与处理生成成绩报告单的第一步是存储和处理学生成绩数据。常见的数据存储方式包括CSV文件、Excel文件和数据库。
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南 m0_57781768 langchain python 网络
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南前言在当前的人工智能浪潮中，大型语言模型（LLM）已成为众多应用的核心。LangChain是一个专为开发大型语言模型应用而设计的框架，它简化了LLM应用的整个生命周期，包括开发、生产化和部署。本文将详细介绍LangChain框架的各个方面，涵盖其核心组件、第三方集成、开发教程、API参考等，并通过实际案例展示如何使用La
Python多继承时子类如何调用指定父类 lingllllove python 开发语言
在Python中，多继承是一种强大的特性，允许一个类同时继承多个父类的属性和方法。然而，当多个父类中存在同名方法时，子类需要明确调用哪个父类的方法。本文将详细介绍如何在多继承情况下，子类调用指定父类的方法。一、多继承的基本概念1.1多继承的定义多继承指一个类可以继承多个父类，获取多个父类的属性和方法。classA:defgreet(self):print("HellofromA")classB:d
python flask 蓝图(Blueprint)详解 ldq_sd python
Blueprint模块化随着flask程序越来越复杂,我们需要对程序进行模块化的处理,针对一个简单的flask程序进行模块化处理举例来说:我们在一个py文件中写入了很多路由,fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defindex():return'index'@app.route('/list')deflist():return
【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.4 切片大师：高效操作多维数据的23个技巧精通代码大仙 numpy python numpy python android
1.4切片大师：高效操作多维数据的23个技巧基础切片start:end:step省略写法负索引多维切片高级技巧视图机制布尔索引花式索引动态切片对象1.4切片大师：高效操作多维数据的23个技巧1.4.1切片操作符的完整语法表NumPy数组的切片操作符与标准Python列表的切片操作符类似，但更加强大，支持多维数组的操作。以下是一个完整的切片操作符语法表，包括正负索引的示意图。1.4.1.1一维数组切
Redis学习笔记 csdn_bobo_6 redis 学习数据库
认识NoSQLNoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。NoSQL特点方便扩展（
一键获取每日股票数据，自动更新，尽在掌握舔狼 A股股票数据 python 金融
用Python和Tushare库获取股票日线数据在金融市场分析中，获取股票的历史数据是进行技术分析和量化投资的基础。Tusharetushare官网是一个提供中国股市数据的API接口，它支持获取股票的日线数据、基本面数据等。本文将介绍如何使用Python语言和Tushare库来获取股票的日线数据，并结合多线程技术提高数据获取的效率。1.环境准备首先，确保你的Python环境中安装了以下库：tush
华为OD机试E卷 --响应报文时间 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c++c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述IGMP协议中，有一个字段称作最大响应时间(MaxResponseTime),HOST收到查询报文，解折出MaxResponsetime字段后，需要在(0，MaXxResponseTime]时间(s)内选取随机时间回应一个响应报文,如果在随机时间内收到一个新的查询报文，则会根
Python之数据库操作初宸 python mysql python 数据库
Python标准数据库接口为PythonDB-API，PythonDB-API为开发人员提供了数据库应用编程接口。PythonDB-API使用流程：引入API模块获取与数据库的连接执行SQL语句和存储过程关闭数据库连接文章目录MySQLdb创建数据库及表创建数据库：创建数据库表：修改数据库的访问权限（1）修改root的登录限制（2）创建新用户pymysql使用导入pymysql模块连接到数
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Python - 安装 Python、pip、virtualenv 伊织产研 #Python python pip 源
文章目录一、PythonUbuntu安装Python问题创建虚拟环境一些使用问题Nomodulenamed'_sqlite3'二、pip（管理第三方库）1、查看pip版本2、安装pip3、升级pip4、卸载pip5、查看已安装的pkg6、第三方库site-packages地址：7、更新8、切换源9、根据requirements.txt安装其它三、virtualenv（管理多个env）1、安装2、查
Python国内镜像源修改教程网友阿贵 Python python 青少年编程 pycharm 后端
知名国企：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple————————————————知名高校：清华大学（推荐）：ht
Codeforces Round 971 (Div. 4) ABCD题详细题解(C++,Python) 多思考少编码 Codeforces div3 +div4题解算法 c++python 算法竞赛 codeforces
前言:本文为CodeforcesRound971(Div.4)ABCD题的题解，包含C++,Python语言描述，觉得有帮助或者写的不错可以点个赞比赛打了没一半突然unrated了就不是很想继续写了,早起写个题解(之前的div3也没复盘，哎真菜)目录题A:题目大意和解题思路:代码(C++):代码(Python):题B:题目大意和解题思路:代码(C++):代码(Python):题C:题目大意和解题思
Python酷库之旅-第三方库Pandas(049) 神奇夜光杯 python pandas 开发语言标准库及第三方库人工智能 excel 学习与成长
目录一、用法精讲176、pandas.Series.rank方法176-1、语法176-2、参数176-3、功能176-4、返回值176-5、说明176-6、用法176-6-1、数据准备176-6-2、代码示例176-6-3、结果输出177、pandas.Series.sem方法177-1、语法177-2、参数177-3、功能177-4、返回值177-5、说明177-6、用法177-6-1、数据准
【机器学习】必会降维算法之：多维缩放（MDS） Carl_奕然机器学习算法人工智能
多维缩放（MDS）1、引言2、多维缩放（MDS）2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小鱼：最近小屌丝在休假，难得的清闲，我这也闲言少叙，书归正传，咱就聊一聊降为算法之：多维缩放(MDS)在机器学习和数据科学领域，多维缩放（MultidimensionalScaling，简称MDS）是一种常用的降维技术。它能够在尽可能保留原始数据点间距离的
Jupyter Notebook 与 PyTorch 配置教程如若123 jupyter pytorch ide
JupyterNotebook与PyTorch配置教程安装build-essential：sudoaptinstallbuild-essential安装编译软件所需的基本工具。安装Python3.8：sudoaptinstallpython3.8如果未安装Python3.8，执行此命令进行安装。下载Miniconda：wgethttps://repo.anaconda.com/miniconda/
fuadmin jcsx 开源学习 django vue.js
fu-admin-web采用VUE3，TS开发。fu-admin-backend采用Python，Django和Django-Ninija开发。数据库支持MySql，SqlServer，Sqlite。‍‍前端采用VbenAdmin、Vue3、AntDesignVue。后端采用Python语言Django框架以及强大的DjangoNinja。支持加载动态权限菜单，多方式轻松权限控制。Vue2项目移步
scikit-learn安装梁伟静 scikit-learn python
问题：importscikit-learn时遇到如下报错：ImportError:DLLloadfailedwhileimporting_arpack:Thespecifiedprocedurecouldnotbefound.可能原因：python、numpy、scipy和scikit-learn之间的版本出现冲突解决方案：1）卸载numpy、scipy、scikit-learncondaunin
python中函数的定义 xuwentao！！ python
python内部中函数一般定义的方式是：deffunc(a,*args,**kwargs):pass所以在外面调用的时候需要小心的，如果有字典对象传进去需要注意func(a,dict)会报错的，函数会把这个dict当作一个元祖来处理了，但是你想传入字典，所以这里需要解包处理，让函数明白你传入的是一个字典：func(a,**dict)所以在调用函数的时候需要想想是否需要解包处理
paddleseg推理预测文件解析predict.py weightOneMillion 图像分割每天一篇PaddleSeg 学习 python 人工智能
1预测命令格式predict.py脚本是专门用来可视化预测案例的，命令格式如下所示：pythonpredict.py\--configconfigs/quick_start/bisenet_optic_disc_512x512_1k.yml\--model_pathoutput/iter_1000/model.pdparams\--ima
python之函数的定义徐jiankang python基础日常总结 python 开发语言
博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。目录一、背景二、函数的定义三、参考四、总结一、背景实际开发过程中，经常会遇到很多完全相同或者非常相似的操作，这时，可以将实现类似操作的代码封装为函数，然后在需要的地方调用该函数。这样不仅可以实现代
深入浅出 Python 函数：编写、使用与高级特性详解田猿笔记 python 开发语言函数
引言在Python编程的世界中，函数堪称构建复杂逻辑和模块化程序的基础砖石。它能够帮助程序员组织代码、避免重复，并通过封装逻辑提高代码的可读性和可维护性。本文旨在全方位解析Python函数的核心概念，包括基础定义、文档化、默认参数、可选参数、解包参数、关键字仅参数、注解、可调用性检查、函数名称获取、匿名函数（lambda表达式）、生成器以及装饰器等多种实用特性。一、函数基础与文档化defexamp
Ubuntu python 升级 bianjingshan linux Python
1.安装新版本pythonsudoapt-getinstallpython3python3被安装在/usr/local/lib路径，到此目录下查看python3的版本号，例如python3.52.删除/usr/bin路径下的pythonlink文件cd/usr/binsudorm-rfpython3.重新建立连接sudoln-s/usr/bin/python3.5/usr/bin/python4.
如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
Python pywinauto PC端自动化测试核心代码封装类《代码爱好者》 ChatGPT python 自动化测试框架 python windows
PythonpywinautoPC端自动化测试核心代码封装类以下是一个基于pywinauto的自动化测试核心代码封装类的完整代码实例，其中包含多个函数实例并加上中文注释方案1importpywinautoimporttimeclassPywinautoWrapper:def__init__(self,app_path):"""初始化函数，传入应用程序的路径"""self.app_path=app_
PySide6与PyQt5的区别大乔乔布斯 pyqt python qt
虽然PySide6和PyQt5的功能和API十分相似，但由于它们分别是基于不同版本的Qt和由不同的团队维护，是两个不同的Python绑定库，分别用于与Qt库进行交互，可能会在一些细节上表现出差异，一些关键区别：1.维护和授权PySide6:由TheQtCompany官方维护。使用LGPL授权，这意味着你可以在开源和闭源项目中免费使用它（遵守LGPL条款）。版本号与Qt本身一致，PySide6对应于
MySQL 拆分字符串函数Split 大乔乔布斯 mysql 数据库
MYSQL目前没有Hive或者Java。python这列直接split的函数，需要自己定义一个，复制代码，一键使用CREATEDEFINER=`root`@`localhost`FUNCTION`func_split_str`(xVARCHAR(255),--字符串delimVARCHAR(12),--分隔符posINT--按分隔浮拆分后的第几个结果，从1开始数)RETURNSvarchar(25
TypeError: ‘str‘ object is not callable的几种情况及解决办法兔兔爱学习兔兔爱学习 pandas python 机器学习深度学习人工智能
TypeError:‘str’objectisnotcallable的几种情况及解决办法第一个可能，定义了一个str的变量，这个和Python自带函数str的命名冲突了，所以发生这个错误。确实，这是一个情况。这种情况的解决办法就是：严格遵守命名规范，避免命名冲突。第二个可能，是字符串后面加了括号调用的缘故。这一般是由于不了解，对某个对象的细节不清楚，错把属性看成了函数。
数据挖掘中的关联规则--面向频繁项集的A-Priori算法绒绒毛毛雨大数据挖掘算法数据挖掘 python
文章目录一、频繁项集与关联规则学习1.实体与关系2.支持度与频繁项集3.关联规则二、寻找频繁项集1.频繁项集发现的挑战三角矩阵项对计数值的三元组存储方法2.频繁项集的单调性3.面向项对的A-Priori算法4.PCY算法哈希表创建第二遍扫描5、多阶段算法6、多哈希算法7、随机化算法8、SON算法9、Toivonen算法三、频繁项集小实践：消费者购买记录模拟数据示例具体问题分析一、频繁项集与关联规则
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

2021-03-06 大数据课程笔记 day45

机器学习05【机器学习】

主要内容

学习目标

第一节 模型评估

第二节 决策树和随机森林

第三节 决策树和随机森林代码

第四节 协同过滤