硅谷工具人

机器学习基础笔记

文章目录

1.机器学习简介
- 1.1 机器学习的一般功能
- 1.2 机器学习的应用
- 1.3 机器学习的方法
- 1.4 机器学习的种类
- 1.5 机器学习的常用框架
2. Spark机器学习
- 2.1 MLlib介绍
- 2.2 MLlib的数据格式
- - 2.2.1 本地向量
  - 2.2.2 标签数据
- 2.3 MLlib与ml
- 2.4 MLlib的应用场景
3.Spark环境搭建
4.向量与矩阵
- 4.1 向量操作
- 4.2 矩阵操作
5.基础统计
- 5.1 描述性统计
- 5.2 相关性度量
- 5.3 假设检验
6.回归算法
- 6.1 线性与非线性
- 6.2 线性回归(LinearRegression)
- 6.3 逻辑回归(logisticRegression)
- - 6.3.1 正则化原理
  - 6.3.2 逻辑回归案例
- 6.4 保序回归
- - 6.4.1 介绍
  - 6.4.2 原理
  - 6.4.3 实践
- 6.2 最小二乘法
- 6.3 随机梯度下降
7.分类算法
- 7.1 朴素贝叶斯算法
- - 7.1.1 简介
  - 7.1.2 贝叶斯定理
  - 7.1.2 朴素贝叶斯算法
  - 7.1.3 朴素贝叶斯分类实例
- 7.2 支持向量机(svm)
- - 7.2.1 支持向量机介绍
  - 7.2.2 支持向量机算法原理
  - 7.2.3 支持向量机实例
- 7.3 决策树
- - 7.3.1 决策树介绍
  - 7.3.2 决策树算法概述
  - 7.3.3 决策树算法原理
  - 7.3.4 决策树案例
无监督学习
8.聚类算法
- 8.1 Kmeans算法(迭代算法)
- - 8.1.1 Kmeans算法的描述
  - 8.1.2 Kmeans算法案例
- 8.2 LDA算法
- - 8.2.1 LDA算法概述
  - 8.2.2 LDA算法原理
  - 8.2.3 LDA算法案例
9.降维
- 9.1 PCA算法
- - 9.1.1 PCA算法介绍
  - 9.1.2 PCA算法原理
  - 9.1.3 PCA实例
10.文本情感分类
- 10.1 TF-IDF算法
- 10.2 TF-IDF实例
11.推荐系统
- 11.1 推荐系统简介
- 11.2 推荐系统的原理
- 11.3 推荐系统案例

第一次看机器学习视频，很多公式都是懵的，上学时的高数忘记块差不多了。可能需要重新来补习缺失的知识了。
仅以此来记录学习的过程。

1.机器学习简介

1.1 机器学习的一般功能

分类：识别图像动物离散的
聚类: 发掘兴趣爱好
回归：预测股市价格连续的

1.2 机器学习的应用

自然语言处理、数据挖掘、生物信息识别(人脸识别)、计算机视觉

1.3 机器学习的方法

统计机器学习(本课程)
BP神经网络
深度学习

1.4 机器学习的种类

(1) 监督学习
学习一个模型，使模型能够对任意给定的输入作出相应的预测
学习的数据形式是(x,y)组合
(2) 无监督学习
(3) 强化学习

训练模型应该避免以下两种情况：
过拟合：模型训练过渡，假设过于严格
欠拟合：模型有待继续训练，拟合能力不强

1.5 机器学习的常用框架

统计学习： Spark(ml/mllib) scikit-learn Mahout
深度学习： TF,Caffe,Keras (x OnSpark & SparkNet)

2. Spark机器学习

2.1 MLlib介绍

逻辑回归
朴素贝叶斯
线性回归
SVM
决策树
LDA
矩阵分解

2.2 MLlib的数据格式

本地数据：
本地向量和标签数据
数据格式
本地矩阵和分布式矩阵

2.2.1 本地向量

本地向量是存储在本地节点上的，其基本数据类型是Vector
其有两个子集，分别是密集的和稀疏的，通常用Vectors工厂类来生成。
如：
Vectors.dense(1.0,2.0,3.0) 密集的
Vectors.sparse(3,(0,1),(1,2),(2,3)) 稀疏的

2.2.2 标签数据

2.3 MLlib与ml

2.4 MLlib的应用场景

海量数据的分析与挖掘
海量的房屋出租数据，出售信息进行数据挖掘，预测房价，租金

大数据机器学习系统
自然语言处理类的系统，推荐系统等
推荐系统，需要实时进行数据的收集，统计，任务调度，定期更新训练模型

3.Spark环境搭建

4.向量与矩阵

4.1 向量操作

spark-shell

import org.apache.spark.mllib.linalg.Vectors

//spark自带的向量
val v1 = Vectors.dense(1,2,3,4)
//第三方工具breeze, spark已经集成
val v2 = breeze.linalg.DenseVector(1,2,3,4)

//矩阵相加
v2+v2

//矩阵转置
v2.t


v2 * v2.t

4.2 矩阵操作

import org.apache.spark.mllib.linalg.Matrices

//两行三列
val m1 = Matrices.dense(2,3,Array(1,2,3,4,5,6))
val m2 = Matrices.dense(2,3,Array(1,4,2,5,3,6))

使用breeze包

val mb1 = breeze.linalg.DenseMatrix(Array(1,2,3),Array(4,5,6))
//或者
val mb2 = breeze.linalg.DenseMatrix(Array(1,2,3,4,5,6))
//根据上面的转换为2行3列
mb2.reshape(2,3)  

//转置：2行3列 转 3行2列
mb2.reshape(2,3).t

//矩阵与自身的转置矩阵相乘
val mb3 = mb2.reshape(2,3) * mb2.reshape(2,3).t

5.基础统计

5.1 描述性统计

平均数

方差

众数

中位数

准备数据: 北京市每年的降雨量数据beijing.txt

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
val df = sc.textFile("/tmp/king/beijing.txt")
val df2 = df.map(x=> Vectors.dense(x.toDouble))

val df3 = Statistics.colStats(df2)
df3.max
df3.mean  //均值
df3.min
df3.count

5.2 相关性度量

一种研究变量之间线性相关程度的度量
常用的相关系数有：
皮尔逊和斯尔曼相关系数，反应变量间相关关系密切程度

皮尔逊相关系数

准备的数据北京的降雨量，年份,降雨量:

2022,0.4925
2021,0.6984
2020,0.5271
2019,0.4063
2018,0.5465
2017,0.5762
2016,0.6691
2015,0.5981
2014,0.4615
2013,0.5084
2012,0.7332
2011,0.7211
2010,0.5225
2009,0.4806
2007,0.4839
2006,0.318
2005,0.4107
2004,0.4835
2003,0.4445
2002,0.3704
2001,0.3389
2000,0.3711
1999,0.2669
1998,0.7317
1997,0.4309
1996,0.7009
1995,0.5725
1994,0.8132
1993,0.5067
1992,0.5415
1991,0.7479
1990,0.6973
1989,0.4422
1988,0.6733
1987,0.6839
1986,0.6653
1985,0.721
1984,0.4888
1983,0.4899
1982,0.5444
1981,0.3932
1980,0.3807
1979,0.7184
1978,0.6648
1977,0.779
1976,0.684
1975,0.3928
1974,0.4747
1973,0.6982
1972,0.3742
1971,0.5112
1970,0.597
1969,0.9132
1968,0.3867
1967,0.5934
1966,0.5279
1965,0.2618
1964,0.8177
1963,0.7756

使用皮尔逊系数公式，计算年份与降雨量的相关系数

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.sql.SparkSession

val df= spark.sparkContext.textFile("/tmp/king/beijing2.txt")
val df2 = df.map(x=> (x.split(",").apply(0).toDouble,x.split(",").apply(1).toDouble))
val df_year = df2.map(_._1)
val df_val = df2.map(_._2)
val result = Statistics.corr(df_year,df_val)

由于计算结果的绝对值0.14，所以年份与降雨量相关性很小。

5.3 假设检验

根据一定的假定条件，由样本推断总体的一种统计学方法。
基本思路：先提出假设(虚无假设)，使用统计方法进行计算，根据计算结果判断是否拒绝假设。
假设检验的统计方法：卡方检验、T检验等。
皮尔森卡方检验是最常用的卡方检验，可以分为适配度检验和独立性检验。
适配度检验：验证观察值的次数分配与理论值是否相等。

6.回归算法

6.1 线性与非线性

线性就是两个变量之间存在一次方函数关系。
自然界中变量间更多的关系是非线性的，绝对的线性关系相对很少。
在选择数据模型进行拟合的时候，很多情况使用非线性函数构造的模型比线性函数模型更好。

6.2 线性回归(LinearRegression)

线性回归案例，根据房子的面积预测价格
准备的数据：

先读取房产价格数据

val df = spark.read.format("csv")
    .option("header","true")
    .option("sep",";")
    .load(path + "/ai_demo/file/house.csv")
    .drop("blank")
import spark.implicits._

选择面积和价格字段，然后将数据集顺序打乱

//选取面积和价格
val random = new Random()  //加入随机数，为了打乱排序
val data = df.select("square","price")
  .map(x=> (x.getAs[String](0).toDouble,x.getAs[String](1).toDouble, random.nextDouble()))
  .toDF("square","price","rand")
  .sort("rand") //打乱顺序

包装数据集

    val ass = new VectorAssembler().setInputCols(Array("square")).setOutputCol("features")
    val ds = ass.transform(data) //特征包装

features是将面积字段包装后的特征

拆分为训练数据集和测试数据集

val Array(train,test) = ds.randomSplit(Array(0.8,0.2))

创建一个线性回归的实例

val regression = new LinearRegression() //创建一个线性回归实例
  .setMaxIter(100)  //最大迭代次数
  .setRegParam(0.3) //设置正则化参数，防止过拟合
  .setElasticNetParam(0.8) //弹性网络参数

使用线性回归实例来训练数据

val model = regression //线性回归实例
  .setLabelCol("price")  //指定标签列
  .setFeaturesCol("features") //特征向量
  .fit(train) //训练

使用训练好的模型，用于测试数据集的预测

 val result = model.transform(test)

注意
fit方法：使用训练数据集train训练
transform方法：使用测试数据集test做预测的

最后查询，预测结果

result.show()

下面prediction字段即为预测的结果，通过测试集的预测结果和price列的实际值对比。
可以发现用线性回归(使用面积特征)来预测实际的房价并不准确。

所以本例子仅仅实现了一个机器学习的工程化的具体步骤。
（1）数据的加载
（2）指定特征值
（3）拆分数据集
（4）模型训练
（5）利用训练的模型预测结果。

6.3 逻辑回归(logisticRegression)

逻辑回归是一种广义上的线性回归，但是与线性回归模型不同的是，其中引入了非线性函数。
逻辑回归原理:
Sigmoid函数，也即Logister函数，是一个非线性函数。

6.3.1 正则化原理

过拟合、欠拟合、刚刚好

对于过拟合现象，往往都是模型过于复杂，超过实际需要。
因此，在损失函数的计算中，对模型的复杂程度进行量化，越复杂的模型，越对其进行“惩罚”，以便使模型更加“中庸”。
以上即是正则化的思想，通过动态调节惩罚程度，来防止模型过于复杂。

6.3.2 逻辑回归案例

使用的数据集依然是上面的线性回归的数据集：

val lr = new LogisticRegression()
  .setLabelCol("price")
  .setFeaturesCol("features")
  .setRegParam(0.3)
  .setElasticNetParam(0.8)
  .setMaxIter(10)

//训练
val model = lr.fit(train)
//预测
val result = model.transform(test)
result.show()

可以发现用逻辑回归(使用面积特征)来预测实际的房价并不准确。

6.4 保序回归

6.4.1 介绍

保序回归的应用
保序回归用于拟合非递减数据，不需要事先判断线性与否，只需数据总体的趋势是非递减的即可。
例如研究某种药物的使用剂量与药效的关系。

6.4.2 原理

6.4.3 实践

//保序回归

val ir = new IsotonicRegression()
  .setLabelCol("price")
  .setFeaturesCol("features")
//训练
val model = ir.fit(train)
val result = model.transform(test)
result.show()

可以发现用保序回归(使用面积特征)来预测实际的房价还是比较准确的。

6.2 最小二乘法

一种优化方法

6.3 随机梯度下降

概念解释：
随机梯度下降是一种机器学习中常用的优化方法，它是通过不断迭代更新的手段，来寻找一个函数的全局最优解的方法。
随机梯度下降特别适合变量众多，受控系统复杂的模型，尤其在深度学习中具有十分重要的作用。
梯度是微积分中的一个算子，用来求某函数在该点沿着哪条路径变化最快，通俗理解就是在哪个路径上几何形态更为陡峭。
数学表达式(以二元函数为例):

随机梯度下降原理：
线性模型的梯度下降推导过程：

随机梯度下降的优点：
随机梯度下降的“随机”体现在进行梯度计算的样本是随机抽取的n个，与直接采用全部样本相比，这样计算量更少。
随机梯度下降善于解决大量训练样本的情况
学习率决定了梯度下降的速度，同时，在SGD的基础上引入了“动量”的概念，从而进一步加速收敛速度优化算法也陆续被提出。

7.分类算法

参考文章：https://www.showmeai.tech/tutorials/34?articleId=189

7.1 朴素贝叶斯算法

7.1.1 简介

朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法
朴素贝叶斯算法是一种基于联合概率分布的统计学习

7.1.2 贝叶斯定理

贝叶斯定理的三个应用：
(1)朴素贝叶斯分类器
(2)判别函数和决策面
(3)贝叶斯参数估计

7.1.2 朴素贝叶斯算法

7.1.3 朴素贝叶斯分类实例

这里是鸢尾花分类，通过朴素贝叶斯来实现分类。

  def naiveBayesDemo(data:Dataset[Row]) = {
    data.show(10)
    //特征包装
    val assembler = new VectorAssembler()
      .setInputCols(Array("_c0","_c1","_c2","_c3")) //输入特征
      .setOutputCol("features")

    val ds = assembler.transform(data)
    //拆分成训练集和预测集合
    val Array(train,test) = ds.randomSplit(Array(0.8,0.2))

    //贝叶斯训练
    val bayes = new NaiveBayes().setFeaturesCol("features").setLabelCol("label")
    val model = bayes.fit(train) //训练数据集
    val result = model.transform(test)  //预测结果
    result.show()
  }


  /**
   * 数据集预处理
   * @param spark
   * @return
   */
  def dataProcess(spark:SparkSession):Dataset[Row] = {
    val df = spark.read.format("csv").load(path + "/ai_demo/file/iris.data")
    val random = new Random()
    import spark.implicits._
    val df2 = df.map(x=>{
      val label = x.getString(4) match {
        case "Iris-setosa" => 0
        case "Iris-versicolor" => 1
        case "Iris-virginica" => 2
      }
      (
        x.getString(0).toDouble,
        x.getString(1).toDouble,
        x.getString(2).toDouble,
        x.getString(3).toDouble,
        label,
        random.nextDouble()
      )
    }).toDF("_c0","_c1","_c2","_c3","label","rand").sort("rand") //打乱顺序
    df2
  }

朴素贝叶斯分类支持多特征分类，预测的结果也是非常准确。

7.2 支持向量机(svm)

7.2.1 支持向量机介绍

7.2.2 支持向量机算法原理

简单的分类，通过划分“阈值”。
SVM处理非线性的问题
SVM的核函数：
SVM虽然只能进行线性分类，但是，可以通过引入核函数，将非线性的数据转化为另一个空间中的线性可分数据。
这叫做支持向量机的核技巧，可以认为是支持向量机的精髓之一。

7.2.3 支持向量机实例


  //支持向量机分类
  def svmDemo(data:Dataset[Row]) = {
//    data.show(10)
    val data2 = data.filter("label = 1 or label = 0")
    //特征包装
    val assembler = new VectorAssembler()
      .setInputCols(Array("_c0","_c1","_c2","_c3")) //输入特征
      .setOutputCol("features")
    val ds = assembler.transform(data2)
    //拆分成训练集和预测集合
    val Array(train,test) = ds.randomSplit(Array(0.8,0.2))
    val svm = new LinearSVC()
      .setMaxIter(20).setRegParam(0.1)
      .setFeaturesCol("features").setLabelCol("label")
    val model = svm.fit(train)
    val result = model.transform(test)
    result.show()
  }

/**
   * 数据集预处理
   * @param spark
   * @return
   */
  def dataProcess(spark:SparkSession):Dataset[Row] = {
    val df = spark.read.format("csv").load(path + "/ai_demo/file/iris.data")
    val random = new Random()
    import spark.implicits._
    val df2 = df.map(x=>{
      val label = x.getString(4) match {
        case "Iris-setosa" => 0
        case "Iris-versicolor" => 1
        case "Iris-virginica" => 2
      }
      (
        x.getString(0).toDouble,
        x.getString(1).toDouble,
        x.getString(2).toDouble,
        x.getString(3).toDouble,
        label,
        random.nextDouble()
      )
    }).toDF("_c0","_c1","_c2","_c3","label","rand").sort("rand") //打乱顺序
    df2
  }

  def getSpark():SparkSession = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("ai")
    SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
  }

svm本身是支持多分类的，但是在spark的ml包中的svm只支持二分类，所以使用的数据集只保留了label为0和1两个标签。

通过svm分类算法，我们可以看到预测结果非常准确。

7.3 决策树

7.3.1 决策树介绍

7.3.2 决策树算法概述

决策树的优点：
决策树原理简单，易于实现
决策树能够实现多分类
能够在较短的时间内对大型数据源作出预测，预测性能较好
决策树的缺点：
对输入的特征要求较高，很多情况下需要做预处理
识别类别过多时，发生错误的概率较大。

7.3.3 决策树算法原理

如果展示的是一个能否批准贷款的决策树

决策树的特征选择：
信息增益(信息熵)
当得知x而使得y的不确定性减少的程度，即为信息增益。

决策树之ID3算法

ID3算法是一种决策树生成算法，其对于决策树各个节点应用信息增益准则，从而选取特征。
在树的每一层进行递归，从而构建整棵树。

决策树之CART算法
CART即分类与回归决策树，其中一棵二叉树，根据判断结果划分“是否”二分类。
决策树生成：基于训练集生成一个尽可能大的决策树。
决策树剪枝：使用验证对生成的决策树进行剪枝，以便使损失函数最小化。

7.3.4 决策树案例

/**
 * 决策树分类
 */
def decisionTreeDemo(data:Dataset[Row]) = {

  //特征提取
  val assembler = new VectorAssembler()
    .setInputCols(Array("_c0","_c1","_c2","_c3")) //输入特征
    .setOutputCol("features")
  val dt = assembler.transform(data)

  //准备数据集
  val Array(train,test) = dt.randomSplit(Array(0.8,0.2))

  val decisionTree = new DecisionTreeClassifier().setFeaturesCol("features").setLabelCol("label")

  //模型训练
  val model = decisionTree.fit(train)
  val result = model.transform(test)
  result.show()

  //预测评估器
  val evalutor = new MulticlassClassificationEvaluator()
    .setLabelCol("label")
    .setPredictionCol("prediction")
    .setMetricName("accuracy")
  val accuracy = evalutor.evaluate(result)
  println("accuracy:" + accuracy)
}

最后可以看到预测评估器的分值为0.896，所以分类结果准确率还是比较高的。

无监督学习

8.聚类算法

8.1 Kmeans算法(迭代算法)

8.1.1 Kmeans算法的描述

设置需要聚类的类别个数K，以及n个训练样本，随机初始化K个聚类中心。
计算每个样本与聚类中心的距离，样本选择最近的聚类中心作为其类别；重新选择聚类中心
迭代执行上一步，直到算法收敛。

8.1.2 Kmeans算法案例

def clusteringDemo(data:Dataset[Row]) = {
    val assembler = new VectorAssembler()
      .setInputCols(Array("_c0","_c1","_c2","_c3"))
      .setOutputCol("features")

    val dataset = assembler.transform(data)
    val Array(train,test) = dataset.randomSplit(Array(0.8,0.2))
    val kmeans = new KMeans().setFeaturesCol("features")
      .setK(3) //聚类份数
      .setSeed(1L) //随机种子
      .setMaxIter(20) //最大迭代数
    val model = kmeans.fit(train)
    val result = model.transform(test)
    result.show()

}

8.2 LDA算法

8.2.1 LDA算法概述

(主要用于自然语言处理，可以应用文档主题分类)
LDA即文档主题生成模型，该算法是一种无监督学习
将主题对应聚类中心，文档作为样本，则LDA也是一种聚类算法
该算法用来将多个文档划分为K个主题，与Kmeans类似

8.2.2 LDA算法原理

LDA是一种基于概率统计的生成算法
LDA算法一种常用的主题模型，可以对文档主题进行聚类，同样也可以用在其他非文档的数据中。
LDA算法是通过找到词、文档与主题三者之间的统计学关系进行推断的。
文档的条件概率：

8.2.3 LDA算法案例

def ldaDemo(data:Dataset[Row]) = {
    val assembler = new VectorAssembler()
      .setInputCols(Array("_c0","_c1","_c2","_c3"))
      .setOutputCol("features")
    val dataset = assembler.transform(data)
    val Array(train,test) = dataset.randomSplit(Array(0.8,0.2))

    val lda = new LDA().setFeaturesCol("features")
      .setK(3)
      .setMaxIter(40)
    val model = lda.fit(train)
    val prediction = model.transform(train)
    val ll = model.logLikelihood(train) //最大似然估计
    val lp = model.logPerplexity(train)

    val topics = model.describeTopics(3)
    prediction.select("label","topicDistribution").show(false)
    topics.show(false)
    println(s"The lower bound on the log likelihood of then entire corpus: $ll")
    println(s"The upper bound on the perplexity: $lp")

  }

termIndices 表示的是词
termWeights 表示的是词的权重

9.降维

9.1 PCA算法

9.1.1 PCA算法介绍

如何降维：
从高纬度变为低纬度的过程就是降维。
例如拍照就是把处在三维空间中的人物转换到二维平面的照片中。
降维有线性的，也有非线性的方法，在机器学习中，可以简化运算，减少特征量。

PCA算法是一种常用的线性降维算法，算法类似于“投影”
降维简化了数据集，故可以视为一个压缩过程，在压缩过程中可能会有信息丢失。
PCA算法可以用来精简特征，还可以应用在图像处理中，例如PCA算法用来人脸识别，

9.1.2 PCA算法原理

PCA是基于K-L变化实现的一种算法
PCA算法在实现上用到了协方差矩阵，以及矩阵的特征分解
基本主要内容在于求出协方差矩阵，然后求协方差矩阵的特征值与特征向量

PCA算法步骤：
(1)输入n行m列的矩阵X，代表m条n维数据
(2)将矩阵X的每一行进行零均值化处理
(3)求出X的协方差矩阵C
(4)求出协方差矩阵C的特征值和特征向量(特征分解)
(5)将特征向量按照特征值的大小从上到下依次排列，取k行，作为矩阵P
(6)求出矩阵P与X矩阵叉乘的结果，即为降维值k维的m条数据

9.1.3 PCA实例

/**
   * 利用PCA算法将4个特征降维为3个特征
   * 并且计算特征量减少时，准确率变化
   * @param data
   */
  def pcaDemo(data:Dataset[Row]) = {

    //输入4个特征，转成向量featrues
    val assembler = new VectorAssembler()
      .setInputCols(Array("_c0","_c1","_c2","_c3"))
      .setOutputCol("features")

    val dataset = assembler.transform(data)
    val pca = new PCA()
      .setInputCol("features")  //将向量features转换为向量features2
      .setOutputCol("features2")
      .setK(3) //设置输出向量的特征数为3

    val pcaModel = pca.fit(dataset)  //训练
    val dataset2 = pcaModel.transform(dataset) //将4个特征转换为3个特征
    val Array(train,test) = dataset2.randomSplit(Array(0.8,0.2))

    val dt = new DecisionTreeClassifier()
      .setFeaturesCol("feature2")
      .setLabelCol("label")
    val model = dt.fit(train)
    val result = model.transform(test)
    result.show()

    val evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("label")
      .setPredictionCol("prediction")
      .setMetricName("accuracy")

    val accuracy = evaluator.evaluate(result)
    println(s"""accuracy is $accuracy""")  //当4个特征降维3个特征时，验证分类算法结果的准确率
    
  }

10.文本情感分类

10.1 TF-IDF算法

10.2 TF-IDF实例

11.推荐系统

11.1 推荐系统简介

11.2 推荐系统的原理

物品信息、用户信息、用户对物品的偏好程度
基于用户：相似用户的喜好推荐
基于内容：基于用户的兴趣相似标签推荐

协同过滤算法
根据用户对物品或者信息的偏好，发现物品或者内容本身的相关性，或者是发现用户的相关性
然后基于这些关联性进行推荐，基于协同过滤的推荐可以分为三个子类：
基于用户的推荐(user-based)
基于项目的推荐(item-based)
基于模型的推荐 (rating 评分)

如何选择：
amazon - 物品数量相对稳定，且远少于用户数 (item)
新闻网站 - 用户数量相对稳定，且远少于新闻 (user)

11.3 推荐系统案例

你可能感兴趣的:(#,spark,机器学习,机器学习,笔记,人工智能)

使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
CCNP之IGP学习笔记（2022）码龄4年审核中笔记 OSPF RIP EIGRP IGP CCNP
evecommunityedition2.0.3-92_v1.4.1.ovaOVF（OpenVirtualizationFormat：开放虚拟化格式）和OVA（OpenVirtualizationAppliance：开放虚拟化设备）appliance器具collaborative合作的；协力完成的translation翻译；译文；译本；转化CollaborativeTranslationFrame
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
sqlmap笔记君如尘网络安全-渗透笔记笔记
1.运行环境sqlmap是用Python编写的，因此首先需要确保你的系统上安装了Python。sqlmap支持Python2.6、2.7和Python3.4及以上版本。2.常用命令通用格式：bythonsqlmap.py-r注入点地址--参数-rpost请求-uget请求--level=测试等级--risk=测试风险-v显示详细信息级别-p针对某个注入点注入-threads更改线程数，加速--ba
笔记：代码随想录算法训练营day60：并查集理论基础、寻找存在的路径 jingjingjing1111 笔记
本文为学习并查集理论基础|代码随想录、代码随想录过程中的思考find是找的顶头上司，而不是当前上司，最后怎么也得找到一个顶头上司的上司是自己，要不然这个结构也不成立使用issame替换会使被操作者为当前节点，而非根节点。join(u,v)的功能为将v的根节点挂到u的根节点下模拟过程可以看出，join中的find中的路径压缩要在长度大于2（路径大于1）的时候才会体现出来107.寻找存在的路径卡码网题
计算机基础：编码04，认识反码和补码水饺编程 MFC学习笔记 Win32学习笔记 windows c++mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无（二）MFC专栏导航上一篇：计算机基础：编码03，根据十进制数，求其原码回到目录下一篇：无本节前言在前两节，我讲解了关于原码的知识。本节，我来讲解反码和补码。在学习本节之前，你需
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
《面向模式的软件体系结构3-资源管理模式》读书笔记（7）--- Coordinator模式 weixin_33699914 人工智能
3.3Coordinator模式Coordinator（协调者）模式描述了如何通过协调涉及多个参与者（每个参与者都包含资源、资源使用者和资源提供者）的任务的完成来维护系统的一致性。这个模式提出了一个解决方案，使得在涉及多个参与者的任务中，或者所有参与者的任务都完成，或者一项任务都没有完成。这确保了系统总是处于一致的状态。1.问题很多系统都会执行涉及不止一个参与者的任务。一个参与者是一个主动实体，既
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本