jslijb

spark MLlib 之构建机器学习系统

构建 spark 机器学习系统
- spark 机器学习系统架构
- spark 和 hadoop 集群的安装
- spark-shell
- 加载数据
- 探索数据
  - 数据统计信息
  - 数据质量分析
  - 数据特征分析
  - 数据可视化
- 数据预处理
  - 数据清理
  - 数据变换
  - 数据集成
  - 数据归约
- 构建模型
- 模型评估方法
- 组装
- 模型选择或调优
  - 交叉验证(CrossValidator)：
  - 训练验证切分 (TrainValidationSplit)
- 保存模型

构建 spark 机器学习系统

spark 机器学习系统架构

spark 和 hadoop 集群的安装

请参照下面的链接

hadoop 和 spark 集群搭建

spark-shell

1.x Spark-Shell 自动创建一个 SparkContext 对象 sc
2.x Spark-Shell 引入了 SparkSession 对象(spark)，运行 Spark-Shell 会自动创建一个 SparkSession 对象，在输入 spark、SparkContext、SQLContext 都已经封装在 SparkSession 对象当中，它为用户提供了统一的的切入点，同时提供了各种DataFrame 和 DataSet 的API。

加载数据

原始数据。每个字段以 “,” 分割，源数据本来是以 “|” 分割的，但是实际处理中发现字段不能是Int(scala StructField 代码段，字段类型为IntegerType) 类型，否则程序会报错，这个有待进一步测试
列出3行样例数据

useid	age	gender	occupation	zipcode
1	24	M	technician	85711
2	53	F	other	94043
3	23	M	writer	32067

启动 pyspark

// python  code
from pyspark import SparkConf,SparkContext
from pyspark.sql import SparkSession
from pyspark.sql import Row
spark = SparkSession.builder.appName("python spark SQL basic example").getOrCreate()

sc = spark.sparkContext

userrdd = sc.textFile("hdfs://master:9000/u01/bigdata/user_test.txt").map(lambda line: line.split(","))

df = userrdd.map(lambda fields: Row(userid = fields[0],age = int(fields[1]),gender = fields[2],occupation = fields[3],zipcode = fields[4]))

schemauser = spark.createDataFrame(df)
schemauser.createOrReplaceTempView("user")
schemauser.describe("userid","age","gender","occupation","zipcode").show()

// spark-submit 
/data/spark/bin/spark-submit --master yarn \
    --deploy-mode cluster \
    --num-executors 2 \
    --executor-memory '1024m' \
    --executor-cores 1 \
    /data/project/spark/python/load.py

// 注意如果有错误，将错误解决了，还是报同样的错误，那基本上可以肯定是缓存在作怪，需要删除当前目录下 "metastore_db" 这个目录。python 代码还可以直接提交 spark-submit load.py  只是这种方式使用的 spark standalone 集群管理模式


// scala code

package spark.mllib

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._
import scala.collection.mutable
import org.apache.spark.{SparkConf,SparkContext}

object loadData {

    def main(args: Array[String]) {

        val userSchema: StructType = StructType(mutable.ArraySeq(
            StructField("userid",IntegerType,nullable = false),
            StructField("age",IntegerType,nullable = false),
            StructField("gender",StringType,nullable = false),
            StructField("occupation",StringType,nullable = false),
            StructField("zipcode",StringType,nullable = false)
        ))
        val conf = new SparkConf().setAppName("load data")
        val sc = new SparkContext(conf)
        val sqlContext = new org.apache.spark.sql.SQLContext(sc)
        val userData = sc.textFile("hdfs://master:9000/u01/bigdata/user_test.txt").map {
            lines =>
            val line = lines.split(",")
            Row(line(0).toInt,line(1)toInt,line(2),line(3),line(4))
        }
        val userTable = sqlContext.createDataFrame(userData,userSchema)
        userTable.registerTempTable("user")
        userTable.describe("userid","age","gender","occupation","zipcode").show
        sqlContext.sql("SELECT max(userid) as useridMax FROM user").show()

    }
}

// spark-submit 
/data/spark/bin/spark-submit --master yarn \
    --deploy-mode cluster \
    --num-executors 2 \
    --executor-memory '1024m' \
    --executor-cores 1 \
    --class spark.mllib.loadData ./target/scala-2.11/mergefile_2.11-2.2.1.jar

关于 getOrCreate() 这个函数的使用方法详情见下面的链接

python builder API 使用简介

探索数据

数据统计信息

userTable.describe(“userid”,”age”,”gender”,”occupation”,”zipcode”).show
这一行代码会输出一个表格

summary	userid	age	gender	occupation	zipcode
count	943	943	943 943	943	943
mean	472.0	34.05196182396607	null	null	50868.78810810811
stddev	272.3649512449549	12.19273973305903	null	null	30891.373254138158
min	1	7	F	administrator	00000
max	99	73	M	writer	Y1A6B

数据质量分析

count 统计数据的总量，有多少条记录
- 总数
- 非空记录
- 空值 = 总数 - 非空记录
mean 计算平均值
std 标准差
max 最大值
min 最小值
百分位数:百分位数则是对应于百分位的实际数值。例如：将一个组数按小到大的顺序排序，25%=3.2，表示这组数中有25%的数是小于或等于3.2，75%的数是大于或等于3.2的。至于计算方式每个算法的计算方式不一样，pandas的计算方式没有找到。
- 25%
- 50%
- 75%

# linux服务器导入python matplotlib.pyplot报错


import matplotlib as mpl

mpl.use('Agg')

# 再执行

import matplotlib.pyplot as plt

# 需要保存图片到指定的目录

plt.savefig("/home/yourname/test.jpg") 

# 即使是能够保持图片，但是图片传到Windows平台打开是空白的，画图看来最好还是要在Windows平台上执行

# 完整的代码，在Windows 平台上运行

# coding:utf-8

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("C:\\Users\\ljb\\Desktop\\catering_sale.csv")
print(df.count())
print(df.describe())
plt.figure()
bp = df.boxplot(return_type="dict")
# fliers 为异常数据标签
x = bp[ 'fliers' ][0].get_xdata()
y = bp[ 'fliers'][0].get_ydata()
y.sort()
print("x: ",x)
print("y: ",y)

# 用 annotate 添加注释
for i in range(len(x)):
    plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i] + 0.1 - 0.8/(y[i] - y[i-1]),y[i]))

plt.show()

/*
sale_date    200
sale_amt     198  从这里可以看出有2个空白的值
dtype: int64
          sale_amt
count   198.000000
mean   2765.545152
std     709.557639
min      22.000000
25%    2452.725000
50%    2655.850000
75%    3023.500000
max    9106.440000
x:  [ 1.  1.  1.  1.  1.  1.]
y:  [   22.     865.    1060.    4065.2   6607.4   9106.44]

*/

从上图可以看出有 6 个可能的异常值都在图上表现出来，但是具体是否异常，需要和销售人员确认

数据特征分析

特征：用于模型训练的变量。可以看做数据的属性。
1. 如果这些数据是记录人，那特征就是年龄，性别，籍贯，收入等。
2. 如果这些数据记录的是某个商品，那特征就是商品类别，价格，产地，生成日期，销售数量等

特征分布分析与相关性分析
- 有助于发现相关数据的分布特征、分布类型、分布是否邓超等，可以使用可视化方法，这样便于直观发现特征的异常值
对比分析
统计量分析

特征数据分析，例子

# coding:utf-8

from pyspark.sql import SparkSession
from pyspark.sql import Row
import matplotlib.pyplot as plt
import sys

spark = SparkSession.builder \
    .appName("Python Spark SQL basic example") \
    .getOrCreate()

sc = spark.sparkContext

userrdd = sc.textFile("C:\\Users\\ljb\\Desktop\\user_test.txt").map(lambda line:line.split(","))

df = userrdd.map(lambda fields: Row(userid = fields[0],age = int(fields[1]),gender = fields[2],
                                    occupation = fields[3],zipcode = fields[4]))
schemauser = spark.createDataFrame(df)
schemauser.createOrReplaceTempView("user")
age = spark.sql("SELECT * FROM user")

ages = age.rdd.map(lambda p:p.age).collect()


# 分析"年龄",这个特征,通过直方图的形式显示出来
plt.hist(ages,bins=10,color="lightblue",normed=True)
plt.show()

#hist 对这个函数做简要的说明
# 先看下源码：
def hist(x, bins=None, range=None, normed=False, weights=None, cumulative=False,
         bottom=None, histtype='bar', align='mid', orientation='vertical',
         rwidth=None, log=False, color=None, label=None, stacked=False,
         hold=None, data=None, **kwargs):
    ax = gca()
    # Deprecated: allow callers to override the hold state
    # by passing hold=True|False
    washold = ax._hold

    if hold is not None:
        ax._hold = hold
        from matplotlib.cbook import mplDeprecation
        warnings.warn("The 'hold' keyword argument is deprecated since 2.0.",
                      mplDeprecation)
    try:
        ret = ax.hist(x, bins=bins, range=range, normed=normed,
                      weights=weights, cumulative=cumulative, bottom=bottom,
                      histtype=histtype, align=align, orientation=orientation,
                      rwidth=rwidth, log=log, color=color, label=label,
                      stacked=stacked, data=data, **kwargs)
    finally:
        ax._hold = washold

    return ret

/*
返回的值是一个tuple(n.bins,patches) or  ([n0, n1, ...], bins, [patches0, patches1,...]) (输入的数据是多重数据)
参数解释：
x： 一个数组，主要对这个数组中的数据画图，可以是多维数组。
bins：总共有几个条状，默认是10
color：表示直方图的颜色
*/

我们还可以进一步分析用户职业分布特征

# coding:utf-8

from pyspark.sql import SparkSession
from pyspark.sql import Row
import matplotlib.pyplot as plt
import sys
import numpy as np

spark = SparkSession.builder \
    .appName("Python Spark SQL basic example") \
    .getOrCreate()

sc = spark.sparkContext

userrdd = sc.textFile("C:\\Users\\ljb\\Desktop\\user_test.txt").map(lambda line:line.split(","))

df = userrdd.map(lambda fields: Row(userid = fields[0],age = int(fields[1]),gender = fields[2],
                                    occupation = fields[3],zipcode = fields[4]))
schemauser = spark.createDataFrame(df)
schemauser.createOrReplaceTempView("user")

# 查询 occupation(职业)，并按其分组，然后统计每个职业出现的次数，最后以职业出现的次数进行排序升序
count_occp = spark.sql("SELECT occupation,count(occupation) as cnt FROM user GROUP BY occupation ORDER BY  cnt")
count_occp.show(21) # 显示前21行数据

# 获取职业名称及对应出现的次数，以便画出各职业总数图
# 把运行的结果转换成 RDD
x_axis = count_occp.rdd.map(lambda p:p.occupation).collect()
y_axis = count_occp.rdd.map(lambda p:p.cnt).collect()

pos = np.arange(len(x_axis))
width = 1.0
ax = plt.axes()
# 设置 x 的刻度
ax.set_xticks(pos + (width / 2))
ax.set_xticklabels(x_axis)
plt.bar(pos,y_axis,width,color="orange")
plt.xticks(rotation=30)
fig = plt.gcf()
fig.set_size_inches(16,10)
plt.show()

对比分析的例子

# coding:utf-8

import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("C:\\Users\\ljb\\Desktop\\catering_sale.csv",header=0,index_col='sale_date',parse_dates=True)
df1 = df.fillna(0)
df_ym = df1.resample("M",how="sum")
df2 = df_ym.to_period("M")

df2.plot(kind="bar",rot=30)
plt.show()

数据可视化

通过数据可视化可以帮助我们发现数据的异常值、特征的分布情况等，为数据预处理提供重要的支持
spark 对数据的可视化功能还很弱，这里需要使用python 或者 R
Python 可视化可以使用 matplotlib 和 plot
下面使用 sin(x),cos(x) 这两个函数分布介绍 matplotlib 和 plot 这两种python 数据可视化的方法

# matplotlib 可视化方法
# coding:utf-8

import numpy as np
import matplotlib
import matplotlib.pyplot as plt

# 画图中能够显示中文
plt.rcParams[ 'font.sans-serif' ] = [ 'SimHei' ]
# 防止坐标轴上 "-" 号变成方块
plt.rcParams[ 'axes.unicode_minus' ] = False

# np.linspace(args1,args2,args3) 生成等差数列 args1:起始值，从什么数开始,args2:结束值,args3:生成多个数
x = np.linspace(0,10,100)
y = np.sin(x)
y1 = np.cos(x)

# 画布的长度是10，宽度是6
plt.figure(figsize=(10,6))
# label 标签在图上显示两个 $$ 括起来的部分：sin(x),线的颜色是红色，线的宽度是2
plt.plot(x,y,label="$sin(x)$",color="red",linewidth=2)
# "b--" 表示蓝色虚线
plt.plot(x,y1,"b--",label="$cos(x^2)$")
# 设置 X 轴标签
plt.xlabel(u"X 值")
# 设置 Y 轴标签
plt.ylabel(u"Y 值")
# 设置图像的标题
plt.title(u"三角函数图像")
# y 轴最大值:1.2和最小值:-1.2，这个没有多大意义，三角函数取值范围 -1 <= y <= 1
plt.ylim(-1.2,1.2)
# 显示图例，就是左上角会有红色线条表示 sin(x),蓝色虚线表示 cos(x^2)
plt.legend()
# 将图片保存至当前目录下
plt.savefig("fig01.jpg")
# 显示图片
plt.show()

# plot 可视化

# coding:utf-8

from pandas import DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0,10,100)
df = DataFrame({'sin(x)':np.sin(x),'cos(x)':np.cos(x)},index=x)

df.plot()
plt.show()

数据预处理

数据清理

填补缺失数据

# coding:utf-8

import  pandas as pd
import lxml


df = pd.read_csv("C:\\Users\\ljb\\Desktop\\catering_sale.csv",header=0)

# 显示缺失的数据
print(df[df.isnull().values == True])

# 使用 0 填补空值
print(df.fillna(0))
# 使用该列的平均值填补空值
print(df["sale_amt"].fillna(df["sale_amt"].count()))

# 使用该列的前一行值填补空值
print(df.fillna(method="pad"))

光滑噪声数据。有两类处理方法
- 分箱
- 聚类
处理奇异数据

# 进入 Pyspark，读取数据
df = spark.read.csv("/sparkMLlib/catering_sale.csv",header=True)
# 转换数据类型
df1 = df.select(df['sale_date'],df['sale_amt'].cast("Double"))
# df 数据类型:DataFrame[sale_date: string, sale_amt: string]
# df1 数据类型:DataFrame[sale_date: string, sale_amt: double]

# 将 "sale_amt" 列，值为 22.0 替换成 200.0
df1.replace(22.0,200.0,'sale_amt')

# 去掉数据项前后的空格
# 如果所有的数据项前后都没有空格使用show()是看不出效果的，show() 的前面可能为了排版的需要有很多空格。
# 这个例子中第一行前后是有空格的，这样就很明显

In [3]: from pyspark.sql.functions import *
In [23]: df.select(trim(df.sale_date)).show()
+---------------+
|trim(sale_date)|
+---------------+
|      2015/2/28|
|      2015/2/27|
|      2015/2/26|
|      2015/2/25|
|      2015/2/24|
|      2015/2/23|
|      2015/2/22|
|      2015/2/21|
|      2015/2/20|
|      2015/2/19|
|      2015/2/18|
|      2015/2/16|
|      2015/2/15|
|      2015/2/14|
|      2015/2/13|
|      2015/2/12|
|      2015/2/11|
|      2015/2/10|
|       2015/2/9|
|       2015/2/8|
+---------------+
only showing top 20 rows


In [24]: df.select(df.sale_date).show()
+-------------+
|    sale_date|
+-------------+
|  2015/2/28  |
|    2015/2/27|
|    2015/2/26|
|    2015/2/25|
|    2015/2/24|
|    2015/2/23|
|    2015/2/22|
|    2015/2/21|
|    2015/2/20|
|    2015/2/19|
|    2015/2/18|
|    2015/2/16|
|    2015/2/15|
|    2015/2/14|
|    2015/2/13|
|    2015/2/12|
|    2015/2/11|
|    2015/2/10|
|     2015/2/9|
|     2015/2/8|
+-------------+
only showing top 20 rows

# 只保留年份

In [27]: df.select(substring(trim(df.sale_date),1,4).alias('year'),df.sale_amt).show()
+----+--------+
|year|sale_amt|
+----+--------+
|2015|  2618.2|
|2015|  2608.4|
|2015|  2651.9|
|2015|  3442.1|
|2015|  3393.1|
|2015|  3136.6|
|2015|  3744.1|
|2015|  6607.4|
|2015|  2060.3|
|2015|  3614.7|
|2015|  3295.5|
|2015|  2332.1|
|2015|  2699.3|
|2015|    null|
|2015|  3036.8|
|2015|     865|
|2015|  3014.3|
|2015|  2742.8|
|2015|  2173.5|
|2015|  3161.8|
+----+--------+
only showing top 20 rows
# substring(str,pos,len) 返回 str 子串，从 pos 位置(包含) 返回 len 长度的子串

纠正错误数据
删除重复数据
删除唯一性属性
除去不相关字段或特征
处理不一致数据等

数据变换

规范化
离散化
衍生指标
类别特征数值化
平滑噪音

数据预处理	算法	功能简介
特征抽取	TF-IDF	统计文档的词频–> 逆向文件评率(TF-IDF)
特征抽取	Word2Vec	将文档转换成向量
特征装换	Tokeniziation	Tockenization 将文本划分为独立的个体
特征装换	StopWordsRemover	删除所有停用词
特征装换	PCA	使用 PCA 可以对变量集合进行降维
特征装换	StringIndexer	StringIndexer 将字符串列编码为标签索引列
特征装换	OneHotEncoder	将标签指标映射为0/1 的向量
特征装换	Normalizer	规范每个向量以具有单位范数
特征装换	StandardScaler	标准化每个特征使得其有统一的标准差以及(或者)均值为0，方差为1
特征装换	VectorAssembler	将给定的多列表组合成一个单一的向量列

# 定义特征向量
featuresArray = ['season','yr','mnth','hr','holiday','weekday','workingda','weathersit','temp','atemp','hum','windspeed']

# 把各特征组合成特征向量 features 
assembler = VectorAssembler(inputCols=featuresArray,outputCol='features')

# 选择贡献度较大的前 5 个特征

selectorfeature = ChisSqSelector(numTopFeatures=5,featuresCol="features",outputCol="selectedFeatures",labelCol='label')

数据集成

数据集成：将多个文件或者多数据库中的数据进行合并，然后存放在一个一致的数据存储中
数据集成一般通过 join,union,merge 等关键字将两个或者多个数据集连接在一起。Spark SQL(包括 DataFrame) 有join，pandas 下有 merge方法
数据集成往往需要耗费很多资源，尤其是大数据间的集成涉及shuffle过程，有时候需要牵涉多个节点，所以数据集成一般要考虑数据一致性的问题和性能问题
传统的数据库一般是在单机上采用 hash join 方法，分布式环境中，采用 join时，可以考虑充分利用分布式资源进行平行化(也就是提高并发度，可以通过增加分区数来实现)，当然在 join 之前，对数据过滤或归约也是常用的优化方法
Spark SQL 3种 join 方法
- broadcast hash join：如果 join 表中有一张大表和一张较小的表，可以考虑把小表广播分发到大表所在的分区节点上，分别并发第与其上的分区记录进行 hash join
- shuffle hash join：如果两个表都不小，对数据量较大的表进行广播分布就不太合适，这种情况可以根据 join key 相同分区也相同的原理，将两个表分别按照 join key 进行重新组织分区，这样就可以将 join 分而治之，划分为很多小的 join，充分利用集群资源并行化
- sort merge join：对数据量较大的表可以考虑使用 sort merge join 方法，先将两张大表根据 join key 进行重新分区，两张表数据会分布到整个集群，以便分布式并行处理，然后，对单个分区节点的两表数据分布进行排序，最后，对排好序的两种分区表执行 join操作
DataFrame 中的 join(或 merge) 方式：内连接，左连接，右连接

数据归约

数据归约：删除或减少数据的冗余性(降维就是数据归约其中的一种技术)、精简数据集等，使得归约后数据比原数据小，甚至小很多，但仍然接近于保持原数据的完整性，且结果与归约前后结果相同或几乎相同

数据预处理	算法	功能简介
特征选择或降维	VectorSlicer	得到一个新的原始特征子集的特征向量
特征选择或降维	RFormula	通过 R 模型公式来将数据中的字段转换为特征值
特征选择或降维	PCA	使用 PCA 方法可以对变量集合进行降维
特征选择或降维	SVD
特征选择或降维	ChiSqSelector	根据分类的卡方独立性检验来对特征排序，选取类别标签主要依赖的特征

SVD,PCA example

import org.apache.spark.mllib.linalg.Matrix
import org.apache.spark.mllib.linalg.SingularValueDecomposition
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.linalg.distributed.RowMatrix
import org.apache.spark.{SparkContext,SparkConf}
object chooseFeatures {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("dataReduce").setMaster("local")
    val sc = new SparkContext(conf)
    val data = Array(Vectors.dense(1,2,3,4,5,6,7,8,9),
      Vectors.dense(5,6,7,8,9,0,8,6,7),
      Vectors.dense(9,0,8,7,1,4,3,2,1),
      Vectors.dense(6,4,2,1,3,4,2,1,5),
      Vectors.dense(4,5,7,1,4,0,2,1,8))

    val dataRDD = sc.parallelize(data,2)
    val mat : RowMatrix = new RowMatrix(dataRDD)
    val svd  = mat.computeSVD(3,computeU = true)
    val U:RowMatrix = svd.U
    val s:Vector = svd.s
    val V:Matrix = svd.V
    println("U: " ,U)
    println("V: " ,V)
    println("s: " ,s)

    val pc:Matrix = mat.computePrincipalComponents(3)
    println("pc: ",pc)

/*
output:
(U: ,org.apache.spark.mllib.linalg.distributed.RowMatrix@972170)
(V: ,-0.33309047675110115  0.6307611082680837    0.10881297540284612   
-0.252559026169606    -0.13320654554805747  0.4862541277385016    
-0.3913180354223819   0.3985110846022322    0.20656596253983592   
-0.33266751598925126  0.25621153877501424   -0.3575093420454635   
-0.35120996186827147  -0.24679309180949208  0.16775460006130793   
-0.1811460330545444   0.03808707142157401   -0.46853660508460787  
-0.35275045425261     -0.19100365291846758  -0.26646095393100677  
-0.2938422406906167   -0.30376401501983874  -0.4274842789454556   
-0.44105410502598985  -0.4108875465911952   0.2825275707788212    )
(s: ,[30.88197557931219,10.848035248251415,8.201924156089822])
(pc: ,-0.3948204553820511   -0.3255749878678745   0.1057375753926894    
0.1967741975874508    0.12066915005125914   0.4698636365472036    
-0.09206257474269655  -0.407047128194367    0.3210095555021759    
0.12315980051885281   -0.6783914405694824   -0.10049065563002131  
0.43871546256175087   -0.12704705411702932  0.2775911848440697    
-0.05209780173017968  0.10583033338605327   -0.6473697692806737   
0.422474587406277     -0.27600606797384     -0.13909137208338707  
0.46536643478632944   -0.172268807944553    -0.349731653791416    
0.4376262507870099    0.3469015236606571    0.13076351966313637   )
*/

构建模型

算法选择的原则：
- 业务需求、数据特征、算法适应性。个人经验等
- 选择几种算法进行比较
- 采用集成学习的方式，复合多种算法也是选项之一。如：先采用聚类方法对数据进行聚类，然后对不同的类别数据进行预测和推荐
- 从简单和熟悉的算法入手，然后不断的完善和优化

spark ML 目前支持的算法

类型	spark ML 目前支持的算法
分类	逻辑回归，分二项逻辑回归 (Binomial logistic regression) 和多项逻辑回归(Multinomial logistic regression)
分类	决策树分类 (Decision tree classifier)
分类	随机森林分类 (Random forest classifier)
分类	梯度提升决策树分类 (Gradient-boosted tree classifier)
分类	多层感知机分类 (Multilayer perceptron classifier)
分类	一对多分类 (One-vs-Rest classifier)
分类	朴素贝叶斯 (native Bayes)
回归	线性回归 (Linear regression)
回归	广义线性回归 (Generalized liner regression)
回归	决策树回归 (Decision tree regression)
回归	随机森林回归 (Random forest regression)
回归	梯度提升决策树回归 (Gradient-boosted tree regression)
回归	生存回归 (Survival regression)
回归	保序回归 (Isotonic regression)
推荐	协同过滤 (Collaborative filtering)
聚类	K-均值(k-means)
聚类	高斯混合模型 (Gaussian Mixture Model)
聚类	主题模型 (latent Dirichlet allocation LDA)
聚类	二分 K 均值 (bisecting k-means)

算法确定了还需要设置一些参数，如训练决策树的时候需要选择迭代次数、纯度计算方法、树的最大高度等
数据划分为训练数据和测试数据，训练数据用来训练模型，测试数据用来验证模型，这种验证方式属于交叉验证(CrossValidator CV)
K-CV (K-fold Cross Validator) K 折交叉验证，不重复地随机将数据划分为 k 份，如 K = 3，则将产生 3 个(训练/测试) 数据集对，每个数据集使用 2/3 的数据进行训练，1/3 的数据进行测试。这样就会得到3个模型，用这 3 个模型的平均数作为最终模型的性能指标。K-CV 可以有效的避免欠学习状态的发生，其结果比较有说服力
spark 提供了多种数据划分的方法：randomSplit、CrossValidator等

模型评估方法

对模型的性能、与目标的切合度等进行评估
评估指标：精确度，ROC，RMSE等，这些指标是重要而基础的，但不是唯一和最终指标，除了这些指标，我们还应该评估模型对业务的提示或商业目标的达成等方面的贡献
spark 评估算法：
- 均方差 (MSE,Mean Squared Error)
- 均方差更 (RMSE Root Mean Squared Error)
- 平均绝对值误差 (MAE,Mean Absolue Error)

混淆矩阵(confusion matrix)：简单的矩阵，用于展示一个二分类器的预测结果，其中 T 为 True，F 为 False、N 为 Negative(负样本)、P 为 Postitive(正样本)
- 真正(TP):被模型预测为正的正样本数(本身是正样本，模型预测也是正样本)，可以称作判断为真的正确率
- 真负(TN):被模型预测为负的负样本数(本身是负样本，模型预测也是负样本)，可以称作判断为假的正确率
- 假正(FP):被模型预测为正的负样本数，(本身是负样本，模型预测是正样本)，可以称作误报率
- 假负(FN):被模型预测为负的正样本数,(本身是正样本，模型预测是负样本)，可以称作为漏报率

评估指标：
- 准确率(Precision)：反映了被分类器判定的正例中真正的正例样本的比重 P = TP/(TP+FP)
- 错误率(Error):模型预测错误占整个正负样本的比重。E = (FP+FN) / (P+N) = (FP+FN) / (FP+FN+TP+TN)
- 正确率(Accuracy):模型预测正确占整个正负样本的比重。 A = (TP+TN) / (P+N) = (TP+TN+FN+FP)
- 召回率(Recall):反映了被正确判定的正例占总正例的的比重 R = (TP) / (TP + FN)
- A + E = 1
- F1-Measure f-measure是一种统计量，F-Measure又称为F-Score，F-Measure是Precision(准确率)和Recall(召回率)加权调和平均
- 真阳率(TPR):代表分类器预测的正类中实际正实例占所有正实例的比重。TPR = TP/(TP+FN)
- 假阳率(FPR):代码分类器预测的正类中实际负实例占所有负实例的比重。FRP = FP/(FP+TN)

package spark.mllib

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.evaluation.{
  BinaryClassificationEvaluator,
  MulticlassClassificationEvaluator
}
import org.apache.spark.mllib.evaluation.RegressionMetrics
import org.apache.spark.sql.{DataFrame, SparkSession}
object modelAssess {
  def main(args: Array[String]): Unit = {
    val path = args(0)
    // sparkSession 是 Spark SQL 的入口，数据结构是 DataFrame。sc Spark CORE 的入口，数据结构是 RDD，从 Spark 2.0 及以后应尽量使用 DataFrame和DataSet

    val spark: SparkSession = SparkSession.builder
      .appName("modelAsess")
      .master("yarn")
      .config("spark.testing.memory", "471859200")
      .getOrCreate
    // DataFrame.read return DataFrameReader。read 默认支持的格式 parquet，hive 支持的列式存储的文件格式
    // format(source: String) 指定源数据的格式
    // load(path: String) 加载数据
    // data : dataFrame
    val data = spark.read.format("libsvm").load(path)
    // randomSplit(weight: Array[Double],seed : Long)
    // 按照 Double 类型的数组提供的权重值来随机切分数据，seed 可以理解为添加的杂志，增加随机性
    val Array(trainingData, testData) =
      data.randomSplit(Array(0.7, 0.3), seed = 1234L)
    // LogisticRegression 是一个类
    //.setThreshold(value : Double) 二分类中，设置阀值，概率大于该值的预测为1，概率小于该值预测为0。默认值：0.5.如果此值过大，那么很多标签都会被预测为0，如果此值过小，很多标签被预测为1
    // setMaxIter(value: Int) 设置最大迭代次数，默认是100
    // setRegParam(value : Double) 设置正则化参数，默认是 0.0
    // setElasticNetParam(value: Double) value = 0.0 使用 L2 正则化，如果value = 1.0 使用 L1 正则化，如果 0.0 < value < 1.0 使用 L1 和 L2 组合的正则化。注意如果是 fit 优化只支持 L2 正则化
    // 正则化主要是对权重比较大的特征进行惩罚，避免过度依赖某个特征造成过拟合
    val lr = new LogisticRegression()
      .setThreshold(0.6)
      .setMaxIter(10)
      .setRegParam(0.3)
      .setElasticNetParam(0.8)
    // fit(dataset: DataSet) 使用这个构建模型，输入数据是训练数据
    val lrMode = lr.fit(trainingData)
    // transform(dataSet: DataSet) : DataFrame  将测试数据输入开始预测
    val predictions = lrMode.transform(testData)
    predictions.show()

    // BinaryClassificationEvaluator 这个类是用来评估二分类算法构建的模型的预测效果，有两个期望输入列：label 标签列和 rawPrediction
    // setLabelCol 设置标签列的列名
    val evaluator = new BinaryClassificationEvaluator()
      .setLabelCol("label")

    // evaluate(dataSet: DataSet) : Double  评估模型的预测结果，返回一个度量值
    // def isLargerBetter: Boolean true：评估返回的指标应最大化，false:评估返回的值应最小化
    val accuracy = evaluator.evaluate(predictions)

    // RegressionMertrics 这个类是用来评估回归模型
    // new RegressionMetrics(predictionAndObservations: RDD[(Double, Double)])
    /* 
    val dataFrame1 = predictions.select("prediction","label")
    dataFrame1 : org.apache.spark.sql.DataFrame
    val rdd1 = dataFram1.rdd
    rdd1 : org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
    rdd1.rdd.map(x =>(x(0).asInstanceOf[Double],x(1).asInstanceOf[Double]))
    return org.apache.spark.rdd.RDD[(Double, Double)]

    x :org.apache.spark.sql.Row = [0.0,0.0]
    x(0) : Any = 0.0
    x(1) : Any = 0.0
    x(0).asInstanceOf[Double] 将传入的对象转换成 Double 类型，这里就是将 Any 转换成 Double 类型
    */
    val rm2 = new RegressionMetrics(
      predictions
        .select("prediction", "label")
        .rdd
        .map(x => (x(0).asInstanceOf[Double], x(1).asInstanceOf[Double])))

    /*
    def meanSquaredError: Double
    def meanAbsoluteError: Double
    def rootMeanSquaredError: Double
    */
    println("MSE: ", rm2.meanSquaredError)
    println("MAE: ", rm2.meanAbsoluteError)
    println("RMSE Squared: ", rm2.rootMeanSquaredError)

    val binaryClassificationEvaluator = new BinaryClassificationEvaluator()
    val multiclassClassificationEvaluator: MulticlassClassificationEvaluator =
      new MulticlassClassificationEvaluator()

    printlnMetricMulti("f1", predictions, multiclassClassificationEvaluator)
    printlnMetricMulti("weightedPrecision",
                       predictions,
                       multiclassClassificationEvaluator)
    printlnMetricMulti("weightedRecall",
                       predictions,
                       multiclassClassificationEvaluator)
    printlnMetricMulti("accuracy",
                       predictions,
                       multiclassClassificationEvaluator)

    printlnMetricbinary("areaUnderROC",
                        binaryClassificationEvaluator,
                        predictions)
    printlnMetricbinary("areaUnderPR",
                        binaryClassificationEvaluator,
                        predictions)


    // A error of "value $ is not StringContext member" is reported if you don't add following line
    import spark.implicits._

    // 计算 TP，分类正确且分类为1的样本数
    println(
      predictions
        .filter($"label" === $"prediction")
        .filter($"label" === 1)
        .count)
    // 计算 TN，分类正确且分类为0的样本数
    println(
      predictions
        .filter($"label" === $"prediction")
        .filter($"prediction" === 0)
        .count)

    // 计算 FN，分类错误且分类为0的样本数
    println(
      predictions
        .filter($"label" !== $"prediction")
        .filter($"prediction" === 0)
        .count)

    // 计算 FP，分类错误且分类为1的样本数
    println(
      predictions
        .filter($"label" !== $"prediction")
        .filter($"prediction" === 1)
        .count)

    /*
    准确率: TP(TP+FP) = 17/(17+0) = 1
    召回率: TP(TP+FN) = 17/(17+1) = 0.944444
    */
  }

  // 计算准确率、召回率、正确率、F1
  def printlnMetricMulti(
      metricsName: String,
      predictions: DataFrame,
      multiclassClassificationEvaluatdor: MulticlassClassificationEvaluator)
    : Unit = {
    /*
    val multiclassClassificationEvaluatdor = new MulticlassClassificationEvaluator()
    setMetricName(metricName : String) : BinaryClassificationEvaluator.this.type   设置评估指标的名字
    evaluate(predictions) 这个同上返回一个 Double的值，该指标具体的值
    */

    println(
      metricsName + " = " + multiclassClassificationEvaluatdor
        .setMetricName(metricsName)
        .evaluate(predictions))
  }


  // 计算 AUC(area under ROC ROC 曲线下的区域的面积)，area under PR PR曲线的面积
  def printlnMetricbinary(
      metricsName: String,
      binaryClassificationEvaluator: BinaryClassificationEvaluator,
      predictions: DataFrame): Unit = {

    println(
      metricsName + " = " + binaryClassificationEvaluator
        .setMetricName(metricsName)
        .evaluate(predictions))
  }
}

/*
代码集群方式提交
#!/bin/bash
cd /data/project/spark/spark_workstation
/data/sbt/bin/sbt compile && /data/sbt/bin/sbt package && \
/data/spark/bin/spark-submit --master yarn \
    --deploy-mode cluster \
    --verbose \
    --num-executors 2 \
    --executor-memory '1024m' \
    --executor-cores 1 \
    --class spark.mllib.modelAssess ./target/scala-2.11/mergedata_2.11-2.2.1.jar \
    hdfs://master:9000/sparkMLlib/sample_libsvm_data.txt
*/

组装

将数据的清洗、转换等数据的预处理工作，以及构建模型和评估模型这些任务当做 spark Pipeline的 stage，这样既可以保证各任务之间有序执行，也保证的处理数据的数据的一致性

// 创建 Pipeline，将各个 Stage 依次组装在一起
val pipeline = new Pipeline().setStages(Array(tokenizer,hashingTF,lr))

// 在训练集上拟合这个 Pipeline
val model = pipeline.fit(training)

// 在测试集上做预测

model.transform(test).select("label","prediction")

模型选择或调优

调优：使用给定的数据为给定的任务寻找最适合的模型或参数，调优可以是对单个阶段进行调试，也可以一次性对整个Pipeline 进行调优
MLlib 支持使用类型CorssValidator 和 TrainValidationSplit 这样的工具进行模型选择，这类工具有一下组件
- Estimator：用户调优的算法或者Pipeline
- ParamMap 集合：提供参数的选择，有时又称用户查找的参数网格(parameter grid)，参数网格可以使用 ParamGridBuilder 来构建
- Evaluator：衡量模型在测试数据上的拟合程度
模型选择工具工作原理如下：
- 对输入数据划分为训练数据和测试数据
- 对于每个(训练/测试)对，遍历一组ParamMaps。用每一个 ParamMap 参数来拟合估计器，得到训练后的模型，再使用评估器来评估模型的表现
- 选择性能表现最优的模型对应参数表

交叉验证(CrossValidator)：

交叉验证：将数据切分成 K 折数据集合，分别用于训练数据和测试数据
如果 K = 3 就会有3份训练/测试数据对。每一份数据对,其中训练数据占 2/3，测试数据占 1/3，为了评估一个 ParamMap，CrossValidator 会计算这 3 个不同的(训练，测试) 数据集对在 Estimator 拟合出的模型上平均评估指标
在找出最好的 ParamMap后，CrossValidator 会利用此 ParamMap 在整个训练机上训练(fit) 出一个泛华能力强、误差相对小的最佳模型，整个过程处于流程化管理之中，工作流程图如下

交叉验证的缺点：虽然利用 CrossValidator 来训练模型可以提升泛华能力，但其代价比较高。如果 K =3 regParam = (0.1,0.01)、numiters = (10,20) 这样就需要对模型训练 3*2*2 = 12 次。然而对比启发式的手动调优，这是选择参数的行之有效的方法

训练验证切分 (TrainValidationSplit)

TrainValidation 创建单一的(训练、测试)数据集对，它适用 trainRatio 参数将数据集切分成两部分。并最终使用最好的 ParamMap 和完整的数据集来拟合评估器
例如： trainTatio = 0.8 TrainValidationSplit 80% 作为训练数据集，20%作为测试数据集
TrainValidation 优点就是只对每对参数组合评估1次，因此性能比较好，但是当训练数据集不够大的时候其结果相对不可信

保存模型

保存拟合后的流水线到磁盘上

model.write.overwrite().save("/tmp/spark-logistic-regreesion-model")

保存未拟合的流水线到磁盘上

pipeline.write.overwrite().save("/tmp/spark-logistic-regression-model1")

把拟合后的流水线部署到其他环境中

val sameMode = PiplelineModel.load("/tmp/spark-logistic-regreesion-model")

你可能感兴趣的:(机器学习,spark)

【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin