王小小小草

分类算法之逻辑回归--理论+案例+代码

分类算法之逻辑回归–理论+案例+代码

标签（空格分隔）： SPARK机器学习

1. 逻辑回归概述

1.1 概述

逻辑回归与线性回归类似，但它不属于回归分析家族（主要为二分类），而属于分类家族，差异主要在于变量不同，因此其解法与生成曲线也不尽相同。

逻辑回归是无监督学习的一个重要算法，对某些数据与事物的归属（分到哪个类别）及可能性（分到某一类别的概率）进行评估。

1.2 使用

在医学界，广泛应用于流行病学中，比如探索某个疾病的危险因素，根据危险因素预测疾病是否发生，与发生的概率。
比如探讨胃癌，可以选择两组人群，一组是胃癌患者，一组是非胃癌患者。因变量是“是否胃癌”，这里“是”与“否”就是要研究的两个分类类别。自变量是两组人群的年龄，性别，饮食习惯，等等许多（可以根据经验假设），自变量可以是连续的，也可以是分类的。

在金融界，较为常见的是使用逻辑回归去预测贷款是否会违约，或放贷之前去估计贷款者未来是否会违约或违约的概率。

在消费行业中，也可以被用于预测某个消费者是否会购买某个商品，是否会购买会员卡，从而针对性得对购买概率大的用户发放广告，或代金券等等，进行精准营销。

2. 逻辑分布（Logistic distribution）

设X是连续随机变量，X服从逻辑分布式指X具有下列分布函数和密度函数：

2.1 分布函数

上述公式中，是一个标准化的过程，μ是均值（位置参数，决定分布的位置），是标准差（形状参数，标准差越大则分布曲线越扁平，分布越不集中）

上图为逻辑分布函数的图形，是一条S型曲线（sigmoid curve）。该曲线以点（μ，1/2）为中心对称。曲线在中心附近增长速度较快，在两端增长速度较慢，形状参数的值越小，曲线在中心附近增长得就越快。

2.2 密度函数

密度函数是分布函数的一阶求导，公式与图形如下：

3. 二项逻辑回归模型(binomial logistic regression model)

二项逻辑回归模型是一种分类模型，有条件概率分布P(Y/X)表示，X为取数为实数，Y取值为0或1。研究已知X，求Y为1或0的概率。

3.1 二项逻辑回归模型

模型:

上述公式中，分别表示Y=1和Y=0的概率，Y是输出。
其中，x为输入变量，在机器学习中我们一般称之为feature，特征；w和b为参数，是我们接下来要去估计的，w为权值向量，b为偏置向量，w*x为w与x的内积。
根据以上公式，估计出参数后，输入已知的x值，便可以求出Y为1或0的概率了。两个概率相加为1.
逻辑回归会比较两个概率值的大小，然后将实例X分到概率较大的类别中。

简化模型：
有时，为了方便，我们将权值向量与输入向量将以扩充，即
w=(w0,w2,w3,…,wn,b)^T;
x=(x1,x2,x3,…,xn,1)^T.
^T表示矩阵的转置，那么上述模型可以简写为：

通常情况下，为了更简单只管，我们用z=w*x,那么模型也可以表达如下：

3.2 odds 和 log odds

odds
odds是指事件发生的概率与该事件不发生的概率的比值，如果事件发生的概率为P，不发生的概率为1-P，那么该事件的odds为

odds=P/(1-P)

log odds
通常我们用log odds(logit)来表示：

logit(p)=log(p/(1-p))

根据3.1节的逻辑回归模型，我们将发生的概率（P(Y=1/x))代入logit的p中。得到以下公式：

logit(p)=log(P(Y=1/x)/1-P(Y=1/x))
        =w*x
        =w0+w1*x1+w2*x2+...+wn*xn

从以上公式可知输出Y=1的log odds是x的线性函数。

也就是说，通过逻辑回归模型，我们将线性函数w*x转变成了概率，从而达到分类的目的。

线性的值越接近于正无穷，概率的值就越接近1；线性的值越接近负无穷，概率的值就越接近0. 当w*x>0.5时，那么结果就是positive的，否则就是negative的

3.3 模型参数的估计

对于给定的数据集，我们可以采用极大似然估计法估计模型参数。

设：

P(Y=1/x)=π(x),   P(Y=0/x)=1-π(x)

似然函数为：

对数似然函数为：

我们对以上对数似然函数L(w)求最大值，得到w的估计值，这是一个对目标函数L（w）求最优化的问题，通常采用梯度下降与拟牛顿法才求得最优解。

估计出w值后，我们就得到了完整的逻辑回归模型，使用这个模型去做预测。

4. 多项逻辑回归(multi-nominal logistic model)

逻辑回归不但可以应用到二分类中，也可以针对多个分类建立模型。
当Y有k个分类，Y={1,2,…,k}，逻辑回归模型可如下构建：

5. spark MLlib 逻辑回归案例(from example of 官方文档）

有两种最优化算法可以求解逻辑回归问题并求出最优参数：mini-batch gradient descent(梯度下降法），L-BFGS法。我们更推荐使用L-BFGS，因为它能更快聚合

5.1 导入逻辑回归需要的包：

import org.apache.spark.SparkContext
import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils

5.2 创建新的实例

val conf =new SparkConf()
    .setMaster("Local")
    .setAppName("LogisticRegression")
val sc = new SparkContext(conf)

5.3 以LIBSVM的格式加载数据

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")

5.4 将数据分割成training dataset and test dataset,分别为60%，40%。seed为随机数池，每次随机抽数都不一样

// 随机分割traning dataset and test dataset
val splits = data.randomSplit(Array(0.6,0.4),seed = 11L)

//取分割后的第一个位数为training,然后缓存，因为等等又要使用到去建模
val training = split(0).cache

//取分割后的第二位数为testing dataset,不缓存，因为等等只会用于测试
val test = splits(1)

5.5 运行tainning data构建模型

//新建一个logistic regression model;并且用LBFGS法去求最优参数
val model = new LogisticRegressionWithLBFGS()
    .setNumClasses(10)  //设置类型的数量
    .run(traning)    //将traning data放进模型

5.6 使用以上创建的模型去估计test dataset

val predictionAndLabels = test.map{ case LabledPoint(label,features) =>
val prediction = model.predict(features)
(prediction,label)

5.7 验证模型

//将上面test运算产生的数据（prediction,label)转化为MulticlassMetrics形式
val metrics = new MulticlassMetrics(predictionAndLabels)
//比较perdiction(通过模型预测出的应变量）和label(实际观测值的应变量），打印出精准度
val precision = metrics.precision
println("Precision = " + precision)

5.8 保存模型，以后也可以直接下载使用该模型

model.save(sc,"myModelPath")

val samemodel =  LogisicRegressionModel.load(sc,"myModelPath")

6.Logistic regression案例二

6.1 一元逻辑回归

6.1.1 导入所需的包

import org.apache.spark.SparkContext
import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils

6.1.2 建立模型

object LogisticRgressiom{
  val conf = new SparkConf()           //创建环境变量
      .setMaster("local")              //设置运行在本地
      .setAppName("LogisticRegression")//设置APP名字
  val sc = new SparkConftext(conf)     //创建实例

def main(args:Array[String]){
  val data = sc.textFile("//")        //导入文件
  val parseData = data.map {line=>    //预处理数据
  val parts = lines.split('/')        //将数据用/隔开
  LabeledPoint = (parts(0).toDouble,  //转化数据格式
  vectors.dense(parts(1).map(_.toDouble))
}.cache()

//建立模型，迭代次数设置为50
  val model = LogisticRgressioneWithSGD.train(parseData,50)

//创建测试值
  val target = vectors.dense(-1)

//根据以上建立的模型预测结果
  val result = model.predict(target)

//打印结果
  println(result)
}
}

6.1.3 模型的验证

MLlib中MulticlassMetrics类是对数据进行分类的类，其中包括各种方法，通过调用其中precision方法可以对数据进行验证。

object LogisticValidate { 
  val conf = new SparkConf()
     .setMaster("Local")
     .setAppName("LogisticValidate")
  val sc = new SparkContext(conf)

def main(arg:Array[String]){
    val data = sc.textFile("//")          //读取数据集
    //分割数据
    val parseDate = data.randomSplit(Array(0.6,0.4),seed=11L)
    val trainning = parseData(0).cache
    val test = parseData(1)

    //用tranning dataset训练模型
    val model = LogisticRgressionWithSGD.train(trainning,50)
    //打印创建的模型的参数（这个参数是用SGD法算出的）
    println(model.weights)

    //计算测试值
    val PredictionAndLabels = test.map{
       case LabeledPonit(label,feature) =>
       val prediction = model.predict(features)
       (prediction,label)         //存储测试值与真实值
    }

    //计算模型误差
    val metrics = new MulticlassMetrics(predictionAndLabels)
    val precision = metrics.precision
    println("precision:" + precision)
}
}

你可能感兴趣的:(spark机器学习)

Spark编程实验六：Spark机器学习库MLlib编程 Francek Chen Spark编程基础 spark mllib 大数据机器学习算法
目录一、目的与要求二、实验内容三、实验步骤1、数据导入2、进行主成分分析（PCA）3、训练分类模型并预测居民收入4、超参数调优四、结果分析与实验体会一、目的与要求1、通过实验掌握基本的MLLib编程方法；2、掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。二、实验内容1.数据导入从文件中导入数据，并转化为DataFrame。2、进行主成分分析（PCA）对6个连续型
Spark MLlib Francek Chen Spark编程基础 spark-ml spark mllib 机器学习
目录一、SparkMLlib简介（一）什么是机器学习（二）基于大数据的机器学习（三）Spark机器学习库MLlib二、机器学习流水线（一）机器学习流水线概念（二）流水线工作过程（三）构建一个机器学习流水线三、特征提取和转换（一）特征提取：TF-IDF（二）特征转换：标签和索引的转化四、分类与回归（一）逻辑斯蒂回归分类器（二）决策树分类器一、SparkMLlib简介（一）什么是机器学习机器学习可以看
【Spark】pyspark 基于DataFrame使用MLlib包 beautiful_huang Spark spark
在这里，我们将基于DataFrame使用MLlib包。另外，根据Spark文档，现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。1ML包的介绍从顶层上看，ML包主要包含三大抽象类：转换器、预测器和工作流。1.1转换器（Transformer）从Transformer抽象类派生出来的每一个新的Transformer都需要实现一个.transform(…)方法
【Spark-ML源码解析】Word2Vec LotusQ spark-ml word2vec 人工智能
前言在阅读源码之前，需要了解Spark机器学习Pipline的概念。相关阅读：SparkMLlib之Pipeline介绍及其应用这里比较核心的两个概念是：Transformer和Estimator。Transformer包括特征转换和学习后的模型两种情况，用来将一个DataFrame转换成另一个DataFrame；Estimator接收一个DataFrame并输出一个模型（Transformer）
2018-11-12Pyspark win环境配置参考 QQsoso
Anaconda中配置Pyspark的Spark开发环境Spark搭建机器学习系统Spark机器学习win+本地Pyspark
大数据分析与应用实验任务十二陈希瑞数据分析数据挖掘
大数据分析与应用实验任务十二实验目的：通过实验掌握spark机器学习库本地向量、本地矩阵的创建方法；熟悉spark机器学习库特征提取、转换、选择方法；实验任务：一、逐行理解并参考编写运行教材8.3.1、8.3.3节各个例程代码，查看向量或本地矩阵结果请用.toArray()方法。1、本地向量首先安装numpy，否则会报错“ImportError:Nomodulenamed‘numpy’”sudop
spark mllib和spark ml机器学习基础知识厨神大数据 python spark
spark机器学习SparkMLib完整基础入门教程-y-z-f-博客园(cnblogs.com)参考spark机器学习简介机械学习是一门人工智能的科学，用于研究人工智能，强调算法，经验，性能开发者任务：spark基础+了解机器学习原理+相关参数含义millib：分类回归聚类协同过滤降维特征化：特则提取转化降维选择公交管道：构建评估调整机器学习管道持久性：保存和加载算法，模型和管道实用工具：线代(
人工智能学习路线，文末赠书活动（深度学习Spark机器学习）程序IT圈算法决策树人工智能机器学习深度学习
程序IT圈学习编程技术，关注这个公众号足够了现在人工智能，机器学习这么火热，很多人想入门却不知道要从哪里入门，从哪里开始学习，该学习些什么内容，下面是我以前看过的一篇关于机器学习的学习入线文章，可能可以帮助到你入门人工智能领域。另外本次文末机械工业出版社华章分社闫老师提供给本公众号五本技术图书《深度学习Spark机器学习》，免费赠送给大家！第一课：机器学习的数学基础1.机器学习的数学基础a.函数与
【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版） weixin_30894389 python 大数据人工智能
目录保序回归原理保序回归代码(SparkPython)保序回归原理待续...返回目录保序回归代码(SparkPython)代码里数据：https://pan.baidu.com/s/1jHWKG4I密码：acq1#-*-coding=utf-8-*-frompysparkimportSparkConf,SparkContextsc=SparkContext('local')importmathfr
Spark机器学习之分类与回归 dingcheng998 spark 机器学习
本页面介绍了分类和回归的算法。它还包括讨论特定类别的算法的部分，如线性方法，树和集合体。目录分类Classification-----------逻辑回归Logisticregression-------------------二项式逻辑回归Binomiallogisticregression-------------------多项Logistic回归Multinomiallogisticreg
机器学习(一)Spark机器学习基础大模型Maynor #机器学习机器学习 spark 人工智能
文章目录1.Spark机器学习基础1.0机器学习和大数据的区别和联系1.1机器学习引入1.2机器学习三次浪潮1.3人工智能领域基础概念区别1.3.1人工智能、机器学习、深度学习关系1.3.2数据分析、数据挖掘基本概念区别1.3.3各技术交叉点后记1.Spark机器学习基础l学习目标掌握机器学习与大数据的区别和联系掌握机器学习概念掌握机器学习如何构建机器学习模型过程1.0机器学习和大数据的区别和联系
3.Spark机器学习基础——监督学习许志辉Albert
Spark机器学习基础——监督学习1.1线性回归（加L1L2正则化）!head-3data/mllib/sample_linear_regression_data.txt1from__future__importprint_functionfrompyspark.ml.regressionimportLinearRegressionfrompyspark.sqlimportSparkSession
SparkML机器学习火玄 spark spark-ml 机器学习人工智能
SparkML机器学习:让机器学会人的学习行为,通过算法和数据来模拟或实现人类的学习行为，使之不断改善自身性能。机器学习的步骤:加载数据特征工程数据筛选:选取适合训练的特征列,例如用户id就不适合,因为它特性太显著.数据转化:将字符串的数据转化数据类型,因为模型训练的数据不能为字符串.将多个特征列转化为一个向量列,因为spark机器学习要求数据输入只能为一个特征列数据缩放:把所有的特征缩放到0~1
机器学习基础笔记硅谷工具人 #spark 机器学习机器学习笔记人工智能
文章目录1.机器学习简介1.1机器学习的一般功能1.2机器学习的应用1.3机器学习的方法1.4机器学习的种类1.5机器学习的常用框架2.Spark机器学习2.1MLlib介绍2.2MLlib的数据格式2.2.1本地向量2.2.2标签数据2.3MLlib与ml2.4MLlib的应用场景3.Spark环境搭建4.向量与矩阵4.1向量操作4.2矩阵操作5.基础统计5.1描述性统计5.2相关性度量5.3假
Spark机器学习实例 V丶Chao Spark 算法 python 机器学习大数据 java
2020/07/09-引言《LearningSpark》过程中只是简单介绍了mllib中的东西，没有一个完整的实践过程，暂时还没有去找有没有专门做这种的书，好像我看《sparkinaction》是有这部分内容，后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程，只是简单打下一个轮廓，然后记录使用过程中遇到的问题以及解决方案。在本文中，主要使用新版面向DataFrame
【Spark基础编程】第8章 Spark MLlib 小手の冰凉【数据科学与大数据技术】spark spark-ml 机器学习
系列文章目录文章目录系列文章目录前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1什么是机器学习8.1.2基于大数据的机器学习8.1.3Spark机器学习库MLLib8.2机器学习工作流8.2.1机器学习流水线概念8.2.2构建一个机器学习流水线8.3特征抽取、转化和选择8.4分类与回归【第8章总结】前言【第8章SparkMLlib】8.1SparkMLlib简介8.1.1
计算机毕业设计之PyTroch+Spark+LSTM+Scrapy图书推荐系统图书爬虫可视化图书大数据图书数据分析计算机毕业设计大神
开发技术前端：vue.js、echarts、websocket后端API:springboot+mybatis-plus数据库：mysql数据分析：Spark机器学习：PyTroch（基于神经网络的混合CF推荐算法）、协同过滤算法(基于用户、基于物品全部实现)、lstm评论情感分析第三方平台：支付宝沙箱支付、百度AI图片识别、短信接口数据集：Scrapy爬虫框架(Python)创新点Spark大屏
PySpark机器学习 Machine Learning with PySpark - 2019.Pdf python测试开发
MachineLearningwithPySpark-2019.Pdfimage.png使用PySpark构建机器学习模型，自然语言处理应用程序和推荐系统，以解决各种业务挑战。本书从Spark的基础知识及其演变开始，然后介绍了传统机器学习算法的整个范围，以及使用PySpark的自然语言处理和推荐系统。使用PySpark进行机器学习向您展示如何构建有监督的机器学习模型，如线性回归，逻辑回归，决策树和
Spark机器学习实战 (十二) - 推荐系统实战 JavaEdge
0相关源码将结合前述知识进行综合实战，以达到所学即所用。在推荐系统项目中，讲解了推荐系统基本原理以及实现推荐系统的架构思路，有其他相关研发经验基础的同学可以结合以往的经验，实现自己的推荐系统。1推荐系统简介1.1什么是推荐系统1.2推荐系统的作用1.2.1帮助顾客快速定位需求,节省时间1.2.2大幅度提高销售量1.3推荐系统的技术思想1.3.1推荐系统是一种机器学习的工程应用1.3.2推荐系统基于
电商推荐系统论文：基于Spark机器学习的电商推荐系统的设计与实现，大数据电商推荐系统毕设论文，Spring MLlib电商推荐系统诸葛钢铁云解决方案运维架构大数据运维 linux python
毕业设计（论文）题目：基于Spark机器学习的电商推荐系统的设计与实现这是我去年本科毕业时做的毕业设计论文，全文三万多字，知网查重对重复率1%，由于本科论文不会被发表到知网上，再加上我已毕业近一年，现在将论文发表到CSDN。如有需要做毕设论文可引用本文对内容，先到先得（内容纯原创，少有重复）。由于作者对水平有限，文章中难免有错误对内容或作者对相关技术有错误对见解，望读者予以谅解，谢谢！接上篇文章：
spark机器学习-分类回归总结 lixia0417mul2 python机器学习 spark 机器学习分类
1.spark支持的分类包括以下几个场景：a.二分类，顾名思义就是只分成A和B两类b.多分类分成A，B，C，D等多个分类不支持多标签分类，所谓的多标签分类是指一个样本可以属于多个分类，也就是比如样本X既属于A分类又属于B分类，spark目前不支持分类的算法主要有逻辑回归分类算法，决策树，随即森林等，不管是哪种算法，不同点主要在于支持的分类数量和样本数量的限制不同，评价分类算法的好坏的标志主要是看准
Spark机器学习工具链-MLflow简介 weixin_34353714
2019独角兽企业重金招聘Python工程师标准>>>Spark机器学习工具链-MLflow简介本文翻译自https://github.com/openthings/mlflow本文地址https://my.oschina.net/u/2306127/blog/1825638，byopenthings,2018.06.07.参考：mlflow项目由Databricks创建。官方主页https://
Apache Spark机器学习教程 danpu0978 算法大数据 python 机器学习深度学习
编者注：不要错过有关如何使用ApacheSpark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。决策树广泛用于分类和回归的机器学习任务。在此博客文章中，我将帮助您开始使用ApacheSpark的MLlib机器学习决策树进行分类。机器学习算法概述通常，机器学习可以分为两类算法：有监督算法和无监督算法。监督算法使用标记的数据，其中输入和输出都提供给算法。无监督算法没有预先的输出。这些
使用Apache Spark机器学习逻辑回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例如，已知为恶性的观察结果
logistic回归预测_使用Apache Spark机器学习Logistic回归预测乳腺癌 danpu0978 算法大数据 python 机器学习人工智能
logistic回归预测在此博客文章中，我将帮助您开始使用ApacheSpark的spark.mlLogistic回归来预测癌症恶性程度。Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。分类分类是一类有监督的机器学习算法，该算法基于已知项目的标记示例（例
Spark机器学习解析 Legosnow 机器学习 spark 人工智能
源码加数据集：文件源码Gitee好像只收10M一下的文件类型，所以数据集就只能以链接的形式自己下了KMeans和决策树KDD99数据集，推荐使用10%的数据集：http://kdd.ics.uci.edu/databases/kddcup99/ALS电影推荐的Movielens数据集，推荐使用1m大小：https://files.grouplens.org/datasets/movielens/逻
Apache Spark 机器学习管道 3 uesowys 人工智能技术与架构 spark 人工智能
ApacheSpark的机器学习管道提供一个统一的、高级的APIs集合，该APIs集合是以数据框架（Datagrams）为基础，帮助开发人员创建或者优化一个用于实际环境的机器学习的管道。管道（Pipeline）的基本概念Spark机器学习类库MLlib提供丰富的用于机器学习的算法，使得机器学习更加容易地在一个管道、工作流程中综合多种不同的算法，以提供更加强大的机器学习能力，管道的基本概念如下所示：
Python Spark 机器学习与Hadoop 大数据（1）学习笔记一停止的闹钟 Python Spark Hadoop 机器学习大数据大数据 Spark 机器学习 Hadoop 学习笔记
PythonSpark机器学习与Hadoop大数据1.1机器学习机器学习框架机器学习（MachineLearning）：通过算法，和历史数据进行训练，产生得出模型。当有未知相匹配的数据时，我们可以通过模型进行一定程度上的预测。训练数据（监督学习）分为：Feature（数据特征）Label（数据标签，预测目标）机器学习分类：监督学习：有Feature,有Labul,无监督学习：有Feature，无L
笔记：python spark机器学习与hadoop大数据长度735 大数据 python spark
目录1.1机器学习的介绍机器学习架构1.2Spark的介绍1.3Spark数据处理RDD、DataFrame、SparkSQl1.4使用python开发spark机器学习与大数据应用1.5pythonspark机器学习1.6大数据定义JAVA-JDK在Linux的下载和安装1.1机器学习的介绍机器学习技术不断进步，应用相当广泛，例如推荐引擎、定向广告、需求预测、垃圾邮件过滤、医学诊断、自然语言处理
推荐系统-基于模型协同过滤理论基础与业务实践深漠大侠智能推荐智能推荐
推荐系统-基于模型协同过滤理论基础与业务实践1.SparkMllib库框架详解Spark机器学习库五个组件MLAlgratham算法Pipelines管道FeatureszationPersistenceUtilitieslSparkml和Sparkmllibml基于DatafrmaeAPImllib基于rdd的API2.SparkMllib基本数据类型localvector本地向量创建方式上de
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他