菲立思教育

14.spark mllib之快速入门

简介

MLlib是Spark提供提供机器学习的库，专为在集群上并行运行的情况而设计。
MLlib包含很多机器学习算法，可在Spark支持的所有编程语言中使用。

MLlib设计理念是将数据以RDD的形式表示，然后在分布式数据集上调用各种算法。其实，MLlib就是RDD上一系列可供调用的函数的集合。

数据类型

MLlib包含一些特有的数据类型，位于org.apache.spark.mllib包（Java/Scala）或pyspark.mllib（Python）中。主要的几个类有：

Vector

一个本地向量（Local Vector）。索引是从0开始的，并且是整型。而值为 Double 类型，存储于单个机器内。
MLlib既支持稠密向量也支持稀疏向量，前者表示向量的每一位都存储，后者只存储非零位以节约空间。
向量可以通过mllib.linalg.Vectors类创建
scala

//创建稠密向量
scala> val denseVec1 = Vectors.dense(1.0,2.0,3.0)
denseVec1: org.apache.spark.mllib.linalg.Vector = [1.0,2.0,3.0]

scala> val denseVec2 = Vectors.dense(Array(1.0,2.0,3.0))
denseVec2: org.apache.spark.mllib.linalg.Vector = [1.0,2.0,3.0]

//创建稀疏向量
scala> val sparseVec1 = Vectors.sparse(4,Array(0,2),Array(1.0,2.0))
sparseVec1: org.apache.spark.mllib.linalg.Vector = (4,[0,2],[1.0,2.0])

python

>>> from pyspark.mllib.linalg import Vectors
>>> den = Vectors.dense([1.0,2.0,3.0])
>>> den
DenseVector([1.0, 2.0, 3.0])
>>> spa = Vectors.sparse(4,[0,2],[1.0,2.0])
>>> spa
SparseVector(4, {0: 1.0, 2: 2.0})

LabeledPoint

在分类和回归之类的监督式学习（supervised learning）算法中使用。
LabeledPoint表示带标签的数据点，包括一个特征向量与一个标签（由一个浮点数表示）。
位于mllib.regression包中
scala

// 首先需要引入标签点相关的类
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

// 创建一个带有正面标签和稠密特征向量的标签点。
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

// 创建一个带有负面标签和稀疏特征向量的标签点。
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

python

>>> from pyspark.mllib.regression import LabeledPoint
>>> from pyspark.mllib.linalg import Vectors
>>> pos = LabeledPoint(1.0,Vectors.dense([1.0,2.0,3.0]))
>>> neg = LabeledPoint(0.0,Vectors.dense([1.0,2.0,3.0]))

Matrix
- 矩阵分为稠密矩阵和稀疏矩阵
- 稠密矩阵的实体值以列为主要次序的形式，存放于单个 Double 型数组内。系数矩阵的非零实体以列为主要次序的形式，存放于压缩稀疏列（Compressed Sparse Column, CSC）中。例如，下面这个稠密矩阵就是存放在一维数组 [1.0, 3.0, 5.0, 2.0, 4.0, 6.0] 中，矩阵的大小为 (3, 2) 。
- 本地矩阵的基类是 Matrix 类，在 Spark 中有其两种实现，分别是 DenseMatrix 和 SparseMatrix 。官方文档中推荐使用已在 Matrices 类中实现的工厂方法来创建本地矩阵。需要注意的是，MLlib 中的本地矩阵是列主序的（column-major）
- 稠密矩阵
```
import org.apache.spark.mllib.linalg.{Matrix, Matrices}
// 创建稠密矩阵 ((1.0, 2.0), (3.0, 4.0), (5.0, 6.0))
val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))
```
- 稀疏矩阵
```
scala> val sparseMatrix= Matrices.sparse(3, 3, Array(0, 2, 3, 6), Array(0, 2, 1, 0, 1, 2), Array(1.0, 2.0, 3.0,4.0,5.0,6.0))
sparseMatrix: org.apache.spark.mllib.linalg.Matrix = 
3 x 3 CSCMatrix
(0,0) 1.0
(2,0) 2.0
(1,1) 3.0
(0,2) 4.0
(1,2) 5.0
(2,2) 6.0
```
Rating
- 用于产品推荐
- 表示用户对一个产品的评分
- 位于mllib.recommendation包中
各种Model类（模型）
- 每个Model都是训练算法的结果
- 模型一般都有一个predict()方法，使用该模型对新的数据点或数据点组成的RDD进行预测。

统计

不论是在即时的探索中，还是在机器学习的数据理解中，基本的统计都是数据分析的重要部分。MLlib 通过mllib.stat.Statistics 类中的方法提供了几种广泛使用的统计函数，这些函数可以直接在RDD 上使用。一些常用的函数如下所列。

Statistics.colStats(rdd)

计算由向量组成的RDD 的汇总统计，保存着向量集合中每列的最小值、最大值、平均值和方差。这可以用来在一次执行中获取丰富的统计信息。

Statistics.corr(rdd, method)

&esmp;计算由向量组成的RDD 中的列间的相关矩阵，使用皮尔森相关（Pearson correlation）或斯皮尔曼相关（Spearman correlation）中的一种（method 必须是pearson 或spearman中的一个）。

Statistics.corr(rdd1, rdd2, method)

计算两个由浮点值组成的RDD 的相关矩阵，使用皮尔森相关或斯皮尔曼相关中的一种（method 必须是pearson 或spearman 中的一个）。

Statistics.chiSqTest(rdd)

计算由LabeledPoint 对象组成的RDD 中每个特征与标签的皮尔森独立性测试
（Pearson’s independence test）结果。返回一个ChiSqTestResult 对象，其中有p 值、（p-value）、测试统计及每个特征的自由度。标签和特征值必须是分类的（即离散值）。

下面举个例子：使用三个学生的成绩Vector来构建所需的RDD Vector，这个矩阵里的每个Vector都代表一个学生在四门课程里的分数：

python

from pyspark.mllib.stat import Statistics
from pyspark.mllib.linalg import Vectors
//构建RDD
basicTestRDD = sc.parallelize([Vectors.dense([60, 70, 80, 0]),
                       Vectors.dense([80, 50, 0,  90]),
                       Vectors.dense([60, 70, 80,  0])])

//查看summary里的成员，这个对象中包含了大量的统计内容
>>> print summary.mean()
[ 66.66666667  63.33333333  53.33333333  30.        ]
>>> print summary.variance()
[  133.33333333   133.33333333  2133.33333333  2700.        ]
>>> print summary.numNonzeros()
[ 3.  3.  2.  1.]

scala

import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.rdd.RDD

val array1: Array[Double] = Array[Double](60, 70, 80, 0)
val array2: Array[Double] = Array[Double](80, 50, 0, 90)
val array3: Array[Double] = Array[Double](60, 70, 80, 0)
val denseArray1 = Vectors.dense(array1)
val denseArray2 = Vectors.dense(array2)
val denseArray3 = Vectors.dense(array3)

val seqDenseArray: Seq[Vector] = Seq(denseArray1, denseArray2, denseArray3)

val basicTestRDD: RDD[Vector] = sc.parallelize[Vector](seqDenseArray)

val summary: MultivariateStatisticalSummary = Statistics.colStats(basicTestRDD)

算法

特征提取

TF-IDF(词频——逆文档频率)是用来从文本文档（例如网页）中生成特定向量的简单方法。
缩放，大多数要考虑特征向量中各元素的幅值，并且在特征缩放调整为平等对待时表现最好。
规化，在准备输入数据时，把向量正规化为长度1。使用Normalizer类可以实现。
Word2Vec是一个基于神经网络的文本特征算法，可以用来将数据传给许多下游算法。

降维

主成分分析（PCA）
- PCA会把特征映射到低位空间，让数据在低维空间表示的方差最大化，从而忽略一些无用的维度。
- 要计算这种映射，我们要构建出正规化的相关矩阵，并使用这个矩阵的奇异向量和奇异值。
- 最大的一部分奇异值相对应的奇异向量可以用来重建原始数据的主要成分。
奇异值分解
- MLlib也提供底层的奇异值分解（简称SVD）原语。

分类与回归

分类与回归是监督学习的两种形式。
监督学习是指算法尝试使用有标签的训练数据根据对象的特征预测结果。
在分类中，预测出的变量是离散的。
在回归中，预测出的变量是连续的。
MLlib中包含许多分类与回归算法：如简单的线性算法以及决策树和森林算法。

聚类

聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中。
聚类算法主要用于数据探索（查看一个新数据集是什么样子）以及异常检测（识别与任意聚类都相聚较远的点）。
MLlib中包含两个聚类中流行的K-means算法，以及一个叫做K-means||的变种，可以提供为并行环境提供更好的初始化策略。

协同过滤与推荐

协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术。
交替最小二乘（ALS），会为每个用户和产品都设一个特征向量，这样用户向量和产品向量的点积就接近于他们的得分。

实例

使用逻辑回归算法实现垃圾邮件分类处理

def testLogisticRegressionWithSGD = {
    val spam = sc.textFile("src/main/resources/mllib/spam.txt", 1)
    val normal = sc.textFile("src/main/resources/mllib/normal.txt", 1)

    //创建一个HashingTF实例来把邮件文本映射为包含一个10000个特征的向量
    val tf = new HashingTF(numFeatures = 10000)
    //各邮件都被切分为单词，每个单词被映射为一个特征
    val spamFeatures = spam.map { email => tf.transform(email.split(" ")) }
    val normalFeatures = normal.map { email => tf.transform(email.split(" ")) }

    //创建LabeledPoint数据集分别存放阳性(垃圾邮件)和阴性(正常邮件)的例子
    val positiveExamples = spamFeatures.map { features => LabeledPoint(1, features) }
    val negativeExamples = normalFeatures.map { features => LabeledPoint(0, features) }
    val trainingData = positiveExamples.union(negativeExamples)
    trainingData.cache()
    println(trainingData.toDebugString)

    //使用SGD算法运行逻辑回归
    val model = new LogisticRegressionWithSGD().run(trainingData)
    //以阳性(垃圾邮件)和阴性(正常邮件)的例子分别进行测试
    val posTest = tf.transform("O M G get cheap stuff by sending money to .".split(" "))
    val negTest = tf.transform("hello, i started studying Spark ".split(" "))
    println(s"prediction for positive tset example: ${model.predict(posTest)}")
    println(s"prediction for negitive tset example: ${model.predict(negTest)}")

    Thread.sleep(Int.MaxValue)
  }

svm分类算法

# 加载模块
from pyspark.mllib.util import MLUtils
from pyspark.mllib.classification import SVMWithSGD

# 读取数据
dataFile = '/opt/spark-1.6.1-bin-hadoop2.6/data/mllib/sample_libsvm_data.txt'
data = MLUtils.loadLibSVMFile(sc, dataFile)

splits = data.randomSplit([0.8, 0.2], seed = 9L)
training = splits[0].cache()
test = splits[1]

# 打印分割后的数据量
print "TrainingCount:[%d]" % training.count();
print "TestingCount:[%d]" % test.count();

model = SVMWithSGD.train(training, 100)

scoreAndLabels = test.map(lambda point : (model.predict(point.features), point.label))

#输出结果，包含预测的数字结果和0/1结果：
for score, label in scoreAndLabels.collect():
    print score, label

k-means聚类算法

# 读取数据文件，创建RDD
dataFile = "/opt/spark-1.6.1-bin-hadoop2.6/data/mllib/kmeans_data.txt"
lines = sc.textFile(dataFile)

# 创建Vector，将每行的数据用空格分隔后转成浮点值返回numpy的array
data = lines.map(lambda line: np.array([float(x) for x in line.split(' ')]))

# 其中2是簇的个数
model = KMeans.train(data, 2)

print("Final centers: " + str(model.clusterCenters))
print("Total Cost: " + str(model.computeCost(data)))

忠于技术，热爱分享。欢迎关注公众号：java大数据编程，了解更多技术内容。

回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
leetcode 11. 盛最多水的容器 Source_Chang
leetcode核心思想：双指针，数字小的那个指针移动classSolution{public:intmaxArea(vector&height){intleft=0;intright=height.size()-1;intmaxArea=0;while(left
滑动窗口+动态规划 wniuniu_ 算法动态规划算法
前言：分析这个题目的时候，就知道要这两个线段要分开，但是要保证得到最优解，那么我们在选取第二根线段的时候，要保证我们第一根线段是左边最优解并且我们选的两根线段的右端点一定是我们的数组的点（贪心思想）classSolution{public:intmaximizeWin(vector&prizePositions,intk){intn=prizePositions.size();vectormx(n
svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Vector和Stack的用法蟹道人 JavaSe java
/***作者：*日期：*功能：vector的用法*/packagecom.cg;importjava.util.*;publicclassDemo5{publicstaticvoidmain(String[]args){//Vector的使用Vectorvec=newVector();Empemp=newEmp("2011",25,"zhang");vec.add(emp);for(inti=0;
Vector与Stack简述 Sun_Jingjing Java 集合
Vector：线程安全，默认容量为10，容量增长量默认为0，每次进行扩容是旧的容量乘以2。支持null的添加。基于数组实现。Stack：Stack继承Vector的栈结构。
FRotation FVector 相互转换我真的不知道该起什么名字了
FVectortoFRotatorFRotatorFVector::Rotation()const{returnToOrientationRotator();}FRotatortoFVectorCORE_APIFVectorFRotator::Vector()const{floatCP,SP,CY,SY;FMath::SinCos(&SP,&CP,FMath::DegreesToRadians(P
C++ | Leetcode C++题解之第398题随机数索引 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{vector&nums;public:Solution(vector&nums):nums(nums){}intpick(inttarget){intans;for(inti=0,cnt=0;i
AtCoder Beginner Contest 363 菜比乌斯反演 AtCoder 算法 c++开发语言
A-PilingUp题意不同的分数段有不同的^数量，Takahashi想要使得他的^数量增加，问他所需要的最少分数增幅。思路我们只需要找到下一阶段的下限。a/100是本阶段+1变成下一阶段，再*100变成下限，再与原来的相减即可。代码inlinevoidsolve(){inta;cin>>a;cout>n>>t>>p;vectora(n+1);for(inti=1;i>a[i];nth_eleme
面试经典 150 题 2 —（二分查找）— 74. 搜索二维矩阵 BreezeChasingDrizzle leetcode 矩阵算法 leetcode c++二分查找
74.搜索二维矩阵方法classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intmatrixRows=matrix.size(),matrixCols=matrix[0].size();//先找target所在的行inttargetAtRow=-1;for(inti=0;i>&matrix,inttarget){intma
【无线通信】误差矢量幅度（EVM）守月满空山雪照窗无线通信无线通信
误差矢量幅度(ErrorVectorMagnitude,EVM)是一种用来评估数字通信系统中调制质量的重要指标。EVM衡量的是理想信号与实际接收信号之间的差异，通常用来评估调制质量、信号完整性和接收机性能。EVM的定义在一个数字通信系统中，理想情况下接收到的信号应该精确地落在特定的理想星座点上（比如QAM或PSK星座图）。然而，由于各种现实因素，如噪声、失真、非线性效应和相位误差，接收到的信号可能
java 基础 i0208 java 开发语言
基础数据类型，方法，类，异常处理：Java零基础入门学习（小白也能看懂！）_java零基础自学-CSDN博客List在Java中，List接口是集合框架中非常重要的一个接口，它提供了存储和操作有序集合的方法。List是一个接口，因此不能直接实例化，但可以通过其实现类（如ArrayList,LinkedList,Vector等）来使用。List接口的主要实现类ArrayList:动态数组实现，适用于
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
C++vector类 Ssorrymaker C++c++
系列文章目录C++入门C++类和对象（上）C++类和对象（中）C++类和对象（下）C/C++内存管理C++string类文章目录系列文章目录一、vector是什么？二、常用接口说明1.常见的构造函数2.vectoriterator的使用3.关于vector的容量4.vector的增删改查5.迭代器失效一、vector是什么？vector是表示可变大小数组的序列容器，类似于数组，vector也采用连
【C++】手把手教你写出自己的vector类 Ornamrr C++c++vector
在上一篇博客中，我们学习了vector的基本使用，以及迭代器的失效问题：【C++】深入理解vector类(一)今天我们来模拟实现以下vector类。目录成员变量接口实现构造函数迭代器拷贝构造赋值reserveresizepush_backpop_back实现[]访问成员变量我们先从原码中找出其成员变量：可以看到，原码中有三个成员变量：startfinishend_of_storage数据类型是it
CVE-2020-24186 WordPress评论插件wpDiscuz任意文件上传漏洞 sukusec
0x00漏洞介绍Wordfence的威胁情报团队在一款名叫wpDiscuz的Wordpress评论插件（wpDiscuz是WordPress功能丰富的评论系统插件，可充实网站评论部分）中发现了一个高危漏洞，此漏洞将允许未经认证的攻击者在目标站点中上传任意文件，从而实现远程代码执行。0x01漏洞环境WordPress的gVectorswpDiscuz插件7.0至7.0.4版本中存在远程代码执行漏洞，
7-7 六度空间 polebugzhuzhu 算法数据结构
输入样例:1091223344556677889910输出样例:1:70.00%2:80.00%3:90.00%4:100.00%5:100.00%6:100.00%7:100.00%8:90.00%9:80.00%10:70.00%分析：对每个点bfs前六层，为了使得d数组除了能表示距离，还能表示是否visted，所以d从1开始。用vectore[N];邻接表，对一个点的bfs=O(m),总时间
图论篇--代码随想录算法训练营第五十八天打卡|拓扑排序，dijkstra（朴素版）热爱编程的OP leetcode 算法图论数据结构 c++
拓扑排序题目链接：117.软件构建题目描述：某个大型软件项目的构建系统拥有N个文件，文件编号从0到N-1，在这些文件中，某些文件依赖于其他文件的内容，这意味着如果文件A依赖于文件B，则必须在处理文件A之前处理文件B（0#include#include#includeusingnamespacestd;intmain(){intm,n,s,t;cin>>n>>m;vectorinDegree(n,0
C++ 中 vector 的常用功能介绍 a.原味瓜子 C++c++算法开发语言
在C++中，vector是一种常用的动态数组容器，提供了方便的自动扩展、内存管理以及各种便捷的操作方法。它是C++标准模板库（STL）的一部分，适用于需要动态存储和管理大量元素的场景。在本文中，我们将简要介绍vector的常用功能，展示如何对其进行操作和排序。为了简洁起见，假设我们已经使用了usingnamespacestd;。1.创建与初始化要创建一个vector，可以直接通过以下几种方式初始化
c++——vector so_what_is c++c++
1、一维数组2、二维数组定义：vector>vec(N1,vector(N2,value));N1：数组行；N2：数组列；value：数组值（默认为0）；
Java集合-----List接口及其实现类：ArrayList、LinkedList、Vector Colourful． Java集合 java 集合
文章目录List接口概述List接口的常用方法List接口的实现类ArrayList源码分析类继承关系ArrayList中的属性：ArrayList构造函数：ArrayList中常用方法添加操作：add()删除操作：remove()获取元素：get()ArrayList是如何实现序列化的？ArrayList的总结LinkedList源码分析类继承关系类成员属性类构造器LinkedList的List
15. 3Sum jecyhw
题目链接https://leetcode.com/problems/3sum/解题思路题目要使得a+b+c=0，且不重复，那就可以按照a>threeSum(vector&nums){vector>ans;intlen=nums.size()-1;if(len0){break;}if(i>0&&nums[i]==nums[i-1]){//a和前一个数相等，也不再找continue;}//最右边的两个
如何通过Python SDK描述Collection DashVector python java 服务器数据库数据库架构人工智能
本文介绍如何通过PythonSDK获取已创建的Collection的状态和Schema信息。前提条件已创建Cluster：创建Cluster。已获得API-KEY：API-KEY管理。已安装最新版SDK：安装DashVectorSDK。接口定义Python示例：Client.describe(name:str)->DashVectorResponse使用示例说明需要使用您的api-key替换示例中
分区Partition DashVector embedding 数据库 python 人工智能数据挖掘
理解Partition向量检索服务DashVector的Collection具有分区（Partition）的能力，同一个Collection下的Doc可通过不同的Partition进行物理和逻辑上的分区。各种Doc操作（如插入Doc、检索Doc等）若指定Partition，则该操作将限定在该指定的Paritition内进行。通过合理的Partition设置，可有效提升Doc操作的效率。同一个Col
如何通过Python SDK新建一个DashVector Client DashVector python java 数据库 embedding 大数据人工智能
本文介绍如何通过PythonSDK新建一个DashVectorClient。说明通过DashVectorClient可连接DashVector服务端，进行Collection相关操作。前提条件已创建Cluster：创建Cluster。已获得API-KEY：API-KEY管理。已安装最新版SDK：安装DashVectorSDK。接口定义Python示例：dashvector.Client(api_k
从Milvus迁移DashVector DashVector milvus 数据库阿里云人工智能数据结构向量检索
本文档演示如何从Milvus将Collection数据全量导出，并适配迁移至DashVector。方案的主要流程包括：首先，升级Milvus版本，目前Milvus只有在最新版本(v.2.3.x)中支持全量导出其次，将MilvusCollection的Schema信息和数据信息导出到具体的文件中最后，以导出的文件作为输入来构建DashVectorCollection并数据导入下面，将详细阐述迁移方案
【408DS算法题】041进阶-并查集基本操作 Owlet_woodBird 算法数据结构
Index题目分析实现总结题目编写函数，实现并查集的基本操作（查找、合并）。分析实现并查集中包含数据结构parent数组，存储每个结点的父结点。对于查找操作，可以通过递归找到当前结点的根结点，然后进行路径压缩——令当前结点的父结点为根节点，最后返回根节点。对于合并操作，只需要将两节点的根结点进行合并即可。具体实现如下：classUnionFind{private:vectorparent;publ
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置