hopeatme

Spark MLlib 1.6 -- 特征抽取和变换

· TF-IDF

· Word2Vec

· Model

· Example

· StandardScaler

· Model Fitting

· Example

· Normalizer

· Example

· ChiSqSelector

· Model Fitting

· Example

· ElementwiseProduct

· Example

· PCA

· Example

7.1 TF-IDF

TF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，即有些词出现频率高反而没多少信息量，如,”a” , “the” , “of” 。如果一个词在语料库中出现频率高，说明它在特定文档集中信息量很低。逆文档频次（inverse document frequency）是词所能提供的信息量的一种度量：

IDF(t,D) = log frac { | D | + 1 } { DF(t,D) + 1 }

此处| D | 是语料库中总的文档数，注意到，公式中使用log函数，当词出现在所有文档中时，它的IDF值变为0. 给IDF加一个防止在此情况下分母为0. TF-IDF 度量值表示如下：

TFIDF(t,d,D) = TF(t,d) \Dot IDF(t,D)

对于TF 和 IDF 定义有多种，spark.mllib 中，分开定义TF 和IDF 。

Spark.mllib 中实现词频率统计使用特征hash的方式，原始的特征通过hash函数，映射到一个索引值。后面只需要统计这些索引值的频率，就可以知道对应词的频率。这种方式避免设计一个全局1对1的词到索引的映射，这个映射在映射大量语料库时需要花费更长的时间。但需要注意，通过hash的方式可能会映射到同一个值的情况，即不同的原始特征通过Hash映射后是同一个值。为了降低这种情况出现的概率，我们只能对特征向量升维。i.e., hash表的桶数，默认特征维度是 2^20 = 1,048,576.

注意：spark.mllib 不支持文本分段，详见 Stanford nlp group http://nlp.stanford.edu/和 scalanlp/chalk : https://github.com/scalanlp/chalk

TF实际是统计词hash之后索引值的频次，可使用HashingTF 方法并传入RDD[Iterable[_]] ， IDF 需要使用IDF方法。需要注意，每条记录是可iterable的字符串或其它类型。

HashingTF Scaladocs : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.HashingTF

importorg.apache.spark.rdd.RDD

importorg.apache.spark.SparkContext

importorg.apache.spark.mllib.feature.HashingTF

importorg.apache.spark.mllib.linalg.Vector

val sc:SparkContext=...

// Loaddocuments (one per line).

val documents:RDD[Seq[String]]= sc.textFile("...").map(_.split("").toSeq)

val hashingTF=newHashingTF()

val tf:RDD[Vector]= hashingTF.transform(documents)

HashingTF 方法只需要一次数据交互，而IDF需要两次数据交互：第一次计算IDF向量，第二次需要和词频次相乘

importorg.apache.spark.mllib.feature.IDF

// ...continue from the previous example

tf.cache()

val idf =newIDF().fit(tf)

val tfidf:RDD[Vector]= idf.transform(tf)

spark.mllib 支持乎略词频低于文档最小数，需要把minDocFreq这个数传给IDF构架函数。在此情况下，对应的IDF值设置为0，

importorg.apache.spark.mllib.feature.IDF

// ...continue from the previous example

tf.cache()

val idf =newIDF(minDocFreq=2).fit(tf)

val tfidf:RDD[Vector]= idf.transform(tf)

7.2 Word2Vect (词到向量)

Word2Vec 计算词表征向量的分布，这样可以利用相似相近的词表征分布在邻近的向量空间，好处就是易于产生新型模型，且模型预测的误差也容易解释。向量分布在自然语言处理中是很有用的，特定像命名实体识别，歧义消除，句法分析，词性标记和机器翻译。

7.2.1 模型

Word2vec 的实现中，我们使用skip-gram模型。Skip-gram的训练目标是学习词表征向量分布，这个分布可以用来预测句子所在的语镜。数学上，给定一组训练词w_1, … w_T ,skip-gram模型的目标是最大化平均log-似然。

\Frac{1}{T} \Sigma|_{t= 1} ^{T} \Sigma|_{j = -k} ^{j = k} log {p(w_{t+j} | w_{t})}

此处 k 是训练样本窗口。

在skip-gram模型中，每个单词w 关联两个向量u_w 和v_w ，其中u_w是单词w的向量表示，v_w是单词对应的语境。对于给定的单词w_j ，计算预测结果的正确概率由以下softmax 模型。

P(w_i|w_j) = \Frac{exp(u |_{w_i} |^Tv_{w_j})} {\Sigma|_{ l =1} |^V exp( u |_l |^T v_{w_j})}

此处V 是词组总数

使用softmax计算skip-gram模型的很耗时，因为log{ p(w_i | w_j ) } 正比于V 的大小,并且很容易就达到上百万计算。为了加速Word2Vec，我们使用分层softmax , 此方法可以降低计算复杂度，从原来的log p(w_i | w_j)到 O(log(V)).

7.2.2 例子

下例子列举如何加载文本文件，将文本内容存放到RDD[Seq[String]]，从RDD构造一个Word2Vec实例，将输入数据送入此实例训练得到Word2VecModel模型。最终，我们展示特定词的前40个同义词。为了运行这个例子，首先下载text8(http://mattmahoney.net/dc/text8.zip) 数据，解压到特定的目录下。此处我们假设解压出来的文件还叫text8 ，并且在当前目录。

Word2Vec ScalaDocs API : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.Word2Vec

importorg.apache.spark._

importorg.apache.spark.rdd._

importorg.apache.spark.SparkContext._

importorg.apache.spark.mllib.feature.{Word2Vec,Word2VecModel}

val input = sc.textFile("text8").map(line => line.split("").toSeq)

val word2vec =newWord2Vec()

val model = word2vec.fit(input)

val synonyms = model.findSynonyms("china",40)

for((synonym,cosineSimilarity)<- synonyms){

println(s"$synonym$cosineSimilarity")

}

// Saveand load model

model.save(sc,"myModelPath")

val sameModel=Word2VecModel.load(sc,"myModelPath")

7.3 standardscaler标准化

标准化是通过变化将原始数据放缩到单位方差，通过平移数据得到均值为0（如果原数据均值不为0，需要对采样数据求出样本均值，将原始数据减云样本均值，即得到均值为0的新数据）。

例如，支持向量机的RBF 核，或L1和L2空间的正则线性模型，这两个例子很能说明问题，经过标准化所有特征的计算能得到更好的结果。

标准化后的数据，在最优化过程中会更快的收敛，同时也会在模型训练时防止方差大的数据对整体数据的影响。

7.3.1 模型拟合

标准化需要配置以下参数：

1 withMean 默认是假(false)。在标准化之前将原始数据以均值为中心，这样会使标准化后的数据分布相对紧密些，这种方法不适合于稀松的数据集，否则会触发异常。

2 withStd 默认是真(true) , 意味将数据标准化到单位方差。

在StandardScaler 中提供一个拟合方法将RDD[Vector]作为输入，学习输入的统计信息，将输入集合变换成单位标准差，变换结果可能（也可能不是）均值为0 ，通过配置StandardScaler 来实现。

模型支持VectorTransformer ，可以将标准向量变换成新的向量，或者将RDD[Vector] 变换到新的RDD[Vector]。

如果特征向量某个维度的方差为0，则特征向量这个维度的变换结果仍然是0.0

7.3.2 例子

下例展示如何加载libsvm格式数据，将数据标准化后得到新的向量，此新向量的标准差是1，均值可能（也可能不是） 0 。

StandardScalerScala docs API : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.StandardScaler

importorg.apache.spark.SparkContext._

importorg.apache.spark.mllib.feature.StandardScaler

importorg.apache.spark.mllib.linalg.Vectors

importorg.apache.spark.mllib.util.MLUtils

val data =MLUtils.loadLibSVMFile(sc,"data/mllib/sample_libsvm_data.txt")

val scaler1 =newStandardScaler().fit(data.map(x => x.features))

val scaler2 =newStandardScaler(withMean =true, withStd =true).fit(data.map(x => x.features))

// scaler3is an identical model to scaler2, and will produce identical transformations

val scaler3 =newStandardScalerModel(scaler2.std, scaler2.mean)

// data1will be unit variance.

val data1 = data.map(x =>(x.label, scaler1.transform(x.features)))

// Withoutconverting the features into dense vectors, transformation with zero mean willraise

//exception on sparse vector.

// data2will be unit variance and zero mean.

val data2 = data.map(x =>(x.label, scaler2.transform(Vectors.dense(x.features.toArray))))

7.4 正规化

将个别样本正规化为单位L^p 范数，在文本分类和聚类中经常使用。例如， L^2 空间正规化 TF-IDF向量的点积，可以看作两个向量的cos-相似度.s

正规化可配置参数：

1) p 对L^p 空间向量正规化，默认p = 2

模型支持VectorTransformer ，可以将标准向量变换成新的向量，或者将RDD[Vector] 变换到新的RDD[Vector]。

如果输入向量范数为0，则直接返回输入向量

7.4.1 例子

下例展示如何加载libsvm格式数据，将数据正规化为L^2 范数， L^\{Infinit} 范数

Normalizer ScalaDocs API : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.Normalizer

importorg.apache.spark.SparkContext._

importorg.apache.spark.mllib.feature.Normalizer

importorg.apache.spark.mllib.linalg.Vectors

importorg.apache.spark.mllib.util.MLUtils

val data =MLUtils.loadLibSVMFile(sc,"data/mllib/sample_libsvm_data.txt")

val normalizer1=newNormalizer()

val normalizer2=newNormalizer(p =Double.PositiveInfinity)

// Eachsample in data1 will be normalized using $L^2$ norm.

val data1 = data.map(x =>(x.label, normalizer1.transform(x.features)))

// Eachsample in data2 will be normalized using $L^\infty$ norm.

val data2 = data.map(x =>(x.label, normalizer2.transform(x.features)))

7.5ChiSqSelector(ChiSq选择器)

在模型构造阶段，特征选择从特征向量中剔除相关的维度，即对特征空间进行降维，这样可以加速迭代过程，并提升学习效率。

ChiSqSelector 实现基于chi-squared 的特征选择器，它处理归类特征的类标签，ChiSqSelector 基于Chi-Squared 检验对特征进行排序，而不直接考虑特征向量的类别，选取排序靠前的特征向量，因为这些特征向量能很好的决定类别标签。这就好比选取对分类有决定意义的特征向量。

在实际中，选取检验集可以优化特征的数量。(?)

7.5.1 模型拟合

ChiSqSelector 算法配置 numTopFeatures 参数来确定选取排名前多少个特征向量。

拟合方法的输入是归类特征的RDD[LabeledPoint]，通过学习统计信息，返回ChiSqSelectorModel模型，这个模型可以用于对特征空间进行降维。这个模型可以处理输入Vector,得到降维后的Vector , 或者对RDD[Vector] 进行降维。

当然，也可以构造一个特征索引（索引按升序排列）, 对这个索引的数组训练ChiSqSelectorModel模型。

7.5.2例子

下例展现ChiSqSelector的基础应用，输入矩阵的每个元素的范围 0 ~ 255 。

ChiSqSelectorScala Docs : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.ChiSqSelector

importorg.apache.spark.SparkContext._

importorg.apache.spark.mllib.linalg.Vectors

importorg.apache.spark.mllib.regression.LabeledPoint

importorg.apache.spark.mllib.util.MLUtils

importorg.apache.spark.mllib.feature.ChiSqSelector

// Load some data in libsvm format

valdata=MLUtils.loadLibSVMFile(sc,"data/mllib/sample_libsvm_data.txt")

// Discretize data in 16 equal bins since ChiSqSelector requires categorical features

// Even though features are doubles, the ChiSqSelector treats each unique value as a category

valdiscretizedData=data.map{lp=>

  LabeledPoint(lp.label,Vectors.dense(lp.features.toArray.map{x=>(x/16).floor}))

// Create ChiSqSelector that will select top 50 of 692 features

valselector=newChiSqSelector(50)

// Create ChiSqSelector model (selecting features)

valtransformer=selector.fit(discretizedData)

// Filter the top 50 features from each feature vector

valfilteredData=discretizedData.map{lp=>

  LabeledPoint(lp.label,transformer.transform(lp.features))

7.6 Hadamard乘积(ElementwiseProduct)

ElementwiseProduct对输入向量的每个元素乘以一个权重向量的每个元素，对输入向量每个元素逐个进行放缩。这个称为对输入向量v 和变换向量scalingVec 使用Hadamard product(阿达玛积)进行变换，最终产生一个新的向量。用向量 w 表示 scalingVec ，则Hadamard product可以表示为

Vect(v_1, … , v_N)\o Vect(w_1, … , w_N) = Vect(v_1 w_1, … , v_N w_N)

Hamard 乘积需要配置一个权向量 scalingVec

1) scalingVec 变换向量

ElementwiseProduct实现 VectorTransformer 方法，就可以对向量乘以权向量，得到新的向量，或者对RDD[Vector] 乘以权向量得到RDD[Vector]

7.6.1 例子

下例展示如何对向量进行ElementwiseProduct变换

ElementwiseProductScala Docs API : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.ElementwiseProduct

importorg.apache.spark.SparkContext._

importorg.apache.spark.mllib.feature.ElementwiseProduct

importorg.apache.spark.mllib.linalg.Vectors

// Create some vector data; also works for sparse vectors

valdata=sc.parallelize(Array(Vectors.dense(1.0,2.0,3.0),Vectors.dense(4.0,5.0,6.0)))

valtransformingVector=Vectors.dense(0.0,1.0,2.0)

valtransformer=newElementwiseProduct(transformingVector)

// Batch transform and per-row transform give the same results:

valtransformedData=transformer.transform(data)

valtransformedData2=data.map(x=>transformer.transform(x))

7.7 PCA

PCA可以将特征向量投影到低维空间，实现对特征向量的降维。

7.7.1 例子

下例展示如何计算特征向量空间的主成分，使用主成分对向量投影到低维空间，同时保留向量的类标签。

PCA Scala DocsAPI : http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.feature.PCA

importorg.apache.spark.mllib.regression.LinearRegressionWithSGD

importorg.apache.spark.mllib.regression.LabeledPoint

importorg.apache.spark.mllib.linalg.Vectors

importorg.apache.spark.mllib.feature.PCA

valdata=sc.textFile("data/mllib/ridge-data/lpsa.data").map{line=>

  valparts=line.split(',')

  LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(' ').map(_.toDouble)))

}.cache()

valsplits=data.randomSplit(Array(0.6,0.4),seed=11L)

valtraining=splits(0).cache()

valtest=splits(1)

valpca=newPCA(training.first().features.size/2).fit(data.map(_.features))

valtraining_pca=training.map(p=>p.copy(features=pca.transform(p.features)))

valtest_pca=test.map(p=>p.copy(features=pca.transform(p.features)))

valnumIterations=100

valmodel=LinearRegressionWithSGD.train(training,numIterations)

valmodel_pca=LinearRegressionWithSGD.train(training_pca,numIterations)

valvaluesAndPreds=test.map{point=>

  valscore=model.predict(point.features)

  (score,point.label)

valvaluesAndPreds_pca=test_pca.map{point=>

  valscore=model_pca.predict(point.features)

  (score,point.label)

valMSE=valuesAndPreds.map{case(v,p)=>math.pow((v-p),2)}.mean()

valMSE_pca=valuesAndPreds_pca.map{case(v,p)=>math.pow((v-p),2)}.mean()

println("Mean Squared Error = "+MSE)

println("PCA Mean Squared Error = "+MSE_pca)

你可能感兴趣的:(Spark MLlib 1.6 -- 特征抽取和变换)

Java课程设计“单项选择题标准化考试系统设计” GG爆不会写代码 java sql mysql intellij-idea
大二时做的java课设，代码能力不是很行，给需要做课设的同学一个参考题目如下“单项选择题标准化考试系统设计”1、问题描述设计一个单项选择题标准化考试系统，该系统要求能自动组卷和评分。2、功能要求（1）用数据库保存试题。（每个试题包括题干、4个备选答案、标准答案）。（2）试题录入：可随时增加试题到试题库中。（3）试题抽取：每次从试题库中可以随机抽出N道题（N由键盘输入）。（4）答题：用户可实现输入自
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【后端】【django】Django 自带的用户系统与 RBAC 机制患得患失949 django知识数据库 sqlite django
Django自带的用户系统与RBAC机制Django自带的用户系统（django.contrib.auth）提供了身份验证（Authentication）和权限管理（Authorization），能够快速实现用户管理、权限控制、管理员后台等功能，同时具备RBAC（基于角色的访问控制，Role-BasedAccessControl）的基本实现。本文将详细介绍Django用户系统的功能、管理员账号创建
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
从0到1，带你快速上手Scala语言 qq_23519469 scala 开发语言后端
什么是ScalaScala，读作“skah-lah”，是“ScalableLanguage”的缩写，是一门多范式编程语言。它就像是编程世界里的“变形金刚”，融合了面向对象编程（OOP）和函数式编程（FP）的特性，这意味着开发者能在同一语言中，把面向对象的设计和函数式编程的抽象结合起来使用，超级灵活！它运行在Java虚拟机（JVM）上，能与现有的Java代码无缝集成。这就好比Scala是Java的“
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Java数组（基础） NaclarbCSDN 算法排序算法 java
数组声明和创建 packagecom.arbedu.array; publicclassArrayDemo01{ //变量类型变量名字=变量的值 //数组类型数组是相同数据类型的有序集合 publicstaticvoidmain(String[]args){ int[]arr; //1.声明一个数组 arr=newint[10]; //2.创建一个数组这里面可以存放
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
深入理解 Java 反射与 PropertyDescriptor 的应用 HoroMin web基础 easybbs项目疑难记录 java 开发语言反射
在Java编程中，反射是一项强大的功能，它允许我们在运行时动态地访问和操作类的信息，包括字段、方法和构造函数等。在处理JavaBean时，反射的灵活性尤为重要。而PropertyDescriptor类正是用于简化JavaBean属性的动态访问和操作。本文将探讨反射的基本概念，并通过具体示例展现如何使用PropertyDescriptor。什么是反射？反射是Java的一个特性，允许程序在运行时检查类
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
MySQL 8主从复制配置最佳实践随风九天匠心数据库部署运维 mysql 主从复制
1.引言1.1主从复制的意义与应用场景主从复制是MySQL中用于提高数据冗余性和可用性的技术。通过将主库的数据复制到一个或多个从库，可以在主库故障时快速切换到从库，保证服务的连续性。此外，主从复制还可以用于负载均衡，将读操作分发到从库，减轻主库的压力。1.2MySQL8主从复制的新特性概述MySQL8引入了多项改进，包括：GTID（全局事务标识符）：简化复制配置和管理。半同步复制：提高数据一致性。
Redis客户端jedis与lettuce的区别风雨无阻1203 Redis Java 研发文档 redis 缓存 Lettuce Jedis
什么是Lettuce与JedisLettuce是一个高级Redis客户端，用于线程安全的同步、异步和反应式访问。它支持高级的Redis特性，如Sentinel、集群、流水线、自动重新连接和redis数据模型等。Lettuce是完全非阻塞的，基于Netty事件驱动的通信层，其方法将返回具有可观察的类型，可在流或异步编程环境中使用。Jedis是基于Java语言的Redis的客户端，Jedis=Java
Redis两种客户端：lettuce和Jedis的区别 Darren i redis spring
springboot2的spring-boot-starter-data-redis中，默认使用的是lettuce作为redis客户端，它与jedis的主要区别如下：Jedis是同步的，不支持异步，Jedis客户端实例不是线程安全的，需要每个线程一个Jedis实例，所以一般通过连接池来使用JedisJedis常用APILettuce是基于Netty框架的事件驱动的Redis客户端，其方法调用是异步
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
io.lettuce.core.RedisCommandExecutionException: NOAUTH Authentication required可能不是密码问题专注_每天进步一点点 08Redis java redis
背景我用的版本是：io.lettucelettuce-core6.1.10.RELEASE问题描述本地（windows环境）和测试环境redis连接都没有问题，生产环境报错：io.lettuce.core.RedisCommandExecutionException:NOAUTHAuthenticationrequired解决办法（1）第一反应肯定是密码错误，然而检查了密码并没有问题（2）客户端版
005 Redis 都有哪些数据类型？分别在哪些场景下使用比较合适？专注_每天进步一点点 08Redis Redis String list hash set
读读Redis的官网，学第一手的资料：Redid官方文档地址Redis中国-文档网址：Redis中国-文档地址或者看看书《Redis深度历险：核心原理和应用实践》1、Redis官网中介绍各种数据类型官方地址：RedisdatatypesRedisisnotaplainkey-valuestore,itisactuallyadatastructuresserver,supportingdiffere
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
Docker入门篇-安装Docker CE 极客编程玩家
安装DockerCE有两种方法可以在Centos上安装DockerCE：YUM存储库：设置Docker存储库并从中安装DockerCE。这是推荐的方法，因为使用YUM管理安装和升级更容易。(后面我们使用这种方式)RPM包：下载RPM包，手动安装，手动管理升级。在无法访问互联网的系统上安装DockerCE时，这非常有用。先决条件要安装DockerCE，您需要CentOS7的维护版本。不支持或测试存档
ros smach 教程——（二）白云千载尽自动驾驶 ros python smach 状态机
ROSSMACH中级教程一、SMACH容器1.1状态机容器1.1.1创建状态机容器首先引入状态机容器fromsmachimportStateMachine由于SMACH状态机还提供状态接口，因此必须在构造时指定其结果和用户数据交互。sm=StateMachine(outcomes=['outcome1','outcome2'],input_keys=['input1','input2'],outp
GitHub 超火的开源终端工具——Warp 魔王阿卡纳兹 IT杂谈开源项目观察 warp 终端 iterm2
Warp作为近年来GitHub上备受瞩目的开源终端工具，以其智能化、高性能和协作能力重新定义了命令行操作体验。以下从多个维度深入解析其核心特性、技术架构、用户评价及生态影响力：一、背景与核心团队Warp由前GitHubCTOJasonWarner和Google前首席技术官ZachLloyd领衔开发，团队成员包括来自Figma、GoogleDocs等知名项目的技术专家。其目标是解决传统终端工具（如i
使用Tiktoken进行文本分割：优化大语言模型的输入 bhawfgrcbtwny 语言模型 python 人工智能
引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。主要内容1.Tiktoken介绍Tiktoken是由OpenAI创建的一个快速BPE（BytePairEncoding）to
redis中jedis和lettuce pool的区别，那个更好，使用范围更广青春不流名 redis bootstrap 前端
在Redis的Java客户端中，Jedis和Lettuce是两种最常用的客户端库，它们都支持连接池（JedisPool和LettuceConnectionPool），但在设计和特性上有显著差异。下面我将详细对比它们的特点，帮助你更好地选择适合的库。1.同步vs异步Jedis：是一个同步的Redis客户端库。每次操作都会阻塞当前线程，直到Redis响应完成。这使得它易于理解和使用，但如果Redis响
用正则表达式验证用户名和跨域postmessage 无敌暴龙兽z 正则表达式前端 javascript
正则表达式验证用户名Document跨域postmessage2023www.std.comwindow.addEventListener('message',(event)=>{if(event.origin==='http://www.std.com'){constcookieData=event.data;//处理cookieDataconsole.log('Receivemessagefr
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
k8s1.3、containerd2.0部署实战不明觉厉二十年 kubernetes 容器云原生
k8s1.3、containerd2.0部署实战参考博客containerd二进制安装与使用测试下载nerdctl-fullk8s安装参考博客containerd二进制安装与使用测试containerd可以和docker共存，直接二进制安装，nerdctl-full包含containerd和nerdctl命令行工具可以代替docker单机使用下载nerdctl-full建议下载-full版本下载后
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
98-二叉树-验证二叉搜索树 Hello_Git javascript
树|深度优先搜索|二叉搜索树|二叉树一、二叉搜索树（BST）的性质首先，了解二叉搜索树（BinarySearchTree,BST）的定义和性质是解决这类问题的基础。BST的定义左子树：节点的左子树只包含小于当前节点的数。右子树：节点的右子树只包含大于当前节点的数。递归性质：左子树和右子树本身也必须是二叉搜索树。简单来说，BST具有以下特点：中序遍历BST可以得到一个递增的有序序列。每个节点的值都大
蓝桥杯练习-3.17 梨绘小棠蓝桥杯贪心算法 c++
蓝桥杯练习-3.17代码练习•旅行家的预算-贪心问题描述一个旅行家想驾驶汽车以最少的费用从一个城市到另一个城市（假设出发时油箱是空的）。给定两个城市之间的距离D1、汽车油箱的容量C（以升为单位）、每升汽油能行驶的距离D2、出发点每升汽油价格P和沿途油站数N（N可以为零），油站i离出发点的距离Di、每升汽油价格Pi（i=1，2，……N）。计算结果四舍五入至小数点后两位。如果无法到达目的地，则输出“N
杭州宇树科技有限公司（Hangzhou Yushu Science And Technology Co., Ltd.） [19]，简称宇树，是一家从事软件和信息技术服务业民用机器人公司 [19-20] 分享是一种传递，一种快乐杂学百货铺-啥都学人工智能
UnitreeRoboticsisaworld-renownedcivilianroboticscompany,whichisfocusingontheR&D,production,andsalesofconsumerandindustry-classhigh-performancegeneral-purposeleggedandhumanoidrobots,six-axismanipulator
使用Deepseek书写一篇综述论文，如何提示？学术乙方小知识经验分享
使用DeepSeek撰写综述论文时，可以通过以下提示和步骤来高效完成任务：明确研究主题与范围在开始撰写之前，首先需要明确研究主题、文献综述的时间跨度、地理范畴和文献类型。这有助于聚焦研究方向，避免偏离主题。制定详细的提示词提示词的设计是高效利用DeepSeek的关键。可以参考以下模板：研究背景与现状：请帮我梳理XXX领域的研究背景与现状，包括国内外的主要研究成果和研究热点。文献筛选与阅读：请帮我筛
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {