小新识图

LibLinear（SVM包）使用说明之（一）README

LibLinear（SVM包）使用说明之（一）README

[email protected]

http://blog.csdn.net/zouxy09

本文主要是翻译liblinear-1.93版本的README文件。里面介绍了liblinear的详细使用方法。更多信息请参考：

http://www.csie.ntu.edu.tw/~cjlin/liblinear/

在这里我用到的是LibLinear的Matlab接口，这个在下一博文中介绍。

LIBLINEAR是一个简单的求解大规模规则化线性分类和回归的软件包。它最讨人喜欢的特点就是速度快！！！它目前支持：

- L2-regularized logisticregression/L2-loss support vector classification/L1-loss support vectorclassification

- L1-regularized L2-loss support vectorclassification/L1-regularized logistic regression

- L2-regularized L2-loss support vectorregression/L1-loss support vector regression.

一、何时用LIBLINEAR，而不是LIBSVM

对一些大数据来说，有没有非线性映射，他们的性能差不多。如果不使用核，我们可以用线性分类或者回归来训练一个更大的数据集。这些数据往往具有非常高维的特征。例如文本分类Document classification。

注意：一般来说，liblinear是很快的，但它的默认配置在某些情况下可能会比较慢，例如数据没有经过scale或者C很大的时候。可以参考SVM的说明中的附录B来处理这些情况：

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

注意：如果你是个新手，而且你的数据集不是很大，那么建议你先考虑LIBSVM。

LIBSVM page:

http://www.csie.ntu.edu.tw/~cjlin/libsvm

更多也可以参考：

liblinear与libsvm选择

Libsvm和Liblinear的使用经验谈

LIBLINEAR: Alibrary for large linear classification

二、快速入门

按“安装”这一章节的说明来安装LIBLINEAR。安装完成后，就会得到两个程序，train和predict，分别是用来训练分类器和测试分类器的两个程序。

对于数据格式。请查看LIBSVM的README文件。需要注意的是，特征的索引是从1开始的，而不是0 。

这个包还包含了一个例子，分类的数据是`heart_scale'。

运行`trainheart_scale'，train程序就会读取对应的训练数据，然后输出训练好的分类器模型`heart_scale.model'。如果你有一个测试集，命名为heart_scale.t，那么你可以运行`predict heart_scale.t heart_scale.model output'来测试该分类器的识别准确率。这个output文件包含了分类器对测试集中每个样本预测得到的对应的类标签。

为了获得好的性能，有时候需要先对数据进行scale。可以查看LIBSVM的`svm-scale'程序来获得相关的信息。对于非常大和稀疏的数据，使用参数`-l 0'来保持训练中数据的稀疏性。

建议的训练步骤（来源于libSVM，感觉对这个也有帮助，所以也标记在这）：

1）将我们的训练数据和测试数据转换为该SVM软件包支持的格式；

2）对数据进行简单的尺度化scale；

3）先考虑用RBF核；

4）使用交叉检验方法去寻找最优的参数C和γ；

5）使用找到的最好的参数C和γ来训练整个训练集；

6）在测试集上测试。

三、安装

在Unix系统，使用make来编译`train' 和 `predict'程序。编译完后，直接无参数运行这两个程序，就会打印出相应的用法。

对于其他系统，我们通过Makefile来编译。例如在windows下，我们可以参考本文中的'BuildingWindows binaries'章节。或者可以直接使用我们预编译好的可执行文件。Windows的可执行文件在windows目录下。

本软件需要一些level-1 BLAS 子程序才能运行（BLAS（Basic LinearAlgebra Subprograms，基础线性代数程序集）是一个应用程序接口（API）标准，用以规范发布基础线性代数操作的数值库（如矢量或矩阵乘法）。该程序集最初发布于1979年，并用于建立更大的数值程序包（如LAPACK）。在高性能计算领域，BLAS被广泛使用。BLAS按照功能被分为三个级别，Level 1为矢量-矢量运算）。这些需要的函数已经包含在该软件包的blas目录里了。如果你的电脑已经存在了一个BLAS库，那么你可以通过修改Makefile文件来使用你电脑上的BLAS库。

注销以下行：

#LIBS ?= -lblas

然后添加以下行：

LIBS ?= blas/blas.a

四、程序train的用法

用法：train [options] training_set_file [model_file]

options:

-s type : 对于多分类，指定使用的分类器（默认是1）：

0 -- L2-regularized logistic regression(primal)

1 -- L2-regularized L2-loss support vectorclassification (dual)

2 -- L2-regularized L2-loss support vectorclassification (primal)

3 -- L2-regularized L1-loss support vectorclassification (dual)

4 -- support vector classification by Crammerand Singer

5 -- L1-regularized L2-loss support vectorclassification

6 -- L1-regularized logistic regression

7 -- L2-regularized logistic regression (dual)

对于回归：

11-- L2-regularized L2-loss support vector regression (primal)

12-- L2-regularized L2-loss support vector regression (dual)

13-- L2-regularized L1-loss support vector regression (dual)

-c cost : 设置参数 C（默认是1）

-p epsilon : 设置epsilon-SVR的损失函数的参数epsilon（默认是0.1）

-e epsilon : 设置迭代终止条件的容忍度tolerance

-s0 and 2

|f'(w)|_2<= eps*min(pos,neg)/l*|f'(w0)|_2,

f是primal 函数，pos/neg 是对应的正样本和负样本数目（默认是0.01）

-s11

|f'(w)|_2<= eps*|f'(w0)|_2 （默认是0.001）

-s1, 3, 4 and 7

Dualmaximal violation <= eps; 和 libsvm相似（默认是0.1）

-s5 and 6

|f'(w)|_inf<= eps*min(pos,neg)/l*|f'(w0)|_inf,

f是primal 函数，pos/neg 是对应的正样本和负样本数目（默认是0.01）

-s12 and 13\n"

|f'(alpha)|_1<= eps |f'(alpha0)|,

f是dual（对偶）函数（默认是0.1）

-B bias : 如果bias >= 0，那样样本x变为[x; bias]，如果小于0，则不增加bias项（默认是-1）

-wi weight: 调整不同类别的参数C的权值（具体见README）

-v n: n-fold交叉检验模式。它随机的将数据划分为n个部分，然后计算它们的交叉检验准确率。

-q : 安静模式（无输出信息）

Formulations公式（优化问题）:

For L2-regularized logistic regression (-s0), we solve

min_w w^Tw/2 + C\sum log(1 + exp(-y_i w^Tx_i))

For L2-regularized L2-loss SVC dual (-s 1),we solve

min_alpha 0.5(alpha^T (Q + I/2/C) alpha) - e^T alpha

s.t. 0 <= alpha_i,

For L2-regularized L2-loss SVC (-s 2), wesolve

min_w w^Tw/2 + C\sum max(0, 1- y_i w^Tx_i)^2

For L2-regularized L1-loss SVC dual (-s 3),we solve

min_alpha 0.5(alpha^T Q alpha) - e^T alpha

s.t. 0 <= alpha_i <= C,

For L1-regularized L2-loss SVC (-s 5), wesolve

min_w \sum |w_j|+ C \sum max(0, 1- y_i w^Tx_i)^2

For L1-regularized logistic regression (-s6), we solve

min_w \sum |w_j|+ C \sum log(1 + exp(-y_i w^Tx_i))

For L2-regularized logistic regression (-s7), we solve

min_alpha 0.5(alpha^T Q alpha) + \sumalpha_i*log(alpha_i) + \sum (C-alpha_i)*log(C-alpha_i) - a constant

s.t. 0 <= alpha_i <= C,

where, Q is a matrix with Q_ij = y_i y_jx_i^T x_j.

For L2-regularized L2-loss SVR (-s 11), wesolve

min_w w^Tw/2 + C\sum max(0, |y_i-w^Tx_i|-epsilon)^2

For L2-regularized L2-loss SVR dual (-s12), we solve

min_beta 0.5(beta^T (Q + lambda I/2/C) beta) - y^Tbeta + \sum |beta_i|

For L2-regularized L1-loss SVR dual (-s13), we solve

min_beta 0.5(beta^T Q beta) - y^T beta + \sum |beta_i|

s.t. -C <= beta_i <= C,

where, Q is a matrix with Q_ij = x_i^T x_j.

如果bias >= 0，那么w变为[w;w_{n+1}] ，x 变为[x; bias]。

primal-dual的关系表明了-s 1 和 -s 2学习到的是同样的模型。-s0 和 -s 7，-s 11 和 -s 12也是。

我们实现了一对多的多分类方法。在训练i类和non_i类的时候，它们的参数C分别是(weight from -wi)*C和C。如果只有两类，我们只训练一个模型。这时候使用weight1*C和weight2*C。看下面的例子。

我们还实现了多类SVM byCrammer and Singer (-s 4):

min_{w_m, \xi_i} 0.5 \sum_m ||w_m||^2 + C \sum_i \xi_i

s.t. w^T_{y_i} x_i - w^T_m x_i>= \e^m_i - \xi_i \forall m,i

where, e^m_i = 0 if y_i = m,

e^m_i = 1 if y_i != m,

这里我们解dual 问题:

min_{\alpha} 0.5 \sum_m ||w_m(\alpha)||^2 + \sum_i \sum_me^m_i alpha^m_i

s.t. \alpha^m_i <= C^m_i\forall m,i , \sum_m \alpha^m_i=0 \forall i

where, w_m(\alpha) = \sum_i \alpha^m_i x_i,

and C^m_i = C if m = y_i,

C^m_i = 0 if m != y_i.

五、程序predict的用法

用法：predict [options] test_file model_file output_file

options:

-b probability_estimates: 是否输出概率估计。默认是0，不输出。只对logistic回归有用

-q : 安静模式（无输出信息）

需要注意的是-b只在预测阶段用到。这个和LIBSVM不同。

六、例子

> train data_file

默认参数的时候，训练的是L2损失函数的线性SVM

> train -s 0 data_file

-s 0指定训练一个logistic回归模型

> train -v 5 -e 0.001 data_file

-v 5指定5-fold的交叉检验模式。-e 0.001指定一个比默认值更小的迭代停止容忍度。

> train -c 10 -w1 2 -w2 5 -w3 2four_class_data_file

-c 10指定参数C是10，-w1 2指定第一类的权值w是2，这时候对应的C是w*C，其他同。例如我们要训练四类。-w1 2 -w2 5 -w3 2分别指定了类1的C=w*C=2*10=20，类2的C=w*C=5*10=50，类3同。类4没有指定，所以是C。其他对应的负类的C都是10 。（我们要训练四类的分类器，就需要四个二分类器，正负样本各需要一个参数C）

Train four classifiers:

positive negative Cp Cn

class 1 class 2,3,4. 20 10

class 2 class 1,3,4. 50 10

class 3 class 1,2,4. 20 10

class 4 class 1,2,3. 10 10

> train -c 10 -w3 1 -w2 5two_class_data_file

如果只有两类，我们只训练一个模型。这时候两类的C值分别是10 和 50。

> predict -b 1 test_file data_file.modeloutput_file

-b 1指定输出每类估计得到的概率值。只对logistic回归有效。

七、库的用法

1、函数train()

-Function: model* train(const struct problem *prob,

const struct parameter *param);

这个函数根据给定的训练数据和参数构造一个线性分类器或者回归模型并返回。

2、结构体struct problem

结构体structproblem 描述我们要求解的问题：

struct problem

{

int l, n;

int *y;

struct feature_node **x;

double bias;

};

l表示训练数据的个数。如果bias>= 0，那么我们会在每个样本的末尾添加一个额外的值，这时候，样本x变为[x; bias]。n表示特征（样本）的维数（包括bias）。y是保存了目标值（期望输出或者样本标签）的数组。x是一个指针数组，每个元素指向一个保存了一个样本的稀疏表示的数组（结构体feature_node的数组）。

例如，如果我们有以下的训练数据：

LABEL ATTR1 ATTR2 ATTR3 ATTR4 ATTR5

----- ----- ----- ----- ----- -----

1 0 0.1 0.2 0 0

2 0 0.1 0.3 -1.2 0

1 0.4 0 0 0 0

2 0 0.1 0 1.4 0.5

3 -0.1 -0.2 0.1 1.1 0.1

还有bias = 1，那这个问题描述的结构体struct problem就可以描述为：

l= 5共五个样本

n= 6 特征的维数5+1=6

y-> 1 2 1 2 3 每个样本对应的标签值

x-> [ ] -> (2,0.1) (3,0.2) (6,1) (-1,?)

[ ] -> (2,0.1) (3,0.3) (4,-1.2) (6,1) (-1,?)

[ ] -> (1,0.4) (6,1) (-1,?)

[ ] -> (2,0.1) (4,1.4) (5,0.5) (6,1) (-1,?)

[ ] -> (1,-0.1) (2,-0.2) (3,0.1) (4,1.1) (5,0.1) (6,1) (-1,?)

x保存的是每个样本的稀疏表示，也就是0值就不保存，只保存非零值和其对应的索引号。例如第一个样本，第一个特征值是0，不管，第二个特征值是0.1，所以保存格式为(索引号, 特征值)，也就是(2,0.1)。同理，第三个特征值是0.2，所以保存(3,0.2)，后面同理。然后通过一个-1的索引号来标记这个样本的结束。保存为(-1,?)。

3、结构体struct parameter

结构体structparameter 描述一个线性分类器或者回归模型的参数：

struct parameter

{

int solver_type;

/* these are for training only*/

double eps; /* stopping criteria */

double C;

int nr_weight;

int *weight_label;

double* weight;

double p;

};

下面介绍下各个成员变量，也就是各个参数，这些参数和在命令行中给train传入的参数是一致的：

solver_type是solver的类型，可以是以下的其中一种：

L2R_LR,L2R_L2LOSS_SVC_DUAL, L2R_L2LOSS_SVC, L2R_L1LOSS_SVC_DUAL, MCSVM_CS,L1R_L2LOSS_SVC, L1R_LR, L2R_LR_DUAL, L2R_L2LOSS_SVR, L2R_L2LOSS_SVR_DUAL,L2R_L1LOSS_SVR_DUAL.

对于分类器：

L2R_LR L2-regularized logistic regression (primal)

L2R_L2LOSS_SVC_DUAL L2-regularized L2-loss support vector classification (dual)

L2R_L2LOSS_SVC L2-regularized L2-loss support vector classification (primal)

L2R_L1LOSS_SVC_DUAL L2-regularized L1-loss support vector classification (dual)

MCSVM_CS supportvector classification by Crammer and Singer

L1R_L2LOSS_SVC L1-regularized L2-loss support vector classification

L1R_LR L1-regularized logistic regression

L2R_LR_DUAL L2-regularized logistic regression (dual)

对于回归模型：

L2R_L2LOSS_SVR L2-regularized L2-loss support vector regression (primal)

L2R_L2LOSS_SVR_DUAL L2-regularized L2-loss support vector regression (dual)

L2R_L1LOSS_SVR_DUAL L2-regularized L1-loss support vector regression (dual)

C是约束violation的代价参数

P是supportvector regression的损失灵敏度

eps是迭代停止条件

nr_weight, weight_label,和 weight 用来改变对一些类的惩罚。默认是1 。这对于使用unbalanced 的输入数据或者不对称的误分类代价来训练分类器时是很有效的。

nr_weight是数组weight_label 和 weight的元素个数。每个weight[i]对应weight_label[i]。表示类weight_label[i] 的惩罚会被weight[i]进行尺度化。也就是C= weight_label[i]*C。

如果你不需要对任何类改变惩罚，直接设置nr_weight为0即可。

注意：为了避免错误的参数设置，在调用train()之前最好先调用check_parameter()来检查参数的正确性。

4、结构体struct model

结构体struct model 保存训练得到的模型：

struct model

{

struct parameter param;

int nr_class; /* number of classes */

int nr_feature;

double *w;

int *label; /* label of each class */

double bias;

};

param描述获得这个模型对应的参数设置。

nr_class 和 nr_feature分别是类和特征的个数。对于回归来说，nr_class = 2

数组w 的大小是nr_feature*nr_class，是每个特征对应的权值。对于多分类，我们使用一对多的方法，所以每个特征都会对应nr_class 个类的特征权值。权值的保存通过以下方式来组织：

+------------------+------------------+------------+

| nr_class weights | nr_class weights | ...

| for 1st feature | for 2ndfeature |

+------------------+------------------+------------+

如果bias >= 0，x 变为 [x; bias]。特征的数目或者维数就会加1，所以数组w的大小就变为(nr_feature+1)*nr_class。Bias的值保存在bias这个变量中。

数组 label 保存的是类的标签值。

5、其他函数

-Function: void cross_validation(const problem*prob, const parameter *param,

int nr_fold, double *target);

交叉检验函数。数据会被划分为nr_fold个folds。对每个fold，用剩余的fold去训练模型，然后用这个fold来校验，这个校验过程得到的预测标签都会保存在target这个数组中。

-Function: double predict(const model *model_, constfeature_node *x);

预测函数。对一个分类模型，传入一个样本x，会返回预测到的对应的类。对于一个回归模型，就会返回一个由模型计算得到的函数值。

-Function: double predict_values(const struct model*model_,

const struct feature_node *x, double* dec_values);

这个函数得到nr_w个保存在数组dec_values的决策值。当使用回归模型或者二分类时，nr_w=1。一个例外的情况是Crammer and Singer (-s 4)的多分类SVM。对于其他情况nr_w是类的数目。

我们实现了one-vs-therest一对多的多分类(-s 0,1,2,3,5,6,7)和由Crammer and Singer (-s 4)实现的多分类SVM。该函数返回具有最高决策值的类别。

-Function: double predict_probability(const structmodel *model_,

const struct feature_node *x, double* prob_estimates);

该函数得到nr_class的概率估计值。保存在prob_estimates数组中。nr_class可以通过函数get_nr_class获得。该函数返回最高概率对应的类别。概率的输出只在logistic回归时有效。

-Function: int get_nr_feature(const model *model_);

该函数返回模型的attributes的个数。

-Function: int get_nr_class(const model *model_);

该函数返回模型的类的个数。如果是回归模型，返回2.

-Function: void get_labels(const model *model_, int*label);

该函数输出标签的名字到一个label的数组中。

-Function: const char *check_parameter(const structproblem *prob,

const struct parameter *param);

该函数检测参数的有效性。其需要在train() 和 cross_validation()前调用。如果参数有效，那么返回NULL，否则返回其他的错误信息。

-Function: int save_model(const char*model_file_name,

const struct model *model_);

该函数将模型保存到一个文件中。返回0表示成功，-1表示失败。

- Function:struct model *load_model(const char*model_file_name);

该函数从一个文件中加载模型。指针为空，表示加载失败。

-Function: void free_model_content(struct model*model_ptr);

该函数清理内存。在一个模型结构的入口处可以调用。

-Function: void free_and_destroy_model(struct model**model_ptr_ptr);

该函数干掉一个模型，并释放其占用的内存。

-Function: void destroy_param(struct parameter*param);

该函数释放参数结构体占用的内存。

-Function: void set_print_string_function(void(*print_func)(const char *));

用户可以指定输出的格式。set_print_string_function(NULL);将信息输入到stdout。

八、编译Windows下可执行文件

Windows下可执行文件在目录windows下。可以通过VisualC++来编译得到。编译过程如下：

1、打开dos命令行窗口，定位到liblinear目录下。如果VC++的环境变量还没设置，敲入以下命令来实现：

"C:\Program Files\Microsoft VisualStudio 10.0\VC\bin\vcvars32.bat"

你可能需要根据你的VC++的版本来稍微修改上述命令。

2、输入

nmake -f Makefile.win clean all

九、其他接口

MATLAB/OCTAVE 接口查看matlab目录下的README文件。PYTHON接口查看python'目录下的README文件。

十、其他信息

如果你觉得LIBLINEAR 对你有帮助的话，pleasecite it as：

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R.Wang, and C.-J. Lin.

LIBLINEAR: A Library for Large LinearClassification, Journal of

Machine Learning Research 9(2008),1871-1874. Software available at

http://www.csie.ntu.edu.tw/~cjlin/liblinear

For any questions and comments, please sendyour email to

[email protected]

转载：http://blog.csdn.net/zouxy09/article/details/10947323

你可能感兴趣的:(机器学习,LibLinear)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它