moakap

机器学习之Python Sklearn——线性回归

这里重点学习一下回归算法

机器学习基础

机器学习 vs. 传统编程

![image.png](https://img-blog.csdnimg.cn/img_convert/2f58b529d7d93bbf6b48f3c1a4de8793.png#clientId=u5bee9120-247f-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=304&id=u4452b774&margin=[object Object]&name=image.png&originHeight=304&originWidth=450&originalType=binary&ratio=1&rotation=0&showTitle=false&size=53348&status=done&style=none&taskId=u3851b853-50e0-48a2-a098-b603878fff9&title=&width=450)

三种类别

根据使用场景不同，有可以划分为三大类

监督学习

监督学习是根据已知的方法和规律，对新样本进行分类和预测。
监督学习就好比学生在学校学习各种知识和理论的过程。整个过程是在老师的监督下完成，所学知识的应用体现在平时的测试中，并且可以通过对比“标准”答案来不断改进和巩固学习成果，在下一次的测试中取得更好的成绩（预测效果）。根据目的不同，可以有分类和回归（预测）两种：

分类 —— 根据事物特征将其划分到已知的类别。
- 根据事物的特征，将新遇到的事物（新样本）归类到已知的某个类别。
回归（预测）—— 根据事物的特征和预测将来的发展趋势。
- 根据事物的特征和发展规律，预测将来的发展趋势。

非监督学习

非监督学习与监督学习正好相反，在过程中并不清楚有哪些特征标签，而是通过对样本的观察、分析和总结，去发现其中的特征，从看似杂乱无章的数据中发现共性。然后对新样本进行归类。

归类/聚类（clustering）—— 对大量看似无特征的样本进行分类。

经常会说非监督学习是归类或聚类（clustering）。与分类不同，聚类在划分之前并不知道有哪些类别，以及类别的特征，而是通过对样本的各种特征进行分析，将相似的样本划分为一组，进行“物以类聚”的划分。是一个从无到有的发现过程。

半监督学习

介于监督和非监督学习之间。是基于监督学习获得理论和知识，对非监督学习的样本（无特征标签）进行分类。可以理解为我们走出学校以后根据在课堂上学到的知识和理论，对生活中遇到的事物进行分类和预测。

Python sklearn (scikit-learn)

Scikit-learn是一个用于Python的免费开源机器学习库。

机器学习三大步骤

机器学习的本质就是让机器使用特定的算法对输入数据进行类似人的智能学习（找规律），根据同样的模型对新样本进行进行预测。具体到python中的sklearn，是通过一下三大步骤实现的。

准备数据——对输入数据进行预处理
选择、训练和测试模型——使用处理后的样本数据，针对特定模型进行拟合、训练
1. 模型的选择，可以根据要解决的问题和使用场景，scikit-learn提供了一张图（选择正确的估计器）来详细描述模型选择的流程，最终指向机器学习的集中主要使用场景，回归、分类和聚类，以及scikit-learn提供的数据降维方法。

![image.png](https://img-blog.csdnimg.cn/img_convert/478368d184a7fd370f466e9c86165377.png#clientId=u35127f2c-c93a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=662&id=ub44cc5c2&margin=[object Object]&name=image.png&originHeight=1323&originWidth=2122&originalType=binary&ratio=1&rotation=0&showTitle=false&size=947070&status=done&style=none&taskId=u2b053fd0-4a43-435e-8fc4-e91720b522f&title=&width=1061)

使用模型预测——使用训练后的模型对新样本进行预测，并根据预测结果过进一步优化

scikit-learn (sklearn) 实现

sklearn中内置了常用的机器学习算法和模型，以及基本的预处理方法。分别由**预测（估计）器（estimator）和预处理器（preprocessing）**实现，并且它们继承自同一个基础预测器。

转换器和预处理器

预处理器和转换器主要负责对原始数据的预处理和转换，从而消除不同数据之间的绝对差异。

from sklearn.preprocessing import StandardScaler

# ...
# X = [...]

StandardScaler().fit().transform(X)

预测器

sklearn中提供的数十种内置机器学习算法和模型，都通过估算器提供。可以通过引入相应的估算器来使用对应的模型。

from sklearn.ensemble import RandomForestClassifier

# 初始化估算器
clf = RandomForestClassifier(random_state=0)

# 使用训练数据进行模型拟合
clf.fit(X, y)

# 预测
clf.predict(...) #

管道

管道用来将转换器和预测器组合成一个同一的对象，表示一个完整的数据流处理过程（管道）。然后使用管道的fit和predict来进行训练和预测。同时，使用管道还可以防止数据泄露。

from sklearn.preprocessing import StandardScaler # 预处理器
from sklearn.linear_model import LogisticRegression # 预测器
from sklearn.pipeline import make_pipeline # 管道

# 创建管道
pipe = make_pipeline(
    StandardScaler(),
    LogisticRegression(random_state=0)
)

#准备数据...

# 像使用预测器一样使用管道
# 1) 训练整个pipeline
pipe.fit(X_train, y_train)

# 2) 使用管道预测
pipe.predict(X_test)

# ...

模型评估

针对不同类型的算法和模型，对应评估指标也不相同。

回归算法指标

回归算法的核心思想是评估预测值和观察值之间的误差。从最原始的残差（residual）到基于残差的各种变形，以便后续的数学运算和处理。

Mean Absolute Error 平均绝对误差：对残差做绝对值处理，避免残差正负导致的相互抵消。
Mean Squared Error 均方误差：为了便于求导，对平均绝对误差进行平方。
Root Mean Squared Error 均方根误差：如果目标变量的量纲保持一致，可以对均方误差进行开放。
Coefficient of determination 决定系数：进一步去除对量纲的依赖。

分类算法指标

相比较回归算法的各种残差指标，分类算法更多的则是关注分类的精度，即预测正确的样本数量占总预测样本的比例。然后，预计不同的场景，从不同角度来看精度对结果的影响。

Accuracy 精度：每一个分类中预测正确的样本数占总样本的比例。
混淆矩阵 Confusion Matrix
准确率（查准率） Precision
召回率（查全率）Recall
Fβ Score
AUC Area Under Curve
KS Kolmogorov-Smirnov

关于各个指标的详细说明，可以参考知乎——机器学习评估指标。

参数搜索

所有预测器都有可以调整的参数，也叫超参数。其特指不能通过学习得到的参数。在使用各种不同模型时，需要将超参数作为参数传递给预测器。
sklearn中提供了在参数集中搜索最佳超参数的方法，其基于最佳交叉验证（CV, Cross-Validation）分数获取对应的超参数。sklearn中最简单的方法是调用cross_val_score函数。

估算器中的任意参数都可以通过参数搜索来获得最佳参数。

参数搜索的基本要素

参数搜索方法
评估方法

sklearn中两种抽样搜索最佳参数的方法：

GridSearchCV 网格搜索方法

计算参数集中所有参数的组合。GridSearchCV通过使用param_grid参数来指定参数候选值。
例如下边的例子指定搜索两个参数候选值。通过GridSearchCV的fitting接口拟合后，会对所有候选参数进行评估，保留最优参数组合。

# 选择模型
clf = ...

# 指定网格搜索的参数
param_grid = [
  {'C': [1, 10, 100, 1000], 'kernel': ['linear']},
  {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']},
 ] 

# 运行网格搜索
grid_search = GridSearchCV(clf, param_grid=param_grid)

# ...
grid_search.fit(X, y)

RandomizedSearchCV 随机搜索方法

从具有制定分布的参数空间中抽样出定量的参数候选。RandomizedSearchCV会在指定范围内，使用某个特定分布抽取参数值进行评估。用字典形式来指定参数的具体抽样范围，针对每一个参数，可以指定

具体的参数
采样分布——可以使用scipy.stats模块，其中包含了很多采样分布，如expon，gamma，uniform或者randint。
离散选项列表

例子

# 选择模型
clf = ...

# RandomizedSearchCV 参数设置示例
param_dist = {
    'C': scipy.stats.expon(scale=100),  # 取值分布
    'gamma': scipy.stats.expon(scale=.1),
    'kernel': ['rbf'], # 离散列表
    'class_weight':['balanced', None] # 离散列表
} 

# 运行随机搜索
n_iter_search = 20
random_search = RandomizedSearchCV(clf, param_distributions=param_dist,
                                   n_iter=n_iter_search)

# ...
random_search.fit(X, y)

评估方法（指标）

参数搜索默认使用估计器的score函数来评估参数的设置。默认为

sklearn.metrics.accuracy_score 用于分类
sklearn.metrics.r2_score 应用于回归

当然，sklearn还提供了其它一些评估函数可供不从场景使用。同时，也可以将多种评估指标结合起来使用。

回归算法

从sklearn模型流程可以很清楚得看到回归算法的使用场景。
![image.png](https://img-blog.csdnimg.cn/img_convert/6496b061a2d99c9d00a9e8e5ab14c0a6.png#clientId=u35127f2c-c93a-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=251&id=u408eadf1&margin=[object Object]&name=image.png&originHeight=884&originWidth=1378&originalType=binary&ratio=1&rotation=0&showTitle=false&size=385245&status=done&style=none&taskId=u53cf04fe-fc69-4ea8-a6c1-e6402c87324&title=&width=391)
使用场景

样本数大于50
需要预测将来的某个具体数据（而不是对数据分类）

然后根据样本数据数据和特征标签的特点选择对应的算法

样本数大于100K时，推荐使用SGDRegressor
样本数小于100K时，则推荐使用Ridge, Lasso, 或者ElasticNet等；然后根据样本数据特征标签的权重，进行进一步选择。
- 如果样本数据的特征标签同等重要，可以选择RidgeRegression或SVR;
- 如果样本数据的某些特征更重要，对结果影响更大，可以使用Lasso和ElasticNet；

回归分析（Regression Analysis）

在搞清楚线性回归之前，我们首先要弄明白什么是回归分析。在统计学中，是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
按照涉及的变量多少，可以分为一元回归和多元回归；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

线性回归（Liner Regression）基础

线性回归假设目标值（因变量）是特征值（自变量）的线性组合。线性回归使用最佳的拟合直线在因变量（ $Y$ ）和一个或多个自变量（ $X$ ）之间建立一种关系。因变量是连续的，自变量可以是连续的也可以是离散的，回归线的性质是线性的。
在数学中，即为由特征值组成的多元一次方程。
$Y=b+w_1x_1+...+w_px_p+\epsilon$
如果将自变量表示为 $X=(x_1,...x_p)$ ，系数表示为 $W=(w_1, ..., w_p)$ ，就能明白为什么它叫线性回归了。
$Y=b+W^TX+\epsilon$
其中 $W$ 是回归线的斜率， $w_0$ 则表示回归线在Y轴上的截距， $\epsilon$ 表示误差项。
上边的表示中，我们默认自变量和因变量都是多元的。这里我们限制因变量的个数为一个，则可以直接表示为
$y=b+W^TX+\epsilon$
线性回归就是通过各种算法去找到这样一个多元一次方程 $\hat{y}(x)=b+wX$ ，使其尽量接近观真实值 $y$ （残差 $\epsilon$ 尽量小）。而拟合的过程，就是去不断优化和估计方程的斜率系数，所以也叫“回归系数（coefficient）”。
这里要注意模型偏差bias和**残差（噪声）**的区别。

偏差 $b$ ——指排除噪声影响下，预测结果与真实值之间的差异。其主要是由模型的拟合度不够导致的（不是随机的，并且可通过一定的特征工程进行预测）。
残差 $\epsilon$ ——预测结果与真实值之间的差异。在模型完全拟合的情况下，与真实值之间的差异，因此可以理解为噪声（随机、不可预测的）。

预测值和真实值的距离

那么，如何衡量预测的准确性，即衡量预测值 $\hat{y}(x)$ 与真实值 $y$ 之间的差异呢？最直观的方法就是看真实值和预测值之间的差(残差)。回归模型的目的就是使模型预测出来的值无限接近真实值（测量值）。
$\hat{\epsilon} = y - \hat{y}(x)$
但是在实际预测中，残差值有正有负，不可能直接使用残差之和最小的方式来衡量一种方法的好坏。
因此，整个回归问题的本质，就是使用均方误差，求使 $D$ 最小时的 $W$ 和 $d$ 。
$D=E(y-\hat{y}(x))^2$

1. 残差平方和SSE

由于残差本身有正有负，故可以使用平方和来避免正负抵消问题。
$dist(P_i, P_j) = \sum_{k=1}^n(P_ik-P_jk)^2$
问题：

使用平方后会放大（差>1）部分的误差，同时缩小（-1<差<1）部分的误差；
当不同维度的度量差异很大时无法处理；

2. 欧氏距离

为了解决误差平方和的问题，我们可以使用欧式距离。
$dist(P_i, P_j) = \sqrt{\sum_{k=1}^n(P_ik-P_jk)^2}$
问题：

求解麻烦；
不同问题的度量差异很大时无法处理；

3. 曼哈顿距离

曼哈顿距离直接使用绝对值来消除根号开方的求解麻烦问题。
$dist(P_i, P_j) = \sum_{k=1}^n\vert P_ik-P_jk\vert$
问题：

不是连续函数，求导很麻烦，计算不方便，只能计算垂直、水平距离

适合场景：数据稀疏（自带归一化处理）

4. 马氏距离(Mahalanobis Distance)

马氏距离是对欧式距离的另外一种修正，修正了欧氏距离中各个维度尺度不一致且相关的问题。
$dist(P_i, P_j) = \sqrt{(P_ik-P_jk)^T\Sigma^{-1}(P_ik-P_jk)}$
马氏距离已经不像前边的几种那么好理解，具体推导过程可以参考马氏距离。总之，其较好的解决了不同维度尺度不一致且相关的问题。

5. 其它

其它还有一些距离如汉明距离(Hamming Distance)、编辑距离(Levenshtein Distance)等，这里不做一一说明。

普通最小二乘法(Ordinary Least Square, OLS)

最小二乘法直接使用残差的平方和作为衡量标准，通过拟合 $W$ 使残差 $\epsilon$ 的平方和最小。数学上表示为下边的形式：
$min{\Vert Xw-y\Vert _2^2}$
![image.png](https://img-blog.csdnimg.cn/img_convert/d0c3002ba1d041e6be8c62cb632b4f64.png#clientId=u21aa29a4-be78-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=240&id=u4b140a9b&margin=[object Object]&name=image.png&originHeight=480&originWidth=640&originalType=binary&ratio=1&rotation=0&showTitle=false&size=16055&status=done&style=none&taskId=u8ca7bced-72e2-4a40-9fbd-7e1386524b6&title=&width=320)
在sklearn的线性回归模型LinearRegression中，使用 $f i t ()$ 函数拟合模型，并在模型的coef_中存储拟合后的相关系数 $w$ 。

import numpy as np
from sklearn import datasets, linear_model

# ...准备数据，选择特征列，拆分训练、测试数据集..

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients
print("Coefficients: \n", regr.coef_)
# The mean squared error
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# The coefficient of determination: 1 is perfect prediction
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))

非负最小方差

在最小二乘法法返回的系数中，默认是不会对系数的正负进行限制的。但是在实际问题中，很多时候我们需要所有的相关系数非负，例如频次、商品价格等。这时候可以直接设置LinearRegression的positive参数为True来限制相关系数的正负。

from sklearn.linear_model import LinearRegression

reg_nnls = LinearRegression(positive=True)
y_pred_nnls = reg_nnls.fit(X_train, y_train).predict(X_test)
r2_score_nnls = r2_score(y_test, y_pred_nnls)
print("NNLS R2 score", r2_score_nnls)

问题
普通最小二乘的系数估计依赖于特征的独立性。当特征相关且设计矩阵的列之间具有近似线性相关性时，设计矩阵趋于奇异矩阵，最小二乘估计对观测目标的随机误差高度敏感，可能产生很大的方差。例如，在没有实验设计的情况下收集数据时，就可能会出现这种多重共线性的情况。

过拟合(Overfitting)和欠拟合(Underfitting)

过拟合和欠拟合是使用实际数据进行分析时可能会遇到的两种基本问题。
![image.png](https://img-blog.csdnimg.cn/img_convert/b6faa6bc3c5d1428f48a67ceede6b7b0.png#clientId=u21aa29a4-be78-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=126&id=lBmXy&margin=[object Object]&name=image.png&originHeight=252&originWidth=735&originalType=binary&ratio=1&rotation=0&showTitle=false&size=13524&status=done&style=none&taskId=u4de5531d-82e5-408a-82fb-0cc2a39a43e&title=&width=367.5)

欠拟合——指模型在训练集中的表现就很差了，经验误差很大。

欠拟合出现的原因是模型复杂度太低，比如自变量太少等。针对欠拟合，要做的就是增大模型复杂度，增加自变量，或者改变模型（线性到非线性）等。

过拟合——指模型在训练集中表现良好，而测试集中表现很差，即泛化误差大于了经验误差，拟合过度，模型泛化能力降低，只能够适用于训练集，通用性不强。

过拟合的原因是模型复杂度太高，或者训练数据集太少，比如自变量过多等。针对过拟合，除了增加训练集数据外，正则化就是常用的一种处理方法。

正则化

正则化(Regularization) 是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项，常用的额外项一般有两种，英文称作ℓ1−ℓ1−norm和ℓ2−ℓ2−norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数（实际是L2范数的平方）。
L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型，使用L1正则化的模型叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）。

关于正则化的更多详细理解可以参考深入理解L1、L2正则化，以及机器学习中正则化项L1和L2的直观理解。

岭(Ridge)回归（L2正则化）

针对最小二乘法存在的一下问题，岭回归则计算一个带惩罚项的残差平方和。
$min{\Vert Xw-y\Vert _2^2}+\alpha\Vert w \Vert _2^2$
其中 $\Vert w \Vert _2^2$ 为回归系数向量的L2范数（所有参数的平方和）。使用复杂度参数 $\alpha \ge0$ 来控制收缩程度：值越大，收缩程度越大，对应的回归系数对共线性的容忍程度也就越大。至于为什么L2正则化能防止过拟合，可以参考深入理解L1、L2正则化。

![image.png](https://img-blog.csdnimg.cn/img_convert/5e50ad1a7b10c1ecfa5043b930eb04ca.png#clientId=u21aa29a4-be78-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=240&id=u0879ddae&margin=[object Object]&name=image.png&originHeight=480&originWidth=640&originalType=binary&ratio=1&rotation=0&showTitle=false&size=50003&status=done&style=none&taskId=u3f6b9f9d-f927-4420-b103-7b6dbaa26c2&title=&width=320)
在sklearn中，可以通过指定alpha参数来设定 $\alpha$ 。

from sklearn import linear_model

# 指定alpha的岭回归
reg = linear_model.Ridge(alpha=.5)

# 拟合
reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])

# ...

Lasso回归（L1正则化）

Lasso回归与Ridge岭回归类似，都是在普通最小二乘法基础上的正则化处理。目标函数在数学上表示为
$min{\frac1{2n_{sample}}\Vert Xw-y\Vert _2^2}+\alpha\Vert w \Vert_1$
其中 $\Vert w \Vert _1$ 为回归系数向量的L1范数（所有参数绝对值之和）。

特征选取与压缩感知

特征选取就是对样本进行稀疏表示的过程。而Lasso正好就是估计稀疏系数的线性模型，因为它倾向于给出非零系数较少的解，从而有效地减少了给定解所依赖的特征数。至于为什么L1正则化能减少给定解所依赖的特征数，可以参考深入理解L1、L2正则化。
所以说，Lasso 及其变体是压缩感知领域的基础。关于稀疏表示，参考机器学习基础——稀疏表示。

稀疏表示
任意一个信号都可以在一个过完备字典上稀疏线性表出。这样，一个信号被分解为有限个信号的线形组合的形式我们称之为稀疏表示。表达为公式为：
y = D_α_ s.t.||α||0 < σ

Elastic-Net弹性网络回归（L1+L2正则化）

弹性网络回归是一个综合了Ridge回归和Lasso回归两种惩罚因数的单一模型：一个因素与L1范数成比例，另外一个因数与L2范数成比例。其目标函数表示为
$min{\frac1{2n_{sample}}\Vert Xw-y\Vert _2^2}+\alpha\beta\Vert w \Vert_1+\frac{\alpha(1-\beta)}{2} \Vert w \Vert_2^2$
从上边的公式可以看出，ElasticNet使用时需要提供 $\alpha$ 和 $\beta$ 两个参数。其中 $\beta$ 的参数名称为l1_ratio。

当多个特征存在相关时，弹性网是很有用的。Lasso很可能随机挑选其中之一，而弹性网则可能兼而有之。

预估正则化参数——贝叶斯回归

主要用于预估正则化参数：正则化参数不是应意义上的设置，而是根据数据进行调整。

贝叶斯岭回归

自动关联判定-ARD

高维数据的线性回归

特征选择

在实际应用中，特征数量往往非常多，其中即包含了我们需要的与目标相关的特征，也有一些完全不相关的特征，并且特征之间也可能存在相互依赖。这会导致对应的模型就越复杂，模型训练和预测需要的计算量就越大，同时也会影响算法的预测能力。
特征选取就是从大量的特征中选取一个特征子集，构造出更好的模型（如残差最小）。
特征选择分为产生、评估、验证三大步骤，如下图。
![image.png](https://img-blog.csdnimg.cn/img_convert/7e36abde0a778c84516a3c09e3860ad5.png#clientId=u0613ca18-f5a9-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=128&id=u53f211f5&margin=[object Object]&name=image.png&originHeight=255&originWidth=657&originalType=binary&ratio=1&rotation=0&showTitle=false&size=19594&status=done&style=none&taskId=u4bcce21d-3396-431c-b1f6-56fba0e55a6&title=&width=328.5)
特征选择的过程 ( M. Dash and H. Liu 1997 )

1. 特征生成

特征产生过程是搜索特征子空间的过程。分为一下3大类

完全搜索

完全搜索又分为穷举搜索（Exhaustive）和非穷举（Non-Exhaustive）两类。

广度优先搜索
分支界限搜索
定向搜索
最优有限搜索
启发式搜索
- 序列前向选择
- 序列后向选择
- 双向搜索
- 增L去R选择算法
- 序列浮动选择
- 决策树
随机搜索
- 随机产生序列选择算法
- 模拟退火算法
- 遗传算法

2. 特征评估

评价函数

相关性
距离
信息增益
一致性
分类器错误率

3. 特征验证

最小角回归(Least-angle Regression, LARS)

针对高位数据，最小角回归LARS算法首先是一种逐步向前回归。在逐步向前的每一步中，它都会找到与目标最相关的特征。当特征具有相等的相关性时，它不是沿着相同的特征继续进行，而是沿着特征之间等角的方向进行。

参考LeastAngle_2002.pdf了解更多最小角回归算法的更多细节。

LARS Lasso

LarsLasso是利用LARS算法实现的LASSO模型，与基于坐标下降的LASSO模型不同，它得到的是分段线性的精确解，是其自身系数范数的函数。
![image.png](https://img-blog.csdnimg.cn/img_convert/da0c0ec2ffbd18f6be733685e29309e1.png#clientId=udf5c4bc4-57b9-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=187&id=gBERK&margin=[object Object]&name=image.png&originHeight=373&originWidth=509&originalType=binary&ratio=1&rotation=0&showTitle=false&size=54863&status=done&style=none&taskId=u2cf2312c-ee09-4e3d-a647-69847784a64&title=&width=254.5)

正交匹配追踪（OMP）

一种类似于最小角回归的前向特征选择方法，正交匹配追踪可以用固定数目的非零元素逼近最优解向量。或者，正交匹配追踪可以针对特定的误差，而不是特定数目的非零系数。

参考 KSVD-OMP-v2.pdf。

随机梯度下降（SGD）

随机梯度下降是一种简单而又非常有效的拟合线性模型的方法。当样本数量(和特性数量)非常大时，它特别有用。

感知机（Perceptron）

Perceptron 是另一种适用于大规模学习的简单分类算法。有如下默认：

它不需要设置学习率
它不需要正则项
它只用错误样本更新模型

最后一个特点意味着Perceptron的训练速度略快于带有合页损失(hinge loss)的SGD，因此得到的模型更稀疏。

被动感知算法(Passive Aggressive Algorithms)

被动感知算法是一种大规模学习的算法。和感知机相似，因为它们不需要设置学习率。然而，与感知器不同的是，它们包含正则化参数 C 。

广义线性回归（GLM）

广义线性模型(GLM)以两种方式扩展了线性模型。

反向连接函数

首先是预测值 $\hat y$ 是否通过反向连接函数 $h$ 连接到输入变量 $X$ 的线性组合。
$\hat y(w, X) = h(Xw)$

损失函数

其次，平方损失函数被一个指数分布的单位偏差 $d$ 所代替 (更准确地说，一个再生指数离散模型(EDM) )。最小化问题变成
$\min_w \frac{1}{2n_{samples}} \sum_i d(y_i, \hat{y_i}) + \frac{\alpha}{2}\|w\|_2$
$\alpha$ 是L2正则化惩罚项。提供样本权重后，平均值即为加权平均值。

再生指数离散模型(EDM)

![image.png](https://img-blog.csdnimg.cn/img_convert/b1f081adcb0f177d6a90f30a257cdad3.png#clientId=udf5c4bc4-57b9-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=191&id=u1d3c0a97&margin=[object Object]&name=image.png&originHeight=382&originWidth=913&originalType=binary&ratio=1&rotation=0&showTitle=false&size=63616&status=done&style=none&taskId=u8e4ceb0d-9694-41c7-bda9-cb6d7800266&title=&width=456.5)

TweedieRegressor

TweedieRegressor为Tweedie分布实现了一个广义线性模型，该模型允许使用适当的 $p o w e r$ 参数对上述任何分布进行建模。

power = 0: 正态分布。在这种情况下，诸如 Ridge, ElasticNet 等特定的估计器通常更合适。
power = 1: 泊松分布。方便起见可以使用 PoissonRegressor 。然而，它完全等同于 TweedieRegressor(power=1, link=‘log’).
power = 2: 伽马分布。方便起见可以使用GammaRegressor 。然而，它完全等同于 TweedieRegressor(power=2, link=‘log’).
power = 3: 逆高斯分布。

分配方式选择

分配方式的选择取决于手头的问题:

如果目标值是计数(非负整数值)或相对频率(非负)，则可以使用带有log-link的泊松偏差。
如果目标值是正的，并且是歪斜的，您可以尝试带有log-link的Gamma偏差。
如果目标值似乎比伽马分布的尾部更重，那么您可以尝试使用逆高斯偏差(或者更高的Tweedie族方差)。

参考

【SVR回归分析简明教程】https://zhuanlan.zhihu.com/p/33692660
【scikit-learn支持向量机/回归】http://scikit-learn.org.cn/view/83.html#
【SVR支持向量回归】https://scikit-learn.org.cn/view/782.html
【使用线性与非线性核的支持向量机回归】http://scikit-learn.org.cn/view/342.html
【统计学——回归分析】https://zhuanlan.zhihu.com/p/352694434
【从入门到放弃——线性回归】https://zhuanlan.zhihu.com/p/147297924
【回归模型偏差、方差和残差】https://zhuanlan.zhihu.com/p/50214504
【马氏距离】https://zhuanlan.zhihu.com/p/46626607
【Lasso回归和Ridge回归的区别】https://cloud.tencent.com/developer/article/1556213
【深入理解L1、L2正则化】https://www.cnblogs.com/zingp/p/10375691.html#_label0
【机器学习中正则化项L1和L2的直观理解】https://blog.csdn.net/jinping_shi/article/details/52433975

你可能感兴趣的:(机器学习,回归算法,线性回归,机器学习,python,sklearn,线性回归)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地