洋洋菜鸟

机器学习入门（2）之模型评估与选择

一、误差与拟合

1. 泛化误差与经验误差

2. 损失函数与训练误差

3. 过拟合与欠拟合

4. 过拟合的另一种现象：数据泄露

二、评估方法

1. 留出法

2. 交叉验证法（留一法）

3. 自助法

4. 调参与最终模型

三、性能度量

1. 混淆矩阵

2.准确率

3.精确率（查准率）和召回率（查全率）

4. F1值和Fβ值

5. ROC曲线及其AUC值

6. AUC值的计算

7. 代价敏感错误率与代价曲线

四、比较检验

1.性能比较的三个要素

2.假设检验

（1）估计假设精度

（2）采样理论基础

（3）多次训练/测试的检验-t检验

（4）交叉验证 t 检验

（5）McNemar 检验

（6）Friedman检验与 Nemenyi后续检验

五、偏差与方差

一、误差与拟合

1. 泛化误差与经验误差

泛化误差：在“未来”样本上的误差（generalization error）

经验误差：在训练样本上的误差(training error),也称为训练误差

错误率 ：分类错误的样本数占样本总数的比例(error)

精度：1-错误率(accuracy)

我有个小问号？？？？

不是说泛化误差越小越好，那经验误差是否越小越好？

当然不是，因为会出现“过拟合”问题

2. 损失函数与训练误差

2.1 损失函数

损失函数是关于模型计算结果f(x)和样本实际目标结果y的非负实值函数，记作L(y,f(x)).用它来解释模型在每个样本实例上的误差,损失函数的值越小，说明预测值与实际值越接近，即模型的拟合效果越好. 损失函数主要包括以下几种： 0-1损失函数、平方损失函数、绝对损失函数、对数损失函数.

2.2 训练误差

损失函数仅是对一个样本而言，模型优化目标函数应当是使全局损失函数最小，即所有样本的损失函数的均值，其中训练误差可表示为：

3. 过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。

3.1 机器学习中的逼近目标函数过程

监督式机器学习通常理解为逼近一个目标函数f，此函数映射输入变量(X)到输出变量(Y)得到Y=f(X)

这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。

从训练数据中学习目标函数的过程中，我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的，因为我们收集到的数据只是样本，其带有噪音并且是不完全的。

3.2 机器学习中的泛化

在机器学习中，我们描述从训练数据学习目标函数的学习过程为归纳性的学习。

归纳与特别的样本中学习到通用的概念有关，而这就是监督式机器学习致力于解决的问题。这与推演不同，其主要是另一种解决问题和寻求从通常的规则中找寻特别的内容。

泛化即是，机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。

好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让我们可以在未来对模型没有见过的数据进行预测。

在机器学习领域中，当我们讨论一个机器学习模型学习和泛化的好坏时，我们通常使用术语：过拟合和欠拟合.

3.3 统计拟合

在统计学中，拟合指的是你逼近目标函数的远近程度。

这个术语同样可以用于机器学习中，因为监督式机器学习算法的目标也是逼近一个未知的潜在映射函数，其把输入变量映射到输出变量。

统计学通常通过用于描述函数和目标函数逼近的吻合程度来描述拟合的好坏。

这类理论中的一些在机器学习中也是有用的(例如，计算残差)，但是一些技巧假设我们已经知道了我们要逼近的函数。这和机器学习的场景就不同了。

如果我们已经知道了目标函数的形式，我们将可以直接用它来做预测，而不是从一堆有噪音的数据中把它费力的学习出来。

3.4 机器学习中的过拟合

过拟合指的是模型对于训练数据拟合程度过当的情况。

当某个模型过度的学习训练数据中的细节和噪音，以至于模型在新的数据上表现很差，我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据，从而导致模型泛化性能的变差。

过拟合更可能在无参数非线性模型中发生，因为学习目标函数的过程是易变的具有弹性的。同样的，许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。

例如，决策树就是一种无参数机器学习算法，非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决，这种方法就是为了移除一些其学习到的细节。

3.5 机器学习中的欠拟合

欠拟合指的是模型在训练和预测时表现都不好的情况。

一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。

欠拟合通常不被讨论，因为给定一个评估模型表现的指标的情况下，欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法。

3.6 机器学习中好的拟合

理想上，你肯定想选择一个正好介于欠拟合和过拟合之间的模型。

这就是我们学习的目标，但是实际上很难达到。

为了理解这个目标，我们可以观察正在学习训练数据机器学习算法的表现。我们可以把这个过程划分为分别是训练过程和测试过程。

随着时间进行，算法不断地学习，模型在训练数据和测试数据上的错误都在不断下降。但是，如果我们学习的时间过长的话，模型在训练数据上的表现将继续下降，这是因为模型已经过拟合并且学习到了训练数据中的不恰当的细节以及噪音。同时，测试数据集上的错误率开始上升，也即是模型的泛化能力在下降。

这个完美的临界点就处于测试集上的错误率开始上升时，此时模型在训练集和测试集上都有良好的表现。

你可以用你自己喜爱的机器学习算法来实践这个实验。而在实践中这通常是无用的，因为在测试数据上运用这个技巧来选择训练停止的时机，这意味着这个测试集对于我们并不是“不可见的”或者单独的衡量标准。数据的一些知识(许多有用的知识)已经泄露到了训练过程。

通常有两种手段可以帮助你找到这个完美的临界点：重采样方法和验证集方法。

3.7如何限制过拟合

过拟合和欠拟合可以导致很差的模型表现。但是到目前为止大部分机器学习实际应用时的问题都是过拟合。

过拟合是个问题因为训练数据上的机器学习算法的评价方法与我们最关心的实际上的评价方法，也就是算法在位置数据上的表现是不一样的。

当评价机器学习算法时我们有两者重要的技巧来限制过拟合:

使用重采样来评价模型效能
保留一个验证数据集

最流行的重采样技术是k折交叉验证。指的是在训练数据的子集上训练和测试模型k次，同时建立对于机器学习模型在未知数据上表现的评估。

4. 过拟合的另一种现象：数据泄露

1、数据泄露现象

机器学习中还有一个与过拟合非常相似的现象：训练时模型表现的非常好，但是在真实的预测中表现的很差。这种情况可能是数据泄露。数据泄露又叫特征穿越，指的是在建模过程中的数据收集、处理时不小心将未来信息引入到训练集中。当把未来信息引入到训练集中时，模型训练的效果往往非常好，但真实的预测效果会大打折扣。

2、数据泄露容易发生的场景

数据泄露一般发生在时间序列场景或具有时间属性的场景中。例如，在金融的信贷领域，建模工程师在取数的时候，误取到了建模时间点之后的还款信息、表现等。

3、检查数据泄露的方法

（1）数据探索性分析

查看特征分布和特征与目标之间的关系，并从具体问题角度出发，分析和论证该特征的含义。

（2）特征分析

可以进行特征与目标变量的相关性分析，使用一些统计算法，去分析特征的重要性。如果有表现特别突出的特性，需重点检查。

（3）模型比较

详细的模型性能评估和分析，与之前的版本的模型和行业模型进行对比。

（4）加强测试

对模型进行现场测试，查看真实环境的表现与模型训练效果是否有很大差别。

4、避免出现数据泄露需要注意的点

（1）具有时间属性的场合要严格控制时间，取得所需历史快照数据，并追溯变量业务的物理含义；

（2）使用特征区分力指标进行直观检查，重点检查区分力强的特征；

（3）当怀疑某个特征有泄露的可能性时，不要使用；

（4）不要使用ID类的变量；

（5）只有在训练数据集或交叉验证的训练组中执行数据信息提取等相关处理方法（特征选择、异常值删除、编码、特征缩放和降维等），交叉验证时在每个循环周期内独立进行；

（6）在独立的、模型完全未见的数据集上进行模型的最终评估；

（7）采取管道方式，使用统一的数据处理方法。

二、评估方法

如何获得测试结果？？？

在学习得到的模型投放使用之前，通常需要对其进行性能评估。为此，需使用一个“测试集”（testing set）来测试模型对新样本的泛化能力，然后以测试集上的“测试误差”（testing error）作为泛化误差的近似。

而“测试集”的获得，我们一般假设是从样本真实分布中独立采样获得的，所以要求测试集和训练集中的样本尽量互斥

给定一个已知的数据集，将数据集拆分成训练集S和测试集T，通常的做法包括：

1. 留出法

注意：

保持数据分布的一致性（例如：分层采样）
多次重复划分（例如：100次随机划分）
测试集不能太大、不能太小 (例如：1/5~1/3)

2. 交叉验证法（留一法）

将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，最终返回k个测试结果的均值，“k折交叉验证”（k-fold cross validation）。k最常用的取值是10，其他常用的k值有5、20等。

与留出法类似，将数据集D划分为k个子集同样存在多种划分方式，为了减小因样本划分不同而引入的差别，k折交叉验证通常随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如常见的“10次10折交叉验证”。

假设数据集D包含m个样本，若令k=m，则得到留一法：

NFL 定理仍然有效
不受随机样本划分方式的影响
结果往往比较准确
当数据集比较大时，计算开销难以忍受

3. 自助法

以自助采样法为基础，对数据集D有放回采样m次得到训练集D′ , D\D′用做测试集。

训练集与原样本集同规模
数据分布有所改变

约有 36.8% 的样本不出现，称为“包外估计”(out-of-bag estimation)

注意：

自助法在数据集较小、难以有效划分训练/测试集时很有用
从初始数据集中产生多个不同的训练集，对集成学习有很大的好处
由于改变了数据集分布可能引入估计偏差，在数据量足够时，留出法和交叉验证法更常用

4. 调参与最终模型

算法的参数：一般由人工设定，亦称“超参数”

模型的参数：一般由学习确定

调参过程相似：先产生若干模型，然后基于某种评估方法进行选择

注：参数调得好不好往往对模型最终性能有关键影响

区别：训练集 vs. 测试集 vs. 验证集(validation set)

算法参数选定后，要用“训练集+验证集”重新训练最终模型

模型持久化（model persistence）:

1.pickle
2.joblib

三、性能度量

性能度量(performance measure)是衡量模型泛化能力的评价标准，反映了任务需求。

使用不同的性能度量往往会导致不同的评判结果

什么样的模型是“好”的，不仅取决于算法和数据，还取决于任务需求。

评价指标：

准确率、精确率（查准率）、召回率（查全率）、F1值、ROC曲线的AUC值，都可以作为评价一个机器学习模型好坏的指标（evaluation metrics），而这些评价指标直接或间接都与混淆矩阵有关，前四者可以从混淆矩阵中直接计算得到，AUC值则要通过ROC曲线进行计算，而ROC曲线的横纵坐标又和混淆矩阵联系密切，所以在了解这些评价指标之前，先知道什么是混淆矩阵很有必要，也方便记忆。

1. 混淆矩阵

　　对于一个二分类问题，我们可以得到如表 1所示的的混淆矩阵（confusion matrix）：

表 1：混淆矩阵

		Actual class（真实结果）
		positive class(正向)	negative class(负向)
Predicted class （预测结果）	positive class(正向)	True Positive(TP)	False Positive(FP)
Predicted class （预测结果）	negative class(负向)	False Negative(FN)	True Negative(TN)

表 1 所示的混淆矩阵中，行表示数据在模型上的预测类别（predicted class/predicted condition），列表示数据的真实类别（actual class/true condition）。在看混淆矩阵时，要分清样本的真实类别和预测类别，有些地方的行列表示可能和这里不一致。在sklearn中，二分类问题下的混淆矩阵需要分别将表 1 中的predicted class和Actual class对调，将横纵坐标的positive class和negative class都分别对调，再重新计算混淆矩阵。

　　通过混淆矩阵，我们可以很直观地看清一个模型在各个类别（positive和negative）上分类的情况。

表 2：TP、FP、FN、TN

TP	真实类别为positive，模型预测的类别也为positive
FP	预测为positive，但真实类别为negative，真实类别和预测类别不一致
FN	预测为negative，但真实类别为positive，真实类别和预测类别不一致
TN	真实类别为negative，模型预测的类别也为negative

TP、FP、TN、FN，第二个字母表示样本被预测的类别，第一个字母表示样本的预测类别与真实类别是否一致。

查准率(P)：被分为正类的样本中实际为正类的样本比例。

查全率(R)：实际为正类的样本中被分为正类的样本比例。

PR图：

学习器 A 优于学习器 C
学习器 B 优于学习器 C
学习器 A ?? 学习器 B

BEP：

学习器 A 优于学习器 B
学习器 A 优于学习器 C
学习器 B 优于学习器 C

2.准确率

　　准确率（accuracy）计算公式如下所示：

准确率表示预测正确的样本（TP和TN）在所有样本（all data）中占的比例。

　　在数据集不平衡时，准确率将不能很好地表示模型的性能。可能会存在准确率很高，而少数类样本全分错的情况，此时应选择其它模型评价指标。

3.精确率（查准率）和召回率（查全率）

　　positive class的精确率（precision）计算公式如下：

　　positive class的召回率（recall）计算公式如下：

positive class的精确率表示在预测为positive的样本中真实类别为positive的样本所占比例；positive class的召回率表示在真实为positive的样本中模型成功预测出的样本所占比例。

positive class的召回率只和真实为positive的样本相关，与真实为negative的样本无关；而精确率则受到两类样本的影响。

4. F1值和Fβ值

F1度量:基于查准率和查全率的调合平均(harmonic mean)

F1值的计算公式如下：

F1值就是精确率和召回率的调和平均值，F1值认为精确率和召回率一样重要。

若对查准率/查全率有不同偏好：

　　Fβ值的计算公式如下：

在β=1时，Fβ就是F1值，此时Fβ认为精确率和召回率一样重要
当β>1时，Fβ认为召回率更重要
当0<β<1时，Fβ认为精确率更重要。
除了F1值之外，常用的还有F2和F0.5。

5. ROC曲线及其AUC值

　　AUC全称为Area Under Curve，表示一条曲线下面的面积，ROC曲线的AUC值可以用来对模型进行评价。ROC曲线如图所示：

ROC曲线

（注：图片摘自https://en.wikipedia.org/wiki/Receiver_operating_characteristic）

　　ROC曲线的纵坐标True Positive Rate（TPR）在数值上就等于positive class的recall，记作recallpositive，横坐标False Positive Rate（FPR）在数值上等于(1 - negative class的recall)，记作(1 - recallnegative)如下所示：

通过对分类阈值θθ（默认0.5）从大到小或者从小到大依次取值，我们可以得到很多组TPR和FPR的值，将其在图像中依次画出就可以得到一条ROC曲线，阈值θ取值范围为[0,1]。

通过对分类阈值θ（默认0.5）从大到小或者从小到大依次取值，我们可以得到很多组TPR和FPR的值，将其在图像中依次画出就可以得到一条ROC曲线，阈值θ取值范围为[0,1]。

ROC曲线在图像上越接近左上角(0,1)模型越好，即ROC曲线下面与横轴和直线FPR = 1围成的面积（AUC值）越大越好。直观上理解，纵坐标TPR就是recallpositive值，横坐标FPR就是(1 - recallnegative)，前者越大越好，后者整体越小越好，在图像上表示就是曲线越接近左上角(0,1)坐标越好。

理想模型是真正例率为100%，假正例率为0%的一点。
随机猜测模型则是真正例率与假正例率持平的直线。
由此可知，在随机猜测模型左上方的曲线和在其右下方的曲线都代表了什么。（右下方的模型，还不如随机猜测准。）
性能度量的方法：绘制ROC曲线
当曲线没有交叉的时候：外侧曲线的学习器性能优于内侧；
当曲线有交叉的时候：比较ROC面积，即AUC。

6. AUC值的计算

AUC(Area under Curve)：Roc曲线下的面积，介于0.1和1之间AUC作为数值可以直观的评价分类器的好坏，值越大越好。

首先AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

方法一：定义法

从定义可知，AUC可通过ROC曲线下各部分的面积求和而得。假定ROC曲线是由坐标为{(x1,y1), {(x2,y2),…,{(xm,ym)}的点按序连接而形成(x1=0, xm=1),则AUC可估算为：

AUC=0.75

方法二：排序损失法

形式化地看，AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系。给定m^+个正例和m^−个反例，令D^+和D^−分别表示正、反例集合，则排序“损失”(loss)定义为：

所以：AUC=1-0.25=0.75

方法三：排序收益法

方法四：排序法

ri :第i条样本的序号（概率得分从大到小排序，排在第r个位置）
n0,n1:负样本和正样本的个数

7. 代价敏感错误率与代价曲线

为均衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”(unequal cost)

以二分类为例，引入了“代价矩阵”（cost matrix）：

在非均等错误代价下，我们希望的是最小化“总体代价”，这样“代价敏感”的错误率:

同样对于ROC曲线，在非均等错误代价下，演变成了“代价曲线”，代价曲线横轴是取值在[0,1]之间的正例概率代价，式中p表示正例的概率，纵轴是取值为[0,1]的归一化代价。

代价曲线的绘制：

ROC曲线上取一个点(FPR,TPR)；
取相应的(0,FPR)和(1,FNR)，连成线段；
取遍ROC曲线上所有点并重复前步骤；
所有线段的下界就是学习器期望总体代价。
实际上就是通过将样例为正例的概率p设为0和1，来作出曲线的所有切线，最后连成曲线。

四、比较检验

1.性能比较的三个要素

1.希望比较的和实际获得的性能并不相同，两者对比结果也可能不会相同。

2.测试集的性能与测试集本身的选择有很大关系，也就是说，测试数据好，性能就好，数据不好，性能也跟着不好。

3. 很多机器学习算法都具有随机性，相同的参数、相同的测试集，运行多次，结果却不同。

注：直接选取相应评估方法在相应度量下比大小的方法不可取！

2.假设检验

由于泛化错误率与测试错误率比较接近，因此，可根据测试错误率估推出泛化错误率的分布。
泛化错误率为ϵ 学习器被测得测试错误率为ϵ ^ 的概率:

比较检验的重要方法是统计假设检验

数理统计学中根据一定假设条件由样本推断总体的一种方法。在总体的分布函数完全未知或已知其形式，但不知其参数的情况，为了推断总体的某些未知特性，提出某些关于总体的假设。我们要根据样本对所提出的假设作出是接受还是拒绝的决策。

假设检验四步走：

1、条件：满足情况。（总体的分布函数完全未知或已知其形式，但不知其参数）
2、目标：以推断总体的某些未知特性为目标。
3、方法：提出某些关于总体的假设。
4、行动：根据样本对所提出的假设作出是接受还是拒绝的决策

问题：假设检验在机器学习的【比较检验】中究竟如何应用呢？

分为四步加以分析：

（1）估计假设精度

在评估一个假设时，我们一般更感兴趣：

估计其对未来实例的分类精度知道这一精度估计中的可能的误差（即与此估计相联系的误差门限）

定义学习问题的框架如下：

有一多有可能实例的空间X，其上定义了多个目标函数。假定X中不同实例具有不同的出现频率，即存在一个未知的概率分布D。学习任务是在假设空间H上学习一个目标函数f。

确切区分两种精度（或两种错误率）：

离散值假设的置信区间：

要基于某离散值假设h 在样本S 上观察到的样本错误率，估计它的真实错误率，其中：

样本S 包含n 个样例，它们的抽取按照概率分布D，抽取过程是相互独立的，并且不依赖于h

n≥30

假设h 在这n 个样例上犯了r 个错误（errorS(h)=r/n）

（2）采样理论基础

测量样本错误率相当于在作一个有随机输出的实验。我们先从分布D 中随机抽取出n 个独立的实例，形成样本S，然后测量样本错误率errorS(h) ，如果将实验重复多次，每次抽取大小为n 的不同的样本Si，将可以得到不同的errorSi(h)的值，它取决于不同Si 的组成中的随机差异。这种情况下，第i 个这样的实验的输出errorSi(h)被称为一随机变量（random variable）。一般情况下，可以将随机变量看成一个有随机输出的实验。

设想要运行 k 个这样的随机实验，测量随机变量errorS1(h) ，errorS2(h)，⋯⋯，errorSk(h)。然后我们以图表的形式显示出观察到的每个错误率值的频率。当k 不断增长，该图表将呈现二项分布。

即对于足够大的样本，二项分布可以很好地由正态分布来近似：

置信区间：某个参数 p 的N％置信区间是一个以N％的概率包含p 的区间

推导置信区间的一般方法：

确定基准总体中要估计的参数p，例如errorD(h)。
定义一个估计量Y（如errorS(h)）它的选择应为最小方差的无偏估计量。
确定估计量所服从的概率分布DY，包括其均值和方差。
确定N％置信区间，通过寻找阈值L 和U 以使这个按DY 分布的随机变量有N％机会落入L 和U 之间。

在包含了 m 个样本的测试集上，【泛化错误率为ϵ的学习器】被测得测试错误率为ϵ ̂ 的概率为：

给定泛化错误率后，测试错误率与样本数的乘积（即测试错误数）是一个典型的二项分布

（3）多次训练/测试的检验-t检验

考虑到这 k个测试错误率可以看做泛化错误率ϵ的独立采样，则变量：

服从自由度为 k−1的t分布。

（4）交叉验证 t 检验

对两个学习器A和B，使用 k 折交叉验证法得到的测试错误率分别为ϵ i A \epsilon_i^AϵiA和ϵ i B \epsilon_i^BϵiB。
对 k 折交叉验证产生的 k 对测试错误率:先对每对结果求差，Δ i = ϵ i A − ϵ i B \Delta_i=\epsilon_i^A-\epsilon_i^BΔi=ϵiA−ϵiB, 若两个学习器性能相同，则差值均值班为零。对"学习器 A 与 B 性能相同"这个假设做 t 检验，在显著度 α 下，若变量为：

小于临界值则假设不能被拒绝，即认为两个学习器的性能没有显著差差别; 否则可认为两个学习器的性能有显著差别，且平均错误率较小的那个学习器性能较优。

（5）McNemar 检验

学习器 A 和 B 的测试错误率列联表为：

我们可以构建自由度为 1 的 χ2 分布，

（6）Friedman检验与 Nemenyi后续检验

为解决一组数据集上的多个算法比较，我们构建基于算法排序的Friedman 检验。

N是数据集的个数，k是算法的个数。在 k 和 N 都较大时，服从自由度为 k-1 的 χ2 分布.
常用的Friedman 检验为：

若"所有算法的性能相同"这个假设被拒绝，则说明算法的性能显著不同.这时需进行"后续检验" (post-hoc test)来进一步区分各算法.常用的有 Nemenyi 后续检验。
Nemenyi 检验计算出平均序值差别的临界值域：

五、偏差与方差

偏差：指的是预测的期望值与真实值的偏差，度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；（准确度）

方差：每一次预测值与预测值的期望之间的差均方，度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；（稳定性）

噪声：表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。（难度）

偏差一方差分解说明，泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。

偏差-方差窘境：

此图说明了什么问题呢？

给出了寻找最优平衡点的数学描述。若模型复杂度大于平衡点，则模型的方差会偏高，模型倾向于过拟合；若模型复杂度小于平衡点，则模型的偏差会偏高，模型倾向于欠拟合。

你可能感兴趣的:(机器学习,机器学习,人工智能,jupyter,python)

python中的scatter()函数用法品易HTTP python javascript css js 人工智能
若是现在已经对数据化有了解的话，那就一定要来参与看看本章要学习的函数，在样式以及排版上效果还是很好的，经常被用于测试数据上的大小更改以及设置不同颜色，还有时候，对于线条的宽度的更改也都需要利用到这个函数，以上基本就是本章函数的基本用法了，下面进行详细讲述。制作如图所示图片：需要准备：X、Y轴包括数值以及大小和颜色调用语法：plt.scatter()实现代码：importmatplotlibasmp
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
远程调试Python脚本之ptvsd 工头阿乐 PyTorch 深度学习 python 开发语言
深度学习文章目录深度学习前言前言有时候需要远程调试Python脚本，怎么办呢…以下这段代码用于远程调试Python脚本，特别是通过VisualStudioCode（VSCode）的远程调试功能。它会在指定的服务器IP和端口上等待调试器的连接。#检查是否提供了服务器IP和端口ifargs.server_ipandargs.server_port:#远程调试-参见https://code.visual
【Python】爬取高校数据（名字，院校特色，所在地，性质）。可用于判断高校是否为双一流，本科/专科等分析 llzcxdb Python python 开发语言爬虫
源网站：http://college.gaokao.com/schlist/p1利用Python的lxml库进行html解析，源代码：importrequestsfromlxmlimportetreeimportpandasaspdimportcsv#请求URLurl='http://college.gaokao.com/schlist/p'#构建请求头headers={'User-Agent':
electron 源码下载与编译构五一编程学习交流 electron javascript 前端 webrtc c语言 c++
electron源码下载与编译构建预先安装安装nodejs下载eletron构建工具：安装python构建Electron基本要求环境依赖交叉编译构建故障排查高级提示使用clang之外的其它编译器electron的depot_tools工具下载构建源码。这个工具是用nodejs写的，封装了chromium自身的depot_tools工具。非常方便易用。主要是electron在下载完chromium
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
编程提示异常就不用挨个度娘了——Python初识必备爱码小士 Python 网络爬虫机器学习 web开发人工智能
相信对于很多小白，新手对一些异常提示，都不一定明白其含义，所以给大家整理了这样一份中英对照表，对大家一定有所帮助，当然最好都能熟记于心，这样就不用再去一个个度娘了，觉得这个表不错就点个赞加转发吧，文末更多福利异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)Exception常规错误的基类StopI
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
python tcl,Python tcl没有正确安装邓永泉 python tcl
Ijustinstalledgraphics.pyforpython.Then,whenItriedtorunthefollowingcode:fromgraphicsimport*defmain():win=GraphWin("MyCircle",100,100)c=Circle(Point(50,50),10)c.draw(win)win.getMouse()#Pausetoviewresul
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟