段小辉

数据挖掘入门系列教程（六）之数据集特征选择

数据挖掘入门系列教程（六）之数据集特征选择
- 简介
- 加载数据集Adult
- 特征选择
  - 方差
- 选择最佳特征
  - 卡方验证$X^2$（Chi-Square Test）
  - 皮尔逊相关系数（Pearson Correlation Coefficient）
  - PCA 主成分分析
- 总结
  - 参考：

数据挖掘入门系列教程（六）之数据集特征选择

这一篇博客主要来如何介绍从数据集中抽取合适的特征。

我们知道，在数据挖掘中，数据的训练算法很重要，但是同样我们对于数据的前置处理也不可忽视。因为我们对某个数据集的描述是使用特征来表示的。在前面的博客中无论我们是获得商品交易的相关性关系，还是使用决策树去对Iris进行分类，我们都是使用了数据集中所有的特征。但是实际上我们获取的数据真的有这么好吗？

举个例子，我们对西瓜进行分类，但是西瓜的编号实际上与训练毫无关系，因此我们会训练之前将去掉西瓜的编号。我们之所以去掉编号，是因为我们知道这个编号与西瓜的好坏毫无关系。但是如果给你一个陌生的数据集，有着成百上千的特征，我们又如何去除无关的数据特征得到有用的特征然后进行训练？

凭感觉？这里有两个问题：

数据集太大，这个太耗费人力
如果某个关键的特征取值很相近（或者相同）怎么办

这里说一下第二个问题。举个例子，西瓜的好坏与西瓜的颜色有关，但是如果你的数据集中西瓜的颜色全部一样，你还要不要使用这个特征进行训练呢？

肯定有人说，要！！但是如果这种特征取值相似的特征有1000个，你还要不要呢？在前面的博客中，我们可以看到使用Apriori算法进行计算，一旦$K$的值增大，基本上轻薄本就算不动这个数据了！

简介

通过前面的学习我们知道，无论是交易数据，还是Iris数据，他们都是一个一个的实体（视频，声音，文本也是），我们会通过选择一个一个的特征来描述某一个实体，这可以说是建模，同时这个模型的表示能够让数据挖掘的算法能够理解。

如何选择一些好的特征，这个也就是这篇博客要讨论的话题（本篇博客是探讨探讨如何从已有的特征中选择好的特征【也就是简化模型】，而不是自己去从数据集中（比如说声音）去寻找特征）。

这样做有什么好处呢？最简单的一个就是它能够降低真实世界的复杂度。比如说我要描述一个苹果长什么样，我肯定不需要去了解苹果是从哪里买的。但是同样也有缺点，因为我们在简化的过程中，可能会忽略某一些特征，但是这些特征可能刚好有着某一些有用的信息。

特征可以初略的分为两个类型：

数值型：数值特征，比如说Iris的花瓣长度是多少等等
类别型：类别特征（也可以称之为名义特征）比如说西瓜的颜色是浅绿色还是深绿色

对于数值型特征来说，如果两个特征值相差很小，则可以认为这两个特征很相似，但是对于类别型的特征值而言，没办法说他们是否相似，因为他们要不相同，要不不相同。因为名义特征没办法进行数学上的计算，因此我们可以将它们进行二值化变成数值特征。

同样反过来，数值型特征也可以通过离散化变成类别特征，比如说花瓣长度大于某一个值为类别0，反之则为类别1。但是很明显，这样会丢失一些数据细节。

下面将以不同的数据集为例，介绍一些用来简化模型的算法。

加载数据集Adult

数据集来自这里，同样在我的GIthub中也存在这个数据集。我们下载如下的数据集：

在adult.data中的部分数据如下，每一行代表的是一个人的数据，每一列表示的特征属性值（至于特征是什么，这个在adult.name文件中有介绍）：

，现在我们就可以使用python来加载数据集了。使用pandas，这个前面已经介绍了。

import pandas as pd
adult_data = pd.read_csv("Data/adult.data",header=None,names=["age","workclass","fnlwgt","education","education_num","marital-status","occupation","relationship","race","sex","capital-gain","capital-loss","hours-per-week","native-country","money"])

names表示的就是每一个特征的名字。adult_data的数据如下。特征代表什么意思，基本上通过特征名就可以理解了。如果不理解的可以看adult.name文件。最后一个特征为money，他是分类结果，含义是他每年的收入是否大于50K。

同样我们可以获得某一个特征的一些数学量（比如说平均值，标准差，等等），以hours-per-week为例：

同样我们可以获得方差：

也可以获得方差：

数据分布如下：

同样，我们可以得到某一个特征的所有取值情况，在这里我们查看职业“occupation”的取值有哪一些：

?代表数据缺失。

特征选择

如何选择一个好的特征，这个是一门技术活，同样也是一门艺术活，因为特征的选择不是唯一的，也不是维持不变的，它需要根据我们的需求发生改变。比如说我们判断一个人的成绩好不好，肯定不需要知道他的名字。特征有很多，我们弱水三千，只取一瓢，原因如下：

降低复杂度：特征越小，我们耗费的计算时间也就越少。
降低噪音：比如说西瓜分类中，西瓜的id就毫无作用。
增加模型的可读性。

特征的选择有很多方法，下面介绍一些常用的简单的方法。

方差

我们可以很容易的理解，如果某一个特征的特征值都一样，或者说相互之间都很相似，那么我们可以理解为这个特征并没有提供什么有用的信息给我们，因此我们可以去掉这一个特征。那么如何判断是否特征值是否相似，emm，方差可以做到这个。

在scikit-learn中提供了VarianceThreshold转换器用来去除方差小于某一个阈值的列，具体的使用可以看官网。使用示例如下：

import numpy as np
X = np.arange(30).reshape((10, 3))

创建一个$10 \times 3$的矩阵。

然后我们对矩阵进行更改，将第二列的所有值都设为1：

X[:,1] = 1

然后我们使用转换器对数据集进行处理：

from sklearn.feature_selection import VarianceThreshold
# threshold代表的就是阈值，默认是0.0
vt = VarianceThreshold(threshold=0.0)
Xt = vt.fit_transform(X)

转换后的数据如下：

我们可以看到第二列的已经被去除了。

在VarianceThreshold有两个重要的函数：fit和transform，这些说明官网都有，这里稍微的啰嗦以下。fit函数是去计算array的方差，而transform函数就是去转换array数组，将反差小于阈值的去除。

我们可以通过variances_去查看具体的方差是多少。

以上面的adult.data数据为例，我们只使用数值类型数据对money进行预测。

首先，我们使用原始的数据进行预测：

在下面X的数据全部都是数值类型的数据。然后构建一个决策树，然后使用交叉验证得到预测的准确度。

X = adult_data[["age","education_num","capital-gain","capital-loss","hours-per-week"]]
Y = adult_data["money"]
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, X, Y, scoring='accuracy')
score.mean()

结果为：

然后我们使用转换器去除阈值小于200的方差。然后再构建一个决策树。

from sklearn.feature_selection import VarianceThreshold
X = adult_data[["age","education_num","capital-gain","capital-loss","hours-per-week"]].values
Y = adult_data["money"]
vt = VarianceThreshold(threshold=200)
Xt = vt.fit_transform(X)

# 构建决策树
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, Xt, Y, scoring='accuracy')
score.mean()

最后预测的准确度为：

比不处理特征提高了$2\%$左右，还行。不错不错~~

选择最佳特征

如何选择最佳的几个特征，在Apriori算法中我们已经见识到了，同时寻找几个最佳的特征还是挺耗费计算资源的，因此我们可以换一个方向，一次寻找一个特征（单变量），然后再选择几个比较好的特征。

在scikit-learn中提供了几个用于选择单变量特征的选择器。

SelectKBest：选择k个最佳的特征。
SelectPercentile：选择最佳的前r%g个特征。

下面将以几个选择方法来举例说明。

卡方验证$X^2$（Chi-Square Test）

卡方验证是什么，如果不知道的话非常建议看一看这一位博主的博客：结合日常生活的例子，了解什么是卡方检验。简单点来说，就是可以验证我们的假设是否正确。

计算公式如下：

\[X^2 = \sum\frac{(观察次数 - 理论次数)^2}{理论次数} \\ 理论次数也就是在假设成立的情况下，应该发生的次数。 \]

然后我们就可以根据自由度，$X^2$，通过卡方表去判断我们假设的置信度。总的来说，$X^2$越小（在自由度相同的情况下），表示错误决策假设的概率越低。

卡方表如下，$\alpha$表示的是错误拒绝假设的概率（$1-\alpha$也就是假设成立的概率），$n$表示的是自由度，红色框框表示就是$X^2$

还是以上面的数值型数据举例：

我们使用卡方验证从里面选取前3个最好的特征。在sklearn中的卡方验证，做出的$H_0$假设（The null hypothesis）默认代表两个变量之间相互独立（解释来自stackoverflow）。这样也就是说$X^2$的值越大也就代表着变量之间越相互依赖，也就是对数据挖掘的作用越大。more userful

X = adult_data[["age","education_num","capital-gain","capital-loss","hours-per-week"]].values
Y = adult_data["money"]

from sklearn.feature_selection import SelectKBest
# 导入卡方验证
from sklearn.feature_selection import chi2
# 选取前3个最好的节点
transformer = SelectKBest(score_func=chi2,k=3)
X_chi2 = transformer.fit_transform(X,Y)
transformer.scores_

卡方验证计算的结果如下：

同样，我们可以得到卡方验证的最大值的三个特征（也就是第1，3，4项特征）去构建决策树。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, X_chi2, Y, scoring='accuracy')
score.mean()

最后的精准度为：

emm，比方差的方法稍微差了一点。

皮尔逊相关系数（Pearson Correlation Coefficient）

皮尔逊相关系数具体是什么可以参考百度百科，或者其他博主的博客。在这里只简单的介绍一下。皮尔逊系数主要是描述X与Y之间的关系，其值介于$-1与1$之间。

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

计算公式如下：

\[\begin{equation} \begin{aligned} &整体相关系数计算如下 \\ & \rho_{X,Y} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \\ &= \frac{E((X - E(X)(Y-E(Y))}{\sqrt{D(X)}\sqrt{D(Y)}} \\ &其中，E为数学期望，D为方差。Cov(X,Y)表示的X与Y的协方差。\\ &基于样本对协方差和方差进行估计，可以得到样本标准差：\\ & r =\frac{\sum_{i=1}^{n}{[(X_i - E(X)(Y_i-E(Y)]}}{\sqrt{\sum_{i=1}^{n}{(X_i-E(X))^2}}\sqrt{\sum_{i=1}^{n}{(Y_i-E(Y))^2}}} \\ & 等价于 \\ &r = \frac{1}{n-1}\sum_{i=1}^n[(\frac{X_i - E(X)}{\sqrt{D(X)}})(\frac{X_i - E(X)}{\sqrt{D(Y)}})] \end{aligned} \end{equation} \]

至于怎么实现这个我们可以使用Scipy库。具体使用如下：

from scipy.stats import pearsonr
def pearsonr_fit(x,y):
    scores=[]
    p_values = []
    for column in range(X.shape[1]):
        # cur_p表示的双侧p值，x[:,column]表示的是X中的某一列
        # 然后计算X中的某一列与y之间得到关系，返回相关系数和p_value
        cur_score,cur_p = pearsonr(x[:,column],y)
        # 因为相关系数可能为负数，所以取绝对值
        scores.append(abs(cur_score))
        p_values.append(cur_p)
    return (np.array(scores),np.array(p_values))

然后我们通过调用这个函数就可以获得X中的每一列与y之间的关系，然后返回最佳的几个特征。

import numpy as np
X = adult_data[["age","education_num","capital-gain","capital-loss","hours-per-week"]].values
# 这里不使用">50K"等字符串是因为pearsonr不接受字符串数据。
Y = adult_data["money"] == " >50K"
transformer = SelectKBest(score_func=pearsonr_fit,k=3)
X_pearsonr = transformer.fit_transform(X,Y)

具体的皮尔逊系数如下：

在这里皮尔逊系数越大，代表两个变量越相关，也就是对于数据挖掘越有作用。因此我们选择第1，2，5项特征。

最后构建决策树：

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, X_pearsonr, Y, scoring='accuracy')
score.mean()

得到的结果为：

emm，更低了。

PCA 主成分分析

在前面的几个方法中，我们都是从已有的特征中选择最佳的一个（或者几个）特征然后进行数据挖掘进行训练。但是我们没有考虑一个问题，如果特征之间联系紧密怎么办（比如说性别可以由两个特征表示，一个特征表示是否是男的，另外一个特征表示是否是女）？有人会说，这个有什么关系，都进行训练就行了。这样做确实是没有关系，但是我们不得不考虑计算机的计算能力是有限的，如果我们能够使用最少的信息（去除某一些相似的特征）尽可能的描述数据集的特征，这样必将大大的降低数据集的冗余程度。

这里我们使用广告的数据集：http://archive.ics.uci.edu/ml/machine-learning-databases/internet_ads/，同样在我的GIthub中也有这个数据集。稍微的解释一下这个数据集：

这个数据集从0到1557 都是一些网络图像的特征比如说URL，长宽，ALT等等特征（这些特征有很多相似的特征），然后第1558代表着这个图片是不是广告。

首先我们还是从处理数据集开始：

import pandas as pd
import numpy as np
from collections import defaultdict

def convert_number(x):
    try:
        return float(x)
    except ValueError:
        return np.nan
    
converters = defaultdict()
for i in range(1559 -1):
    converters[i] = convert_number
converters[1558] = lambda x:1 if x.strip() == "ad." else 0

ads_data = pd.read_csv("Data/ad.data",header=None,converters=converters)

首先我们将数据从字符串转成float类型，然后将"ad."转换成1代表有广告，0代表没有广告。但是这里有一个问题，那就是在前面的一些特征可能缺失了（使用❓表示），因此我们使用NaN表示缺失的数据。

处理后的数据集如下：

然后我们去除为NaN的数据：

data = ads_data.dropna(axis=0,how='any')
X = data.drop(1558,axis=1).values
Y = data[1558]

取出后的X数据集大小为：

首先我们什么特征都不去除，使用决策树进行预测：

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, X, Y, scoring='accuracy')
print("准确度是：{}".format(score.mean()))

结果为：

前面我们介绍过这个ad的数据集里面肯定有很多的冗余信息，那么我们如何去除冗余信息，这里我们选择PCA算法（主成分分析算法Principal Component Analysis），目的是用较少的信息描述数据集的特征组合。具体的PCA算法可以看一下这个博主的博客：主成分分析（PCA）原理详解。

至于使用，我们可以使用sklearn中自带的库进行操作。

from sklearn.decomposition import PCA
# n_components 表示的组成分的数量，默认返回数据集中所有的特征
pca = PCA(n_components=5)
Xd = pca.fit_transform(X)

返回的结果就是主成分，根据方差的大小从大到小排序。方差越大，代表着这个特征越能够解释数据集中的大部分信息。我们可以查看每个特征的方差：

pca.explained_variance_ratio_

其中第一个特征的方差对数据集总体方差的贡献率为$85.36\%$。后面的依次递减。

用PCA算法处理数据一个不好的地方在于，得到的主成分往往是其他几个特征的复杂组合，
例如，上述第一个特征就是通过为原始数据集的1558个特征（虽然很多特征值为0）分别乘以不
同权重得到的，前三个特征的权重依次为- 0.092、 - 0.995和- 0.024。经过某种组合得到的特征，
如果没有丰富的研究经验，理解起来很困难。 ——《Python数据挖掘入门与实践》

然后是用决策树进行分类：

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
dtc = DecisionTreeClassifier(random_state=14)
score = cross_val_score(dtc, Xd, Y, scoring='accuracy')
print("准确度是：{}".format(score.mean()))

结果为：

比使用所有特征的准确度稍微差了一点（差了约$0.3 \%$），但是使用的特征却大大的减少了（一个是使用了1557个特征，一个是只使用了5个特征）。总的来说结果还是不错的。

我们也可以通过画图来表示前三个特征与ad和noad的关系：

from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
data = ads_data.dropna(axis=0,how='any')
Y = data[1558]
classes = set(Y)
colors = ['red', 'green']
fig = plt.figure()
ax = Axes3D(fig)

for cur_class, color in zip(classes, colors):
    mask = (Y == cur_class).values
    ax.scatter(Xd[mask,0], Xd[mask,1],Xd[mask,2],color=color, label=int(cur_class),marker='o')

plt.legend()
plt.show()

总结

这篇博客主要是介绍怎么从数据集种提取出好的特征降低数据集的复杂度和冗余度。涉及了：

方差
卡方验证
皮尔逊相关系数
PCA算法

看起来实现并不难，那是因为有了很多优秀的框架已经帮我们做好了这些事情。这样节约了我们写代码的时间，避免重复造轮子，但是这样并不代表我们会用就行，我们真正应该做的是理解里面的原理和背后的数学知识，知其所以然。

项目地址：GitHub

参考：

《Python数据挖掘入门与实践》
主成分分析（PCA）原理详解
百度百科——皮尔森相关系数
结合日常生活的例子，了解什么是卡方检验
Sklearn Chi2 For Feature Selection

你可能感兴趣的:(数据挖掘入门系列教程（六）之数据集特征选择)

react native 之自定义顶部导航栏，实现标题居中可控铁柱同学 React Native react native基础讲解 react-native 导航栏标题居中
本来一直用的都是RN自带的组件react-navigation，但是后面需求有变，需要顶部导航栏目的标题可以自己控制，同一页面的标题根据数据库查出来的内容变化。因此自定义了一个导航栏目，实现需求。关于RN自带的顶部导航栏以及底部导航栏目，请看我的另一篇博客，地址：http://blog.csdn.net/ljfphp/article/details/77940284一、背景1、根据需求，要求点击列
设计模式的详细介绍
目录六大原则（1）单一职责原则：（2）开闭原则：（3）里氏替换原则：（4）依赖倒置原则：（5）迪米特法则：（6）接口隔离原则：总结单例模式工厂模式简单工厂模式工厂方法模式抽象工厂模式建造者模式代理模式六大原则（1）单一职责原则：类的职责应该单一，一个方法只做一件事。职责划分清晰明了，每次改动到最小单位的类或者方法。使用建议：两个完全不一样的功能不能放在一个类中，一个类应该是一组相关性很高的函数、数
《历史》与《战国策》札记（二百六二）刘子曰_b08e
长驱到齐，晨而求见。孟尝君怪其疾也，衣冠而见之，曰：“责毕收乎？来何疾也!”曰：“收毕矣。”“以何市而反？”冯谖曰：“君云‘视吾家所寡有者’。臣窃计，君宫中积珍宝，狗马实外厩，美人充下陈。君家所寡有者以义耳!窃以为君市义。”孟尝君曰：“市义奈何？”曰：“今君有区区之薛，不拊爱子其民，因而贾利之。臣窃矫君命，以责赐诸民，因烧其券，民称万岁。乃臣所以为君市义也。”孟尝君不说，曰：“诺，先生休矣!”冯谖
Extreme values modelling 绪论 Liam_ml
极端值建模和估算是各种应用领域的重要挑战，例如环境，水文，金融，精算科学。样本的极端部分可能非常重要。也就是说，它可能表现出更大的潜在风险，例如高浓度的空气污染物，洪水，极端索赔规模。一般而言，极端之建模有三个方面：UnivariateExtremeValueTheory:单变量极值理论。BivariateExtremeValueTheory:双变量极值理论MultivariateExtremeV
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
【Bluedroid】蓝牙启动之 btm_acl_device_down 流程源码解析 byte轻骑兵 Android C++Bluedriod Andriod
本文详细分析Android蓝牙协议栈在设备故障时的处理流程。当蓝牙设备发生硬件故障或系统异常时，协议栈通过btm_acl_device_down触发多层次的资源清理和状态重置，包括ACL连接终止、L2CAP通道释放、SCO连接清理、BLE拓扑更新、设备数据库重置等关键操作，确保系统安全恢复。一、概述1.1蓝牙核心控制块与故障处理框架蓝牙协议栈通过全局控制块tBTM_CB实现跨模块状态管理，其整合了
2020-02-10 南窗竹
昨天老公去商场买菜时，听说村子都封村了。老公说返工又延期了。是呀！在这节骨眼上，企业主真的不敢擅自开工。我希望老公能在这种日子里养胖几斤。这些年他一直都很操劳，又经历太多事太多变故了，身材一直保持着，瘦瘦的。我知道他胖起来肯定很帅，我也不用被别人说结婚这么多年，没能把他养胖一些。六点半，两贝就起床了。大贝要开始上课，小贝被我昨天骗着说今天需要网课，她也起床了。两个妞都有过来房间看我。只是当我说帮我
西游记花上的露珠
孙悟空是石猴出世的，在它出生时，把玉皇大帝都惊动了，它又当上了美猴王。它出门求学，要学一个长生不老之术，它在班里面不安静，师傅敲了三下，三更半夜跑到师傅那，师傅教了它七十二变。因悟空卖弄被师傅赶出家门。图片发自百度悟空去龙王那里索取兵器。龙王不好推辞就给了他一把大刀，悟空不会使刀，又给了一个九股叉来，悟空觉得特别轻，不要。又给了一个方天戟，悟空觉得不趁手，又不要，又给了金箍棒，悟空才要。图片发自A
C语言易错点（二） WangJiaLeLeLeLe c语言开发语言
目录一、两个转义字符二、除法和取模操作符三、大小端字节序四、printf的传参五、位段六、枚举八、预处理、编译、链接九、写一个宏，交换一个数二进制位的奇偶位十、offsetof宏的实现——计算某结构体相对于首地址的偏移量十一、C语言头文件中的ifndef/define/endif的作用？十二、动态内存错误一、两个转义字符1、/060，‘/’跟三位数字表示将这个数字转为八进制数字，其对应ASCII码
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
git 入门格林姆大师
git入门学习笔记----3个入门命令：gitinit、gitadd、gitcommit-v学习场景（首次在github上创建newrepository）：…orcreateanewrepositoryonthecommandlineecho"#blog-02">>README.mdgitinitgitaddREADME.mdgitcommit-m"firstcommit"gitremoteadd
《红楼梦》之杨藏本（梦稿本）（之五）青埂峰下有情郎zjy
《红楼梦》之杨藏本（梦稿本）（之五）青埂峰下有情郎zjy文化领域创作者此处所谓“改本”及“兰墅定本”，应是相指1791年以后的程、高排印本而言，后面将再提到此点。在第103回第二页，有红笔勾抹一处，并添一“后”字。这是杨藏本中第三次出现红笔字。此外抄本中很多地方都有“杨继振”或“又云”的印鉴。这些印鉴多半都是表示在各册中原抄本起讫之处。检视杨藏本通篇文字，原抄本最初似乎是经过两道工序。第一道是一行
“希望是比钻石更珍贵的，在当下最需要的东西”，袁明辉《六项精进》打卡学习273天 YuanWelldon
流浪地球流浪地球姓名：袁明辉公司：宁波惠尔顿婴童安全科技股份有限公司364期学员组别：利他一组403期志工组别:谦虚一组宁波盛和塾8月月度学习会《用数字经营企业》志工宁波盛和塾道盛哲学全国企业家践行成果发表会志工【知～学习】背诵《六项精进大纲》3遍，共761遍。背诵《大学》3遍，共761遍。【经典名句分享】今天开启2019年农历新年计划一、修身1、背诵《般若波罗蜜多心经》0遍，共808遍2、陪女儿
中原焦点团队网络中级第19期吕娟坚持分享第333天我心安然无恙
2020年3月24号约练收获本周第一，二次，总第26，27次。初21课程复盘咨询流程:关系，目标，资源，一小步。平常多读书，有些知识也许短时间用不上，但是，可以先储存着。知识有时候用不上，属功利心太强了。生活中并不缺少美，只是缺少发现美的眼睛。授之以鱼，不如授之以渔，不如授之以欲。有些家长是灭欲的。(自以为是，还不愿承认)有时候家长会说:我吃的盐比你吃的米都多。问题是你吃的盐是多年前的盐，不是现在
AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活腾讯云开发者人工智能
目录：一、那些让程序员焦虑的"假消息"二、我们理解的工程师文化三、AI到底改变了什么四、程序员需要学什么新技能五、80后程序员vs00后程序员六、最好的时代永远在前方引言公司食堂里，一个产品经理和一个程序员正在讨论一个让行业都焦虑的话题："AI来了，你们程序员还有什么用？我直接对着机器说需求，它就能给我做出来，我还要你干嘛？你还要给我排期！"产品经理显得有些得意。"你对它说的话它听得懂吗？它生成的
出国不出国之公民教育海豚沁M
今天看了公民教育的一部分内容，完全颠覆了我对北美国家对于尊重认识，原来一句玩笑话:你的屁真臭，在北美的公民教育体系中就是不尊重的表现，要接受time-out惩罚，而且还是算比较严重的惩罚。回望我们身边，别说孩子，大人都有时候会说这样的玩笑话，可是在北美教育体系中，这就是品德教育的核心内容。
《皮皮鲁和鲁西西之罐头小人》豆瓣评分7.2；你认同成绩好就是好学生吗？以书之名
多年以后，当我回忆起那个背着双肩包的小女孩独自一人踩着布满落叶的季节的水泥地时，我的脑海里就会浮现那样一幅真实的画面：绑着一根长长的头发，身材高挑瘦小（经常被同龄人羡慕身材苗条，却被长辈们误以为家里穷没得饭吃饿瘦的），然而却并非如此。身材苗条是因为天生丽质，天生丽质难自弃。有些东西有些事情有些品格就是生来就有的，或者是上天赐予的，或者是幸运女神眷顾的，或者是命运早已安排好的。一如热映的喜剧欢乐电影
人不为吃，天诛地灭仍需历验
人不为吃，天诛地灭。但吃钱的来源，却是五花八门。正如“君子爱财，取之有道”之说。倘若，嗟（借）来之食，贷款之食，赊账之食，啃老之食……这个中的“美味”究竟有多少，也只有吃货们心知肚明。图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App
【日精进打卡第31天】扬州方圆__周亮
扬州方圆~~周亮【知～学习】复习水利考试基本知识《六项精进》3遍。累积93遍《大学》3遍。累积93遍【经典名句分享】积善行，思利他【行～实践】一、修身：（对自己个人）1、学习永无止境。二、齐家：（对家庭和家人）1、整理内务。三、建功：（对工作）1、在家休息。｛积善｝：发愿从2018年4月29日起2019年4月29日内完成730件善事。今日2善，累计62善。【省～觉悟】1、考试时间临近，抓紧复习，其
人生中的第一篇博客——梦开始的地方爱和冰阔落经验分享笔记
文章目录前言`一、自我介绍二、编程目标1.扎实掌握C语言2.深度挖掘C++三、编程学习时间的花费四、梦寐以求的大厂offer前言`写一篇博客记录自己从一直知道CSDN这个软件到自己真正开始用它写一篇博客来开启记录记录学习生活的风景提示：以下是本篇文章正文内容，下面案例可供参考一、自我介绍大家好！我是一名大一网络工程专业的小萌新，踏入编程世界的时间不长，目前只能算是刚入门的水平。虽然现在还只是“小小
lesson17：Python函数之递归、匿名函数与变量作用域
目录引言一、递归函数：用自身解构复杂问题1.递归的基本结构2.递归的典型应用场景3.递归的优缺点与优化二、匿名函数：用lambda实现“一句话函数”1.lambda与普通函数的区别2.lambda的典型应用3.lambda的局限性三、变量作用域：理解LEGB规则1、LEGB规则的深度解析（1）Local（局部作用域）（2）Enclosing（嵌套作用域）（3）Global（全局作用域）（4）Bui
lesson11：Python的字典及方法你的电影很有趣 windows python
目录前言一、字典的定义与核心价值创建方式：二、核心特性：键的规则与无序性演变1、键的不可变性与唯一性2、无序性与Python版本差异三、常用操作与方法全解析四、与列表/元组的对比：数据结构选型指南五、高级应用技巧六、避坑指南：常见错误与最佳实践总结前言在Python的“数据结构工具箱”中，字典（Dictionary）无疑是最灵活、最强大的工具之一。无论是存储用户信息、解析JSON数据，还是实现缓存
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
六项精进打卡11天王尚涛
每日打卡模板姓名：王尚涛公司：为福投资控股集团【日精进打卡第11天】【知～学习】《六项精进》纲要读1遍，共17遍《大学》读1遍共11遍《论语》第12-24页【经典名句分享】付出不亚于任何人的努力；要谦虚不要骄傲；每天都要反省；活着，就要感谢；积善行，思利他；不要有感性的烦恼；若无相欠，怎会相见；人不知而不愠，不亦君子乎；命由我作，福自己求；小人闲居为不善。言不及之而言谓之躁，言及之而不言谓之隐，未
【读书清单】《了凡四训》&积善之方幻岭之漫
1.与人为善说话做事，不只是为自己所想，而是立足于客观事实的，不有意在他人面前卖弄自己骄傲的智慧和才能2.爱敬存心君子和小人差别就在于尊重爱护众人的那份心。各种各样的人，都是我们的同胞，都是值得尊敬的3.成人之美看到一个人做好事，或看到他的志向可以支持，资质可以进步的，都要对他进行引导，最终能造就他们4.劝人为善在忙碌着追逐名利的人，容易迷失自我。与他们相处时要随时提醒他们帮他们摆脱疑惑。比如看到
lesson18：Python函数的闭包与装饰器（难）你的电影很有趣 python 开发语言
目录引言闭包：函数式编程的"状态容器"一、闭包的本质与定义二、闭包的三大形成条件三、闭包的工作原理：变量的“持久化”四、闭包的核心应用场景五、闭包的注意事项六、闭包与装饰器的关系装饰器：基于闭包的功能增强工具一.装饰器的定义与作用二.装饰器的实现原理（基于闭包）三、装饰器进阶：灵活扩展功能1.带参数的装饰器2.保留函数元信息3.类装饰器与装饰器嵌套四、装饰器实战案例案例一：时间开销计算（性能监控）
每日一读（子产不毁乡校）考文学
编辑|考文学排版|考文学子产不毁乡校《左传》郑人游于乡校（1），以论执政（2）。然明谓子产曰（3）：“毁乡校，何如？”子产曰；“何为？夫人朝夕退而游焉（4），以议执政之善否。其所善者，吾则行之；其所恶者，吾则改之，是吾师也，若之何毁之？我闻忠善以损怨（5），不闻作威以防怨(6)。岂不遽止(7)？然犹防川(8)：大决所犯，伤人必多，吾不克救也；不如小决使道(9)，不如吾闻而药之也(10)。”然明曰：
日常记录小梦想mzy
2022年6月1日周三高温你好六月，又是一个新的开始，一个充满希望，充满期望的日子。今天是属于孩子们的节日，属于自己童年的节日，六一儿童节是多么快乐的日子！在这一天，孩子们做着快乐的事儿，大人们可放下工作，专心陪着孩子，一起做游戏，一起读书，一起运动，一起去公园，爸爸妈妈最爱看到孩子们那开心的笑脸，最温暖的陪伴就是孩子最需要的礼物。当父母老去，孩子们长大了，六一儿童节的快乐却是每个人生命中最难忘的
Kubernetes K8S之资源控制器RC、RS、Deployment详解 LightZhang666 kubernetes ci/cd devops kubernetes k8s devops ci/cd docker
Kubernetes的资源控制器ReplicationController（RC）、ReplicaSet（RS）、Deployment（Deploy）详解与示例主机配置规划服务器名称(hostname)系统版本配置内网IP外网IP(模拟)k8s-masterCentOS7.72C/4G/20G172.16.1.11010.0.0.110k8s-node01CentOS7.72C/4G/20G172
《度五行》生活报报甲辰537：用五行平衡理论探究世界治理的可能性 YangduSam2021
231013癸卯壬戌甲辰，20231013周五，兴大上海六班2941天，西交大2013上海班3641天，后TA15761天，度生活1041天，《度.生活五行》:天干，壬癸劫财；卯戌合，卯辰穿，辰戌冲。这几年最大的感受就是乱，从小到大，从近到远的乱。笔者的以为是：就要乱成一锅粥了。突然想起自做的五行研究题目：用阴阳五行平衡理论探讨世界治理的可能性。阴阳五行是中国古代哲学中的重要思想，强调的是一种平衡
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

数据挖掘入门系列教程（六）之数据集特征选择