song430

Feature Engineering for Machine Learning 机器学习中的特征工程（二）

第二章是Fancy Tricks with Simple Numbers
目录如下：
（1） Scalars, vectors, and Spaces
（2） Dealing with Counts
（3） Log Transformation
（4） Feature Scaling or Normalization
（5） Interaction Features
（6） Feature Selection
本章介绍的是对于数值的处理技巧。数值型的数据首先可以观察数据的正负，跨度（scale），对于采用欧式距离的模型，对数据进行标准化（normalize）可以使输出在期望的跨度。
逻辑表达式对输入数据的跨度不敏感。决策树模型包含输入特征的阶跃函数，因此，基于空间分割的树模型（决策树，梯度提升树，随机森林）是对输入数据的跨度不敏感，唯一例外的是输入的跨度会随时间增大。
考虑数值的分布也很重要。比如，线性回归模型的训练过程假设预测误差是高斯分布的，但是当预测目标扩展到几个数量级就不好了。解决这个问题的一种方式是做对数变换或指数变换。
另外，还可以对多个特征组合成更复杂的特征，从而使得模型更简单，易于训练，同时使得输出结果更好。复杂特征是统计模型的输出，这叫作“model stacking”。
（1） Scalars, vectors, and Spaces
一个单个的数字被称为标量（scalars），一个标量列表被称为向量（vector）。一个向量通常可以可视化成空间中的一个点，比如向量 $v = [1, - 1]$ ，可以表示成下图。

在数据的世界中，抽象的向量和特征维度都是具有实际意义的，每一首歌都是一个特征，1表示喜欢，-1表示不喜欢，收集的数据就可以可视化成特征空间中的点云。
下面左边的图是2个特征，4个样本。右边是4个特征，2个样本（Alice， Bob）。

（2） Dealing with Counts
在现今这个大数据时代，数据可以快速增长而不受约束，可能就会包含一些极值，最好检查并确定是否将数据保留为原始数字，或者转换成二进制来指示它们的存在，或者分成更粗的粒度。
Binarization（二值化）
Echo Nest Taste Profile subset包含百万用户的数据，包括用户在Echo Nest上的听歌历史，这份数据集的统计特征包括有超过48万的用户ID，歌曲ID，和听歌次数，包含1019318个用户和384546首歌。假设我们的任务是设计一个推荐系统，遇到的首要问题就是预测一个用户对某首歌的喜爱程度。如果一个用户听某首歌听了很多遍，就意味着用户喜欢这首歌。然而，数据表明，尽管99%的听歌次数在24次以下，但仍然有歌曲被听上千次，最大值是9667次。如果我们预测实际的听歌次数，模型可能就会偏离。

在这么大的数据集中，原始的收听计数并不是用户品位的鲁棒的衡量标准，因为用户具有不同的收听习惯，有人可能会把喜欢的歌放在无限循环上，有人可能只在特殊时刻欣赏歌曲。我们不能说一个听了20次歌曲的人要比听了10次的人，喜爱程度变成了2倍。
更鲁棒的表示是对计数进行二值化，大于等于1的所有计数都表示成喜欢，换句话说，如果用户听某首歌至少听过一次，就表示成喜欢，这样，模型就不需要花费时间来预测原始计数之间的差异。

import pandas as pd
listen_count = pd.read_csv('millionsong/train_triplets.txt.zip', header=None, delimiter='\t')
# The table contains user-song-count triplets. Only nonzero counts are
# included. Hence, to binarize the count, we just need to set the entire
# count column to 1.
listen_count[2] = 1

Quantization or Binning（量化或分箱）
我们选取了Yelp dataset challenge round 6的数据，做一个小的分类数据集，Yelp数据集包含北美和欧洲10多个城市的企业用户评论。每一个企业都标有0个或多个类别。

Yelp评论数据集 （round6）
##782个企业分类
##数据集包含1569264个评论和61184个公司
##餐饮（990627个评论）和住宿（210028个评论）是最大的分类
##没有企业同时属于餐饮和住宿

每个公司都有一个评论数，假设我们的任务是预测一个用户给企业的评级，评论数可能是一个有用的输入，现在的问题是，我们应该使用原始数据还是进一步处理？下面的代码产生了所有公司评论数的直方图，我们看到，和上面相似，大多数公司评论数都很少，但有些企业有上千个评论。

import pandas as pd
import json
# Load the data about businesses
biz_file = open('yelp_academic_dataset_business.json')
biz_df = pd.DataFrame([json.loads(x) for x in biz_file.readlines()])
biz_file.close()
import matplotlib.pyplot as plt
import seaborn as sns
# Plot the histogram of the review counts
sns.set_style('whitegrid')
fig, ax = plt.subplots()
biz_df['review_count'].hist(ax=ax, bins=100)
ax.set_yscale('log')
ax.tick_params(labelsize=14)
ax.set_xlabel('Review Count', fontsize=14)
ax.set_ylabel('Occurrence', fontsize=14)

对许多模型而言，横跨几个数量级的数据输入是有问题的，在线性模型中，相同的线性系数必须适用于所有可能的数据输入，大数也可能对无监督学习造成破坏，如k均值聚类，其使用欧式距离作为相似函数来测量数据点之间的相似性，输入向量中的一个元素中的大数将超过所有其他元素中的相似性，这可能会导致整个相似性度量的丢失。
一种解决方案是通过量化计数来包含比例。换句话说，我们将计数分组到箱中，并除去实际的计数值。量化将连续数字映射到离散数字。我们可以将离散化的数字看作是一个有序的二进制序列，代表一种强度的度量。
为了量化数据，我们必须决定每组有多宽，有两种分组方式，固定宽度和自动宽度。
使用固定宽度，每一组（bin）就包含特定的数字范围，范围可以自定义设计或自动分段，并且可以线性缩放或按指数缩放。例如：我们可以把年龄十年为一组，第一组0-9岁，第二组10-19岁。

import numpy as np
# Generate 20 random integers uniformly between 0 and 99
small_counts = np.random.randint(0, 100, 20)
small_counts
array([30, 64, 49, 26, 69, 23, 56, 7, 69, 67, 87, 14, 67, 33, 88, 77, 75,
47, 44, 93])
# Map to evenly spaced bins 0-9 by division
np.floor_divide(small_counts, 10)
array([3, 6, 4, 2, 6, 2, 5, 0, 6, 6, 8, 1, 6, 3, 8, 7, 7, 4, 4, 9], dtype=int32)
# An array of counts that span several magnitudes
large_counts = [296, 8286, 64011, 80, 3, 725, 867, 2215, 7689, 11495, 91897,
... 44, 28, 7971, 926, 122, 22222]
# Map to exponential-width bins via the log function
np.floor(np.log10(large_counts))
array([ 2., 3., 4., 1., 0., 2., 2., 3., 3., 4., 4., 1., 1.,
3., 2., 2., 4.])

分位数分箱（quantile binning）
固定宽度很容易计算，但有时候可能会有空箱的存在，这可以基于数据的分布自适应的定位箱来解决。可以使用分布的分位数来完成。
分位数是将数据分成相等部分的值。例如，中位数将数据分成两半; 一半的数据比中位数小。四分位数将数据分为四分之一，十分位数分为十分之一等。下面的代码演示了如何计算Yelp计数的十分位数，图将十分位数叠加在直方图上。这样可以更清晰地了解偏向较小计数的偏差。

deciles = biz_df['review_count'].quantile([.1, .2, .3, .4, .5, .6, .7, .8, .9])
deciles
0.1 3.0
0.2 4.0
0.3 5.0
0.4 6.0
0.5 8.0
0.6 12.0
0.7 17.0
0.8 28.0
0.9 58.0
Name: review_count, dtype: float64
# Visualize the deciles on the histogram
sns.set_style('whitegrid')
fig, ax = plt.subplots()
biz_df['review_count'].hist(ax=ax, bins=100)
for pos in deciles:
    handle = plt.axvline(pos, color='r')
ax.legend([handle], ['deciles'], fontsize=14)
ax.set_yscale('log')
ax.set_xscale('log')
ax.tick_params(labelsize=14)
ax.set_xlabel('Review Count', fontsize=14)
ax.set_ylabel('Occurrence', fontsize=14)

要计算分位数并将数据映射到分位数区，我们可以使用Pandas库，如下面所示。 pandas.DataFrame.quantile和pandas.Series.quantile计算分位数。 pandas.qcut将数据映射到所需数量的分位数。

# Continue example 2-3 with large_counts
import pandas as pd
# Map the counts to quartiles
pd.qcut(large_counts, 4, labels=False)
array([1, 2, 3, 0, 0, 1, 1, 2, 2, 3, 3, 0, 0, 2, 1, 0, 3], dtype=int64)
# Compute the quantiles themselves
large_counts_series = pd.Series(large_counts)
large_counts_series.quantile([0.25, 0.5, 0.75])
0.25 122.0
0.50 926.0
0.75 8286.0
dtype: float64

（3）Log Transformation（对数变换）
log函数会压缩数据，比如100-1000会压缩成2-3，下面的图是log变换后评论的分布。

fig, (ax1, ax2) = plt.subplots(2,1)
biz_df['review_count'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('review_count', fontsize=14)
ax1.set_ylabel('Occurrence', fontsize=14)
biz_df['log_review_count'].hist(ax=ax2, bins=100)
ax2.tick_params(labelsize=14)
ax2.set_xlabel('log10(review_count))', fontsize=14)
ax2.set_ylabel('Occurrence', fontsize=14)

还有一个例子，Online News Popularity dataset是一个新闻的数据集，包含有60个特征，39797篇新闻，我们的目标是用这些特征来预测文章在社交媒体上的分享数。这个例子中，我们只关注一个特征，文章中单词的数量，下面的图展示了log变换后的柱状图，在变换之后，数据分布更像高斯分布了，除了位置0。

fig, (ax1, ax2) = plt.subplots(2,1)
df['n_tokens_content'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Number of Words in Article', fontsize=14)
ax1.set_ylabel('Number of Articles', fontsize=14)
df['log_n_tokens_content'].hist(ax=ax2, bins=100)
ax2.tick_params(labelsize=14)
ax2.set_xlabel('Log of Number of Words', fontsize=14)
ax2.set_ylabel('Number of Articles', fontsize=14)

Log Transform in Action
让我们看看log变换对监督学习的影响。我们将在这里使用以前的两个数据集。对于Yelp评论数据集，我们将使用评论数量来预测企业的平均评分。对于Mashable新闻文章，我们将使用文章中的单词数来预测其受欢迎程度。
由于输出是连续数，我们将使用简单线性回归作为模型。我们使用scikit-learn在有和没有对数转换的特征上对线性回归进行10倍交叉验证。模型通过R平方值评分进行评估，该评分衡量训练的回归模型预测新数据的程度。好的模型有很高的R平方分数。一个完美的模型获得最高分为1。分数可以是负数，而糟糕的模型可以获得任意低的负分数。使用交叉验证，我们不仅可以获得分数的估计值，还可以获得方差，这有助于我们判断两个模型之间的差异是否有意义。

import pandas as pd
import numpy as np
import json
from sklearn import linear_model
from sklearn.model_selection import cross_val_score
# Using the previously loaded Yelp reviews DataFrame,
# compute the log transform of the Yelp review count.
# Note that we add 1 to the raw count to prevent the logarithm from
# exploding into negative infinity in case the count is zero.
biz_df['log_review_count'] = np.log10(biz_df['review_count'] + 1)
# Train linear regression models to predict the average star rating of a business,
# using the review_count feature with and without log transformation.
# Compare the 10-fold cross validation score of the two models.
m_orig = linear_model.LinearRegression()
scores_orig = cross_val_score(m_orig, biz_df[['review_count']], biz_df['stars'], cv=10)
m_log = linear_model.LinearRegression()
scores_log = cross_val_score(m_log, biz_df[['log_review_count']], biz_df['stars'], cv=10)
print("R-squared score without log transform: %0.5f (+/- %0.5f)" % (scores_orig.mean(), scores_orig.std() * 2))
print("R-squared score with log transform: %0.5f (+/- %0.5f)" % (scores_log.mean(), scores_log.std() * 2))
R-squared score without log transform: -0.03683 (+/- 0.07280)
R-squared score with log transform: -0.03694 (+/- 0.07650)

从实验的输出来看，两个简单模型（有和没有对数变换）在预测目标方面同样不好，对数变换特征表现稍差。多么令人失望！它们都不是很好，这并不奇怪，因为它们都只使用一个特征，但人们希望log转换可能表现得更好。

# Download the Online News Popularity dataset from UCI, then use
# Pandas to load the file into a DataFrame.
df = pd.read_csv('OnlineNewsPopularity.csv', delimiter=', ')
# Take the log transform of the 'n_tokens_content' feature, which
# represents the number of words (tokens) in a news article.
df['log_n_tokens_content'] = np.log10(df['n_tokens_content'] + 1)
# Train two linear regression models to predict the number of shares
# of an article, one using the original feature and the other the
# log transformed version.
m_orig = linear_model.LinearRegression()
scores_orig = cross_val_score(m_orig, df[['n_tokens_content']], df['shares'], cv=10)
m_log = linear_model.LinearRegression()
scores_log = cross_val_score(m_log, df[['log_n_tokens_content']], df['shares'], cv=10)
print("R-squared score without log transform: %0.5f (+/- %0.5f)" % (scores_orig.mean(), scores_orig.std() * 2))
print("R-squared score with log transform: %0.5f (+/- %0.5f)" % (scores_log.mean(), scores_log.std() * 2))
R-squared score without log transform: -0.00242 (+/- 0.00509)
R-squared score with log transform: -0.00114 (+/- 0.00418)

置信区间仍然重叠，但具有对数转换特征的模型比没有转换特征的模型做得更好。为什么log转换在此数据集上变得如此成功？我们可以通过查看输入特征和目标值的散点图来获得线索。从图的下部中可以看出，对数变换重新塑造了x轴，将目标值（> 200,000份）中的大异常值的物品拉向轴的右侧。这使得线性模型在输入特征空间的低端具有更多“呼吸空间”。如果没有对数变换（上图），模型会承受更大的压力，以便在输入的非常小的变化下拟合非常不同的目标值。

fig2, (ax1, ax2) = plt.subplots(2,1)
ax1.scatter(df['n_tokens_content'], df['shares'])
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Number of Words in Article', fontsize=14)
ax1.set_ylabel('Number of Shares', fontsize=14)
ax2.scatter(df['log_n_tokens_content'], df['shares'])
ax2.tick_params(labelsize=14)
ax2.set_xlabel('Log of the Number of Words in Article', fontsize=14)
ax2.set_ylabel('Number of Shares', fontsize=14)

将其与应用于Yelp评论数据集的相同散点图进行比较。下图上图非常不同。平均星级评分以半星为单位进行离散化，范围从1到5。高评价计数（大约> 2,500条评论）确实与更高的平均星级评分相关，但这种关系远非线性。根据任一输入，没有明确的方法来绘制线来预测平均星级。从本质上讲，该图显示，评论计数及其对数都是平均星级评定的不良线性预测因子。

fig, (ax1, ax2) = plt.subplots(2,1)
ax1.scatter(biz_df['review_count'], biz_df['stars'])
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Review Count', fontsize=14)
ax1.set_ylabel('Average Star Rating', fontsize=14)
ax2.scatter(biz_df['log_review_count'], biz_df['stars'])
ax2.tick_params(labelsize=14)
ax2.set_xlabel('Log of Review Count', fontsize=14)
ax2.set_ylabel('Average Star Rating', fontsize=14)

Power Transform: Generalization of the Log Transform
对数变换是称为幂变换的一系列变换的特定示例。在统计学术语中，这些是方差稳定变换。要理解为什么方差稳定性良好，请考虑泊松分布。这是一个重尾分布，其方差等于其平均值：因此，其质心越大，其方差越大，尾部越重。指数变换改变变量的分布，使方差不再取决于均值。例如，假设随机变量 $X$ 具有泊松分布。如果我们通过取平方根来变换 $X$ ，则 $\widetilde{X}=\sqrt{X}$ 的方差大致是恒定的，而不是等于平均值。
平方根变换和对数变换的简单推广称为Box-Cox变换：
$\hat{x}=\left\{ \begin{array}{lr} \frac{x^{\lambda}-1}{\lambda} , if \lambda \ne 0 & \\ \ln{(x)}, if {\lambda} = 0 \end{array} \right.$
下面的图显示了 $\lambda=0$ (对数变换), $\lambda=0.25,0.5,0.75,1.5$ 的变换结果。如果 $\lambda$ 比1小，就会产生压缩的效果，如果比1大，产生相反的效果。

Box-Cox公式只在数据为正数时有效。对于非正的数据，可以通过加一个固定的常数来转换这些值。应用Box-Cox转换或更一般的指数变换时,我们必须确定参数λ的值。这可以通过最大似然(找到 $\lambda$ 使得转换后的信号拥有最大的高斯可能性)和贝叶斯方法找到 $\lambda$ 。本书（Econometric Methods by Johnston and Dinardo，1997）对Box-Cox和通用指数转换的使用进行了全面的讨论。SciPy’s stats package有Box-Cox的实现过程，并且可以找到最优的参数，下面的代码演示了在Yelp数据集上的用法。

from scipy import stats
# Continuing from the previous example, assume biz_df contains
# the Yelp business reviews data.
# The Box-Cox transform assumes that input data is positive.
# Check the min to make sure.
biz_df['review_count'].min()
3
# Setting input parameter lmbda to 0 gives us the log transform (without
# constant offset)
rc_log = stats.boxcox(biz_df['review_count'], lmbda=0)
# By default, the scipy implementation of Box-Cox transform finds the lambda
# parameter that will make the output the closest to a normal distribution
rc_bc, bc_params = stats.boxcox(biz_df['review_count'])
bc_params
-0.4106510862321085

下面的代码是原始数据和转换后数据的分布的可视化的比较。

fig, (ax1, ax2, ax3) = plt.subplots(3,1)
# original review count histogram
biz_df['review_count'].hist(ax=ax1, bins=100)
ax1.set_yscale('log')
ax1.tick_params(labelsize=14)
ax1.set_title('Review Counts Histogram', fontsize=14)
ax1.set_xlabel('')
ax1.set_ylabel('Occurrence', fontsize=14)
# review count after log transform
biz_df['rc_log'].hist(ax=ax2, bins=100)
ax2.set_yscale('log')
ax2.tick_params(labelsize=14)
ax2.set_title('Log Transformed Counts Histogram', fontsize=14)
ax2.set_xlabel('')
ax2.set_ylabel('Occurrence', fontsize=14)
# review count after optimal Box-Cox transform
biz_df['rc_bc'].hist(ax=ax3, bins=100)
ax3.set_yscale('log')
ax3.tick_params(labelsize=14)
ax3.set_title('Box-Cox Transformed Counts Histogram', fontsize=14)
ax3.set_xlabel('')
ax3.set_ylabel('Occurrence', fontsize=14)

概率图，是一种直观地比较数据的经验分布和理论分布的简单方法。这本质上是观测到的分位数与理论分位数的散点图。下图显示了原始和转换后的Yelp review counts数据相对于正态分布的概率图(参见下面代码)。由于观测数据是严格正的，高斯函数可以是负的，所以在负端分位数永远不可能匹配。因此，我们关注的是正的一面。在这方面，原始计数显然比正态分布有更大的尾部。(有序值可达4000，而理论分位数仅为4)。对数变换和优化Box-Cox变换都使尾部接近正常。最优的Box-Cox变换比对数变换更能减小尾部的压力，这从尾部在红色对角线等值线下变平这一事实可以明显看出。

fig2, (ax1, ax2, ax3) = plt.subplots(3,1)
prob1 = stats.probplot(biz_df['review_count'], dist=stats.norm, plot=ax1)
ax1.set_xlabel('')
ax1.set_title('Probplot against normal distribution')
prob2 = stats.probplot(biz_df['rc_log'], dist=stats.norm, plot=ax2)
ax2.set_xlabel('')
ax2.set_title('Probplot after log transform')
prob3 = stats.probplot(biz_df['rc_bc'], dist=stats.norm, plot=ax3)
ax3.set_xlabel('Theoretical quantiles')
ax3.set_title('Probplot after Box-Cox transform')

（4）Feature Scaling or Normalization（特征缩放或归一化）

一些特征，比如经度和纬度，都是有限的数值，有些数值特征，比如计数，可能会一直增加，没有界限。有着平滑输入值的模型，比如线性回归，逻辑回归，都会被输入数据的尺度所影响。树的模型可能会不在乎。如果你的模型对输入数据的范围敏感，特征缩放或许会帮你，特征缩放也叫归一化，是把数据从某个范围转换到另一个范围，接下来，我们讨论集中缩放方式，观察他们所产生的不同的分布。
Min-Max Scaling
找到数据的最小值min $(x)$ 和最大值max $(x)$ ，Min-Max就可以通过下面这种方式把数据限定在 $[0, 1]$ 之间了。
$\tilde{x}=\frac{x-min(x)}{max(x)-min(x)}$

Standardization（标准化）
$\tilde{x}=\frac{x-mean(x)}{sqrt(var(x))}$
它减去特征的平均值(除以所有数据点)，然后除以标准差。因此，它也可以称为方差缩放。得到的缩放特征的均值为0，方差为1。如果原始特征具有高斯分布，那么缩放特征也具有高斯分布。

$\ell^2$ Normalization( $\ell^2$ 范数归一化)
$\tilde{x}=\frac{x}{\|x\|_2}$
$\ell^2$ 范数是一个坐标系空间中向量的长度，定义如下：
$\|x\|_2=\sqrt{x^2_1+x^2_2+...+x^2_m}$ ，
$\ell^2$ 范数对数据点上特征值的平方求和，然后取平方根。归一化后，特征列的范数为1。这有时也被称为 $\ell^2$ 尺度变换。(粗略地说，尺度变换意味着乘以一个常数，而归一化可能涉及许多操作)。

特征变换与对数变换不同，它不改变特征的分布。

import pandas as pd
import sklearn.preprocessing as preproc
# Load the Online News Popularity dataset
df = pd.read_csv('OnlineNewsPopularity.csv', delimiter=', ')
# Look at the original data - the number of words in an article
df['n_tokens_content'].as_matrix()
array([ 219., 255., 211., ..., 442., 682., 157.])
# Min-max scaling
df['minmax'] = preproc.minmax_scale(df[['n_tokens_content']])
df['minmax'].as_matrix()
array([ 0.02584376, 0.03009205, 0.02489969, ..., 0.05215955,
0.08048147, 0.01852726])
# Standardization - note that by definition, some outputs will be negative
df['standardized'] = preproc.StandardScaler().fit_transform(df[['n_tokens_content']])
df['standardized'].as_matrix()
array([-0.69521045, -0.61879381, -0.71219192, ..., -0.2218518 ,
0.28759248, -0.82681689])
# L2-normalization
df['l2_normalized'] = preproc.normalize(df[['n_tokens_content']], axis=0)
df['l2_normalized'].as_matrix()
array([ 0.00152439, 0.00177498, 0.00146871, ..., 0.00307663,
0.0047472 , 0.00109283])

fig, (ax1, ax2, ax3, ax4) = plt.subplots(4,1)
fig.tight_layout()
df['n_tokens_content'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Article word count', fontsize=14)
ax1.set_ylabel('Number of articles', fontsize=14)
df['minmax'].hist(ax=ax2, bins=100)
ax2.tick_params(labelsize=14)
ax2.set_xlabel('Min-max scaled word count', fontsize=14)
ax2.set_ylabel('Number of articles', fontsize=14)
df['standardized'].hist(ax=ax3, bins=100)
ax3.tick_params(labelsize=14)
ax3.set_xlabel('Standardized word count', fontsize=14)
ax3.set_ylabel('Number of articles', fontsize=14)
df['l2_normalized'].hist(ax=ax4, bins=100)
ax4.tick_params(labelsize=14)
ax4.set_xlabel('L2-normalized word count', fontsize=14)
ax4.set_ylabel('Number of articles', fontsize=14)

当一组输入特征的比例相差很大时，特征缩放非常有用。例如，一个受欢迎的电子商务网站的日访问量可能是10万，而实际销售额可能是数千。如果这两个特性都被放入一个模型中，那么模型将需要在确定要做什么时平衡其规模。输入特征的急剧变化会导致模型训练算法的数值稳定性问题。在这些情况下，标准化特性是一个好主意。第四章会介绍自然语言处理时的特征缩放问题。
（5）Interaction Features（组合特征）
一个简单的组合是两个特征的乘积。类比就是逻辑和。它用成对的条件来表达结果:用户来自邮政编码98121并且用户年龄在18岁到35岁之间。基于决策树的模型可以获得这些信息，但是广义线性模型经常发现组合特征非常有用。
一个线性模型用输入 $x_1,x_2,...x_n$ 的线性组合来预测输出 $y$ ：
$y=w_1x_1+w_2x_2+...+w_nx_n$
一种拓展线性模型的方式是包含输入特征的组合，比如：
$y=w_1x_1+w_2x_2+...+w_nx_n+w_{1,1}x_1x_1+w_{1,2}x_1x_2+w_{1,3}x_1x_3+...$
这允许我们捕获特征之间的交互，因此这些对称为组合特征。如果 $x_1$ 和 $x_2$ 是二进制的，那么它们的乘积 $x_1x_2$ 就是逻辑函数 $x_1$ 和 $x_2$ 。假设问题是根据客户的个人资料信息预测客户的偏好。在我们的例子中，组合特征不只是基于用户的年龄或位置进行预测，而是允许模型基于特定年龄和特定位置的用户进行预测。
在下面代码中，我们使用UCI Online News Popularity数据集中的成对组合特征来预测每篇新闻文章的共享数量。结果表明，组合特征比单特征预测性要好。

from sklearn import linear_model
from sklearn.model_selection import train_test_split
import sklearn.preprocessing as preproc
# Assume df is a Pandas DataFrame containing the UCI Online News Popularity dataset
df.columns
Index(['url', 'timedelta', 'n_tokens_title', 'n_tokens_content',
'n_unique_tokens', 'n_non_stop_words', 'n_non_stop_unique_tokens',
'num_hrefs', 'num_self_hrefs', 'num_imgs', 'num_videos',
'average_token_length', 'num_keywords', 'data_channel_is_lifestyle',
'data_channel_is_entertainment', 'data_channel_is_bus',
'data_channel_is_socmed', 'data_channel_is_tech',
'data_channel_is_world', 'kw_min_min', 'kw_max_min', 'kw_avg_min',
'kw_min_max', 'kw_max_max', 'kw_avg_max', 'kw_min_avg', 'kw_max_avg',
'kw_avg_avg', 'self_reference_min_shares', 'self_reference_max_shares',
'self_reference_avg_sharess', 'weekday_is_monday', 'weekday_is_tuesday',
'weekday_is_wednesday', 'weekday_is_thursday', 'weekday_is_friday',
'weekday_is_saturday', 'weekday_is_sunday', 'is_weekend', 'LDA_00',
'LDA_01', 'LDA_02', 'LDA_03', 'LDA_04', 'global_subjectivity',
'global_sentiment_polarity', 'global_rate_positive_words',
'global_rate_negative_words', 'rate_positive_words',
'rate_negative_words', 'avg_positive_polarity', 'min_positive_polarity',
'max_positive_polarity', 'avg_negative_polarity',
'min_negative_polarity', 'max_negative_polarity', 'title_subjectivity',
'title_sentiment_polarity', 'abs_title_subjectivity',
'abs_title_sentiment_polarity', 'shares'],
dtype='object')
# Select the content-based features as singleton features in the model,
# skipping over the derived features
features = ['n_tokens_title', 'n_tokens_content', 'n_unique_tokens', 'n_non_stop_words', 'n_non_stop_unique_tokens', 'num_hrefs', 'num_self_hrefs', 'num_imgs', 'num_videos', 'average_token_length', 'num_keywords', 'data_channel_is_lifestyle', 'data_channel_is_entertainment', 'data_channel_is_bus', 'data_channel_is_socmed', 'data_channel_is_tech', 'data_channel_is_world']
X = df[features]
y = df[['shares']]
# Create pairwise interaction features, skipping the constant bias term
X2 = preproc.PolynomialFeatures(include_bias=False).fit_transform(X)
X2.shape
(39644, 170)
# Create train/test sets for both feature sets
X1_train, X1_test, X2_train, X2_test, y_train, y_test = \
... train_test_split(X, X2, y, test_size=0.3, random_state=123)
def evaluate_feature(X_train, X_test, y_train, y_test):
    """Fit a linear regression model on the training set and
    score on the test set"""
    model = linear_model.LinearRegression().fit(X_train, y_train)
    r_score = model.score(X_test, y_test)
    return (model, r_score)
# Train models and compare score on the two feature sets
(m1, r1) = evaluate_feature(X1_train, X1_test, y_train, y_test)
(m2, r2) = evaluate_feature(X2_train, X2_test, y_train, y_test)
print("R-squared score with singleton features: %0.5f" % r1)
print("R-squared score with pairwise features: %0.10f" % r2)
R-squared score with singleton features: 0.00924
R-squared score with pairwise features: 0.0113276523

组合特征很容易，但是训练线性模型的时间从 $O (n)$ 变成了 $O(n^2)$ ，其中 $n$ 是特征个数。有几种方法可以避免，比如特征选择或者更仔细的创建少量的复杂特征。
利用专家知识制作的复杂特征有足够的表达能力，但是专家知识的计算成本可能很高，在第八章中我们可以看到人工挑选复杂特征的例子，现在让我们看看特征选择技术。
（6）Feature Selection（特征选择）
特征选择技术去除无用的特征，以减低模型的复杂性，最终目标是建立一个计算速度更快，预测精度几乎或完全没有下降的精简模型。换句话说，特征选择并不是减少训练时间，而是减少模型的测试时间。
粗略的来说，特征选择主要分成下面三类：
Filtering（过滤）
过滤技术对特征进行预处理，以删除不太可能对模型有用的特征。例如，可以计算每个特征与响应变量之间的相关性或互信息，并过滤掉低于阈值的特征。第3章讨论了这些用于文本特征的技术的示例。过滤技术比下面描述的包装技术（wrapper methods）通用得多，但是它们没有考虑所使用的模型。因此，他们可能无法为模型选择正确的特征。最好做保守的预过滤。
Wrapper Methods（包装技术）
这些技术是昂贵的，但是它们允许您尝试特性的子集，这意味着您不会意外地删除那些本身不提供信息但组合使用时很有用的特性。包装器方法将模型视为一个黑盒，它提供所提议的特性子集的质量分数。有一个单独的方法可以迭代地细化子集。
Embedded Methods（嵌入技术）
这些方法将特征选择作为模型训练过程的一部分。例如，决策树本质上执行特征选择的，因为它选择在每个训练步骤上分割树的一个特征。另一个例子是 $\ell^1$ 正则化器，它可以添加到任何线性模型的训练目标中。正则化器鼓励使用少量特性而不是大量特性的模型，因此它也被称为模型的稀疏性约束。嵌入式方法将特征选择作为模型训练过程的一部分。它们不像包装器方法那样强大，但也远没有包装器方法那么昂贵。与过滤相比，嵌入式方法选择特定于模型的特性。从这个意义上说，嵌入式方法在计算成本和结果质量之间取得了平衡。
特征选择可以看这本论文（Guyon and Elisseeff，2003）
本章讨论了一些常见的数字特征工程技术，如量化、缩放(即标准化)、对数变换(一种幂变换)和组合特征，并对处理大量组合特征所必需的特征选择技术进行了简要的总结。在统计机器学习中，所有的数据最终都归结为数字特征。因此，各种途径最终都导致了某种数字特征工程技术的产生。让这些工具在特性工程的最后阶段派上用场。

你可能感兴趣的:(feature,engineering)

推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
史上最全git命令,git回滚,git命令大全騒周其他 git
git命令大全一、Git整体理解二、由暂存区本地仓库三、由本地仓->远程仓库四、冲突处理五、Git分支操作六、bug的分支七、feature分支八、暂存的使用九、远程仓的操作十、标签的使用十一、Git配置全局信息十二、Linux的一些简单操作和一些符号的解释十三、符号解释十四、显示安装详细信息十五、gitconfig十六、Gitclone十七、Gitinit十八、gitstatus十九、gitre
【docker npm】npm 私库琴韵 docker npm 容器
1.部署环境window11x64DockerDesktop4.34.1(166053)DockerEnginev27.2.01.1.Docker镜像源1.1.1.DockerEngine配置{"builder":{"features":{"buildkit":true},"gc":{"defaultKeepStorage":"32GB","enabled":true}},"experimenta
【提示词】浅谈GPT等大模型中的Prompt 有梦想的程序星空深入浅出讲解自然语言处理 gpt prompt 人工智能自然语言处理
Prompt是人工智能（AI）提示词，是一种利用自然语言来指导或激发人工智能模型完成特定任务的方法。在AI语境中，Prompt是一种自然语言输入，通常指的是向模型提出的一个请求或问题，这个请求或问题的形式和内容会影响模型的输出。Promptengineering（提示工程）是一种技术，用于设计和优化用于训练AI模型的Prompt。Prompt技术的基本思想是：通过给模型提供一个或多个提示词或短语，
用DESeq2包来对RNA-seq数据进行差异分析 Seurat_Satija
差异分析的套路都是差不多的，大部分设计思想都是继承limma这个包，DESeq2也不例外。DESeq2是DESeq包的更新版本，看样子应该不会有DESeq3了，哈哈，它的设计思想就是针对count类型的数据。可以是任意features的count数据，比如对各个基因的count，或者外显子，或者CHIP-seq的一些feature，都可以用来做差异分析。使用这个包也是需要三个数据：表达矩阵分组矩阵
一维数组 list 呢，怎么转换成 (批次句子长度特征值 )三维向量 python pytorch lstm 编程人工智能 zhangfeng1133 python pytorch 人工智能数据挖掘
一、介绍对于一维数组，如果你想将其转换成适合深度学习模型（如LSTM）输入的格式，你需要考虑将其扩展为三维张量。这通常涉及到批次大小（batchsize）、序列长度（sequencelength）和特征数量（numberoffeatures）的维度。以下是如何将一维数组转换为这种格式的步骤：###1.确定维度-**批次大小（BatchSize）**：这是你一次处理的样本数量。-**序列长度（Seq
Android 11 开发者预览版 2 现已发布谷歌开发者
作者/DaveBurke,VPofEngineering对世界上的许多人来说，过去的这几个月可以说非常艰难。Google的Android团队成员遍布世界各地，我们也和你们中的许多人一样，在努力适应这样的局面。我们的开发者们在这样的环境下依然给Android11带来了诸多宝贵的反馈，我们对此深表感谢。也衷心希望每一个人，以及家人和同事都能平安健康。正如许多人如今依然在尽可能推进工作一样，我们也为大家
如何使用Flutter为iOS和Android应用设置Firebase cukw6666 数据库 android java python ios
Firebaseisagreatbackendsolutionforanyonethatwantstouseauthentication,databases,cloudfunctions,adsandcountlessotherfeatureswithinanapp.Luckilyforus,FlutterhasofficialsupportforFirebasewiththeFlutterFir
Android 蓝牙服务启动薛文旺 Android系统 android
蓝牙是Android设备中非常常见的一个feature，设备厂家可以用BT来做RC、连接音箱、设备本身做Sink等常见功能。如果一些设备不需要BT功能，Android也可以通过配置来disable此模块，方便厂家为自己的设备做客制化。APP操作设备的蓝牙功能，一般是通过标准API-BluetoothAdapter实现，这里我们先不关心具体API的实现flow，先来了解Bluetoothframew
python 基于shp文件绘制完整中国地图（matplotlib,cartopy) 水猪1 python matplotlib
思路：中国地图画两遍，截取响相应经纬度范围的区域难点：中国海岸线以及南海岛屿等数据的准确性解决思路：在阿里云上获取中国地图的json文件，离线转成shp文件（网上有教程，也可留言获取）效果图：importmatplotlib.pyplotaspltimportcartopy.crsasccrsfromcartopy.ioimportshapereaderimportcartopy.featurea
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
微生物数据的sparcc网络分析桂渊泉树数据分析 r语言
sparcc网络分析运行sparcc首先先安装fastspar，地址https://github.com/scwatts/fastspar整理abundance_counts数据，abundance_counts.txt格式为第一列为featureID，且列名为#OTUID，其他列是样本的OTU丰度然后执行下列脚本fastspar--iterations50--exclude_iterations
Css——媒体查询一只漫步前行的羊 css css 媒体前端
@mediamediatypewhere(mediafeature){/*CSS样式*/}属性备注mediatype媒体类型：screen（电脑屏幕、平板电脑、智能手机）、print（打印预览）、all（所有设备）where条件：and（表示可以将多个媒体特性连接到一起，相当于“且”的意思）、not（表示排除某个媒体类型，相当于“非”的意思）、only（表示指定某个特定的媒体类型）mediafea
arcEngine开发之IMap、ILayer、IFeatureLayer和IFeatureClass关系 firepation ArcEngine 编程 C#Engine
刚开时学习Engine开发时，对于这几个接口之间的关系总是理不清，因此写下这篇文章做个总结。是什么在engine开发中，我觉得使用过程中应该将每个接口对应到ArcMap中的具体事物中，这才能对它们有深刻的认识，那么，这几个接口代表的事物是什么呢？IMap这相对来说比较好理解，Map就是许多图层的集合，就像ArcMap中的MXD文档一样，可以包括许多图层Layer.ILayerLayer是图层对象，
推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
30、基于SelectFromModel和LassoCV的特征选择凌晨思索
30、基于SelectFromModel和LassoCV的特征选择importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.datasetsimportload_diabetesfromsklearn.feature_selectionimportSelectFromModelfromsklearn.linear_modelimportLasso
深度学习思考夜雪朝歌
神经网络如果能了解每一层输出的意义，就可以避免end－to－end的黑箱理论，对理论话深度学习很有意义，一个思路是经验值，将每一层在特定任务下都有输出，对结果作经验总结，比方说浅层输出低层次的几何轮廓特征，高层输出语意特征，我曾经在objecttracking用过这样的方法,在大数据集测试，每一层都输出结果，并且和handcraftfeature做比较，发现浅层的效果不如handcraftfeat
【Tools】Prompt Engineering简介音乐学家方大刚工具 prompt
摇来摇去摇碎点点的金黄伸手牵来一片梦的霞光南方的小巷推开多情的门窗年轻和我们歌唱摇来摇去摇着温柔的阳光轻轻托起一件梦的衣裳古老的都市每天都改变模样方芳《摇太阳》大模型中的PromptEngineering是指为了提高大模型在特定任务上的表现，通过设计和调整输入的"prompt"（提示信息）的方式进行改进。Prompt在这里指的是输入给模型的初始文本或问题，它可以帮助模型理解任务的要求和上下文。Pr
如何在Web浏览器存储中存储数据-解释了localStorage和sessionStorage cumian9828 java python 数据库 mysql php
Inordertomanagedatahandledbyyourwebapplication,youdonotnecessarilyneedadatabase.TherespectiveBrowserStoragefeaturesaresupportedbyChrome(version4andhigher),MozillaFirefox(version3.5andhigher)andInterne
GIT的commit会自动合并一些文件 No.5吴吴 git
今天工作合并冲突的时候遇到一个问题:当我合并分支处理冲突后发现存在一些重复的代码.先说原因:git的commit会自动合并一些认为无意义的文件.导致出现了重复.解决办法:在合并文件的时候加上--no-commit选项可以防止Git自动创建一个合并提交。这让你有机会在实际提交之前审查和修改合并的结果。gitmergefeature-branch--no-commit--no-ff当然还有其他解决办法
Rust使用之【宏】拐几个弯 RUST笔记 rust 开发语言后端
一、简单使用clapclap={version="4.5.17",features=["derive"]}其中，什么是features=["derive"]：表示你希望在添加clap依赖时启用derive特性。这通常意味着你希望使用clap的派生（derive）宏功能，这些功能可以简化创建命令行接口的代码。例如，derive特性可以让你使用#[derive(Parser)]来自动生成解析命令行参数
Pinterest：从 Druid 到 StarRocks，实现 6 倍成本效益比提升 StarRocks_labs 数据库大数据
导读：开源无国界，StarRocks自开源以来，近3年的时间里已在全球数据技术领域崭露头角。我们欣喜地发现，越来越多的海外用户正在使用并积极推广着StarRocks。为了促进知识共享，StarRocks中文社区将精选优秀文章与大家共享。本篇文章摘自PinterestEngineering撰写的《DeliveringFasterAnalyticsatPinterest》，欢迎阅读原文深入了解：htt
将一个分支的某个修改点同步到另一个分支（ cherry-pick）骑马纵天下
例:把feature_V3.1.4模拟练习分支最近一次修改点同步到feature_V3.4.0江苏分支1.查找commit号方法一：通过终端，先cd到项目目录下，使用gitlog查找要提交节点的commit查到后用ctrl+z退出imageimage方法二:如果使用的git管理器是SourceTree选中提交的节点后在界面下面会显示commitimage2.切换到目标分支用cherry-pick提
隐语课程 SecretFlow的安装部署皓月雪学习笔记
SecretFlow安装：1.先开启电脑上的虚拟机功能，以管理员身份打开PowerShell并运行：dism.exe/online/enable-feature/featurename:VirtualMachinePlatform/all/norestart2.在Windows上安装WSL2，安装WSL|MicrosoftLearn3.将WSL2设置为默认版本，以管理员身份打开PowerShell
ClickHouse 二进制特征值怎么转化为字符串树下水月 clickhouse
要将二进制特征值转化为字符串，可以使用以下方法：1.使用base64编码base64是一种将二进制数据编码为ASCII字符串的方法。在ClickHouse中，可以使用函数base64Encode()来将二进制特征值转化为base64编码的字符串。例如：SELECTbase64Encode(feature)FROMmy_table;2.使用hex编码hex是一种将二进制数据转化为十六进制字符串的方法
java guava local cache +Map深浅拷贝 ZHEXI_Coding free java/js java
笔者使用guava的localcache遇到一个坑，查了很长时间，最终顺利解决。1.问题阐述1.定义缓存privateLoadingCache>liveCenterLRFeatureCache;2.获取缓存处：Mapfeature=this.liveCenterLRFeatureCache.getUnchecked(anchorFeatureKey))3.操作从缓存中获取的数据3.1使用处对map
VCS简介 XtremeDV VCS快速实战指南
1.2.1关于VCSVCS是VerilogCompiledSimulator的缩写。VCSMX®是一个编译型的代码仿真器。它使你能够分析，编译和仿真Verilog，VHDL，混合HDL，SystemVerilog，OpenVera和SystemC描述的设计。它还为您提供了一系列仿真和调试功能，以验证您的设计。这些功能提供了源码调试和仿真结果查看功能。vcs提供了一系列的feature，如下图：业界
C++11新特性综述 CC-xx C++
ScottMeyersTrainingCoursesAnOverviewoftheNewC++(C++11/14)SpecificationofthelatestversionofC++(“C++11”)wascompletedin2011,andmanycompilersnowofferawealthoffeaturesfromtherevisedlanguage.Andsuchfeatures
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>