扔出去的回旋镖

ccc-sklearn-3-特征工程

1.特征工程基本概念

将原始数据转换为更能代表预测模型的潜在问题的特征的过程。通过挑选最相关的特征，提取特征以及创造特征来实现。其中创造特征常以降维算法的方式实现。
面对的问题：特征之间有相关性，特征和标签无关，特征太多或太小，或无法表现出应有的数据现象或无法展示数据的真实面貌
特征工程的目的：降低计算成本，提升模型上限

2.数据预处理 Preprocessing & Impute

数据无量纲化
将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。

梯度和矩阵为核心的算法中，逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（决策树和树的集成算法不需要无量纲化，决策树可以把任意数据都处理得很好。）

数据的无量纲化可以是线性的，也可以是非线性的。包括中心化（Zero-centered或者Mean-subtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定在某个范围之中，取对数也算是一种缩放处理

preprocessing.MinMaxScaler
归一化之后的数据服从正态分布，公式如下：
$x^*=\frac{x-min(x)}{max(x)-min(x)}$

preprocessing.MinMaxScaler API
步骤一：导入库和数据

from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
import pandas as pd
pd.DataFrame(data)

步骤二：实例化并训练

scaler = MinMaxScaler()
scaler = scaler.fit(data)
result = scaler.transform(data)

result_ = scaler.fit_transform(data)

步骤三：还原

scaler.inverse_transform(result)

步骤四：修改feature_range参数来控制归一范围

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler = MinMaxScaler(feature_range=[5,10])
result = scaler.fit_transform(data)

步骤五：numpy中归一化的实现

import numpy as np
X = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
x_nor = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
x_inverse = x_nor * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)

preprocessing.StandardScaer API
数据按均值(μ)中心化再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布的过程，为数据标准化，公式如下：
$x^*=\frac{x-u}{σ}$

from sklearn.preprocessing import StandardScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

scaler = StandardScaler()
scaler.fit(data)
scaler.mean_ #均值
scaler.var_ #方差
x_std = scaler.transform(data)
x_std #方差
x_std.mean() #均值
x_std.std() #方差
scaler.fit_transform(data)
scaler.inverse_transform(x_std)

StandardScaler和MinMaxScaler的说明

两者中空值NaN会被当做是缺失值，在fit的时候忽略，在transform的时候保持缺失NaN的状态显示
fit接口中，依然只允许导入至少二维数组，一维数组导入会报错
大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感
MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，如数字图像处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中

更多无量纲化的参考表

3.缺失值的处理

impute.SimpleImputer API

参数	含义&输入
missing_values	告诉SimpleImputer，数据中的缺失值长什么样，默认np.nan
strategy	“mean”使用均值填补,默认；“median"用中值填补；"most_frequent”用众数填补；“constant"表示请参考参数“fill_value"中的值
fill_value	参数startegy为”constant"的时候可用，可输入字符串或数字表示要填充的值，常用0
copy	默认为True，将创建特征矩阵的副本，反之则会将缺失值填补到原本的特征矩阵中去

步骤一：库和数据导入

import pandas as pd
data = pd.read_csv("./data/Narrativedata.csv",index_col=0)
data.head()

可以看到Age和Embarked都有缺失值

步骤二：取出Age目标并实例化API进行填充

Age = data.loc[:,"Age"].values.reshape(-1,1)

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer()
imp_median = SimpleImputer(strategy="median")
imp_0 = SimpleImputer(strategy="constant",fill_value=0)

imp_mean = imp_mean.fit_transform(Age)
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

步骤三：使用中值进行填充，并同样对Embarked进行众数填充

data.loc[:,"Age"] = imp_median
data.info()

Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy="most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)
data.info()

用Pandas和Numpy进行填补
步骤一：库和数据导入

import pandas as pd
data = pd.read_csv('./data/Narrativedata.csv',index_col=0)
data.head()

步骤二：直接取出Age列中空值进行中位数填充

data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())

步骤三：由于Embarked样本很少，可以删除

data.dropna(axis=0,inplace=True) #inplace默认false
data.info()

4.处理分类型特征：编码与哑变量

为让数据适应算法和库，我们必须将数据进行编码，即将文字型数据转换为数值型

preprocessing.LabelEncoder：标签专用，能够将分类转换为分类数值
步骤一：导入库和数据

from sklearn.preprocessing import LabelEncoder
import pandas as pd

data = pd.read_csv('./data/Narrativedata.csv',index_col=0)
data.head()

步骤二：直接将数据类型转换

 LabelEncoder().fit(data.iloc[:,-1]).classes_
 data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])
 data.head()

preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值
步骤一：导入库和数据

from sklearn.preprocessing import OrdinalEncoder
data_ = data.copy() #用的上次处理Suivived的data
data_.head()

步骤二：处理缺失值，和前面讲的那样

data_.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())
data_.dropna(axis=0,inplace=True)
data_.info()

步骤三：将第二列到倒数第二列的特征的特征转换成分类数值

OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_
data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])
data_.head()

说明：

很明显，数字之间能进行转换，为了忽略数字中自带的数学性质，我们可以采用OneHotEncoder编码

preprocessing.OneHotEncoder API：独热编码，创建哑变量

返回稀疏矩阵，让三个取值之间相互独立，即哑变量

实际操作：
步骤一：导入库和数据

from sklearn.preprocessing import LabelEncoder
import pandas as pd

data = pd.read_csv('./data/Narrativedata.csv',index_col=0)
data.head()

步骤二：异常值处理

data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())
data.dropna(axis=0,inplace=True)

步骤三：取出目标特征列并实例化OneHotEncoder进行编码

from sklearn.preprocessing import OneHotEncoder

X = data.iloc[:,1:-1]
OneHotEncoder(categories='auto').fit_transform(X).toarray()

enc表示实例化的API（省略代码），这里再探索其他信息

步骤四：拼接到表中，并删除之前的特征

newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
newdata.head()

newdata.drop(['Sex','Embarked'],axis=1,inplace=True)
newdata.head()

步骤五：重新为列命名即可

newdata.columns =["Age","Survived","Female","Male","Embarked_C","Embarked_Q","Embarked_S"]
newdata.head()

5.处理连续型数据：二值化与分箱

sklearn.preprocessing.Binarizer API
设置阈值，大于阈值为1，其他为0。仅考虑某种现象的存在与否

使用实例：

data_2 = data.copy()

from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1)
transformer = Binarizer(threshold=30).fit_transform(X)
transformer

preprocessing.KBinsDiscretizer API
将连续型变量划分为分类变量的类，能够将连续性变量排序后按顺序分箱后编码：参数说明如下

参数	含义&输入
n_bins	每个特征中分箱的个数，默认5，一次会被运用到所有导入的特征
encode	编码方式，默认“onehot” “onehot”：做哑变量，之后返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0 “ordinal”：每个特征的每个箱都被编码为一个整数，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵 “onehot-dense”：做哑变量，之后返回一个密集数组。
strategy	用来定义箱宽的方式，默认"quantile" “uniform”：表示等宽分箱，即每个特征中的每个箱的最大值之间的差为(特征.max() - 特征.min())/(n_bins) “quantile”：表示等位分箱，即每个特征中的每个箱内的样本数量都相同 “kmeans”：表示按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心得距离都相同

使用实例：

from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal',strategy='uniform')
est.fit_transform(X)

查看分箱-三箱

set(est.fit_transform(X).ravel())

查看分箱-哑变量

est = KBinsDiscretizer(n_bins=3,encode='onehot',strategy='uniform')
est.fit_transform(X).toarray()

6.特征选择 feature_selection

这里用泰坦尼克的数据来当作例子

其中是否存活是我们的标签。很明显，以判断“是否存活”为目的，票号，登船的舱门，乘客编号明显是无关特征，可以直接删除。姓名，舱位等级，船舱编号，也基本可以判断是相关性比较低的特征。性别，年龄，船上的亲人数量，这些应该是相关性比较高的特征

6.1.1方差过滤：消除方差为0的特征
VarianceThreshold API

本次数据量很大，尤其是它的特征数量很多，如果直接使用支持向量机或者神经网络来处理会极其消耗资源，所以需要我们进行特征处理，下图是处理的基本步骤

from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
X_var0 = selector.fit_transform(x)

删除差异值为0的特征后任然剩下708个特征，所以还需要进一步的选择。可以直接提高VarianceThreshold中threshold参数提高阈值

6.1.2使用特征方差的中位数作为参数

import numpy as np
np.median(x.var().values)
x_fsvar = VarianceThreshold(np.median(x.var().values)).fit_transform(x)
x_fsvar.shape

这样可以消除一般的特征

6.1.3使用伯努利随机变量删除某种分类占比80%以上的特征

#二分类问题，所以可以这样算
x_bar = VarianceThreshold(.8 * (1- .8)).fit_transform(x)
x_bar.shape

6.2方差过滤对于模型的影响

这里比较KNN和随机森林分别在方差过滤前和方差过滤后运行的效果和运行时间

步骤一：导入模块并准备数据

from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.model_selection import cross_val_score
import numpy as np
X = data.iloc[:,1:]
y = data.iloc[:,0]
X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)

步骤二：KNN方差-过滤前

#======【TIME WARNING：35mins +】======#
cross_val_score(KNN(),X,y,cv=5).mean()
 
#python中的魔法命令，可以直接使用%%timeit来计算运行这个cell中的代码所需的时间
#为了计算所需的时间，需要将这个cell中的代码运行很多次（通常是7次）后求平均值，因此运行%%timeit的时间会
# 远远超过cell中的代码单独运行的时间
 
#======【TIME WARNING：4 hours】======#
%%timeit
cross_val_score(KNN(),X,y,cv=5).mean()

步骤三：KNN方差-过滤后

#======【TIME WARNING：20 mins+】======#
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()
 
#======【TIME WARNING：2 hours】======#
%%timeit
cross_val_score(KNN(),X,y,cv=5).mean()

KNN过滤后的效果十分明显：准确率稍有提升，平均运行时间减少了10分钟，特征选择过后算法的效率上升了1/3

步骤四：随机森林方差-过滤前与过滤后

cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()
cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()

说明：

无论过滤法如何降低特征的数量，随机森林只会选取固定数量的特征来建模
过滤法的主要目的是在维持算法表现的前提下，帮助算法降低计算成本
KNN邻算法中，特征越少，距离计算的维度就越少，模型明显会随着特征的减少变得轻量
决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目，因此，过滤法对随机森林无用，却对决策树有用

方差过滤影响总结：

	阈值很小被过滤掉得特征比较少	阈值比较大被过滤掉的特征有很多
模型表现	不会有太大影响	可能变好，代表被滤掉的特征大部分是噪音也可能变糟糕，代表被滤掉的特征中很多都是有效特征
运行时间	可能降低模型的运行时间基于方差很小的特征有多少当方差很小的特征不多时对模型没有太大影响	降低模型的运行时间算法在遍历特征时的计算越复杂，运行时间下降得越多

6.3卡方过滤

针对离散型标签（分类问题）的相关性过滤
基本流程可以概括为：先通过feature_selection.chi2计算每个非负特征和标签之间的卡方统计量，并依照统计量大小的高低通过feature_selection.SelectKBest来进行选择前K个分数最高的类，从而除去最可能独立于标签的特征。

实际操作：先方差过滤（如果模型表现增加）再卡方过滤

from sklearn.ensemble import  RandomForestClassifier as RFC
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

y = data.iloc[:,0]
X_fchi = SelectKBest(chi2, k=300).fit_transform(x_fsvar,y)

cross_val_score(RFC(n_estimators=10,random_state=0),X_fchi,y,cv=5).mean()

结果模型效果降低，说明K=300时删除了与模型相关的特征，需要提升K值

超参数K值的学习曲线

#======【TIME WARNING: 5 mins】======#
 
%matplotlib inline
import matplotlib.pyplot as plt
 
score = []
for i in range(390,200,-10):
    X_fschi = SelectKBest(chi2, k=i).fit_transform(X_fsvar, y)
    once = cross_val_score(RFC(n_estimators=10,random_state=0),X_fschi,y,cv=5).mean()
    score.append(once)
plt.plot(range(390,200,-10),score)
plt.show()

可以观察K值增大，模型的表现也上升，即数据中所有的特征都与标签相关。为了节约时间，我们一般根据P值来选择K，具体规则如下表：

P值	<=0.05或0.01	>0.05或0.01
数据差异	差异不是自然形成	差异是自然的样本误差
相关性	差异不是自然形成的	两组数据相互独立
原假设	拒绝原假设，接收备择假设	接受原假设

特征工程中，一般选择卡方值很大，p值小于0.05的特征，即和标签相关联的特征。而调用SelectKBest之前，可以直接从chi实例化后的模型中获得各个特征所对应的卡方值和P值

根据P值来选择K

chivalue, pvalues_chi = chi2(x_fsvar,y)
k = chivalue.shape[0] - (pvalues_chi > 0.05).sum()

该结果说明经过方差过滤后，数据集本身已经不含与标签无关的特征，可以全部用与模型

6.4F检验-ANOVA，方差齐性检验

捕捉每个特征与标签之间的线性关系的过滤方法，包括feature_selection.f_classif（F检验分类）与feature_selection.f_regression（F检验回归）

from sklearn.feature_selection import f_classif
F, pvalues_f = f_classif(X_fsvar,y)
k = F.shape[0] - (pvalues_f > 0.05).sum()

得到的结论与之前相同，即所有标签都相关
F检验在数据服从正态分布时效果非常稳定，所以一般先将数据转换成正态分布再进行F过滤

6.5互信息法

用来捕捉每个特征与标签之间的任意关系的过滤方法。
包括feature_selection.mutual_info_classif（互信息分类）和
feature_selection.mutual_info_regression（互信息回归），可以找出任意关系，而F检验只能找出线性关系。返回“每个特征与目标之间的互信息量的估计”，为0表示两者独立

from sklearn.feature_selection import mutual_info_classif as MIC
result = MIC(x_fsvar,y)
k = result.shape[0] - sum(result <= 0)

显然所有值都大于0，与之前的结论相同

常用过滤法总结：

类	说明	超参数的选择
VarianceThreshold	方差过滤，可输入方差阈值，返回方差大于阈值的新特征矩阵	看具体数据究竟是含有更多噪声还是更多有效特征一般使用0或1来筛选也可以画学习曲线或取中位数跑模型来帮助确认
SelectKBest	用来选取K个统计量结果最佳的特征，生成符合统计量要求的新特征矩阵	看配合使用的统计量
chi2	卡方检验，专用于分类算法，捕捉相关性	追求p小于显著性水平的特征
f_classif	F检验分类，只能捕捉线性相关性要求数据服从正态分布	追求p小于显著性水平的特征
f_regression	F检验回归，只能捕捉线性相关性要求数据服从正态分布	追求p小于显著性水平的特征
mutual_info_classif	互信息分类，可以捕捉任何相关性不能用于稀疏矩阵	追求互信息估计大于0的特征
mutual_info_regression	互信息回归，可以捕捉任何相关性不能用于稀疏矩阵	追求互信息估计大于0的特征

7.Embedded嵌入法

算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行。
使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征
权值系数往往代表了特征对于模型的某种贡献或某种重要性，比如决策树和树的集成模型中的feature_importances_属性，可以列出各个特征对树的建立的贡献，我们就可以基于这种贡献的评估，找出对模型建立最有用的特征
嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果。由于考虑特征对模型的贡献，无关的特征和无区分度的特征都会因为缺乏对模型的贡献而被删除掉

嵌入法引入了算法来挑选特征，因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大，计算缓慢的算法，嵌入法本身也会非常耗时耗力。并且，在选择完毕之后，我们还是需要自己来评估模型

feature_selection.SelectFromModel API

一个元变换器，可以与任何在拟合后具有coef_,feature_importances_属性或参数中可选惩罚项的评估器一起使用
对于使用惩罚项的模型来说，正则化惩罚项越大，特征在模型中对应的系数就会越小。当正则化惩罚项大到一定的程度的时候，部分特征系数会变成0，当正则化惩罚项继续增大到一定程度时，所有的特征系数都会趋于0

参数	说明
estimator	只要是带feature_importances_或者coef_属性，或带有l1和l2惩罚项的模型都可以使用
threshold	重要性低于这个阈值的特征都将被删除
prefit	默认False，判断是否将实例化后的模型直接传递给构造函数。为True，则必须直接调用fit和transform，不能使用fit_transform，并且SelectFromModel不能与cross_val_score，GridSearchCV和克隆估计器的类似实用程序一起使用。
norm_order	k可输入非零整数，正无穷，负无穷，默认值为1 在评估器的coef_属性高于一维的情况下，用于过滤低于阈值的系数的向量的范数的阶数
max_features	在阈值设定下，要选择的最大特征数。要禁用阈值并仅根据max_features选择，请设置threshold = -np.inf

随机森林学习曲线找到最佳特征值

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC
RFC_ = RFC(n_estimators =10,random_state=0)
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y) 
#0.005这个阈值对于有780个特征的数据来说，是非常高的阈值，因为平均每个特征只能够分到大约0.001feature_importances_
X_embedded.shape
#模型的维度明显被降低了
#同样的，我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING：10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_
threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
score = []
for i in threshold:
    X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
    once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()
    score.append(once)
plt.plot(threshold,score)
plt.show()

随着阈值越来越高，模型效果变差，删除特征变多，信息损失变大

在0.00134之前寻找最加特征值

#======【TIME WARNING：10 mins】======#
score2 = []
for i in np.linspace(0,0.00134,20):
    X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)
    once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()
    score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()

使用找到的0.000564跑模型：

X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
 
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
 
#=====【TIME WARNING：2 min】=====#
#我们可能已经找到了现有模型下的最佳结果，如果我们调整一下随机森林的参数呢？
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()

结果已经接近需要计算2个小时的KNN，如果继续调参可以再提高，所以对于需要思考很多统计量的过滤法来说，嵌入法是更加有效的方法

8.Wrapper包装法

计算成本在过滤法和嵌入法之间
依赖于算法自身的选择，比如coef_属性或feature_importances_属性来完成特征选择
使用一个目标函数作为黑盒来选取特征，不需输入某个评估指标或统计量的阈值
最能保证模型效果的特征选择方法

feature_selection.RFE API

贪婪的优化算法，旨在找到性能最佳的特征子集
反复创建模型，在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止

from sklearn.feature_selection import RFE
RFC_ = RFC(n_estimators =10,random_state=0)
selector = RFE(RFC_, n_features_to_select=340, step=50).fit(X, y)
 
selector.support_.sum()#340
selector.ranking_
X_wrapper = selector.transform(X)
 
cross_val_score(RFC_,X_wrapper,y,cv=5).mean()

学习曲线：

#======【TIME WARNING: 15 mins】======#
 
score = []
for i in range(1,751,50):
    X_wrapper = RFE(RFC_,n_features_to_select=i, step=50).fit_transform(X,y)
    once = cross_val_score(RFC_,X_wrapper,y,cv=5).mean()
    score.append(once)
plt.figure(figsize=[20,5])
plt.plot(range(1,751,50),score)
plt.xticks(range(1,751,50))
plt.show()

应用50个特征时，模型的表现就已经达到了90%以上，比嵌入法和过滤法都高效很多

特征选择总结：

多读多看多试多想！
多读多看多试多想！！
多读多看多试多想！！！

你可能感兴趣的:(sklearn,sklearn,python)

python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
pandas整表写入excel指定位置_pandas操作Excel的常用场景及问题那个吴小明
很多场景下使用pandas就能够胜任手上的excel处理任务，之前写的用python操作具体到excel单元格的方法参考：贺霆：python操作Excel实现自动化报表zhuanlan.zhihu.com现在主要介绍使用pandas读取excel的几种常用场景：一、常规读取importpandasaspdfrompandasimportDataFrame,Seriesimportosos.chdi
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
#Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息 Window Unlock 钉钉 python 机器人
（目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

	阈值很小被过滤掉得特征比较少	阈值比较大被过滤掉的特征有很多
模型表现	不会有太大影响	可能变好，代表被滤掉的特征大部分是噪音也可能变糟糕，代表被滤掉的特征中很多都是有效特征
运行时间	可能降低模型的运行时间基于方差很小的特征有多少当方差很小的特征不多时对模型没有太大影响	降低模型的运行时间算法在遍历特征时的计算越复杂，运行时间下降得越多