foolloof

1st Competition of Datawhale: the car price prediction

Task1 参赛组队
Task 2 初步EDA，学习成果以blog的形式进行沉淀

先说环境配置
环境舒服了就开始过baseline

坑一# 数据文件地址

如何查看隐藏列
坑二# 老版本pdf格式的文档代码查看不全。转战到天池的官方维护文档去。而且还是最新的版本五。
理解missingno工具
理解seaborn工具
又遇到一个小插曲，关于显示行数。
又遇到数学的坑（Johnson Su变换、Box-Cox等）

Johnson Su
Box-Cox
关于峰度Kurtosis偏度Skewness
关于箱型图和小提琴图科普
最后出的报告

task2的总结

以下是官方文档的2.4 经验总结（需要学习的部分加粗标出）

参考资料：精通特征工程一书
3月23号晚上直播内容知识

关于 ML67 的讲座一

１赛题理解
２baseline
３整体总结

关于小雨姑娘的讲座

part1 探索性数据分析EDA
part2 Q&A
part3 代码实战

**data.describe()**
**data.info()**
**回执数据分布**
**统计数值变量相关性**
**统计特征的偏度与峰度**
**绘制特征之间的关系图**

task3 特征工程

常见的特征工程包括：

xgboost学习

代码学习阶段
经验总结

3月26日晚上直播

part1 特征工程

数据理解
数据清洗

特征构造
特征选择
类别不平衡
part2

代码实战

Part3 Q&A

这里将作为整个赛程的总结。其中会遇到很多沟沟坎坎。望努力，最后通关，自己得到提升。

Task1 参赛组队

第一步就是参加比赛，组成队伍，确定队名我自己的编号。

我在3群，编号113。
队长队友都很好，早早就把baseline贴出来了。但是无奈信息对于我这个新手来说还是太多了。
3-27更新：Markdown文本的格式说明

Task 2 初步EDA，学习成果以blog的形式进行沉淀

这里的问题就比较多了。先说目标吧。2天时间是要跑一遍的，我的进度已经被群里的大神们甩开了。接下来就记录下我遇到的坑吧

先说环境配置

原先我用win10 + pycharm。结果遇到一行代码，就是baseline里的“%”。

warnings.filterwarnings('ignore')
%matplotlib inline

没见过啊，internet后发现是Jupyter的代码。于是考虑后期的更改，跟大家同步的话，果断开始配置Jupyter。

导入了一些没有的库，如lightgbm xgboost missingno；
360浏览器默认打开Jupyter让我很不爽，更改为chrome (https://cloud.tencent.com/developer/article/1420759)
Jupyter原来配色太刺眼，添加theme，并修改字体
- pip install --upgrade jupyterthemes
- jt -t oceans16 -f fira -fs 12 -cellw 90% -ofs 10 -dfs 11 -T (修改了一堆没用过的参数）
IPython 因为导入不正确又用terminal导入了一遍。
Jupyter的快捷键链接

环境舒服了就开始过baseline

坑一# 数据文件地址

copy代码进去发现两个错误：出现了FileNotFoundError

Train_data = pd.read_csv('datalab/231784/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=' ')
```-
回去找datalab，看不懂了。没见到Jupyter环境里有个datalab的库或者文件夹。
```javascript
# 查看数据文件目录 list datalab files
!ls datalab/

链接: 知乎上有关于这个"!"感叹号的说明。这里埋伏了shell与IDLE的交互问题
datalab的问题，是队长找到了datalab是天池上数据的文件夹名称，是对于天池参赛队伍的。
我后来反应过来，感觉像是服务器实验室之类的数据空间，供大家调用之类的。

前期队长down下来了csv数据。这里就把地址更改为本地地址。（主要是我的Jupyter的工作目录页比较深）

## 通过Pandas对于数据进行读取 (pandas是一个很友好的数据读取函数库)
Train_data = pd.read_csv('C:/Users/***/Desktop/DataWhale/Jupyter_datawhale/used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv('C:/Users/***/Desktop/DataWhale/Jupyter_datawhale/used_car_testA_20200313.csv', sep=' ')

如何查看隐藏列

然后顺利看到下图，等一等，省略内容没显示全。没关系，设置一下。

添加以下命令，设定显示列数为31。这里捎带修改了行数，多看了5行。

pd.set_option('max_column', 31)  # 31 is optional
Train_data.head(n=10)  # display 10 rows

坑二# 老版本pdf格式的文档代码查看不全。转战到天池的官方维护文档去。而且还是最新的版本五。

理解missingno工具

msno.matrix(Train_data.sample(250))

无效矩阵的数据密集显示，理解了中间黑色的部分意思是满的，白色部分是缺失的。同时右侧的The sparkline(迷你图) at right summarizes the general shape of the data completeness and points out the rows with the maximum and minimum nullity（无效[数] 零度；退化阶数） in the dataset.
This visualization will comfortably accommodate up to 50 labelled variables. Past that range labels begin to overlap or become unreadable, and by default large displays omit them.最多显示50列，超出会隐藏。
经过讨论，sample带有shuffle性质，及时每次n=250显示的图也不一样。说明抽样250个，而非抽取前250个。去掉sample（）函数后，显示的图就一样了。

msno.bar(Train_data.sample(1000))

msno.bar is a simple visualization of nullity by column.

Train_data[‘notRepairedDamage’].replace(’-’, np.nan, inplace=True)
inplace参数的理解：当修改一个对象时：
inplace=True：不创建新的对象，直接对原始对象进行修改；
inplace=False：对数据进行修改，创建并返回新的对象承载其修改结果。

理解seaborn工具

seaborn简单介绍

又遇到一个小插曲，关于显示行数。

网上的回答是：
pd.set_option()不能这么用,set_option的内部方法是这样的：

set_option = CallableDynamicDoc(_set_option, _set_option_tmpl)

CallableDynamicDoc的声明如下：

class CallableDynamicDoc:
    def __init__(self, func, doc_tmpl):
        self.__doc_tmpl__ = doc_tmpl
        self.__func__ = func 
    def __call__(self, *args, **kwds):
        return self.__func__(*args, **kwds)
 
    @property
    def __doc__(self):
        opts_desc = _describe_option("all", _print_desc=False)
        opts_list = pp_options_list(list(_registered_options.keys()))
        return self.__doc_tmpl__.format(opts_desc=opts_desc, opts_list=opts_list)

第二个参数不是最多可以查看的行数，是内部设置的一个模板参数。默认填None就行了。
感觉进坑了，先出来，mark一下吧~回头有空了，问问作者小雨姑娘是咋配置的。

又遇到数学的坑（Johnson Su变换、Box-Cox等）

先说看到基础知识
机器学习中分类与回归问题的区别与联系
【机器学习小常识】“分类” 与 “回归”的概念及区别详解

Johnson Su

链接: 维密之维基的秘密.
链接: 经典比较篇之九：数据不正态怎么办(续)？ - 张自达的文章 - 知乎
有个问题（知乎作者也提了这个问题）：在进行比较分析时遇到数据不正态寻求变换是一个常规动作，但是变换后的比较结果与常规的比较是等效的吗？我没有答案，也没有找到类似的资料，希望能够有人为我解惑。

Box-Cox

使用Box-Cox转换的益处
Box-Cox变换的目的是为了让数据满足线性模型的基本假定，即线性、正态性及方差齐性，然而经Box-Cox变换后数据是否同时满足了以上假定，仍需要考察验证。

第一，数据变换并不能解决所有非正态性的问题。
第二，对数据进行变换后，重新进行原来计划的统计检验，其意义会发生变化。

关于峰度Kurtosis偏度Skewness

学习连接
Seaborn-05-Pairplot多变量图

关于箱型图和小提琴图科普

箱型图和小提琴图

plt.boxplot(all_data,
   notch=True,  # box instead of notch shape  中位数线两侧会出现剪切 
        # notch n.等级;档次;位阶;(表面或边缘的)V形刻痕，圆形切口 v.
              赢取;获得;(在表面或边缘)刻V形痕，刻下切口
   sym='rs',  # red squares for outliers	颜色形状
   vert=True)  # vertical box aligmnent   竖版

5分钟包你搞懂箱形图分析！

在上文中，有箱型图四分位数的计算公式
（1）确定四分位数的位置。Qi所在位置=i（n+1）/4，其中i=1，2，3。n表示序列中包含的项数。
（2）根据位置，计算相应的四分位数。（相邻两数要求平均，如下四分位数位置为3.75，则下四分位数=0.25第三项+0.75第四项）
着重注意异常值的划分区间，即箱型图的上下限。上限=Q3+1.5IQR；下限=Q1-1.5IQR
文中提到的箱型图的价值3点，以及对应的缺点。（其中有一条是数据抗性，定性理解。）

最后出的报告

学习的最后安装pandas-profiling总是失败，更改了镜像源为国内，秒成，真酸爽。以下是命令。

pip install -i https://mirrors.aliyun.com/pypi/simple/ pandas-profiling

生成报告的时间很久，大概跑了一个小时多。但是报告内容还是很多。报告warnings里里有很多信息和结论，包括那几个值相关程度是多少，都有了一些初步结论。

task2的总结

在Jupyter Notebook中，如果使用Matplotlib绘图，有时是弹不出图像框的，此时，可以在开头加入%matplotlibinline

以下是官方文档的2.4 经验总结（需要学习的部分加粗标出）

所给出的EDA步骤为广为普遍的步骤，在实际的不管是工程还是比赛过程中，这只是最开始的一步，也是最基本的一步。接下来一般要结合模型的效果以及特征工程等来分析数据的实际建模情况，根据自己的一些理解，查阅文献，对实际问题做出判断和深入的理解。最后不断进行EDA与数据处理和挖掘，来到达更好的数据结构和分布以及较为强势相关的特征。

数据探索在机器学习中我们一般称为EDA（Exploratory Data Analysis）：

是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

数据探索有利于我们发现数据的一些特性，数据之间的关联性，对于后续的特征构建是很有帮助的。

对于数据的初步分析（直接查看数据，或.sum(), .mean()，.descirbe()等统计函数）可以从：样本数量，训练集数量，是否有时间特征，是否是时许问题，特征所表示的含义（非匿名特征），特征类型（字符类似，int，float，time），特征的缺失情况（注意缺失的在数据中的表现形式，有些是空的有些是”NAN”符号等），特征的均值方差情况。

分析记录某些特征值缺失占比30%以上样本的缺失处理，有助于后续的模型验证和调节，分析特征应该是填充（填充方式是什么，均值填充，0填充，众数填充等），还是舍去，****还是先做样本分类用不同的特征模型去预测。

对于异常值做专门的分析，分析特征异常的label是否为异常值（或者偏离均值较远或者事特殊符号）,异常值是否应该剔除，还是用正常值填充，是记录异常，还是机器本身异常等。

对于Label做专门的分析，分析标签的分布情况等。

进步分析可以通过对特征作图，特征和label联合做图（统计图，离散图），直观了解特征的分布情况，通过这一步也可以发现数据之中的一些异常值等，通过箱型图分析一些特征值的偏离情况，对于特征和特征联合作图，对于特征和label联合作图，分析其中的一些关联性。
以上段落对我而言有抽象的部分，我个人还无法完全理解。需要对于“特征”所缺失的知识和视角做一个总结，方便后期入坑：
1数学知识上打基础，主要是大体概念和性质用途，如各个统计指标以及响应的统计图表知识，方便后期清洗数据；
2对于pandas，seaborn等库工具的运用，方便得到各种特征以及数据变化；
3需要加深对数据特征的理解：这个主要是train集中的数据的特征的学习，知道有哪些特征可以怎么用，代表什么，怎么样去变换等
4花一部分时间去思考模型：怎么洗数据，洗白后怎么去构造算法模型（贪心算法，竞争算法，神经网络，随机森林算法啊，~~后两个我都不懂(⊙_⊙)?）

参考资料：精通特征工程一书

1.2 我们不被这些杂乱的工具与系统所迷惑，就能够发现这个过程包括两个构成机器学习基础的数学实体：模型和特征。

3月23号晚上直播内容知识

这一部分对于我来说第一次接触，我仅能从概念上给我的队长们提供一些思路，更多的是见识更宽广的数据世界。一种淹没在数据海洋的感觉。而python啊，numpy啊，pandas等就是我的装备。我要不断学习他们，升级他们，让我能更好的在数据中遨游。

关于 ML67 的讲座一

１赛题理解

注意很重要的问题，数据很脏，要洗数据。
对于匿名特征的处理要点多尝试，筛选～如多项式运算等；对于显性特征就可以多做一些组合。
理解评测标准，MAE还是比较好理解的。（对于二类分类器算法评价指标：accuracy，precision，recall，f-score，pr曲线，roc-auc曲线；对于多类分类器算法评价指标：accuracy，宏平均和微平均，f-score。这些指标都需要再查看资料消化理解。）
对于回归类预测常见指标：MAE，MSE，MAPE，RMSE，R2.后三个需要去了解其数学表达式。
xgb，lgb，catboost做比赛常用工具包 pandas，numpy，matplotlib，seabon，sklearn，keras灯常用库和框架
EDA = exploratory data analysis
对于回归问题，注意两个问题：对数据的分析，构建特征；选择一个好的模型达到效果。
赛题理解究竟理解什么：问题分类，回归问题。
有了赛题理解能做啥：读取数据，看分布。
赛题北京中可能潜在隐藏的条件：漂移，清洗，ctr，购买行为逻辑。AB用户是不是有关系。

２baseline

先写baseline，看得分。然后修修补补，加减特种，优化提升。最后组队出精品。

step1：导入函数工具箱
step2：读取数据（小EDA）
step3：特征与标签构建。（做了一部分粗糙的特征筛选。后续可以做很多扩充。缺省值填补，对特征标签的eda）理论概念不足，要补很多。
step4：模型训练与预测：xgb五折交叉验证（防止数据过拟合的方式）（xgb，lgb最常用的）（时间够的话，用网格搜索的方式，调配各个参数，得到最好的参数组合。）（切分数据集4:1方式切分，训练集和验证集。）（模型融合。加权等方式。）
step5：结果输出

３整体总结

有个很大的思维导图

关于小雨姑娘的讲座

part1 探索性数据分析EDA

eda的5个目标：
1,look at data to see what it seems to say
2,uncover underlying structures
3,isolate important variables
4,detect outliers (异类; 异常值; 离群值; 局外人; 离群点)and other anomalies(异常事物; 反常现象英[əˈnɒməliz])
5,suggest suitable models for conventional statistics.
绘图方法：
时序图，散点图，直方图，小提琴图，箱型图等
特征一块画出来，对比异同。
量化方法：
特征的统计性表述：偏度，峰度，方差，均值。取值范围；分布；
相关性分析
1定类变量：名义型变量；性别，车品牌
2定序变量：不仅分类，还按照某种特性排序；两值的差无意义；教育程度。
3定距变量：可比较大小、差有意义的变量。

-------	定类	定序	定距
定类	卡方类测量（信息熵）	卡方类测量（信息熵）	Eta系数
定序		spearman相关数；同序-异序对测量	spearman相关系数
定距			pearson相关系数

独立性分析
当两个变量之间不独立时，不一定相关。
当他们相关的时候，他们一定不独立。
变量间无线性相关，还可能存在非线性关联。
github里，附成了一个python包

part2 Q&A

正态分布，随机森林模型，特征工程，指数分布，求log，筛选特征先做eda，

part3 代码实战

data.describe()

统计量，个数count，平均值mean，方差std，最小值min，中位数25,50,75%，以及最大值max

data.info()

了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常。
[1]^ NaN（Not a Number，非数）是计算机科学中数值数据类型的一类值，表示未定义或不可表示的值。常在浮点数运算中使用。首次引入NaN的是1985年的IEEE 754浮点数标准。
non-null -
is_null函数查看缺失。

回执数据分布

seaborn johnson su方法

统计数值变量相关性

画出热力图heatmap() （带来一个复共线性的问题，考虑剔除某些特征。如果用高级模型如随机森林，不需要剔除。）

统计特征的偏度与峰度

绘制特征之间的关系图

画图比定量分析要明显。可以考虑独立性验证方法。
匿名特征可以用PCA降维吗？尽量不要，会损失信息。
object是pandas预定好的类。

task3 特征工程

常见的特征工程包括：

1异常处理：

通过箱线图（或 3-Sigma）分析删除异常值；（这个已经有概念，但是代码操作）
BOX-COX 转换（处理有偏分布）；
长尾截断；
2特征归一化/标准化：
标准化（转换为标准正态分布）；
归一化（抓换到 [0,1] 区间）；
针对幂律分布，可以采用公式： log[(1+x)/(1+median)]
3数据分桶：
等频分桶；
等距分桶；
Best-KS 分桶（类似利用基尼指数进行二分类）；
卡方分桶；
4缺失值处理：
不处理（针对类似 XGBoost 等树模型）；
删除（缺失数据太多）；
插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等；
分箱，缺失值一个箱；
5特征构造：
构造统计量特征，报告计数、求和、比例、标准差等；
时间特征，包括相对时间和绝对时间，节假日，双休日等；
地理信息，包括分箱，分布编码等方法；
非线性变换，包括 log/ 平方/ 根号等；
特征组合，特征交叉；
仁者见仁，智者见智。
6特征筛选
过滤式（filter）：先对数据进行特征选择，然后在训练学习器，常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法；
包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有 LVM（Las Vegas Wrapper）；
嵌入式（embedding）：结合过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有 lasso 回归；
7降维
PCA/ LDA/ ICA；
特征选择也是一种降维。

xgboost学习

xgboost浅析
xgboost详解，有点太详细，太数学了，留着看吧
https://www.bilibili.com/video/BV1mZ4y1j7UJ?from=search&seid=450600465213253658

代码学习阶段

所有的代码都执行顺利直到这一条。因为没有安装好mlxtend。因为task2中的学习，我更换了国内镜像，安装成功了。但是却出现了错误。

# k_feature 太大会很难跑，没服务器，所以提前 interrupt 了
# !pip install mlxtend  # 不要点，下载速度很慢
 from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from sklearn.linear_model import LinearRegression
sfs = SFS(LinearRegression(),
           k_features=10,
           forward=True,
           floating=False,
           scoring = 'r2',
           cv = 0)
x = data.drop(['price'], axis=1)
x = x.fillna(0)
y = data['price']
sfs.fit(x, y)
sfs.k_feature_names_

ValueError: Input contains NaN, infinity or a value too large for dtype(‘float64’).
经过群里讨论，大家的意见是：city有个str类型的空值或nan值，他这里应该是用的回归的模块，回归模块的数据里面不能有nan的，要不处理不了，树模型的可以有。这个留到以后理解~~

经验总结

（以下摘自教材）
特征工程是比赛中最至关重要的的一块，特别的传统的比赛，大家的模型可能都差不多，调参带来的效果增幅是非常有限的，但特征工程的好坏往往会决定了最终的排名和成绩。

特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。比如，异常值处理是为了去除噪声，填补缺失值可以加入先验知识等。

特征构造也属于特征工程的一部分，其目的是为了增强数据的表达。

有些比赛的特征是匿名特征，这导致我们并不清楚特征相互直接的关联性，这时我们就只有单纯基于特征进行处理，比如装箱，groupby，agg 等这样一些操作进行一些特征统计，此外还可以对特征进行进一步的 log，exp 等变换，或者对多个特征进行四则运算（如上面我们算出的使用时长），多项式组合等然后进行筛选。由于特性的匿名性其实限制了很多对于特征的处理，当然有些时候用 NN 去提取一些特征也会达到意想不到的良好效果。

对于知道特征含义（非匿名）的特征工程，特别是在工业类型比赛中，会基于信号处理，频域提取，丰度，偏度等构建更为有实际意义的特征，这就是结合背景的特征构建，在推荐系统中也是这样的，各种类型点击率统计，各时段统计，加用户属性的统计等等，这样一种特征构建往往要深入分析背后的业务逻辑或者说物理原理，从而才能更好的找到 magic。

当然特征工程其实是和模型结合在一起的，这就是为什么要为 LR NN 做分桶和特征归一化的原因，而对于特征的处理效果和特征重要性等往往要通过模型来验证。

总的来说，特征工程是一个入门简单，但想精通非常难的一件事。

说一下我的理解，特征工程应该是深度挖掘数据的数学特点，后期的拟合和过拟合也是基于数据的特点，找出可能的趋势。判别模型好坏，群里有人一般用learning curve，因为其包含交叉验证，并且可以判别欠拟合和过拟合情况，从而反过来指导特征工程；也有同学每次改特征工程，跑模型，搞到最后，代码越来越混乱，都不知道哪个模型效果好了的情况发生。

3月26日晚上直播

part1 特征工程

数据理解

目的：探索数据，了解数据，主要在 EDA 阶段完成。

定性数据：描述性质
a) 定类：按名称分类——血型、城市
b) 定序：有序分类——成绩（A B C）
定量数据：描述数量
a) 定距：可以加减——温度、日期
b) 定比：可以乘除——价格、重量

四个层次：结论，解读，描述，数据。

数据清洗

目的：提高数据质量，降低算法用错误数据建模的风险
1.特征变换：模型无法处理或不适合处理
a) 定性变量编码：Label Encoder；Onehot Encoder；Distribution coding；
b) 标准化和归一化：z分数标准化（标准正太分布）、min-max 归一化；
2.缺失值处理：增加不确定性，可能会导致不可靠输出
a) 不处理：少量样本缺失；
b) 删除：大量样本缺失；
c) 补全：（同类）均值/中位数/众数补全；高维映射（One-hot）；模型预测；最邻近补全；矩阵补全（R-SVD）；
3.异常值处理：减少脏数据
a）简单统计：如describe（）的统计描述；散点图等
b）3 ∂ 法则（正太分布）/箱型图删除、截断；
c) 利用模型进行离群点检测：聚类、K近邻、One Class SVM、Isolation Forest；
4.其他：删除无效列/更改dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等

特征构造

目的：增加数据表达，添加先验知识。

统计量特征：
a) 计数、求和、比例、标准差；
时间特征：
a) 绝对时间、相对时间、节假日、双休日；
地理信息：
a) 分桶；
非线性变换：
a) 取 log/平方/根号；
数据分桶：
a) 等频/等距分桶、Best-KS 分桶、卡方分桶；
特征组合

特征选择

目的:平衡预测能力和计算复杂度；降低噪声，增强模型预测性能。
1. 过滤式（Filter）：先用特征选择方法对初识特征进行过滤然后再训练学习器，特征
选择过程与后续学习器无关。
a) Relief/方差选择/相关系数/卡方检验/互信息法
2. 包裹式（Wrapper）：直接把最终将要使用的学习器的性能作为衡量特征子集的评
价准则，其目的在于为给定学习器选择最有利于其性能的特征子集。
a) Las Vegas Wrapper(LVM)
3. 嵌入式（Embedding）：结合过滤式和包裹式方法，将特征选择与学习器训练过程
融为一体，两者在同一优化过程中完成，即学习器训练过程中自动进行了特征选择。
a) LR+L1或决策树

类别不平衡

缺点：少类别提供信息太少，没有学会如何判别少数类。
1.扩充数据集
2.尝试其他评价指标：AUC等。
3.调整θ值。
4重采样:过采样/欠采样
5合成样本：SMOTE
6 选择其他模型：决策树等。
7加权少类别的样本错分代价；
8创新：a) 将大类分解成多个小类；b) 将小类视为异常点，并用异常检测建模。

part2

代码实战

删除异常值

特征构造

数据分桶
在评论里的是one–hot编码的优点

归一化
要用训练集的最大值，而不是所有数据的最大值。

one-hot编码
特征选择：过滤式

用sperman，没用另一个是因为它要求服从正太分布

特征选择：包裹式

Part3 Q&A

Q:Xgboost处理分类特征时要做one-hot编码吗，尤其是对于汽车品牌这种很
重要的特征，但one-hot编码后特征维度却很高，导致运行速度超级慢，有固
定的方法吗？还是说要分别进行一次编码和一次不编码，每遇到一次这个问
题都要自己试一遍？
A：决策树模型不推荐对离散特征进行 one-hot。主要有两个原因：
• 会产生样本切分不平衡问题：本来特征是红的白的绿的，现在变为是否红的、是否白的、
是否绿的。只有少量样本为 1，大量样本为 0。这种特征的危害是：
• 本来节点的划分增益还可以，但是拆分后的特征，占总样本的比例小的特征，所以
无论增益多大，乘以该比例之后会很小，
• 占比例大的特征其增益也几乎为 0，影响模型学习；
• 影响决策树学习：决策树依赖的是数据的统计信息，one-hot 会把数据切分到零散的小空
间上，在这些零散的小空间上，统计信息是不准确的，并且围绕小部分数据展开，有过拟
合倾向。
其本质在于，特征的预测能力被人为的拆分成多份，每一份与其他特征竞争最优划分节点时都
会失败，所以特征的重要性会比实际值低。
PS：如果类别特征比较多的话，可以去使用 CatBoost；
如果想用one-hot试验的话可以使用别数量小的。

(to be continue)需要等到有回放的时候再细化补充。ppt也还没来得及看

你可能感兴趣的:(1st Competition of Datawhale: the car price prediction)

笔记-LeetCode 787: K 站中转内最便宜的航班我只是什么都不会而已算法
题目描述有n个城市通过一些航班连接。给你一个数组flights，其中flights[i]=[fromi,toi,pricei]，表示该航班都从城市fromi开始，以价格pricei抵达toi。现在给定所有的城市和航班，以及出发城市src和目的地dst，你的任务是找到出一条最多经过k站中转的路线，使得从src到dst的价格最便宜，并返回该价格。如果不存在这样的路线，则输出-1。代码模板（BFS+最短
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
istio 介绍-01-一个用于连接、管理和保护微服务的开放平台概览后端java
istioistio一个用于连接、管理和保护微服务的开放平台。介绍Istio是一个开放平台，用于提供统一的方式来集成微服务、管理跨微服务的流量、执行策略和聚合遥测数据。Istio的控制平面在底层集群管理平台（例如Kubernetes）上提供了一个抽象层。Istio由以下组件组成：Envoy-每个微服务的Sidecar代理，用于处理集群中服务之间以及从服务到外部服务的入口/出口流量。这些代理形成了一
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
2. 猜数字游戏老实人y Rust小白初学 rust 开发语言后端
目录创建一个新项目处理一次猜测生成一个秘密数字使用crate来增加更多功能Cargo.lock文件确保构建是可重现的更新crate到一个新版本生成一个随机数比较猜测的数字和神秘数字使用循环来允许多次猜测猜测正确后退出处理无效输入最终代码程序会随机生成一个1到100之间的整数。接着它会提示玩家猜一个数并输入，然后指出猜测是大了还是小了。如果猜对了，它会打印祝贺信息并退出。创建一个新项目project
Redis命令详解--集合八股文领域大手子 redis 数据库缓存 java spring 后端服务器
Redisset是string类型的无序集合。集合成员是唯一的，这就意味着集合中不能出现重复的数据，常用命令：SADDkeymember1[member2...]向集合添加一个或多个成员SREMkeymember1[member2...]移除集合中一个或多个成员SMEMBERSkey获取集合中所有成员性能提示：SMEMBERS慎用于大集合（可用SSCAN分页遍历）SCARDkey获取集合成员数量S
【CXX-Qt】2.1 构建系统 Source.Liu CXX-Qt qt rust c++
CXX-Qt可以集成到现有的CMake项目中，也可以仅使用Cargo进行构建。需要了解的可以阅读上2篇文章：Cargo集成CMake集成CXX-Qt可以与任何C++构建系统一起使用，只要在调用Cargo之前设置了QMAKE、CXX_QT_EXPORT_DIR和CXX_QT_EXPORT_CRATE_环境变量。请查看我们的CMake代码以了解如何使用这些变量。然而，除了Cargo或CMake之外，使
day01-基本查询 elasticsearch
day011.index3条docPUTbooks/_doc/1{"title":"EffectiveJava","author":"JoshuaBloch","release_date":"2001-06-01","amazon_rating":4.7,"best_seller":true,"prices":{"usd":9.95,"gbp":7.95,"eur":8.95}}PUTbooks/
10篇R1相关的研究全面汇总，万字思考！ datawhale
原创长琴DatawhaleDatawhale干货作者：长琴，Datawhale成员本文通过10篇R1相关的研究，介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。本文中的相关阅读，可以在主页找到对应文章：主页地址：https://yam.gift/基本框架首先是整体的框架，如下所示。•Base+SFT•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
Vitis 2024.1 无法正常编译custom ip的bug（因为Makefile里的wildcard） Αλήθεια bug fpga fpga开发 arm
现象：如果在vivado中，添加了自己的customIP，比如AXI4IP，那么在Vitis（2024.1）编译导出的原本的.xsa的时候，会构建build失败。报错代码是："Compilingblank_test_ip..."microblaze-xilinx-elf-gcc.exe:warning:(ildcard:linkerinputfileunusedbecauselinkingnotd
Rust语言介绍和猜数字游戏的实现栖林_ Rust rust 游戏开发语言
文章目录Rust语言介绍和猜数字游戏的实现cargo是什么使用Rust编写猜数字Rust语言介绍和猜数字游戏的实现Rust语言是一种系统编程语言，核心强调安全性、并发性以及高性能，由类似于C/C++的底层控制能力，性能也非常接近，Rust有一些特性所有权系统，这个可以自动管理内存，无需垃圾回收器，保证数据的安全零成本抽象，高层抽象不会带来运行时的开销，运行时的效率会很高线程安全，在编译阶段就能防止
RAMS数据处理程序—垂直剖面分析程序 Hardess-god RAMS 人工智能算法
该程序的主要特点：使用Cartopy创建地图投影添加海岸线、国界线等地理要素绘制等值线图显示气象要素分布自动设置颜色标尺和标题支持不同层次的数据展示importmatplotlib.pyplotaspltdefplot_vertical_cross_section(data,start_lat,start_lon,end_lat,end_lon):"""绘制垂直剖面图"""#计算剖面线上的点num
MySQL中，性别列（男，女）为什么不适合建索引？程序员猫哥 MySQL mysql 数据库
文章目录在MySQL中，性别列（如仅包含"男"和"女"的列）不适合单独建立索引的主要原因如下：低区分度问题当某个列的唯一值比例（Cardinality）过低时（如性别列仅有2种值），索引的筛选效率会显著下降假设表中有100万条数据，使用性别索引查询时：SELECT*FROMusersWHEREgender='男'可能返回约50万条记录，此时：索引需要执行50万次回表查询（随机I/O）全表扫描只需一
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
2024年六大勒索攻击事件大盘点，“反勒索”思维助企业提前破局科技云报道反勒索
超20亿美元，这是2024年一场勒索攻击企业带来的直接经济损失。然而，这场攻击的“代价”远不止于此。这是真实发生在美国的事件。据安全内参消息，去年2月，美国医疗IT公司ChangeHealthcare遭受了勒索攻击，导致数字服务中断整整9个月，直至2024年12月，仍然有少量业务功能未恢复。作为美国最大的医疗支付处理公司之一，ChangeHealthcare每年处理约150亿笔交易，此次攻击不仅对
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
rstudio检验多重共线性代码十三木机器学习人工智能
在Rstudio中，你可以使用vif()函数来检验多重共线性。例如，假设你已经建立了一个线性回归模型，并将它保存在一个变量model中。你可以使用如下代码来检验多重共线性：library(car)vif(model)这会返回每个自变量的方差膨胀因子(VIF)，如果VIF较大(通常超过5或10)，则可能存在多重共线性。你可以使用这些信息来确定是否需要删除某些自变量或使用其他方法来处理多重共线性。
Codeforces Round 995 (Div. 3) polarours Codeforces 算法 c++数据结构
A.PreparingfortheOlympiad题目描述Monocarp和Stereocarp正在准备奥林匹克。现在仅剩nnn天奥林匹克就要开始了。在这第iii天，如果Monocarp准备训练，那么他将完成aia_iai题，同样的，如果Stereocarp也在这天准备训练，那么他将完成bib_ibi题。Monocarp可以在任意一天进行训练，然而，Stereocarp在观察他，并且学习他的计划：
Cargo deny安装指路编辑器
本博客所有文章除特别声明外，均采用CCBY-NC-SA4.0许可协议。转载请注明来自唯你简介cargodeny是一个Rust工具，用于检查项目依赖项的许可证、安全性和其他合规性问题。在RustCI（持续集成）中，cargodeny扮演着重要角色：许可证检查：确保项目使用的所有依赖项的许可证都符合项目的许可政策。安全漏洞扫描：检查依赖项是否存在已知的安全漏洞。依赖项合规性：验证依赖项是否符合项目的其
oracle 01476,GoldenGate 常见错误分析（一）来来来看看 oracle 01476
(1)解决GoldenGate错误的一个关键点就是通过错误分析工具(包括report文件，ggserr.logdiscard文件logdump工具，GGSCI命令行)确定错误的根源是哪个组件引起的。系统或者网络？数据库报错或者应用报错？GoldenGate安装报错？GoldenGate的某个进程报错？GoldenGate的参数配置文件报错？SQL语句或者存储过程报错？然后再确定错误的原因，逐个排查
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
【css酷炫效果】纯CSS实现3D翻转卡片动画冰夏之夜影 web前端 css 前端
【css酷炫效果】纯CSS实现3D翻转卡片动画缘创作背景html结构css样式完整代码效果图想直接拿走的老板，链接放在这里：https://download.csdn.net/download/u011561335/90490472缘创作随缘，不定时更新。创作背景刚看到csdn出活动了，赶时间，直接上代码。html结构正面内容背面内容...css样式/*容器设置透视*/.card-containe
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
uni-app 小程序项目四封装 radio组件、NumberBox组件以及数据问题、滑动删除组件、收货地址组件以及授权问题、结算区域 Hyman-ya uni-app 小程序项目 uni-app
购物车页面1.0创建购物车页面的编译模式打开微信开发者工具，点击工具栏上的“编译模式”下拉菜单，选择“添加编译模式”：勾选“启动页面的路径”之后，点击“确定”按钮，新增购物车页面的编译模式：1.1商品列表区域1.11渲染购物车商品列表的标题区域定义如下的UI结构：购物车美化样式：.cart-title{height:40px;display:flex;align-items:center;font
FX-C++可变参数 lucky1_1star C++c++windows 开发语言
1.C风格的可变参数（C-stylevariadicarguments）C++继承了C语言的可变参数机制，使用...语法。这种方式需要头文件中的宏来访问参数。示例：#include#includevoidprintNumbers(intcount,...){va_listargs;//定义一个va_list类型的变量va_start(args,count);//初始化args，count是最后一个
算法——动态规划——买卖股票阿饼240 算法动态规划
力扣原题classSolution{public:intmaxProfit(vector&prices){vector>dp(prices.size(),vector(2));//每一行各有两个状态，一个是持有股票，一个是不持有股票dp[0][0]=-prices[0];dp[0][1]=0;for(inti=1;i
CSMA/CD协议原理与例题苏雨流丰考研复习#计算机网络计算机网络
CSMA/CD协议CSMA/CD（CarrierSenseMultipleAccess/collisiondetection，带有冲突检测的载波侦听多路存取）是IEEE802.3使用的一种媒体访问控制方法。从逻辑上可以划分为两大部分：数据链路层的媒体访问控制子层（MAC）和物理层。它严格对应于ISO开放系统互连模式的最低两层。LLC子层和MAC子层在一起完成OSI模式的数据链路层的功能。CSMA/
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
车载Android音频系统 CarAudioService Code_onepage android
CarAudioService是车载音频系统的核心服务，负责管理多音源协调、音频路由、音量策略、硬件控制等关键功能，处理车载环境下特有的音频场景（如倒车提示音、车门状态联动等）。一、核心功能模块1.音频焦点管理焦点栈机制(mFocusStack)使用Stack管理不同音源的优先级处理导航/USB/蓝牙等音源的抢占逻辑//示例：焦点切换时的音频路由switchSource(null,AudioAtt
COMP9321 25T1 后端
COMP932125T1Assignment1(15marks)IntroductionTheNSWFuelCheckdatasetismaintainedbytheNSWGovernment.ItallowsmotoriststoaccesshistoricalandliveinformationaboutfuelpricesacrossNSW.Wehavedownloadedthe“FuelC
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情