鱼-qq

20200321 Datawhale数据挖掘入门-Task1 赛题理解 (1)

Datawhale入门数据挖掘

阿里云天池赛题：二手车交易价格预测

比赛地址：https://tianchi.aliyun.com/competition/entrance/231784/information
学习路线资料：https://github.com/datawhalechina/team-learning

代码部分转自https://blog.csdn.net/linqunbin/article/details/98380051?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

涉及相关方面知识

1.什么是jupyter notebook

是一种应用，能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。

2.相关知识：

2.1新建一个新文件夹，在右上角new在利用python3下建立，代表建立一个ipynb文件

2.2建立之后点击标题可以进行

2.3shift+回车输出结果、蓝色模式是命令模式：nx删除命令块、z可以恢复命令
绿色模式是编辑模式：按Esc可以退回到到命令模式
markdown：代码块，按m键可以进入markdown单元格
In开头是代码，按m就可以回到markdown，可以在里面插入说明性文字，还可以插入数学公式

2.4常用快捷键
回车：从命令模式变成编辑模式
Esc：从编辑模式变回命令模式
shift+回车：运行当前代码块，并跳到下一行代码块

选中命令模式：nm可以变成markdown单元格，y可以变成代码单元格
ctrl+回车：运行当前代码块，不会跳到下一个代码块

b：在下方新建单元块
a：在上方新建一个单元块

d：删除掉当前代码块
x:剪切
shift+v:粘贴
v：粘贴到当前
nl：可以对模块里面标行
插入数学公式：和LaTex里面的基本一致，可以直接去查表

1.1 学习目标

明确赛题中的数据和目标，清楚评分体系。
完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程

1.2 了解赛题

赛题概况
数据概况
预测指标
分析赛题

1.2.1 赛题概况（背景说明）

引:赛题是以二手车市场作为背景，要求预测二手汽车的交易价格。
我们可以根据给定的数据集，建立模型，预测二手汽车的交易价格。
这里提到这是一个典型的回归问题
引：来自 Ebay Kleinanzeigen 报废的二手车，数量超过 370,000，包含 20 列变量信息，为了保证比赛的公平性，将会从中抽取 10 万条作为训练集，5 万条作为测试集 A，5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行脱敏。
通过这道赛题来引导大家走进 AI 数据竞赛的世界，主要针对于于竞赛新人进行自我练习、自我提高。

回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。主要用于预测数值型数据，典型的回归例子：数据拟合曲线。

七种回归分析方法链接：http://www.360doc.com/content/20/0321/17/69164172_900780297.shtml
【机器学习】一些常用的回归模型实战（9种回归模型):https://blog.csdn.net/ChenVast/article/details/82107490 以及实战：https://github.com/935048000/bloodGlucosePredict

数据脱敏：对敏感信息通过一定的规则对数据进行变形，可以实现对敏感数据的保护。数据脱敏方法：https://blog.csdn.net/weixin_45690272/article/details/101474290
python3使用正则进行脱敏：https://blog.csdn.net/linqunbin/article/details/98380051?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

1.2.2数据概括

链接：https://blog.csdn.net/linqunbin/article/details/98380051?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

1.24分析赛题

EDA：探索性数据分析： https://www.cnblogs.com/nxf-rabbit75/p/11148932.html
数据分析与机器学习入门（一）——EDA探索性数据分析：https://blog.csdn.net/JasonBianZhang/article/details/78471846
探索式数据分析EDA(Exploratory Data Analysis)：https://blog.csdn.net/fjssharpsword/article/details/79152012

对数据做数据探索分析
适当的特征工程
对全体数据，包括训练集数据和测试数据，评价指标为MAE
用训练数据训练最小二乘线性回归模型、岭回归模型、Lasso模型，在训练对岭回归模型和Lasso模型的正则超参数调优。
三种模型等得到的各特征的系数和各模型在测试集上的性能，挑选最优。

1.3代码

1.3.1 第一步数据的读入

import pandas as pd
import numpy as np
##利用pandas这个库读取数据，所以在数据的读入之前需要加载该数据库
path = './data/'
## 1) 载入训练集和测试集；
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')
##或者利用
##Train_data = pd.read_csv('C:/Users/我思故我在   存在与时间/Desktop/team-learning-master/team-learning-master/数据挖掘实践（二手车价格预测）/data/train.csv', sep=' ')
##Test_data = pd.read_csv('‪C:/Users/我思故我在   存在与时间/Desktop/team-learning-master/team-learning-master/数据挖掘实践（二手车价格预测）/data/testA.csv', sep=' ')
print('Train data shape:',Train_data.shape) #输出行和列数
print('TestA data shape:',Test_data.shape)  #输出行和列数

Train data shape: (150000, 31)
TestA data shape: (50000, 30)

##通过.head()浏览读取数据的形式
Train_data.head()

	SaleID	name	regDate	model	brand	bodyType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	0	736	20040402	30.0	6	1.0	0.0	60	12.5	...	0.235676	0.101988	0.129549	0.022816	0.097462	-2.881803	2.804097	-2.420821	0.795292	0.914762
1	1	2262	20030301	40.0	1	2.0	0.0	0	15.0	...	0.264777	0.121004	0.135731	0.026597	0.020582	-4.900482	2.096338	-1.030483	-1.722674	0.245522
2	2	14874	20040403	115.0	15	1.0	0.0	163	12.5	...	0.251410	0.114912	0.165147	0.062173	0.027075	-4.846749	1.803559	1.565330	-0.832687	-0.229963
3	3	71865	19960908	109.0	10	0.0	1.0	193	15.0	...	0.274293	0.110300	0.121964	0.033395	0.000000	-4.509599	1.285940	-0.501868	-2.438353	-0.478699
4	4	111080	20120103	110.0	5	1.0	0.0	68	5.0	...	0.228036	0.073205	0.091880	0.078819	0.121534	-1.896240	0.910783	0.931110	2.834518	1.923482

5 rows × 31 columns

Test_data.head()

	SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	150000	66932	20111212	222.0	4	5.0	1.0	1.0	313	15.0	...	0.264405	0.121800	0.070899	0.106558	0.078867	-7.050969	-0.854626	4.800151	0.620011	-3.664654
1	150001	174960	19990211	19.0	21	0.0	0.0	0.0	75	12.5	...	0.261745	0.000000	0.096733	0.013705	0.052383	3.679418	-0.729039	-3.796107	-1.541230	-0.757055
2	150002	5356	20090304	82.0	21	0.0	0.0	0.0	109	7.0	...	0.260216	0.112081	0.078082	0.062078	0.050540	-4.926690	1.001106	0.826562	0.138226	0.754033
3	150003	50688	20100405	0.0	0	0.0	0.0	1.0	160	7.0	...	0.260466	0.106727	0.081146	0.075971	0.048268	-4.864637	0.505493	1.870379	0.366038	1.312775
4	150004	161428	19970703	26.0	14	2.0	0.0	0.0	75	15.0	...	0.250999	0.000000	0.077806	0.028600	0.081709	3.616475	-0.673236	-3.197685	-0.025678	-0.101290

5 rows × 30 columns

##通过.info()简要可以看到对应一些数据列名，以及缺失信息
Train_data.info()


RangeIndex: 150000 entries, 0 to 149999
Data columns (total 31 columns):
SaleID               150000 non-null int64
name                 150000 non-null int64
regDate              150000 non-null int64
model                149999 non-null float64
brand                150000 non-null int64
bodyType             145494 non-null float64
fuelType             141320 non-null float64
gearbox              144019 non-null float64
power                150000 non-null int64
kilometer            150000 non-null float64
notRepairedDamage    150000 non-null object
regionCode           150000 non-null int64
seller               150000 non-null int64
offerType            150000 non-null int64
creatDate            150000 non-null int64
price                150000 non-null int64
v_0                  150000 non-null float64
v_1                  150000 non-null float64
v_2                  150000 non-null float64
v_3                  150000 non-null float64
v_4                  150000 non-null float64
v_5                  150000 non-null float64
v_6                  150000 non-null float64
v_7                  150000 non-null float64
v_8                  150000 non-null float64
v_9                  150000 non-null float64
v_10                 150000 non-null float64
v_11                 150000 non-null float64
v_12                 150000 non-null float64
v_13                 150000 non-null float64
v_14                 150000 non-null float64
dtypes: float64(20), int64(10), object(1)
memory usage: 35.5+ MB

## 通过.columns 查看列名
Train_data.columns

Index(['SaleID', 'name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType',
       'gearbox', 'power', 'kilometer', 'notRepairedDamage', 'regionCode',
       'seller', 'offerType', 'creatDate', 'price', 'v_0', 'v_1', 'v_2', 'v_3',
       'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12',
       'v_13', 'v_14'],
      dtype='object')

Test_data.info()


RangeIndex: 50000 entries, 0 to 49999
Data columns (total 30 columns):
SaleID               50000 non-null int64
name                 50000 non-null int64
regDate              50000 non-null int64
model                50000 non-null float64
brand                50000 non-null int64
bodyType             48587 non-null float64
fuelType             47107 non-null float64
gearbox              48090 non-null float64
power                50000 non-null int64
kilometer            50000 non-null float64
notRepairedDamage    50000 non-null object
regionCode           50000 non-null int64
seller               50000 non-null int64
offerType            50000 non-null int64
creatDate            50000 non-null int64
v_0                  50000 non-null float64
v_1                  50000 non-null float64
v_2                  50000 non-null float64
v_3                  50000 non-null float64
v_4                  50000 non-null float64
v_5                  50000 non-null float64
v_6                  50000 non-null float64
v_7                  50000 non-null float64
v_8                  50000 non-null float64
v_9                  50000 non-null float64
v_10                 50000 non-null float64
v_11                 50000 non-null float64
v_12                 50000 non-null float64
v_13                 50000 non-null float64
v_14                 50000 non-null float64
dtypes: float64(20), int64(9), object(1)
memory usage: 11.4+ MB

## 通过.columns 查看列名
Test_data.columns

Index(['SaleID', 'name', 'regDate', 'model', 'brand', 'bodyType', 'fuelType',
       'gearbox', 'power', 'kilometer', 'notRepairedDamage', 'regionCode',
       'seller', 'offerType', 'creatDate', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4',
       'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13',
       'v_14'],
      dtype='object')

## 通过.describe() 可以查看数字特征列的一些统计信息
Train_data.describe()

	SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
count	150000.000000	150000.000000	1.500000e+05	149999.000000	150000.000000	145494.000000	141320.000000	144019.000000	150000.000000	150000.000000	...	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000	150000.000000
mean	74999.500000	68349.172873	2.003417e+07	47.129021	8.052733	1.792369	0.375842	0.224943	119.316547	12.597160	...	0.248204	0.044923	0.124692	0.058144	0.061996	-0.001000	0.009035	0.004813	0.000313	-0.000688
std	43301.414527	61103.875095	5.364988e+04	49.536040	7.864956	1.760640	0.548677	0.417546	177.168419	3.919576	...	0.045804	0.051743	0.201410	0.029186	0.035692	3.772386	3.286071	2.517478	1.288988	1.038685
min	0.000000	0.000000	1.991000e+07	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.500000	...	0.000000	0.000000	0.000000	0.000000	0.000000	-9.168192	-5.558207	-9.639552	-4.153899	-6.546556
25%	37499.750000	11156.000000	1.999091e+07	10.000000	1.000000	0.000000	0.000000	0.000000	75.000000	12.500000	...	0.243615	0.000038	0.062474	0.035334	0.033930	-3.722303	-1.951543	-1.871846	-1.057789	-0.437034
50%	74999.500000	51638.000000	2.003091e+07	30.000000	6.000000	1.000000	0.000000	0.000000	110.000000	15.000000	...	0.257798	0.000812	0.095866	0.057014	0.058484	1.624076	-0.358053	-0.130753	-0.036245	0.141246
75%	112499.250000	118841.250000	2.007111e+07	66.000000	13.000000	3.000000	1.000000	0.000000	150.000000	15.000000	...	0.265297	0.102009	0.125243	0.079382	0.087491	2.844357	1.255022	1.776933	0.942813	0.680378
max	149999.000000	196812.000000	2.015121e+07	247.000000	39.000000	7.000000	6.000000	1.000000	19312.000000	15.000000	...	0.291838	0.151420	1.404936	0.160791	0.222787	12.357011	18.819042	13.847792	11.147669	8.658418

8 rows × 30 columns

Test_data.describe()

	SaleID	name	regDate	model	brand	bodyType	fuelType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
count	50000.000000	50000.000000	5.000000e+04	50000.000000	50000.000000	48587.000000	47107.000000	48090.000000	50000.000000	50000.000000	...	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000	50000.000000
mean	174999.500000	68542.223280	2.003393e+07	46.844520	8.056240	1.782185	0.373405	0.224350	119.883620	12.595580	...	0.248669	0.045021	0.122744	0.057997	0.062000	-0.017855	-0.013742	-0.013554	-0.003147	0.001516
std	14433.901067	61052.808133	5.368870e+04	49.469548	7.819477	1.760736	0.546442	0.417158	185.097387	3.908979	...	0.044601	0.051766	0.195972	0.029211	0.035653	3.747985	3.231258	2.515962	1.286597	1.027360
min	150000.000000	0.000000	1.991000e+07	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.500000	...	0.000000	0.000000	0.000000	0.000000	0.000000	-9.160049	-5.411964	-8.916949	-4.123333	-6.112667
25%	162499.750000	11203.500000	1.999091e+07	10.000000	1.000000	0.000000	0.000000	0.000000	75.000000	12.500000	...	0.243762	0.000044	0.062644	0.035084	0.033714	-3.700121	-1.971325	-1.876703	-1.060428	-0.437920
50%	174999.500000	52248.500000	2.003091e+07	29.000000	6.000000	1.000000	0.000000	0.000000	109.000000	15.000000	...	0.257877	0.000815	0.095828	0.057084	0.058764	1.613212	-0.355843	-0.142779	-0.035956	0.138799
75%	187499.250000	118856.500000	2.007110e+07	65.000000	13.000000	3.000000	1.000000	0.000000	150.000000	15.000000	...	0.265328	0.102025	0.125438	0.079077	0.087489	2.832708	1.262914	1.764335	0.941469	0.681163
max	199999.000000	196805.000000	2.015121e+07	246.000000	39.000000	7.000000	6.000000	1.000000	20000.000000	15.000000	...	0.291618	0.153265	1.358813	0.156355	0.214775	12.338872	18.856218	12.950498	5.913273	2.624622

8 rows × 29 columns

1.3.2 分类指标评价计算示例

因为此题属于回归问题，所以在构建模型时就得评估其好坏，赛题已给出评估标准。这个里面涉及到分类指标的计算，即预测的价格同真实价格之间做一个二分类，真和假

详情见：https://www.jianshu.com/p/5df19746daf9

1.原理：计算分类的准确率，利用公式accuracy_score(真实值，预测值)
sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
其中的normalize默认为T，返回值为正确分类的比例；若为F，则返回正确分类的样本数

## accuracy
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]      ##预测值
y_true = [0, 1, 1, 1]      ##真实值
print('ACC:',accuracy_score(y_true, y_pred))   ##计算正确率

ACC: 0.75

2.原理：预测为正类0的准确率

## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))

Precision 1.0
Recall 0.5
F1-score: 0.6666666666666666

原理：正样本预测概率大于负样本预测概率的组合数所占的比例。
area under curve，本来是定义为ROC曲线下的面积，但由于面积太难算所以也有相应的等式去计算。
ACU接近1，代表模型越好

## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))

AUC socre: 0.75

1.3.3 回归指标评价计算示例

# coding=utf-8
import numpy as np
from sklearn import metrics

# MAPE需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))

MSE: 0.2871428571428571
RMSE: 0.5358571238146014
MAE: 0.4142857142857143
MAPE: 0.1461904761904762

## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))

R2-score: 0.9486081370449679

对于我们该
怎样选择模型用于监督学习任务？

我们该如何选择调整得到最好的模型参数？

我们该如何对测试数据进行预测估计？
可以看
http://www.bubuko.com/infodetail-836998.html?cf_chl_jschl_tk=983d57b4d0aae70fcaaf613f7c0191180d293f9e-1584795211-0-AW0aw3Eh9punkEIJPWwWza2LQTWbTgjuYUf9yWxS-3JcFdijsqHXv4nqhAKDj5lf_1i5465rPd600pYuSiYaZdpvaZQE5AG_o2_KvJXPfmsq-MfPo5niqrSNebvS4881whP4dHeu6IfGrqHM8yyOrvlqUs4BqzWsH1MBNXoL5V3NekYzagLD6hf6mUWvYY8_tdwWvAxzRutiH7z8ijQtlml9NUSw2_d6x8eJlSeKAzMlj3WAMK5FXeHmBDeOaDjUE346JXYG-hbHE_BKjNpGrJ9XhnQD4yYJMQYDt2h4ZMPWEpA56oyRhalXR4sc3oE83Q

引1.4 经验总结

作为切入一道赛题的基础，赛题理解是极其重要的，对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择，最主要是会影响后续发展工作的方向，比如挖掘特征的方向或者存在问题解决问题的方向，对了赛题背后的思想以及赛题业务逻辑的清晰，也很有利于花费更少时间构建更为有效的特征模型，赛题理解要达到的地步是什么呢，把一道赛题转化为一种宏观理解的解决思路。以下将从多方面对于此进行说明：

1）赛题理解究竟是理解什么：理解赛题是不是把一道赛题的背景介绍读一遍就OK了呢？并不是的，理解赛题其实也是从直观上梳理问题，分析问题是否可行的方法，有多少可行度，赛题做的价值大不大，理清一道赛题要从背后的赛题背景引发的赛题任务理解其中的任务逻辑，可能对于赛题有意义的外在数据有哪些，并对于赛题数据有一个初步了解，知道现在和任务的相关数据有哪些，其中数据之间的关联逻辑是什么样的。对于不同的问题，在处理方式上的差异是很大的。如果用简短的话来说，并且在比赛的角度或者做工程的角度，就是该赛题符合的问题是什么问题，大概要去用哪些指标，哪些指标是否会做到线上线下的一致性，是否有效的利于我们进一步的探索更高线上分数的线下验证方法，在业务上，你是否对很多原始特征有很深刻的了解，并且可以通过EDA来寻求他们直接的关系，最后构造出满意的特征。

2）有了赛题理解后能做什么：在对于赛题有了一定的了解后，分析清楚了问题的类型性质和对于数据理解的这一基础上，是不是赛题理解就做完了呢? 并不是的，就像摸清了敌情后，我们至少就要有一些相应的理解分析，比如这题的难点可能在哪里，关键点可能在哪里，哪些地方可以挖掘更好的特征，用什么样得线下验证方式更为稳定，出现了过拟合或者其他问题，估摸可以用什么方法去解决这些问题，哪些数据是可靠的，哪些数据是需要精密的处理的，哪部分数据应该是关键数据（背景的业务逻辑下，比如CTR的题，一个寻常顾客大体会有怎么样的购买行为逻辑规律，或者风电那种题，如果机组比较邻近，相关一些风速，转速特征是否会很近似）。这时是在一个宏观的大体下分析的，有助于摸清整个题的思路脉络，以及后续的分析方向。

3）赛题理解的-评价指标：为什么要把这部分单独拿出来呢，因为这部分会涉及后续模型预测中两个很重要的问题：
1．本地模型的验证方式，很多情况下，线上验证是有一定的时间和次数限制的，所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤，能有效的节省很多时间。

2．不同的指标对于同样的预测结果是具有误差敏感的差异性的，比如AUC，logloss, MAE，RSME，或者一些特定的评价函数。是会有很大可能会影响后续一些预测的侧重点。

4）赛题背景中可能潜在隐藏的条件：其实赛题中有些说明是很有利益-都可以在后续答辩中以及问题思考中所体现出来的，比如高效性要求，比如对于数据异常的识别处理，比如工序流程的差异性，比如模型运行的时间，比模型的鲁棒性，有些的意识是可以贯穿问题思考，特征，模型以及后续处理的，也有些会对于特征构建或者选择模型上有很大益处，反过来如果在模型预测效果不好，其实有时也要反过来思考，是不是赛题背景有没有哪方面理解不清晰或者什么其中的问题没考虑到。

1.5分析

**train.csv 字段表 **

Field Description
SaleID 交易ID，唯一编码
name 汽车交易名称，已脱敏
regDate 汽车注册日期，例如20160101，2016年01月01日
model 车型编码，已脱敏
brand 汽车品牌，已脱敏
bodyType 车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType 燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox 变速箱：手动：0，自动：1
power 发动机功率：范围 [ 0, 600 ]
kilometer 汽车已行驶公里，单位万km
notRepairedDamage 汽车有尚未修复的损坏：是：0，否：1
regionCode 地区编码，已脱敏
seller 销售方：个体：0，非个体：1
offerType 报价类型：提供：0，请求：1
creatDate 汽车上线时间，即开始售卖时间
price 二手车交易价格（预测目标）
v系列特征匿名特征，包含v0-14在内15个匿名特征(v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’, ‘v_9’, ‘v_10’, ‘v_11’, ‘v_12’, ‘v_13’,‘v_14’)（根据汽车的评论、标签等大量信息得到的embedding向量）

背景：二手车市场

数据：汽车的注册时间，品牌，车身类型，燃油类型，变速箱，汽车功率，汽车行驶公里，汽车有尚未修复的损坏对于汽车价格应该是存在影响的（大致可以确定）

思路：
汽车的注册时间：代表汽车开始使用的日期
汽车的行驶公里：可以反映汽车的新旧程度，无论是从外部还是内部，如可反应其内饰老化程度。
因此可以结合汽车的注册时间，汽车的行驶公里数，汽车有尚未修复的磨损（数据只有0，1变量）来进一步衡量车的新旧程度，是否可以得出一个综合指标来判断对于二手车价格的影响。

品牌：全为0，对于价格的影响可以不考虑

车身类型，燃油类型，变速箱，发动机功率与车的性能有关

销售方对于价格的影响

v系列影响？待验证

你可能感兴趣的:(20200321 Datawhale数据挖掘入门-Task1 赛题理解 (1))

[BJDCTF2020]JustRE 32304353 安全汇编
打开程序发现需要进行点击获取flag拖入IDA进行分析F5挨个查看代码发现疑似falg的数据经过判断，需要点击19999次获得flag把%d带入即可获取flagflag{1999902069a45792d233ac}提交flag解题思路参考文章BUUCTF-[BJDCTF2020]JustRE1-CSDN博客
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
算法-枚举 Java版蜡笔小新算法算法
信息在计算机之间的演示计算机的电路由逻辑门电路组成。一个逻辑门电路可以看成一个开关，每个开关的状态是“开"(高电位)或“关”(低电位)，即对应于或0二进制数的一位，取值只能是0或1，称为一个“比特”(bit)，简写:b八个二进制位称为一个“字节”(byte),简写:B1024(2的10次方)字节称为1KB，1024KB称作1MB(1兆)，1024MB称作1GB，1024GB0和1足以表示和传播各种
CVE - 2016 - 6628 漏洞复现：深入剖析及实战演示 Waitccy 网络安全网络安全 java
CVE-2016-6628漏洞复现：深入剖析及实战演示一、引言在网络安全领域，漏洞复现是理解和应对安全威胁的重要手段。CVE-2016-6628是一个影响广泛的严重漏洞，它主要存在于某些版本的Android系统中，攻击者可利用此漏洞通过特制的应用程序获取敏感信息、执行任意代码等，给用户带来极大的安全风险。本文将详细介绍CVE-2016-6628漏洞的背景、原理，并进行完整的漏洞复现过程，帮助读者更
Java 双亲委派模型（Parent Delegation Model）重生之我在成电转码 java 开发语言 jvm
一、什么是双亲委派模型？双亲委派模型是Java类加载器（ClassLoader）的一种设计机制：✅避免重复加载✅保证核心类安全、避免被篡改✅提高类加载效率核心思想：类加载请求从子加载器逐级向上委托父加载器，只有父加载器加载失败（ClassNotFoundException）后，子加载器才会尝试自己加载。二、双亲委派的加载流程（核心）当某个类加载器接收到类加载请求时：1️⃣先检查自己是否加载过（缓存
合并两个有序链表陆仁贾笨贾链表数据结构
题目：将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。示例1：输入：l1=[1,2,4],l2=[1,3,4]输出：[1,1,2,3,4,4]思路：虚拟头结点：使用一个虚拟头结点（dummy）来简化链表操作。虚拟头结点的next指针指向合并后的链表的头结点。通过一个指针p来追踪新链表的最后一个节点。遍历链表：使用两个指针p1和p2分别遍历链表l1和l2。
2025年美赛数学建模 ICM 问题 E：为农业腾出空间深度学习&目标检测实战项目数学建模 2025美赛 2025年数学建模美赛思路代码问题 E：为农业腾出空间 2025美赛E题
全部都是公开资料，不代写论文，请勿盲目订阅）2025年数学建模美赛期间，会发布思路和代码，赛前半价，赛前会发布往年美赛的经典案例，赛题会结合最新款的chatgpto1pro分析，会根据赛题难度，选择合适的题目着重分析，没有代写论文服务，只会发布思路和代码，因为赛制要求，不会回复私信。内容可能达不到大家预期，请不要盲目订阅。已开通200美元/月的chatgptpro会员，会充分利用chatgpto1
H5动态生日祝福源码 cas215asd 源码 html5
源码名称：动态生日祝福源码源码介绍：一款H5动态生日祝福源码，源码带有文字敲入效果与蛋糕生成特效。需求环境：H5下载地址：https://www.changyouzuhao.cn/14540.html
java基础--序列化与反序列化的概念是什么？阿硕的技术时间【学习笔记】java 开发语言
经典总结序列化就是把Java对象变成一串字节流，字节流就像是一种“通用语言”，可以在不同的计算机间传递。这样做的主要目的是保存对象的状态，以便以后可以恢复。反序列化则是把这些字节流重新变回Java对象，恢复对象的状态，方便程序继续使用它。详情内容1.什么是序列化？序列化是将Java对象转换为字节流的过程。字节流是一个平台无关的格式，可以在不同的计算机系统间传输。序列化的主要目的是将对象的状态保存下
C语言循环案例 Litao_woaidetin 算法
#include#include#includeintmain(intargc,char*argv[]){//初始化随机数种子（以时间为种子）srand((unsigned)time(NULL));//游戏主循环控制，默认是可以重复玩的intgame_running=1;//游戏的头printf("======================================\n");printf(
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
Redis Cluster（无中心化设计）详解 π大星星️ redis 数据库缓存
1.1RedisCluster工作原理1.1.1背景与动机在传统的Redis单机模式中，哨兵（Sentinel）机制可以解决Redis的高可用问题。当主节点（Master）故障时，哨兵可以自动将从节点（Slave）提升为新的主节点，从而保证Redis服务的可用性。然而，这种机制无法解决单机Redis的写入瓶颈问题。单机Redis的写入性能受限于单机的内存大小、并发数量、网卡速率等因素。为了解决这一
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
蓝桥每日打卡--区间移位 xxjiaz 算法蓝桥杯数据结构 java
#蓝桥#JAVA#区间移位题目描述数轴上有n个闭区间：D1,⋯Dn。其中区间Di用一对整数[ai,bi]来描述，满足ai≤bi。已知这些区间的长度之和至少有。所以，通过适当的移动这些区间，你总可以使得他们的"并"覆盖[0,],也就是说[0,]这个区间内的每一个点都落于至少一个区间内。你希望找一个移动方法，使得位移差最大的那个区间的位移量最小。具体来说，假设你将Di移动到[ai+ci,bi+ci]这
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
时钟控制模块、主频修改实验 Couvrir洪荒猛兽 #野火i.mx 6ull裸机开发单片机 stm32 嵌入式硬件
目录一、时钟控制模块1.1核心1.2系统时钟来源1.3PLU和PFD倍频时钟1.4PLL选择时钟1.5外设时钟二、主频修改实验2.1clock.c/h文件2.2main.c文件2.3Makefile文件2.4实验现象一、时钟控制模块1.1核心4个层次配置芯片时钟：配置晶振时钟（24MHz）配置PLL与PFD时钟（528PLL、USB1PLL细分PFD）配置PLL选择时钟配置根时钟/外设时钟1.2系
echarts tooltip 自动轮播前端bug工程师可视化 vue.js echarts vue.js
一、效果展示二、使用步骤代码如下（示例）：data(){return{setInterval:''}},constmyChart=this.$echarts.init(document.getElementById("id"))letoption={tooltip:{//鼠标滑过配置项},//其他配置项}myChart.setOption(option)letidx=1this.setInterv
FPGA基带平台射频数据处理装置及验证系统设计与方法 BE东欲
本文还有配套的精品资源，点击获取简介：FPGA在射频数据处理领域拥有灵活性和高性能，广泛用于通信、雷达、卫星导航等。本资料包重点介绍FPGA基带平台在数字信号处理中的应用，包括调制解调、滤波和FFT等任务。涵盖射频数据处理装置结构，验证系统设计和实施，以及相关工具的使用方法。为学习者提供实践经验和理论知识，助力开发高效可靠的通信系统。1.FPGA在射频数据处理中的应用数字信号处理（DSP）是现代电
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
一款超实用的社交软件多开神器，免费无广告贫道曰工具 django python github 开源软件 scipy httpx
你是否还在为微信只能开一个而烦恼？今天我就来给兄弟们推荐一个非常好用的微信多开软件。01软件介绍这款软件就是微信多开助手：绿色免费且无需安装适用windows系统界面简洁，操作简便02软件安装和使用这款软件完全免费，没有任何的广告，适用更是非常方便。使用方法更是十分简单，选择好需要多开的微信数量，点击启动多开按钮即可。例如，若要同时多开10个微信，软件能够轻松帮你实现。这款微信多开软件完全免费，没
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
基于FPGA的3U机箱温度采集板PT100，应用于轨道交通/电力储能等深圳信迈主板定制专家轨道交通 NXP+FPGA X86+FPGA fpga开发 arm开发架构人工智能
板卡简介：本板为温度采集板（PT100），对目标进行测温，然后将温度转换成处理器可识别的电流信号。性能规格：电源：DC5V，DC±15V4线制PT100：7路（标称测温范围-50℃~200℃，对应调理后电流4~20mA，精度±0.5℃）3线制PT100：1路（标称测温范围-50℃~200℃，对应调理后电流4~20mA，精度±0.5℃）尺寸：220mm*100mm*1.6mm重量：0.155kg工作
FPGA仿真过程中宏定义的修改学习永无止境@ fpga开发
在仿真过程中，经常会有一些时间变量，比如1分钟，10分钟等，这种级别的仿真很费时间，因此，人们往往将时间参数修改，利用秒级别进行仿真，仿真完成后，再改回分钟级别。下面提供一种宏定义的方式，方便实际过程中和仿真过程中时间参数修改。`defineSIMULATION`ifdefSIMULATIONlocalparamTIMER_CNT_1S=30'd1_000-1'b1;//1s计数的最大值local
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，