2017133130

Task4 建模调参

模型调参

线性回归

调整数据类型
模型构建
五折交叉验证
模拟真实业务
绘制学习率曲线和验证曲线

多种线性模型和嵌入式特征选择
非线性模型
模型调参

逐步调整LGB参数
网格搜索调参
贝叶斯调参

线性回归

调整数据类型

reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间

def reduce_mem_usage(df):
    """ iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage.        
    """
    start_mem = df.memory_usage().sum() 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() 
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    return df

sample_feature = reduce_mem_usage(pd.read_csv('data_for_tree.csv'))

Memory usage of dataframe is 56355968.00 MB
Memory usage after optimization is: 14284968.00 MB
Decreased by 74.7%

模型构建

continuous_feature_names = [x for x in sample_feature.columns if x not in ['price','brand','model']]#连续值特征
sample_feature = sample_feature.dropna().replace('-', 0).reset_index(drop=True)#去除缺失值
sample_feature['notRepairedDamage'] = sample_feature['notRepairedDamage'].astype(np.float32)
#训练集
train = sample_feature[continuous_feature_names + ['price']]
train_X = train[continuous_feature_names]
train_y = train['price']
#线性回归训练
from sklearn.linear_model import LinearRegression
model = LinearRegression(normalize=True)
model = model.fit(train_X, train_y)
#查看训练的线性回归模型的截距（intercept）与权重(coef)
print（sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)）

	[('v_6', 2809888.832680778),
	 ('v_8', 679033.8076423027),
	 ('v_5', 220004.86196616766),
	 ('v_9', 105643.21417690044),
	 ('v_7', 57916.49918079405),
	 ('v_2', 14823.649920582104),
	 ('v_10', 11550.363778482135),
	 ('v_13', 3519.2994942676046),
	 ('gearbox', 396.883444003836),
	 ('fuelType', 150.6776261937162),
	 ('bodyType', 135.64254500521758),
	 ('city', 25.261256029079235),
	 ('power', 22.93812003366763),
	 ('brand_price_std', 0.11033022463883099),
	 ('brand_price_median', 0.10241909568506433),
	 ('brand_amount', 0.04878219658500965),
	 ('brand_price_max', 0.025626667822619537),
	 ('train', 1.6248668543994427e-07),
	 ('brand_price_sum', -3.851316235673688e-06),
	 ('name', -0.00012096471263566377),
	 ('brand_price_average', -0.0019077256739626323),
	 ('used_time', -0.10692104639821796),
	 ('brand_price_min', -1.1168223031581106),
	 ('v_14', -25.345268423204832),
	 ('power_bin', -32.122214248046916),
	 ('kilometer', -245.5726572797921),
	 ('notRepairedDamage', -500.4214035581951),
	 ('v_0', -634.1036227852305),
	 ('v_3', -2508.941081029308),
	 ('v_4', -6068.130689515807),
	 ('v_12', -15851.979229044982),
	 ('v_11', -16659.400060192536),
	 ('v_1', -22351.96749053454)]

#作图查看数据标签的分布
import seaborn as sns
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y)
plt.subplot(1,2,2)
sns.distplot(train_y[train_y < np.quantile(train_y, 0.9)])

发现数据的标签（price）呈现长尾分布，不利于我们的建模预测。原因是很多模型都假设数据误差项符合正态分布，而长尾分布的数据违背了这一假设。
所以对标签做log1变换，使其更贴近于正态分布

train_y_ln = np.log(train_y + 1)
import seaborn as sns
print('The transformed price seems like normal distribution')
plt.figure(figsize=(15,5))
plt.subplot(1,2,1)
sns.distplot(train_y_ln)
plt.subplot(1,2,2)
sns.distplot(train_y_ln[train_y_ln < np.quantile(train_y_ln, 0.9)])

#线性回归训练
model = model.fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

五折交叉验证

在使用训练集对参数进行训练的时候，经常会发现人们通常会将一整个训练集分为三个部分（比如mnist手写训练集）。一般分为：训练集（train_set），评估集（valid_set），测试集（test_set）这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解，其实就是完全不参与训练的数据，仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。

因为在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初始条件敏感），但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练，而是分出一部分来（这一部分不参加训练）对训练集生成的参数进行测试，相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证（Cross Validation）

from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error,  make_scorer
def log_transfer(func):
    def wrapper(y, yhat):
        result = func(np.log(y), np.nan_to_num(np.log(yhat)))
        return result
    return wrapper
scores = cross_val_score(model, X=train_X, y=train_y, verbose=1, cv = 5, scoring=make_scorer(log_transfer(mean_absolute_error)))    
print('平均MAE:', np.mean(scores))
scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=1, cv = 5, scoring=make_scorer(mean_absolute_error))
print('log处理后平均MAE:', np.mean(scores))

模拟真实业务

但在事实上，由于我们并不具有预知未来的能力，五折交叉验证在某些与时间相关的数据集上反而反映了不真实的情况。通过2018年的二手车价格预测2017年的二手车价格，这显然是不合理的，因此我们还可以采用时间顺序对数据集进行分隔。在本例中，我们选用靠前时间的4/5样本当作训练集，靠后时间的1/5当作验证集，最终结果与五折交叉验证差距不大

import datetime
sample_feature = sample_feature.reset_index(drop=True)
split_point = len(sample_feature) // 5 * 4
train = sample_feature.loc[:split_point].dropna()
val = sample_feature.loc[split_point:].dropna()

train_X = train[continuous_feature_names]
train_y_ln = np.log(train['price'] + 1)
val_X = val[continuous_feature_names]
val_y_ln = np.log(val['price'] + 1)

model = model.fit(train_X, train_y_ln)
mean_absolute_error(val_y_ln, model.predict(val_X))

绘制学习率曲线和验证曲线

from sklearn.model_selection import learning_curve, validation_curve
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,n_jobs=1, train_size=np.linspace(.1, 1.0, 5 )):  
    plt.figure()  
    plt.title(title)  
    if ylim is not None:  
        plt.ylim(*ylim)  
    plt.xlabel('Training example')  
    plt.ylabel('score')  
    train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_size, scoring = make_scorer(mean_absolute_error))  
    train_scores_mean = np.mean(train_scores, axis=1)  
    train_scores_std = np.std(train_scores, axis=1)  
    test_scores_mean = np.mean(test_scores, axis=1)  
    test_scores_std = np.std(test_scores, axis=1)  
    plt.grid()#区域  
    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,  
                     train_scores_mean + train_scores_std, alpha=0.1,  
                     color="r")  
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,  
                     test_scores_mean + test_scores_std, alpha=0.1,  
                     color="g")  
    plt.plot(train_sizes, train_scores_mean, 'o-', color='r',  
             label="Training score")  
    plt.plot(train_sizes, test_scores_mean,'o-',color="g",  
             label="Cross-validation score")  
    plt.legend(loc="best")  
    return plt  
plot_learning_curve(LinearRegression(), 'Liner_model', train_X[:1000], train_y_ln[:1000], ylim=(0.0, 0.5), cv=5, n_jobs=1)

多种线性模型和嵌入式特征选择

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
models = [LinearRegression(),
          Ridge(),
          Lasso()]
          result = dict()
for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')

result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1, 6)]
print(result)

线性回归

model = LinearRegression().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

岭回归
L2正则化在拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是『抗扰动能力强』

model = Ridge().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

拉索回归
L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。如下图，我们发现power与userd_time特征非常重要

model = Lasso().fit(train_X, train_y_ln)
print('intercept:'+ str(model.intercept_))
sns.barplot(abs(model.coef_), continuous_feature_names)

非线性模型

from sklearn.linear_model import LinearRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.neural_network import MLPRegressor
from xgboost.sklearn import XGBRegressor
from lightgbm.sklearn import LGBMRegressor

models = [LinearRegression(),
          DecisionTreeRegressor(),
          RandomForestRegressor(),
          GradientBoostingRegressor(),
          MLPRegressor(solver='lbfgs', max_iter=100), 
          XGBRegressor(n_estimators = 100, objective='reg:squarederror'), 
          LGBMRegressor(n_estimators = 100)]

result = dict()
for model in models:
    model_name = str(model).split('(')[0]
    scores = cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error))
    result[model_name] = scores
    print(model_name + ' is finished')
    
result = pd.DataFrame(result)
result.index = ['cv' + str(x) for x in range(1, 6)]
print(result)

模型调参

逐步调整LGB参数

LGB参数集合

objective = ['regression', 'regression_l1', 'mape', 'huber', 'fair']

num_leaves = [3,5,10,15,20,40, 55]
max_depth = [3,5,10,15,20,40, 55]
bagging_fraction = []
feature_fraction = []
drop_rate = []

#寻找最佳的回归方式
best_obj = dict()
for obj in objective:
    model = LGBMRegressor(objective=obj)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_obj[obj] = score
  #再寻找最佳的叶子数  
best_leaves = dict()
for leaves in num_leaves:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0], num_leaves=leaves)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_leaves[leaves] = score
#再在寻找最佳的数深度    
best_depth = dict()
for depth in max_depth:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0],
                          num_leaves=min(best_leaves.items(), key=lambda x:x[1])[0],
                          max_depth=depth)
    score = np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))
    best_depth[depth] = score

sns.lineplot(x=['0_initial','1_turning_obj','2_turning_leaves','3_turning_depth'], y=[0.143 ,min(best_obj.values()), min(best_leaves.values()), min(best_depth.values())])

MAE逐步下降

网格搜索调参

from sklearn.model_selection import GridSearchCV
parameters = {'objective': objective , 'num_leaves': num_leaves, 'max_depth': max_depth}
model = LGBMRegressor()
clf = GridSearchCV(model, parameters, cv=5)
clf = clf.fit(train_X, train_y)
print(clf.best_params_)

{'max_depth': 10, 'num_leaves': 55, 'objective': 'regression'}

model = LGBMRegressor(objective='regression',
                          num_leaves=55,
                          max_depth=10）
np.mean(cross_val_score(model, X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)))

贝叶斯调参

from bayes_opt import BayesianOptimization
def rf_cv(num_leaves, max_depth, subsample, min_child_samples):
    val = cross_val_score(
        LGBMRegressor(objective = 'regression_l1',
            num_leaves=int(num_leaves),
            max_depth=int(max_depth),
            subsample = subsample,
            min_child_samples = int(min_child_samples)
        ),
        X=train_X, y=train_y_ln, verbose=0, cv = 5, scoring=make_scorer(mean_absolute_error)
    ).mean()
    return 1 - val
rf_bo = BayesianOptimization(
    rf_cv,
    {
    'num_leaves': (2, 100),
    'max_depth': (2, 100),
    'subsample': (0.1, 1),
    'min_child_samples' : (2, 100)
    }
)
print(rf_bo.maximize())

《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
《Python数据分析实战》 johnny233 Python 读书笔记 python
环境搭建定义变量名时要遵循的规则：变量名必须以字母或下画线开始，名字中间只能由字母、数字和下画线组成长度不能超过255个字符变量名在有效范围内必须具有唯一性不能使用保留字（关键字）区分大小写不能对元组中的元素做修改，只能做切片查询。如果元组中只有1个元素，则需要在这个元素的后面加上逗号。数字100正确的表示方法为(100,)列表：a=[1,2,3]，常用列表函数函数用途append()向列表末尾添
R语言与数据分析-01-数据类型与数据输入-01-基础落空空。 r语言 r语言数据分析
一.R语言的数据类型原文链接:r语言与数据分析实战11.1知识描述搞清楚我们面对的数据类型是什么，并能实现数据类型之间的转换1.2相关知识需要认真学习以下函数：mode():用来查看数值类型的函数；as.numeric():将数据类型转换为数值型类型的函数；as.logical():将数据类型转换为逻辑型类型的函数；as.cha\fracter():将数据类型转换为字符型类型的函数。在我们开始学习
BI 数据分析，数据库，Office，可视化，数据仓库阿里数据专家数据分析数据库数据仓库 excel AIGC powerpoint 数据挖掘
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集Mysql8.054集Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战51集Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技巧30
Python数据分析实战【八】：用matplotlib、seaborn、pyecharts绘制散点图【文末源码地址】帅帅的Python 数据分析 matplotlib python 数据分析 seaborn pyecharts
文章目录散点图matplotlib绘制散点图seaborn绘制散点图pyecharts绘制散点图源码地址本文可以学习到以下内容：matplotlib中文乱码解决办法seaborn中文乱码解决办法seaborn库csv数据下载地址用matplotlib、seaborn、pyecharts绘制散点图散点图小凡在做数据分析的时候，经常需要对数据进行可视化操作，这样可以更加直观的了解数据，从而更好的分析数
《活用数据 : 驱动业务的数据分析实战》作者: 陈哲刘书朋
内容简介：《活用数据：驱动业务的数据分析实战》是一本用数据来帮助企业破解业务难题的实操书，有理论、有方法、有实战案例。《活用数据：驱动业务的数据分析实战》第1~3章首先对“怎么想”进行了解答，通过明确分析问题、开启分析思路、打开分析视角，依次回答数据思维的3个核心问题：解决什么问题、分析哪些内容、分析到何种程度。第4~8章对企业常见的9项业务需求进行案例解析，回答“怎么做”的问题。这9项业务需求包
数据分析实战1——小费数据的数据分析苏俗 python数据处理与分析实战数据分析数据挖掘
1.对原始小费数据初步分析（1）加载数据importnumpyasnpimportpandasaspdfdata=pd.read_excel('./tips.xls')display(fdata)运行结果如下：（2）分析数据a.查看数据的描述信息。fdata.describe()运行结果如下：b.修改列名为汉字，并显示前5行数据。#修改列名为汉字。fdata.rename(columns=({'t
103贝叶斯方法数据分析实战--网站转换率评估 Jachin111
网站转换率评估贝叶斯A/B测试场景模拟使用贝叶斯解决问题的原因接下来，让我们使用贝叶斯方法来解决这个问题。image.png真实数据可以理解为一件事情发生的概率，而观测频率只是频率而已。举个例子，众所周知，骰子的数字1朝上的真实频率为1/6。但是，事实上，就算我们实验六次，也不一定能观测到数字为1的那一面（这就是观测频率）。在现实生活中，真实频率的前面经常会出现很多的噪音以及其他复杂情况的干扰。因
Python数据可视化的10种技能 flybirding10011
内容来自：极客时间专栏《数据分析实战45讲》\n如果你想要用Python进行数据分析，就需要在项目初期开始进行探索性的数据分析，这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术，这样，数据不仅一目了然，而且更容易被解读。同样在数据分析得到结果之后，我们还需要用到可视化技术，把最终的结果呈现出来。\n可视化视图都有哪些？\n按照数据之间的关系，我们可以把可视化视图划分为4类，它们分别
Python数据分析实战【十一】：学习用scorecardpy搭建风控评分卡模型【文末源码地址】帅帅的Python 机器学习数据分析 python 机器学习
文章目录评分卡模型一、数据预处理scorecardpy自带数据查看数据行列查看数据内容,用sample()比head()可以看更多的数据统计每个变量的缺失占比情况查看数据的信息查看每个变量有多少分类描述性统计数据之间的相关性二、数据筛选sc.var_filter()划分数据三、变量分箱woebin()woebin_plot()分箱调整四、WOE转化五、建立模型六、模型评估七、评分稳定性评分映射计算
108贝叶斯方法数据分析实战--大数定律 Jachin111
大数定律大数定律的概念image.png由于已经定义了Zi只能取c1或c2。接下来，让我们将大数定律套用到泊松变量中，观察其收敛图像。实例：随机变量的收敛假设我们有三组由同一个泊松分布函数产生的随机变量，接下来，让我们先产生这三组随机变量：importnumpyasnpfromIPython.core.pylabtoolsimportfigsizeimportmatplotlib.pyplotas
SQL在云计算中的新角色：重新定义数据分析程序边界 sql 云计算数据分析
文章目录1.云计算与数据分析的融合2.SQL在云计算中的新角色3.分布式SQL查询引擎4.SQL-on-Hadoop解决方案5.SQL与其他数据分析工具的集成6.实时数据分析与SQL7.SQL在云数据仓库中的角色8.安全性与隐私保护9.SQL的未来展望《SQL数据分析实战（第2版）》编辑推荐内容简介目录前言/序言随着云计算技术的飞速发展，数据分析已经成为了许多企业和组织不可或缺的核心能力。在这个转
企业Spark案例--酒店数据分析实战提交 cz学java spark 数据分析大数据
第1关：数据清洗--过滤字段长度不足的且将出生日期转：packagecom.yyimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Dataset,SparkSession}objectedu{/**********Begin**********///此处可填写相关代码caseclassPerson(id:Stri
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库 Want595 《Python实战项目100例》github python 开发语言
文章目录写在前面实验目标实验内容1.配置实验环境2.GitHub知识点3.爬取重要信息4.可视化分析写在后面写在前面本期内容：基于pygal与requests分析GitHub最受欢迎的30个Python库实验环境：pythonrequestspygal下载地址：https://download.csdn.net/download/m0_68111267/88719839实验目标在现实的应用中，我们
深入解析Pyecharts箱型图：多样式展示与数据分析实战【第48篇—python：热力图】一见已难忘的申公豹 python 数据分析信息可视化箱形图 Pyecharts 盒须图
文章目录深入解析Pyecharts箱型图：多样式展示与数据分析实战引言安装Pyecharts绘制基本箱形图炫酷箱形图样式1.渐变色箱形图2.半透明箱形图3.自定义箱线位置进阶应用：箱形图与其他图表的结合交互式箱形图：添加工具与事件结尾深入解析Pyecharts箱型图：多样式展示与数据分析实战引言箱形图（BoxPlot），又称为盒须图，是一种用于显示一组数据分布情况的统计图表。Pyecharts是一
Python 数据分析实战——社交游戏的用户流失？酒卷隆治_案例2 6sigma python 学习笔记 python 数据分析
#什么样的顾客会选择离开#数据集DAU:每天至少来访问一次的用户数据数据内容数据类型字段名访问时间string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）user_idUSER_INFO：用户属性数据数据内容数据类型字段名首次使用日期string（字符串）install_data应用名称string（字符串）app_name用户IDint（数值）u
PowerBI Copilot淘宝用户行为数据分析实战 PowerBI学谦 powerbi copilot 数据分析
一、背景介绍Copilot作为Microsoft大杀器，已经推出了有一段时间，本公众号也专门多次撰文介绍：CopilotinPowerBI等了好久终于等到今天CopilotinPowerBI详细使用说明PowerBICopilot已全面支持中文识别PowerBICopilot零售数据分析自动化报告实战PowerBICopilot让你的MacBook在周末的星巴克里更闪耀一文搞懂MicrosoftC
Python 数据分析实战——为什么销售额减少？酒卷隆治_案例1 6sigma 数据分析数据挖掘
#为什么黑猫游戏的销售额会减少？#数据集DAU:每天至少来访问一次的用户数据数据内容数据类型字段名访问时间string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）user_idDPU:每天至少消费1日元的用户数据数据内容数据类型字段名消费日期string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）u
吊打VLOOKUP！2021全行业Excel数据分析大全，刷脸求来的，就3天时限 IT农民工1 可视化数据分析数据可视化编程语言人工智能
过往跟大家分享过不少数据分析的干货，工具使用也详细梳理过，负责任地说，门槛低又能快速出效果的工具非Excel莫属。今天特别给大家搞一波超值福利，厚着脸皮求来的，仅开放3天特惠权限。1份Excel数据分析实战课+4份大礼包原价199，现仅0.01元直击痛点、难点帮你解决工作中99%的问题3天精编Excel实战课这门课程的设计和市面上大多数课程有所不同，全部【互动式设计】，让你像聊天一样就把知识学到手
分销商产品未来销售情况预测--数据分析实战 HHAoW 数据分析实战数据分析数据挖掘机器学习信息可视化 scikit-learn
目录介绍知识点未来销售额预测介绍导入数据并预览训练集销售商品的类别信息商品信息数据集商店信息数据可视化每天的销售量分布图销售价格分布图商店的分布情况商店所有商品的价格情况商店每天的销售情况商品的种类信息哪种类别的商品卖得最好数量前二十五个商品信息这些商品与总销售额的关系特征工程构建模型分析总结介绍以往数据分析中，都是根据提供的数据特征来构建模型，也就是说，数据集中会含有许多的特征列。本次数据分析将
西班牙高速列车票价预测分析--数据分析实战 HHAoW 数据分析实战数据分析数据挖掘机器学习
介绍近年来，我们国高铁的飞速发展相信大家都有目共睹。然而，在我们国家高铁的票价是国家规定的，一般都是一年四季不会改变的。然而国外与国内不同，它们的高铁票价不是定死的，会根据市场来进行适当的调节，与飞机的票价类似。因此，本次挑战要求你对西班牙的高铁价格进行预测。知识点数据清洗特征工程预测模型构建数据集预处理数据在资源里。现在先来加载数据，通过下面代码下载数据。加载并预览数据前五行importpand
电子商务平台拍卖数据分析实战 scikit-learn 实现数据分析 HHAoW scikit-learn python 机器学习数据分析
内容简介风风火火的双十一过去了，今年的你又给某宝剁了多少手，拔了多少草呢。本节课程我们将介绍另外一个国际贸易门户--ebay，一个致力于为中国商家开辟海外网络直销渠道的平台。我们可以在这个平台上充当买家或是卖家。与淘宝不同的是，这个平台不是一口价交易，而是设置一个开始竞投的价格后开始拍卖。我们就是要利用ebay上的历史拍卖数据，用机器学习的方法来训练一个模型，以预测一项拍卖是否会成功，和成功的交易
绝地求生游戏最终排名预测--数据分析实战 HHAoW 数据分析实战游戏 scikit-learn 数据分析 python
介绍绝地求生是一款由蓝洞在2017年发行的大逃杀型游戏。一经推出就深受广大游戏玩家的喜欢。而本次实验则是分析怎么样才能在游戏中取得胜利。当然，这不是游戏教程，而是用数据来分析出一些对游戏最终排名有用的信息。博客资源有该分析所用数据知识点数据读取与预览数据可视化构建随机森林预测模型绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消
【HIVE】系统数据分析实战汽车销售数据随机生成奥利文儿 hive 数据分析汽车 hadoop 数据仓库数据库 dba
文章目录一、生成测试数据二、创建HIVE数据库1.创建数据库2.装载数据3.查看数据一、生成测试数据#利用Python随机生成一份汽车销售数据，共100行，包括销售时间、销售地点、车辆类型、车辆型号、制造商、排量、功率、发动机型号、#燃料种类、车辆长宽高、轴距、驱动方式、轮胎规格、轮胎数量、载客数量、所有权、购买人等相关信息。并将生成的数据写入Excel。importrandomimportpan
数据分析实战：城市房价分析甜辣uu 数据库人工智能数据分析房价分析机器学习
流程图：1.读数据表首先，读取数据集。CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget0.00632182.3100.5386.57565.24.09129615.3396.94.98240.0273107.0700.4696.42178.94.9671224217.8396.99.1421.60.0272907.0700.4697.18561
零代码进行转录组数据分析实战（一）：质量控制简说基因-专业生信合作伙伴数据分析数据挖掘
一个完整的转录组测序项目大概分为以下三个阶段：体内：mRNA生成阶段。转录生成mRNA前体，再经过转录后加工形成成熟的mRNA。体外：建库测序阶段。RNA提取、片段化、逆转录以及上机测序。生信：生物信息分析阶段。数据质控、比对、定量，以及差异表达基因分析等。从本文开始，着眼于生信阶段，开始带领大家进行转录组实战。首先就是测序数据质控。进入网站进入Galaxy生信云平台：https://usegal
TCGA 数据分析实战 —— 富集分析名本无名
前言通常，在识别完了差异基因之后，都会对差异基因进行功能富集，来获取差异基因参与的潜在生物学功能通路或生物学进程，有助于理解基因之间的作用关系以及发现基因在癌症发生发展过程中发挥的作用。通路，通常是一些已知的功能相关的基因集合，而我们常说的基因集合，一般是忽略了基因之间互作关系的通路。最常见的通路富集，是使用GO和KEGG数据库中预定义的生物学通路。1.GeneOntology(GO)GeneOn
【数据分析实战】冰雪大世界携程景区游客客源分布pyecharts地图爱python的王三金 pyecharts 市场分析爬虫（urllib）数据分析数据挖掘信息可视化 python echarts
文章目录引言数据集展示Python代码可视化展示本人浅薄分析写在最后今年冬天，哈尔滨冰雪旅游"杀疯了"，在元旦假期更是被南方游客"包场"。据哈尔滨市文化广电和旅游局提供大数据测算，截至元旦假日第3天，哈尔滨市累计接待游客304.79万人次，实现旅游总收入59.14亿元。游客接待量与旅游总收入达到历史峰值。“不是北欧去不起，而是哈尔滨更有性价比。”“零下二十摄氏度，我在哈尔滨当‘俄式公主’。”引言上
Excel 动态可视化图表分享阿里数据专家 excel chatgpt AIGC 数据分析信息可视化
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技
Python 与 PySpark数据分析实战指南：解锁数据洞见库库的里昂杂谈人工智能 chatgpt 信息可视化开发语言数据挖掘
目录前言1.数据准备2.数据探索3.数据可视化4.常见数据分析任务⭐️好书推荐前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。在这篇文章中，我们将深入探讨如何使用Python和PySpark进行数据分析，包
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

Task4 建模调参

模型调参

线性回归

调整数据类型

模型构建

五折交叉验证

模拟真实业务

绘制学习率曲线和验证曲线

多种线性模型和嵌入式特征选择

非线性模型

模型调参

逐步调整LGB参数

网格搜索调参

贝叶斯调参

你可能感兴趣的:(数据分析实战)