-派神-

使用python进行广告点击率的预测

当前在线广告服务中，广告的点击率（CTR）是评估广告效果的一个非常重要的指标。因此，点击率预测系统是必不可少的，并广泛用于赞助搜索和实时出价。那么如何计算广告的点击率呢？

广告的点击率 = 广告点击量/广告的展现量

如果一个广告被展现了100次，其中被点击了20次，那么点击率就是20%。

今天我们就来动手开发一个移动广告点击率的预测系统，我们数据来自于kaggle，数据包含了10天的Avazu的广告点击数据。

数据

你可以在这里下载移动广告点击数据,由于总数据量达到了4千多万条，数据量过于庞大,为了不影响我们的计算速度,因此我们要从中随机抽样100万条数据，同时我们要对数据的相关字段类型进行重置,这有助于我们以后的计算以及可视化。

types_train = {
    'id': np.dtype(int), 
    'click': np.dtype(int),       #是否点击,1表示被点击,0表示没被点击
    'hour': np.dtype(int),        #广告被展现的日期+时间
    'C1': np.dtype(int),          #匿名分类变量
    'banner_pos': np.dtype(int),  #广告位置
    'site_id': np.dtype(str),     #站点Id
    'site_domain': np.dtype(str),  #站点域名
    'site_category': np.dtype(str), #站点分类
    'app_id': np.dtype(str),        # appId 
    'app_domain': np.dtype(str),    # app域名
    'app_category': np.dtype(str),  # app分类
    'device_id': np.dtype(str),     #设备Id
    'device_ip': np.dtype(str),     #设备Ip
    'device_model': np.dtype(str),  #设备型号
    'device_type': np.dtype(int),   #设备型号
    'device_conn_type': np.dtype(int),
    'C14': np.dtype(int),   #匿名分类变量
    'C15': np.dtype(int),   #匿名分类变量
    'C16': np.dtype(int),   #匿名分类变量
    'C17': np.dtype(int),   #匿名分类变量
    'C18': np.dtype(int),   #匿名分类变量
    'C19': np.dtype(int),   #匿名分类变量
    'C20': np.dtype(int),   #匿名分类变量
    'C21':np.dtype(int)    #匿名分类变量
}

n = 40428967  #数据集中的记录总数
sample_size = 1000000
skip_values = sorted(random.sample(range(1,n), n-sample_size)) 
parse_date = lambda val : pd.datetime.strptime(val, '%y%m%d%H')

with gzip.open('./data/ctr/train.gz') as f:
    train = pd.read_csv(f, parse_dates = ['hour'], date_parser = parse_date, dtype=types_train, skiprows = skip_values)
print(len(train))
train.head()

特征工程

接下来我们要做的就是数据的探索性分析(EDA)和特征工程(Feature Engineering),首先我们要确定哪些目标变量，哪些是特征变量,根据kaggle中对数据的描述信息中我们可知,目标变量就是"click"字段它表示广告是否被点击过(1表示被点击,0未被点击)，其余所有的字段都是特征变量。在特征变量中C1,C14~C21表示匿名的分类变量(我们不知道它的含义)，其余的特征变量都是和站点,app,设备相关的变量。我们搞清了变量的大概含义以后,接下来我们要分析一下目标变量"click"，首先看看它的数据分布情况:

print(train['click'].value_counts())
print()
print(train['click'].value_counts()/len(train))

sns.countplot(x='click',data=train, palette='hls')
plt.show()

在“click”变量的统计数据中，点击的数量大约占17%，未点击的数量大约占83%。也就是说广告的平均点击率大概是在17%左右。

接下来我们来分析另外一个关键的特征变量:hour,它可能表示广告被展现的日期+时间，我们要看看不同的日期和时间对广告点击量的影响:

print(train.hour.describe())

train.groupby('hour').agg({'click':'sum'}).plot(figsize=(12,6))
plt.ylabel('点击量')
plt.title('时间和点击量')

由上面的统计结果可知数据的开始时间是2014-10-21 00:00:00,结束时间是2014-10-30 23:00:00，一共10天，点击量高峰的时刻是在10月22日和10月28日这两天，10月24日点击量最低。

对Hour的特征工程

我们知道hour变量包含了具体的日期和时间,接下来我们想知道点击量和具体的时间是什么关系,此时我们忽略日期,只关注具体时间和点击量。接下来我们从hour变量中抽取时间,然后查看时间和点击量之间的关系:

train['time'] = train.hour.apply(lambda x: x.hour)
train.sample(5)

train.groupby('time').agg({'click':'sum'}).plot(figsize=(12,6),grid=True)
plt.ylabel('点击次数')
plt.title('时间和点击量')

我们看到点击量的高峰大约是在每天下午的13点到14点之间 ,点击量的最低点是在每天的零点左右。这应该是合理的，因为下午1点到2点应该是人们精力最旺盛的时候，而晚上零点大部分人都进入了梦乡。

接下来我们要查看一下在不同的时间点的情况下，广告的展现量和点击量的关系:

train.groupby(['time', 'click']).size().unstack().plot(kind='bar', figsize=(12,6))
plt.ylabel('数量')
plt.title('展现量与点击量');

我们将时间按每个时间点展开,这里没有特别之处下午1点的展现量最大,所以点击量也是最大,我们发现展现量和点击量似乎是成正比的。这似乎也告诉我们，如果您要投放在线广告，请在下午1点至2点之间投放,因为此时广告的展现量和点击量都是最大的。

接下来我们来计算一下各个时间点的广告点击率，并查看点击率的数据分布。

df_click = train[train['click'] == 1]
df_hour = train[['time','click']].groupby(['time']).count().reset_index()
df_hour = df_hour.rename(columns={'click': 'impressions'})
df_hour['clicks'] = df_click[['time','click']].groupby(['time']).count().reset_index()['click']
df_hour['CTR'] = df_hour['clicks']/df_hour['impressions']*100
df_hour.head()

plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='time', data=df_hour)
plt.title('点击率的时间分布')

在这里我们发现了一件有趣的事，广告点击率最高的时间点居然在凌晨1点，上午7点，下午16点，而从之前的分析中我知道广告展现量最高的时间点是在下午的13点，但是从上图中我们可知13点的广告点击率并非是最高的。这似乎说明高的展现量和高的点击量并不意味着就有高的点击率。凌晨1点上网的“夜游神”们才是点击率的真正贡献者。

按星期特征工程

前面我们我们已经分别实现了按日期和按时间两种方式来分析点击率,接下来我们再继续扩展对hour变量的分析,这回我们要按星期来分析点击率。我们首先要把hour变量转换成星期。

train['day_of_week'] = train['hour'].apply(lambda val: val.weekday_name)
cats = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
train.groupby('day_of_week').agg({'click':'sum'}).reindex(cats).plot(figsize=(12,6))
ticks = list(range(0, 7, 1)) 
labels = "周一 周二 周三 周四 周五 周六 周日".split()
plt.xticks(ticks, labels)
plt.title('星期的点击量')

train.groupby(['day_of_week','click']).size().unstack().reindex(cats).plot(kind='bar', title="Day of the Week", figsize=(12,6))
ticks = list(range(0, 7, 1)) 
labels = "周一 周二 周三 周四 周五 周六 周日".split()
plt.xticks(ticks, labels)
plt.title('星期的展现量和点击量分布')

从上图可知星期二的展现量和点击量是最高的，接下来是星期三和星期四，不过展现量和点击量较高并不意味着点击率也较高，因此接下来我们要按星期来计算一下点击率。

df_click = train[train['click'] == 1]
df_dayofweek = train[['day_of_week','click']].groupby(['day_of_week']).count().reset_index()
df_dayofweek = df_dayofweek.rename(columns={'click': 'impressions'})
df_dayofweek['clicks'] = df_click[['day_of_week','click']].groupby(['day_of_week']).count().reset_index()['click']
df_dayofweek['CTR'] = df_dayofweek['clicks']/df_dayofweek['impressions']*100

plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='day_of_week', data=df_dayofweek, order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
plt.title('星期的点击率')

通过之前的我们知道星期二和星期三有着最高的展现量和点击量，可是他们的点击率却是最低的。相反星期六和星期天却有着最高的点击率。这是否说明星期六和星期天是人民群众最空闲的时候，有了空闲时间大家才会想到去购物，所以广告的点击率才会是最高的？

通过对数据的严谨分析，我们就会从中发现人民群众的日常行为举止以及他们的活动规律都会在数据中得到体现，只要你足够努力，就可以让数据说话！

匿名特征变量C1

C1是一个匿名的分类型变量，我们不知道它的含义，我们先查看一下c1的数据分布

print(train.C1.value_counts()/len(train))

因为C1是分类型变量，它的值包含了1005,1002,1010,1012,1007,1001,1008七种，其中1005的所占比例高达91.87%，接下来我们看看C1的不同的值对点击率的贡献

C1_values = train.C1.unique()
C1_values.sort()
ctr_avg_list=[]
for i in C1_values:
    ctr_avg=train.loc[np.where((train.C1 == i))].click.mean()
    ctr_avg_list.append(ctr_avg)
    print(" C1 value: {},  点击率: {}".format(i,ctr_avg))

从上面的统计结果可知,虽然1005数据量所占比重最高,但是它的点击率并不是最高,1002的点击率最高达到了21.3%。接下来我们看一下C1的展现量和点击量的分布

train.groupby(['C1', 'click']).size().unstack().plot(kind='bar', figsize=(12,6), title='C1 展现量和点击量分布');

从上图可知，1005的展现量和点击量是最高的，但这并不意味着点击率也是最高的，下面我们看一下C1的点击率的分布

df_c1 = train[['C1','click']].groupby(['C1']).count().reset_index()
df_c1 = df_c1.rename(columns={'click': 'impressions'})
df_c1['clicks'] = df_click[['C1','click']].groupby(['C1']).count().reset_index()['click']
df_c1['CTR'] = df_c1['clicks']/df_c1['impressions']*100

plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='C1', data=df_c1)
plt.title('C1的点击率分布')

我们看到点击率最高的并不是1005，而是1002. 它的点击率达到了21%，下面我们总结一下C1数据量和点击率的分布:

从上表中我们可以看出,1002的数据比例是5.5%，它贡献的点击率为21.33%远大于17%的平均点击率，1002的数据比例为0.28%却贡献了17.66%的点击率，1008的数据比例是0.01%，它贡献了14.84%的点击率，性价比非常高。

banner_pos

banner_pos表示广告在网页中的位置，广告摆放在网页的不同位置可能会带来不同的点击量和点击量，下面我们就来分析一下banner_pos这个分类型变量。首先我们查看一下banner_pos的数据分布

从上面的统计结果可知banner_pos包含了7个值,它可能代表网页中的7个不同位置，其中位置0和位置1占据了机会99%的数据比例，也就是说绝大多数广告都房子了位置0或者位置1的地方。

下面我们看看不同位置对点击率的贡献:

banner_pos = train.banner_pos.unique()
banner_pos.sort()
ctr_avg_list=[]
for i in banner_pos:
    ctr_avg=train.loc[np.where((train.banner_pos == i))].click.mean()
    ctr_avg_list.append(ctr_avg)
    print(" banner 位置: {},  点击率: {}".format(i,ctr_avg))

位置0和位置1的点击率分别为16.4%和18.3%，它们的点击率并不是最高。位置7和位置3的点击率分别达到了31%和21%，它们的点击率要比位置1和位置0高很多。

train.groupby(['banner_pos', 'click']).size().unstack().plot(kind='bar', figsize=(12,6), title='banner 位置的广告展现量和点击量的分布')

下面我们再看一下banner_pos的点击率的分布

df_banner = train[['banner_pos','click']].groupby(['banner_pos']).count().reset_index()
df_banner = df_banner.rename(columns={'click': 'impressions'})
df_banner['clicks'] = df_click[['banner_pos','click']].groupby(['banner_pos']).count().reset_index()['click']
df_banner['CTR'] = df_banner['clicks']/df_banner['impressions']*100
sort_banners = df_banner.sort_values(by='CTR',ascending=False)['banner_pos'].tolist()
plt.figure(figsize=(12,6))
sns.barplot(y='CTR', x='banner_pos', data=df_banner, order=sort_banners)
plt.title('banner 位置的点击率的分布')

从上图可知位置7和位置3的点击率是最高的，但是他们的数据比例并不是最多的，相反位置0和位置1的数据比例，展现量和点击量都是最高的，但是他们的点击率并非最高。

device_type

device_type表示设备类型，广告可能会在多种设备上展示，下面我们看一下device_type的数据分布

我们看到一共有4种设备，其中设备1所占比例最大达到了92%，绝大多数广告都是在设备1上展示的。下面我们看一下展现量和点击量的分布

train[['device_type','click']].groupby(['device_type','click']).size().unstack().plot(kind='bar', title='设备类型')

我们看到设备1上的广告展现量和点击量都是最大的。其他设备的展现量和点击量相对较少。为此我们要详细分析一下设备1上的点击量的情况，我们按照不同的时间点对设备1的点击量进行一下分析。

df_click[df_click['device_type']==1].groupby(['time', 'click'])\
                                     .size().unstack()\
                                     .plot(kind='bar', title="设备1的点击量分布", figsize=(12,6))

从上图可知，设备1上的点击量最高点位于下午1点，这和我们之前按时间分析点击量的结果是一致的。

下面我们分别统计出所有类型的设备的点击量、展现量和点击率。

device_type_click = df_click.groupby('device_type').agg({'click':'sum'}).reset_index()
device_type_impression = train.groupby('device_type').agg({'click':'count'}).reset_index().rename(columns={'click': 'impressions'})
merged_device_type = pd.merge(left = device_type_click , right = device_type_impression, how = 'inner', on = 'device_type')

merged_device_type['CTR'] = merged_device_type['click'] / merged_device_type['impressions']*100

merged_device_type

我们看到点击率最高的设备是设备0，并不是设备1.所以说展现量和点击量都较高并不意味着点击率也会较高。

剩余的特征变量的分析过程和上面的类似，这里就不再一一说明，有兴趣的朋友可以自己尝试分析一下。

建模

has简介

由于我们的的数据样本量有100万条，特征变量有20个左右，那么总共的特征值将会有100万X20=2000万个左右，为了减少系统内存的消耗，我们要使用python的内置hash函数来映射某些特征变量，我们要将那些类型为object的特征变量映射为一定范围内的整数(原来的string被映射成了integer)，这样就可以大大降低内存的消耗。

下面我们看看未使用hash之前我们的样本数据:

红框中的特征变量类型均为object，下面我们要将hash函数将类型为object的变量映射成integer型

def convert_obj_to_int(self):
    
    object_list_columns = self.columns
    object_list_dtypes = self.dtypes
    new_col_suffix = '_int'
    for index in range(0,len(object_list_columns)):
        if object_list_dtypes[index] == object :
            self[object_list_columns[index]+new_col_suffix] = self[object_list_columns[index]].map( lambda  x: hash(x))
            self.drop([object_list_columns[index]],inplace=True,axis=1)
    return self
train = convert_obj_to_int(train)
train.head()

LightGBM 模型

LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中,接下来我们要使用LightGBM作为我们的分类模型.

X_train = train.loc[:, train.columns != 'click']
y_target = train.click.values

msk = np.random.rand(len(X_train)) < 0.8
lgb_train = lgb.Dataset(X_train[msk], y_target[msk])
lgb_eval = lgb.Dataset(X_train[~msk], y_target[~msk], reference=lgb_train)

# 配置模型参数
params = {
    'task': 'train',
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': { 'binary_logloss'},
    'num_leaves': 31, # 每棵树的默认叶子数
    'learning_rate': 0.08,
    'feature_fraction': 0.7, # 将在训练每棵树之前选择70％的特征
    'bagging_fraction': 0.3, #随机选择30%的特征。
    'bagging_freq': 5, #  每5次迭代执行bagging
    'verbose': 0
}

print('开始训练...')

gbm = lgb.train(params,
                lgb_train,
                num_boost_round=4000,
                valid_sets=lgb_eval,
                early_stopping_rounds=500)

XGBoost 模型

XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。

def run_default_test(train, test, features, target, random_state=0):
    eta = 0.1
    max_depth = 5
    subsample = 0.8
    colsample_bytree = 0.8
    params = {
        "objective": "binary:logistic",
        "booster" : "gbtree",
        "eval_metric": "logloss",
        "eta": eta,
        "max_depth": max_depth,
        "subsample": subsample,
        "colsample_bytree": colsample_bytree,
        "silent": 1,
        "seed": random_state
    }
    num_boost_round = 260
    early_stopping_rounds = 20
    test_size = 0.2

    X_train, X_valid = train_test_split(train, test_size=test_size, random_state=random_state)
    y_train = X_train[target]
    y_valid = X_valid[target]
    dtrain = xgb.DMatrix(X_train[features], y_train)
    dvalid = xgb.DMatrix(X_valid[features], y_valid)
    watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
    gbm = xgb.train(params, dtrain, num_boost_round, evals=watchlist, early_stopping_rounds=early_stopping_rounds, verbose_eval=True)


features = ['C1', 'banner_pos', 'device_type', 'device_conn_type', 'C14',
       'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'time',
       'site_id_int', 'site_domain_int', 'site_category_int', 'app_id_int',
       'app_domain_int', 'app_category_int', 'device_id_int', 'device_ip_int',
       'device_model_int', 'day_of_week_int']
run_default_test(train, y_target, features, 'click')

完整代码可以在此下载

Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习小组第三周：简单的数据预处理和特征工程 -Helslie 机器学习机器学习
学习目标●无量纲化：最值归一化、均值方差归一化及sklearn中的Scaler●缺失值处理●处理分类型特征：编码与哑变量●处理连续型特征：二值化与分段学习资料首先，参考：《机器学习的敲门砖：归一化与KD树》及《特征工程系列：特征预处理（上）》中相关部分。其次，其他知识点可参考推荐博文：sklearn中的数据预处理和特征工程。20200311数据归一化在量纲不同的情况下，对于部分算法不能反映样本中每
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
Spark MLlib 特征工程系列—特征转换VectorSizeHint 不二人生 Spark 实战 spark-ml 机器学习 spark
SparkMLlib特征工程系列—特征转换VectorSizeHintVectorSizeHint是Spark提供的一个特征转换器，用于指定向量列的大小（即维度）。在一些特征转换和建模过程中，要求输入的向量必须有固定的大小。当数据中包含不同大小的向量时，Spark可能无法自动推断出向量的正确大小。这时，VectorSizeHint可以显式地声明向量的大小，确保后续的操作能够顺利进行。为什么需要使用
【机器学习】特征提取特征降维 de-feedback 机器学习人工智能
特征工程特征工程是将原始数据转化为可以用于机器学习的数字特征，比如字典的特征提取，文档的特征提取等。字典特征提取把字典的每个唯一的键作为数据集特征的一个维度，有这个维度的就为1，没有就是0。其他相同的键，该维度的值就是其键值。这样的操作把字典样本的每一条数据转化为了矩阵，但是矩阵中含有大量的0（因为数据中的键和值有很多不同），所以称之为稀疏矩阵为了保存数据的高效，一般使用三元组表存储。保存非零数据
【机器学习】特征工程的基本概念以及LASSO回归和主成分分析优化方法 Lossya 机器学习回归人工智能算法特征工程
引言特征工程是机器学习中的一个关键步骤，它涉及到从原始数据中提取和构造新的特征，以提高模型的性能和预测能力LASSO（LeastAbsoluteShrinkageandSelectionOperator）回归是一种用于回归分析的线性模型，它通过引入L1正则化（Lasso正则化）来简化模型并减少过拟合的风险主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术
AutoML原理与代码实例讲解 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AutoML原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着数据量的爆炸式增长和算法的日益复杂，机器学习在各个领域的应用越来越广泛。然而，机器学习模型的开发过程往往需要大量的专业知识和经验。数据预处理、特征工程、模型选择、参数调优等步骤都需要人工进行，这使得机器学习模型的开发变得复杂且耗时。为了解决这
python库——sklearn的关键组件和参数设置零度° python python sklearn
文章目录模型构建线性回归逻辑回归决策树分类器随机森林支持向量机K-近邻模型评估交叉验证性能指标特征工程主成分分析标准化和归一化scikit-learn，简称sklearn，是Python中一个广泛使用的机器学习库，它建立在NumPy、SciPy和Matplotlib这些科学计算库之上。sklearn提供了简单而有效的工具来进行数据挖掘和数据分析。我们将介绍sklearn中一些关键组件的参数设置。模
【机器学习】探索数据矿藏：Python中的AI大模型与数据挖掘创新实践 C_GUIQU 机器学习人工智能 python
前言：探索数据矿藏1.数据获取与预处理：AI大模型的燃料1.1数据获取：多样性与规模并重1.2数据清洗与处理：提升数据质量1.3特征工程：挖掘数据的深层次信息1.4自动化特征工程：AI与特征工程的结合2.模型训练与优化：构建智能的大脑2.1模型选择：大模型的基础构建2.2模型训练：从数据到智能的转化2.3⚙️模型优化：精益求精的智能化提升2.4模型解释与可视化：揭示黑盒的内部3实际应用案例：AI大
深度学习的一个完整过程通常包括以下几个步骤 longerVR DL 深度学习人工智能
深度学习的一个完整过程通常包括以下几个步骤：问题定义和数据收集：定义清晰的问题，明确任务的类型（分类、回归、聚类等）以及预期的输出。收集和整理用于训练和评估模型的数据集。确保数据集的质量，进行预处理和清理。数据预处理：处理缺失值、异常值和重复数据。进行特征工程，选择、转换或创建合适的特征。将数据集划分为训练集、验证集和测试集。选择模型架构：根据问题的性质选择适当的深度学习模型架构，如卷积神经网络（
【机器学习】多元线性回归 Mount256 #机器学习机器学习线性回归人工智能
文章目录多元线性回归模型（multipleregressionmodel）损失/代价函数（costfunction）——均方误差（meansquarederror）批量梯度下降算法（batchgradientdescentalgorithm）特征工程（featureengineering）特征缩放（featurescaling）正则化线性回归（regularizationlinearregress
吴恩达机器学习全课程笔记第一篇亿维数组 Machine Learning 机器学习笔记人工智能
目录前言P1-P8监督学习无监督学习P9-P14线性回归模型成本（代价）函数P15-P20梯度下降P21-P24多类特征向量化多元线性回归的梯度下降P25-P30特征缩放检查梯度下降是否收敛学习率的选择特征工程多项式回归前言从今天开始，争取能够在开学之前（2.25）把b站上的【吴恩达机器学习】教程过一遍，并把笔记记录于此，本笔记将会把此课程每一p的重点内容及其截屏记录于此，以供大家参考和本人日后复
零基础入门金融风控-贷款违约预测Task2 数据分析一缕阳光lyz 数据分析数据挖掘
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
【吴恩达·机器学习】第二章：多变量线性回归模型（选择学习率、特征缩放、特征工程、多项式回归） Yaoyao2024 机器学习线性回归人工智能
博主简介：努力学习的22级计算机科学与技术本科生一枚博主主页：@Yaoyao2024每日一言:勇敢的人，不是不落泪的人，而是愿意含着泪继续奔跑的人。——《朗读者》0、声明本系列博客文章是博主本人根据吴恩达老师2022年的机器学习课程所学而写，主要包括老师的核心讲义和自己的理解。在上完课后对课程内容进行回顾和整合，从而加深自己对知识的理解，也方便自己以及后续的同学们复习和回顾。课程地址2022吴恩达
深度学习从入门到不想放弃-1 周博洋K 深度学习人工智能
基本功总是很香的，良好的基础才能决定上层建筑的质量和高度。从今天开始陆续连载一些深度学习的基础，包括概念，数学原理，代码，最近也确实没什么热点可以蹭先看机器学习和深度学习的对比："数据和特征决定了机器学习的上限，而模型与算法则是逼近这个上限而已"，机器学习和深度学习的本质区别之一是特征工程，而特征工程又是决定最终结果好坏的最重要的因素之一；上图最上面描述是机器学习的流程，如果让一个计算机理解输入的
《区块链公链数据分析简易速速上手小册》第8章：实战案例研究（2024 最新版）江帅帅区块链数据分析数据挖掘人工智能 python web3 机器学习
文章目录8.1案例分析：投资决策支持8.1.1基础知识8.1.2重点案例：股票市场趋势预测准备工作实现步骤步骤1:加载和准备数据步骤2:特征工程步骤3:训练模型步骤4:评估模型结论8.1.3拓展案例1：基于情感分析的投资策略准备工作实现步骤
机器学习中的特征工程 qq_44980515 机器学习 python 数据分析人工智能
目录一、特征工程目标二、特征工程内容（一）异常处理（二）特征标准化/归一化（三）数据分桶（四）缺失值处理（五）特征构造（六）特征筛选（特征选择）（七）降维三、代码示例（一）导入数据（二）删除异常值（三）特征构造（四）特征筛选1.过滤式2.包裹式一、特征工程目标对于特征进行进一步分析，并对于数据进行处理。完成对于特征工程的分析，并对于数据进行一些图表或者文字总结。特征工程的主要目的还是在于将数据转换
FFA 2023 专场解读：AI 特征工程、数据集成 flink大数据
今年FlinkForwardAsia（以下简称FFA）重新回归线下，将于12月8-9日在北京望京凯悦酒店举办。FlinkForwardAsia2023大会议程已正式上线！FlinkForward是由Apache官方授权的ApacheFlink社区官方技术大会，作为最受ApacheFlink社区开发者期盼的年度峰会之一，FFA2023将持续集结行业最佳实践以及Flink最新技术动态，是中国Flink
【大厂AI课学习笔记】【2.2机器学习开发任务实例】（1）搭建一个机器学习模型 giszz 人工智能学习笔记人工智能学习笔记
今天学习的是，如何搭建一个机器学习模型。主要有以上的步骤：原始数据采集特征工程数据预处理特征提取特征转换（构造）预测识别（模型训练和测试）在实际工作中，特征比模型更重要。数据和特征的选择，已经决定了模型的天花板，模型算法只是去逼近这个上限。在上述的特征工程中：数据预处理，就是去除数据的噪声，例如文本中的错误、不再使用的词语等；特征提取，就是从原始数据中提取一些有效的特征。例如图像分类中，提取边缘、
基于决策树的金融市场波动性预测与应用 OverlordDuke 机器学习决策树决策树算法机器学习
基于决策树的金融市场波动性预测与应用项目背景与意义数据概述与分析数据来源数据特征数据预处理与特征工程模型训练与评估结果与应用总结LightGBM是一个机器学习算法库，用于梯度提升机（GradientBoostingMachine）的实现。梯度提升机是一种集成学习方法，通过串行训练多个弱学习器（通常是决策树），每次学习的模型都试图纠正前一次模型的错误，从而逐步提升整体模型的性能。LightGBM算法
探索XGBoost：时间序列数据建模 Echo_Wish Python 笔记 Python算法 python 算法开发语言
导言XGBoost是一种强大的机器学习算法，广泛应用于各种领域的数据建模任务中。但是，在处理时间序列数据时，需要特别注意数据的特点和模型的选择。本教程将深入探讨如何在Python中使用XGBoost建模时间序列数据，包括数据准备、特征工程和模型训练等方面，并提供相应的代码示例。准备数据在处理时间序列数据之前，首先需要准备数据。通常，时间序列数据是按照时间顺序排列的，每个时间点都有相应的观测值。以下
葫芦书第一章——特征工程单调不减
葫芦书是机器学习岗位面试的必读书，第一遍读，就当作对自己这四个月以来入门机器学习的知识测验，顺便查漏补缺。葫芦书比较好的一点是它的写作是通过问答方式进行的，就像一场模拟面试一样，而这些问题可能是我自学相关知识的时候没有细想过的，通过这些问题我也可以发现自己的知识盲区，再查阅相关资料。闲言少叙，开始啦。特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本
task3 特征工程 1598903c9dd7
1.采用tsfresh工具包提取时间序列特征导入工具包：提取特征：融合之前单变量特征之后，预测变差......哭
task 13 集成学习罐罐儿111
蒸汽量预测1.特征工程一般流程：1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换（数值化、类别转换、归一化）5.特征处理（异常值、最大值、最小值、缺失值）观察特征核密度估计，已知散点图，做回归，要求连线尽可能平滑，大致观察数据的分布情况。在本例中，通过核密度估计，观察训练集与测试集数据的分布情况，从而删除不具有相似分布的属性值计算相关性
机器学习各种算法汇总模板怎么菜成这样机器学习机器学习 python 算法随机森林支持向量机
机器学习算法模板包含了KNN，线性回归，逻辑回归，朴素贝叶斯，决策树，支持向量机，随机森林，kmeans，集成算法各种算法，特征工程，评估方式任你选择！！！#导包fromsklearn.neighborsimportKNeighborsClassifierfromsklearn.linear_modelimportLinearRegressionfromsklearn.naive_bayesimp
特征工程:数据平衡林浩杨数据探索与可视化机器学习 python 人工智能机器学习算法数据挖掘
目录一、前言二、正文Ⅰ.基于过采样算法Ⅱ.基于欠采样算法Ⅲ..基于过采样和欠采样的综合算法三、结语一、前言大多数情况下，使用的数据集是不完美的，会出现各种各样的问题，尤其针对分类问题的时候，会出现类别不平衡的问题。例如：在垃圾邮件分类时，垃圾邮件数据会有较少的样本量，从而导致两种类型的邮件数据量差别很大；在欺诈监测数据集中，往往包含的欺诈样本并没有那么多。处理这类数据集的分类的时候，需要对数据集的
掌握XGBoost：特征工程与数据预处理 Echo_Wish Python算法 Python 笔记机器学习 python 人工智能
掌握XGBoost：特征工程与数据预处理导言在应用XGBoost模型之前，特征工程和数据预处理是至关重要的步骤。良好的特征工程和数据预处理可以显著提高模型的性能。本教程将介绍在Python中使用XGBoost进行特征工程和数据预处理的中级教程，通过代码示例详细说明各种技术和方法。安装XGBoost首先，请确保您已经安装了Python和pip。然后，您可以使用以下命令安装XGBoost：pipins
梯度提升树系列6——GBDT在异常检测领域的应用 theskylife 数据挖掘机器学习数据挖掘 GBDT 分类 python
目录写在开头1异常检测的基本概念1.1定义和目标1.2GBDT在异常检测中的适用性2信用卡欺诈检测案例分析2.1场景介绍2.2收集数据和特征工程2.3进行异常值识别2.4模型效果评估2.5模型优化3策略和技巧4面临的挑战和解决方案4.1数据不平衡4.2过拟合4.3模型解释性写在最后在如今数据驱动的时代，异常检测成为了保障系统安全的关键技术，尤其在金融安全、网络安全等领域中扮演着至关重要的角色。梯度
【深度学习：掌握监督学习】掌握监督学习综合指南 jcfszxc 深度学习知识专栏深度学习学习人工智能
【深度学习：掌握监督学习】掌握监督学习综合指南监督学习的定义和简要说明监督学习在人工智能中的重要性和相关性概述什么是监督学习？基本概念主要组件：输入要素和目标标签训练监督式学习模型监督学习算法的类型分类回归每个类别中的流行算法示例监督学习的数据预处理数据清洗数据转换数据缩减特征工程概念简介及其对模型性能的影响模型评估和验证评估和验证监督学习模型的重要性常见评估指标概述模型评估技术挑战和未来方向监督
Titanic - 1 silent_eyes_77
本周原想探究一下seaborn绘图方面的运用，发现用在实际案例中更有效果，遂直接用Kaggel经典的Titanic案例的描述性分析部分进行研究。以下是案例的其中一部分，模型探究有待补充与更新。复习一下，完成这篇分析报告需要进行的几个步骤：一、导入数据包与数据集二、数据分析1、总体预览2、描述性统计分析：使用统计学与绘图，初步了解数据之间相关性，为构造特征工程和模型建立做准备3、数据清洗4、建模与优
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa