腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并

一、比赛数据


数据下载与展示


pip install wget

安装之后记得重启kernel

import wget,tarfile
#训练数据
filename = wget.download("https://tesla-ap-shanghai-1256322946.cos.ap-shanghai.myqcloud.com/cephfs/tesla_common/deeplearning/dataset/algo_contest/train_preliminary.zip")
#测试数据
test_filename = wget.download("https://tesla-ap-shanghai-1256322946.cos.ap-shanghai.myqcloud.com/cephfs/tesla_common/deeplearning/dataset/algo_contest/test.zip")

#解压缩
import zipfile
#解压缩训练数据
zFile = zipfile.ZipFile(filename,"r")
for fileM in zFile.namelist():
    zFile.extract(fileM,'./')
    print(fileM)
#解压缩测试数据 
test_zFile = zipfile.ZipFile(test_filename,"r")
for fileM in test_zFile.namelist():
    test_zFile.extract(fileM,'./')
    print(fileM)
zFile.close();
  • 上述代码完成了数据集的下载和解压,如下所示
    腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并_第1张图片
    腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并_第2张图片

  • 通过pandas来读取数据并进行分析

import pandas as pd
#读取数据
user_data = pd.read_csv("train_preliminary/user.csv")
click_log_data = pd.read_csv("train_preliminary/click_log.csv")
ad_data = pd.read_csv("train_preliminary/ad.csv")
#数据分析
user_data.shape #(900000, 3)
click_log_data.shape #(30082771, 4)
ad_data.shape #(2481135, 6)
#列名
'''
'user_id':'用户编号'
'age':'年龄段'
'gender':'性别'
'time':'日期'
'creative_id':'广告素材编号'
'click_times':'当日点击次数'
'ad_id':'广告编号'
'product_id':'产品编号'
'product_category':'产品类别'
'advertiser_id':'广告金主'
'industry':'金主所属行业'
'''
#数据类型
user_data.dtypes

#user_id    int64
#age        int64
#gender     int64
#time           int64
#creative_id    int64
#click_times    int64
#ad_id                int64
#product_id          object
#product_category     int64
#advertiser_id        int64
#industry            object
  • 展示每个数据表的前五条记录
    腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并_第3张图片
    腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并_第4张图片
    腾讯2020广告算法大赛比赛-使用官方推荐平台进行数据的读取和合并_第5张图片
  • 使用merge函数将三个训练数据集合并到一起
#将用户数据、用户点击广告数据和广告数据合并
user_click_data = pd.merge(user_data,click_log_data)
user_click_ad_data = pd.merge(user_click_data,ad_data)
user_click_ad_data.shape #(30082771, 11)
user_click_ad_data.columns
#Index(['user_id', 'age', 'gender', 'time', 'creative_id', 'click_times','ad_id', 'product_id', 'product_category', 'advertiser_id', 'industry'],dtype='object')

下面就可以选择特征值和不同的模型来进行训练和预测了,加油!大赛结束后再来写总结!

你可能感兴趣的:(学习总结)