IEEE Fraud Detection Competition思路探索

  • 训练集和测试集的数据分在两个不同的表里。通过统计发现只有少部分train_transaction中的TransactionID可以在train_identity中找到对应
    区分新广告与就广告
# Here we confirm that all of the transactions in `train_identity`
print(np.sum(train_transaction['TransactionID'].isin(train_identity['TransactionID'].unique())))
print(np.sum(test_transaction['TransactionID'].isin(test_identity['TransactionID'].unique())))
输出:
24.4% of TransactionIDs in train (144233 / 590540) have an associated train_identity.
28.0% of TransactionIDs in test (144233 / 590540) have an associated train_identity.
  • TransactionDT 列是时间相关的特征,train_transaction和test_transaction之间没有重复的部分。
train_transaction['TransactionDT'].plot(kind='hist',
                                        figsize=(15, 5),
                                        label='train',
                                        bins=50,
                                        title='Train vs Test TransactionDT distribution')
test_transaction['TransactionDT'].plot(kind='hist',
                                       label='test',
                                       bins=50)
plt.legend()
plt.show()

IEEE Fraud Detection Competition思路探索_第1张图片
TransactionDT:来自给定参考日期时间的timedelta(不是实际时间戳)
TransactionAMT:以美元计算的交易付款金额
ProductCD:产品代码,每笔交易的产品
card1 - card6:支付卡信息,如卡类型,卡类别,发行银行,国家/地区等。
地址:地址
dist:距离
P_和(R__)emaildomain:购买者和收件人电子邮件域
C1-C14:计数,例如发现与支付卡相关联的地址数等,实际含义被掩盖。
D1-D15:timedelta,例如上次交易之间的天数等。
M1-M9:匹配,例如卡片上的姓名和地址等。
Vxxx:Vesta设计了丰富的功能,包括排名,计数和其他实体关系。
分类特征:
ProductCD
card1 - card6
addr1,addr2
Pemaildomain Remaildomain
M1 - M9

身份表*
该表中的变量是与交易相关的身份信息 - 网络连接信息(IP,ISP,代理等)和数字签名(UA /浏览器/操作系统/版本等)。
它们由Vesta的欺诈保护系统和数字安全合作伙伴收集。
(字段名称被屏蔽,并且不会提供成对字典用于隐私保护和合同协议)

分类特征:
设备类型
设备信息
id12 - id38

  • Categorical Features - Transaction

ProductCD
emaildomain
card1 - card6
addr1, addr2
P_emaildomain
R_emaildomain
M1 - M9

  • Categorical Features - Identity

DeviceType
DeviceInfo
id_12 - id_38

你可能感兴趣的:(比赛,fraud)