面试准备项目篇

项目1 ：文本多分类

1、标注问题，使用tfidf提取关键词人工标注。后来发现有情感字典，结合情感字典进行标注

2、去掉标点符号、分词，生成word2vec词向量

3、训练测试切分，将停用词存入dict

过拟合解决，L1和L2正则化，Dropout正则化一般使用在全连接层中。　提早停止

　　当发现在继续迭代时，验证集上的损失开始上升时，即使此时训练集上的损失在下降，也应该停止迭代。数据增强

3、电影情感分析数据评测文本多分类方法：

样本：2w 条

textcnn: auc:0.83 time:6min

charcnn: auc:0.52 time:15min

bi-lstm: auc:0.78 time:32min

bi-lstm-attention: auc:0.93 time:23min

rcnn:auc:0.71 time:27min

transformer:auc:0.93 time:10min

tf写bp,cnn,rnn

项目2、协同过滤和矩阵分解：

数据准备：对物品行为次数超过95%的用户删除

als：交替最小二乘，先初始化两个子矩阵，固定一个更新另一个，然后固定另一个，更新第一个，更新参数

协同过滤步骤：获取ui稀疏矩阵、构建物品物品相似度矩阵、两个矩阵相乘，得出topk。准确率，召回率，f1

容易出现的问题，1）两个表join的时候，如果关联的key有重复值，会出现笛卡尔积

2）刷单的情况，导致一个用户有很多物品记录，spark总是卡在一个任务上，后来把异常数据剔除

项目3、ctr预估

规则：老用户：近3天平均每天浏览最多的商品、前一天浏览的商品

新用户：热销商品、商品建模

模型：

eda：查看每天浏览次数分布，基本差不多。其中418异常数据删除

标签：当天浏览第二天又浏览的为1，当天浏览第二天没有浏览的为0

采样：滑动窗口采样，原始44万，点击率0.3%，降采样到15万

特征：近10天的浏览、加购、收藏次数，转化率，占比（用户维度、物品维度、用户物品维度、用户类别维度）

数值型特征统一将大于95%的数据丢弃后，使用最大最小值归一化

#just xgb:train:846 test:816 #just lr:train:801. test:799 #xgb+lr train:834. test:809

使用deepfm后：train 0.87 test:0.85 加dropout减少了过拟合

尝试加稀疏特征和bn，没有显著效果

其中遇到一个问题，正负样本比在1:100左右，刚开始auc在0.5几，后来调整class_weight，auc变正常

xgboost如何调参，deepfm如何调参，输入输出数据处理

项目4、短文本相似度