面试准备项目篇

项目1 :文本多分类

1、标注问题,使用tfidf提取关键词人工标注。后来发现有情感字典,结合情感字典进行标注

2、去掉标点符号、分词,生成word2vec词向量

3、训练测试切分,将停用词存入dict

过拟合解决,L1和L2正则化,Dropout正则化一般使用在全连接层中。 提早停止

  当发现在继续迭代时,验证集上的损失开始上升时,即使此时训练集上的损失在下降,也应该停止迭代。数据增强


3、电影情感分析数据评测文本多分类方法:

样本:2w 条

textcnn: auc:0.83  time:6min

charcnn: auc:0.52  time:15min

bi-lstm: auc:0.78 time:32min

bi-lstm-attention: auc:0.93  time:23min

rcnn:auc:0.71  time:27min

transformer:auc:0.93  time:10min

tf写bp,cnn,rnn

项目2、协同过滤和矩阵分解:

数据准备:对物品行为次数超过95%的用户删除

als:交替最小二乘,先初始化两个子矩阵,固定一个更新另一个,然后固定另一个,更新第一个,更新参数

协同过滤步骤:获取ui稀疏矩阵、构建物品物品相似度矩阵、两个矩阵相乘,得出topk。准确率,召回率,f1

容易出现的问题,1)两个表join的时候,如果关联的key有重复值,会出现笛卡尔积

2)刷单的情况,导致一个用户有很多物品记录,spark总是卡在一个任务上,后来把异常数据剔除

项目3、ctr预估

规则:老用户:近3天平均每天浏览最多的商品、前一天浏览的商品

           新用户:热销商品、商品建模

模型

eda:查看每天浏览次数分布,基本差不多。其中418异常数据删除

标签:当天浏览第二天又浏览的为1,当天浏览第二天没有浏览的为0

采样:滑动窗口采样,原始44万,点击率0.3%,降采样到15万

特征:近10天的浏览、加购、收藏次数,转化率,占比(用户维度、物品维度、用户物品维度、用户类别维度)

数值型特征统一将大于95%的数据丢弃后,使用最大最小值归一化

#just xgb:train:846 test:816  #just lr:train:801. test:799  #xgb+lr train:834. test:809

使用deepfm后:train 0.87  test:0.85  加dropout减少了过拟合

尝试加稀疏特征和bn,没有显著效果

其中遇到一个问题,正负样本比在1:100左右,刚开始auc在0.5几,后来调整class_weight,auc变正常

xgboost如何调参,deepfm如何调参,输入输出数据处理

项目4、短文本相似度

你可能感兴趣的:(面试准备项目篇)