Finding Camouflaged Needle in a Haystack? Pornographic Products Detection via Berrypicking Tree Model
Guoxiu He, Yangyang Kang, Zhe Gao, Zhuoren Jiang, Changlong Sun, Xiaozhong Liu, Wei Lu, Qiong Zhang, Luo Si
Wuhan University, Alibaba Group, Sun Yat-sen University, Indiana University Bloomington
http://47.96.153.156/pubs/2019/09/17/ab7b85fb-8717-4204-9f70-ba2150f48fb2.pdf
http://delivery.acm.org/10.1145/3340000/3331197/p365-he.pdf
http://sigir.org/sigir2019/slides/10.1145-3331184.3331197.pdf
对于电商服务(如eBay, eBid 和淘宝)来说,检测非法产品既重要又紧迫。但是,该项任务具有一定的挑战性,因为一些卖家可能会利用和更改伪装文本来欺骗检测算法。
这篇文章旨在解决如何从大量产品中动态定位色情产品。先前有些论文将关注点放在基于文本信息进行产品分类,而这篇文章所提出的模型BerryPIcking TRee MoDel(BIRD)利用产品的文本内容和买方的搜索行为信息作为采莓树。
具体而言即为,BIRD在整个搜索过程中,将所有分支序列的语义信息和整体潜在的购买者意图进行编码。
大量实验表明本文方法相对其他方法的优势。
电子商务中的检测系统图示如下
采莓模型简短的解释如下
BerryPicking Tree图示如下
这篇文章所提出的模型及亮点在于
本文主要贡献如下
问题描述如下
BIRD整体结构图示如下
pooling及注意力机制的用途如下
所有分支合并的策略如下
这篇文章还提出了BPTRU
一些表达式形式如下
考虑双向以及均值pooling之后可以得到以下结果
剪枝策略如下
最终输出利用两层mlp来实现
数据集来源如下
数据集信息统计如下
参与对比的几种方法如下
几种不同的特征组合如下
几种基准模型描述如下
衡量指标如下
参数设置如下
两种类别中,产品内容单词的分布差异对比如下
对应的kl散度为
其中几个缩写对应的解释为
一个session内查询次数及记录数对比,购买次数对比如下
几种方法的分类效果对比如下
其中SWEM对应的论文为
Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms, ACL 2018
代码地址
https://github.com/dinghanshen/SWEM
Transformer对应的论文为
Attention is all you need, NIPS 2017
代码地址
https://github.com/jadore801120/attention-is-all-you-need-pytorch
https://github.com/Lsdefine/attention-is-all-you-need-keras
https://github.com/Kyubyong/transformer
https://github.com/tensorflow/models/tree/master/official/transformer
DPCNN对应的论文为
Deep pyramid convolutional neural networks for text categorization, ACL 2017
代码地址
https://github.com/Cheneng/DPCNN
BiGRUCNN对应的论文为
A hybrid framework for text modeling with convolutional RNN, SIGKDD 2017
代码地址
https://github.com/castorini/castor/tree/master/conv_rnn
CNNLSTM对应的论文为
A C-LSTM neural network for text classification
代码地址
https://github.com/bicepjai/Deep-Survey-Text-Classification/tree/master/deep_models/paper_14_clstm
BiLSTM对应的论文为
LSTMbased deep learning models for non-factoid answer selection, ICLR 2016
代码地址
https://github.com/sachinbiradar9/Question-Answer-Selection
SimpleCNN对应的论文为
Convolutional neural networks for sentence classification, EMNLP 2014
代码地址
https://github.com/yoonkim/CNN_sentence
不同特征组合的效果对比如下
本文方法跟其他几种方法的效果对比如下
其中BPTRU为
Berrypicking Tree Recurrent Unit
代码地址
https://github.com/GuoxiuHe/BIRD
我是分割线
您可能感兴趣
SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)
SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)
SIGIR2019|胶囊网络来解释你喜欢什么不喜欢什么(已开源)
KDD2018|基于GBM的动态定价回归模型
KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)
RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET
SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)
AAAI2018|斯坦福大学提出并开源增强生成式模型
ijcai2017|CTR经典模型DeepFM,FNN,PNN,W&D,LR,FM对比(哈工大诺亚方舟提出CTR模型)
ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)
ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)
IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN
聊聊CatBoost
聊聊XGBoost CatBoost LightGBM RF GBDT
IJCAI2019|新型特征增广GBDT--AugBoost(已开源)
IJCAI2019|清华大学提出并开源新型梯度提升决策树(梯度提升分段线性回归树)
新型梯度提升决策树GBDT-SPARSE(谷歌微软FaceBook加州大学联合提出)
ICML2019|深度学习鼻祖之一Bengio提出并开源图马尔科夫神经网络
GBDT,LR,深度学习如何联合发力(以推荐系统和游戏为例)
大规模GBDT系统应用场景及效果对比(LightGBM,XgBoost,DimBoost等)
新型在线预测模型DeepGBM(基于GBDT扩展的深度学习框架)
顶会中深度学习用于CTR预估的论文及代码集锦 (3)
NIPS2018深度学习(9)|亮点:多元卷积稀疏编码、循环关系网络
ICML 2018 深度学习论文及代码集锦(5)
深度学习用于文本摘要的论文及代码集锦
深度学习用于机器翻译的论文及代码集锦
深度学习用于序列标注中的论文及代码集锦
深度学习在推荐系统中的应用及代码集锦(4)
深度学习在OCR中的应用论文及代码集锦 (2)