SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

Finding Camouflaged Needle in a Haystack? Pornographic Products Detection via Berrypicking Tree Model

Guoxiu He, Yangyang Kang, Zhe Gao, Zhuoren Jiang, Changlong Sun, Xiaozhong Liu, Wei Lu, Qiong Zhang, Luo Si

Wuhan University, Alibaba Group, Sun Yat-sen University, Indiana University Bloomington

http://47.96.153.156/pubs/2019/09/17/ab7b85fb-8717-4204-9f70-ba2150f48fb2.pdf

http://delivery.acm.org/10.1145/3340000/3331197/p365-he.pdf

http://sigir.org/sigir2019/slides/10.1145-3331184.3331197.pdf

对于电商服务(如eBay, eBid 和淘宝)来说,检测非法产品既重要又紧迫。但是,该项任务具有一定的挑战性,因为一些卖家可能会利用和更改伪装文本来欺骗检测算法。

这篇文章旨在解决如何从大量产品中动态定位色情产品。先前有些论文将关注点放在基于文本信息进行产品分类,而这篇文章所提出的模型BerryPIcking TRee MoDel(BIRD)利用产品的文本内容和买方的搜索行为信息作为采莓树。

具体而言即为,BIRD在整个搜索过程中,将所有分支序列的语义信息和整体潜在的购买者意图进行编码。

大量实验表明本文方法相对其他方法的优势。

电子商务中的检测系统图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第1张图片

采莓模型简短的解释如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第2张图片

BerryPicking Tree图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第3张图片

这篇文章所提出的模型及亮点在于

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第4张图片

本文主要贡献如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第5张图片

问题描述如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第6张图片

BIRD整体结构图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第7张图片

pooling及注意力机制的用途如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第8张图片

所有分支合并的策略如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第9张图片

这篇文章还提出了BPTRU

一些表达式形式如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第10张图片

考虑双向以及均值pooling之后可以得到以下结果

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第11张图片

剪枝策略如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第12张图片

最终输出利用两层mlp来实现

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第13张图片

数据集来源如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第14张图片

数据集信息统计如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第15张图片

参与对比的几种方法如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第16张图片

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第17张图片

几种不同的特征组合如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第18张图片

几种基准模型描述如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第19张图片

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第20张图片

衡量指标如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第21张图片

参数设置如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第22张图片

两种类别中,产品内容单词的分布差异对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第23张图片

对应的kl散度为

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第24张图片

其中几个缩写对应的解释为

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第25张图片

一个session内查询次数及记录数对比,购买次数对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第26张图片

几种方法的分类效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第27张图片

其中SWEM对应的论文为

Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms, ACL 2018

代码地址

https://github.com/dinghanshen/SWEM

Transformer对应的论文为

Attention is all you need, NIPS 2017

代码地址

https://github.com/jadore801120/attention-is-all-you-need-pytorch

https://github.com/Lsdefine/attention-is-all-you-need-keras

https://github.com/Kyubyong/transformer

https://github.com/tensorflow/models/tree/master/official/transformer

DPCNN对应的论文为

Deep pyramid convolutional neural networks for text categorization, ACL 2017

代码地址

https://github.com/Cheneng/DPCNN

BiGRUCNN对应的论文为

A hybrid framework for text modeling with convolutional RNN, SIGKDD 2017

代码地址

https://github.com/castorini/castor/tree/master/conv_rnn

CNNLSTM对应的论文为

A C-LSTM neural network for text classification

代码地址

https://github.com/bicepjai/Deep-Survey-Text-Classification/tree/master/deep_models/paper_14_clstm

BiLSTM对应的论文为

LSTMbased deep learning models for non-factoid answer selection, ICLR 2016

代码地址

https://github.com/sachinbiradar9/Question-Answer-Selection


SimpleCNN对应的论文为

Convolutional neural networks for sentence classification, EMNLP 2014

代码地址

https://github.com/yoonkim/CNN_sentence

不同特征组合的效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第28张图片

本文方法跟其他几种方法的效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)_第29张图片

其中BPTRU为

Berrypicking Tree Recurrent Unit

代码地址

https://github.com/GuoxiuHe/BIRD


              我是分割线


您可能感兴趣

SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)

SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)

SIGIR2019|胶囊网络来解释你喜欢什么不喜欢什么(已开源)

KDD2018|基于GBM的动态定价回归模型

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)

RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET

SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)

AAAI2018|斯坦福大学提出并开源增强生成式模型

ijcai2017|CTR经典模型DeepFM,FNN,PNN,W&D,LR,FM对比(哈工大诺亚方舟提出CTR模型)

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)

IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN

聊聊CatBoost

聊聊XGBoost CatBoost LightGBM RF GBDT

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)

IJCAI2019|清华大学提出并开源新型梯度提升决策树(梯度提升分段线性回归树)

新型梯度提升决策树GBDT-SPARSE(谷歌微软FaceBook加州大学联合提出)

ICML2019|深度学习鼻祖之一Bengio提出并开源图马尔科夫神经网络

GBDT,LR,深度学习如何联合发力(以推荐系统和游戏为例)

大规模GBDT系统应用场景及效果对比(LightGBM,XgBoost,DimBoost等)

新型在线预测模型DeepGBM(基于GBDT扩展的深度学习框架)

顶会中深度学习用于CTR预估的论文及代码集锦 (3)

NIPS2018深度学习(9)|亮点:多元卷积稀疏编码、循环关系网络

ICML 2018 深度学习论文及代码集锦(5)

深度学习用于文本摘要的论文及代码集锦

深度学习用于机器翻译的论文及代码集锦

深度学习用于序列标注中的论文及代码集锦

深度学习在推荐系统中的应用及代码集锦(4)

深度学习在OCR中的应用论文及代码集锦 (2)

你可能感兴趣的:(SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源))