AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
Market Manipulation: An Adversarial Learning Framework for Detection and Evasion
作者提出了一个对抗性学习框架,以捕捉开发工具来检测市场操纵的监管者与混淆行动以逃避检测的操纵者之间不断发展的博弈。该模型包括三个主要部分:(1)生成器,学习调整原始的操纵订单流,使之类似于正常交易者的交易模式,同时保留操纵意图;(2)鉴别器,用于将对抗性调整后的操纵订单流与正常交易活动区分开来;(3)基于代理的模拟器,用于评估调整后的输出的操纵效果。
作者分别对与操纵者和做市商相关的模拟订单流进行了实验。作者展示了适应的操纵订单流的例子,这些订单流模仿了指定做市商的报价模式,并且与我们在模拟器中实现的原始操纵策略出现了质的不同。这些结果证明了自动生成一组多样化的(看不见的)操纵策略的可能性,这可以促进更强大的检测算法的训练。
论文链接:https://www.aminer.cn/pub/5ef96b048806af6ef2772237?conf=ijcai2020
会议链接:https://www.aminer.cn/conf/ijcai2020
When Pedestrian Detection Meets Nighttime Surveillance: A New Benchmark
夜间行人检测是监视中的关键和前沿问题,但是计算机视觉和人工智能界尚未对此进行深入的研究。大多数现有方法都可以在有利的照明条件下(例如白天)检测行人,并获得很好的性能。然而,它们在不稳定的照明条件下(例如夜间)往往会失效。在安防领域,夜间是犯罪嫌疑人行动的关键时间。现有的夜间行人检测数据集由专为自动驾驶场景设计的车载摄像头捕获。夜间监视场景的数据集还是空缺的。自动驾驶和监视之间存在巨大差异,包括视角和照明。
在本文中,作者从夜间监控方面构建了一个新颖的行人检测数据集:NightSurveillance1。作为夜间行人检测的基准数据集,作者比较了最先进的行人检测器的性能,结果表明,这些方法不能解决NightSurveillance的所有挑战性问题。作者相信NightSurveillance可以进一步推动行人检测的研究,特别是在夜间的监控安全领域。
论文链接:https://www.aminer.cn/pub/5ef96b048806af6ef2772069?conf=ijcai2020
会议链接:https://www.aminer.cn/conf/ijcai2020/papers
"The Squawk Bot": Joint Learning of Time Series and Text Data Modalities for Automated Financial Information Filtering
使用数字时间序列和文本体作为输入数据源的多模态分析是一种很有前景的方法,特别是在金融业。然而,这类分析的重点是实现高预测精度,而在理解这两种数据模式之间的关联这一重要任务上几乎没有花费精力。因此,虽然有人类可理解的文本信息,但在时间序列上的表现却很少得到解释。、
在这项工作中,作者解决了这样一个问题:给定一个数字时间序列,以及在该时间序列的同一时期收集的通用文字故事语料库,任务是及时发现与该时间序列相关的一组简洁的文字故事。为了实现这一目标,作者提出了一种名为MSIN的新型多模态神经模型,该模型可以联合学习数字时间序列和分类文本文章,以发掘它们之间的关联。通过两种数据模态之间数据关联的多步骤,MSIN学习关注一小部分与时间序列中表现最一致的文本文章子集。这个简洁的子集会被及时发现,并作为推荐文档呈现给给定时间序列,起到自动信息过滤的作用。
作者实证评估了该模型在发现苹果公司和谷歌公司两个股票时间序列的相关新闻文章,以及从Thomson Reuters收集的连续7年的每日新闻文章上的表现。实验结果表明,MSIN对两个被考察的时间序列的ground truth文章的召回率分别高达84.9%和87.2%,远高于深度学习中依靠传统注意力机制的最先进算法。
论文链接:https://www.aminer.cn/pub/5e01e1d13a55ac7df001971d?conf=ijcai2020
会议链接:https://www.aminer.cn/conf/ijcai2020
Online Decision Based Visual Tracking via Reinforcement Learning
深度视觉跟踪器通常基于对象检测或模板匹配,而它们中的每个仅适用于特定场景组。考虑将它们融合在一起以追求更可靠的跟踪很简单。但是,这是不明智的,因为它们遵循不同的跟踪原理。
与以前的基于融合的方法不同,作者提出了一个名为DTNet的新型集成框架,该框架具有基于分层强化学习的视觉跟踪在线决策机制。该决策机制提出了一种智能的切换策略,其中检测器和模板跟踪器必须相互竞争才能在他们擅长的不同场景中进行跟踪。此外,作者提出了一种新型检测跟踪器,它避免了常见的不正确建议的问题。
广泛的实验结果表明, DTNet具有最先进的跟踪性能,并且在准确性和效率之间取得了良好的平衡。
论文链接:https://www.aminer.cn/pub/5f7fdd328de39f0828397c94?conf=neurips2020
会议链接:https://www.aminer.cn/conf/neurips2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes
这项工作为多模态分类提出了一个新的挑战集,重点是在多模态memes中检测hate speech。 它的构造使单模态模型很困难,只有多模态模型才能成功:将困难的示例(“良性混杂因素”)添加到数据集中以使其难以依赖单模态信号。该任务需要微妙的推理,然而作为一个二元分类问题,评估起来却很直接。作者提供了单模态模型以及具有不同复杂程度的多模态模型的基准性能数据。
作者发现,与人类相比,最先进的方法效果较差(准确率分别为64.73%和84.7%),这说明了这项任务的难度,并突显了这一重要问题给社区带来的挑战。
论文链接:https://www.aminer.cn/pub/5eba73be91e01108d77cf7f1?conf=neurips2020
会议链接:https://www.aminer.cn/conf/neurips2020
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search
最近,有人提出了文本到语音(text-to-speech , TTS)模型,如FastSpeech和ParaNet,从文本中并行生成mel-spectrograms。尽管有优点,但并行TTS模型在没有自回归TTS模型作为外部校准器的指导下仍不能进行训练。
在这项工作中,作者提出了Glow-TTS,一个不需要任何外部对准器的基于流的并行TTS生成模型。作者引入了单调对齐搜索(Monotonic Alignment Search,MAS),一种用于训练Glow-TTS的内部对齐搜索算法。通过利用流的特性,MAS搜索文本和语音的潜在表示之间最可能的单调对齐。
Glow-TTS在合成语音质量相当的情况下,获得了比自回归TTS模型Tacotron 2快一个数量级的速度,在端到端合成一分钟的语音只需要1.5秒。作者进一步表明,他们的模型可以很容易地扩展到多语音环境。
论文推荐:https://www.aminer.cn/pub/5ecb97f691e011485a943a8d?conf=neurips2020
会议推荐:https://www.aminer.cn/conf/neurips2020
A New Window Loss Function for Bone Fracture Detection and Localization in X-ray Images with Point-based Annotation
物体检测方法被广泛用于使用医学图像的计算机辅助诊断。异常发现通常被视为由边界框描述的对象。然而,许多病理学发现,例如骨折,由于相当多的实例、形状和边界的模糊性,无法用边界框清楚地界定。这使得边界框注释及其相关损失非常不适合。
在这项工作中,作者提出了一种适用于X射线图像的新型骨折检测方法,该方法基于一种灵活有效的标注方案,适用于没有明确的对象级空间范围或边界的异常发现。作者的方法采用了一种简单、直观且信息量大的基于点的标注协议来标记局部病理信息。为了解决通过点注释的骨折尺度的不确定性,作者将标注转换为像素级监督,该监督使用具有正、负和不确定区域的上下限。随后提出了一种新颖的窗口损失,仅对不确定区域之外的预测进行惩罚。
作者的方法已在4410例独特患者的骨盆X射线图像上进行了广泛评估。实验结果表明,该方法在健康边缘方面优于以前的最新图像分类和对象检测基准,AUROC为0.983,FROC得分为89.6%。
论文链接:https://www.aminer.cn/pub/5fd09bd591e01147f1d1e290?conf=aaai2021
会议链接:https://www.aminer.cn/conf/aaai2021
Planning with Learned Object Importance in Large Problem Instances using Graph Neural Networks
现实世界中的规划问题往往涉及数百甚至数千个对象,这给现代规划师带来了巨大的局限性。在这项工作中,作者通过学习预测少量对象(这些对象合在一起足以找到计划)来应对这一挑战。
作者提出了一种图神经网络体系结构,用于单次预测对象的重要性,从而几乎不增加开销,同时大大减少了规划人员必须考虑的对象数量。作者的方法将规划器和过渡模型视为黑匣子,并且可以与任何现成的规划器一起使用。
从经验上看,在经典规划、概率规划以及机器人任务和运动规划中,作者发现他们的方法所产生的规划速度明显快于几个基线,包括其他局部接地策略和升降式规划器。作者得出的结论是,学习预测一个规划问题的足够多的对象集是一种简单,强大且通用的大型实例规划机制。
论文链接:https://www.aminer.cn/pub/5f60846c91e011380586ff7f?conf=aaai2021
会议链接:https://www.aminer.cn/conf/aaai2021
DenserNet: Weakly Supervised Visual Localization Using Multi-scale Feature Aggregation
在本研究中,作者引入了一个用于视觉定位的密度特征网络(DenserNet)。
作者的工作有三个主要贡献。
首先,作者开发了一种卷积神经网络(CNN)架构,它在不同语义层次上聚合feature map,用于图像表示。使用更密集的feature map,作者的方法可以产生更多的关键点特征,提高图像检索精度。其次,作者的模型是在没有像素级标注的情况下进行端到端训练的,除了正负GPS标记的图像对。作者使用弱监督的三重排序损失来学习判别性特征,并鼓励关键点特征重复性的图像表示。最后,由于作者的架构在计算过程中具有共享的特征和参数,因此该方法在计算上是高效的。作者的方法可以在具有挑战性的条件下进行精确的大规模定位,同时保持计算约束。
广泛的实验结果表明,作者的方法在4个具有挑战性的大规模定位基准和3个图像检索基准上达到了新的水平。
论文链接:https://www.aminer.cn/pub/5fcdf89491e01124d5ec3e4e?conf=aaai2021
会议链接:https://www.aminer.cn/conf/aaai2021