易_

新闻个性化推荐综述

MIND: A Large-scale Dataset for News Recommendation

ACL 2020

0. 摘要

新闻推荐是实现个性化新闻服务的一项重要技术。与已经被广泛研究的产品推荐和电影推荐相比，新闻推荐的研究非常有限，主要是因为缺乏高质量的基准数据集。本文提出了一个名为MIND的新闻推荐大型数据集。MIND由微软新闻的用户点击日志构建而成，包含100万用户和16万多篇英文新闻文章，每篇文章都有丰富的标题、摘要、正文等文本内容。通过对几种最先进的新闻推荐方法的比较研究，证明了MIND为新闻推荐提供了一个良好的实验平台，这些方法最初是在不同的专有数据集上开发的。研究结果表明，新闻推荐的性能在很大程度上依赖于新闻内容理解和用户兴趣建模的质量。有效的文本表示方法和预先训练好的语言模型等自然语言处理技术可以有效地提高新闻推荐的性能。MIND数据集可以在MIND网站下载。

1. 引言

Google news、Microsoft news等在线新闻服务已经成为广大用户获取新闻信息的重要平台。每天都有大量的新闻生成并发布在网上，使得用户很难快速找到感兴趣的新闻。个性化新闻推荐可以帮助用户缓解信息过载，提高新闻阅读体验。

在传统的推荐系统中，通过协同过滤等方法来学习用户和项目表示。然而，新闻推荐面临着一些特殊的挑战。首先，新闻网站上的新闻文章更新非常快。新的新闻文章不断发布，现有的新闻文章会在短时间内过期。因此，新闻推荐中的冷启动问题非常严重。其次，新闻文章包含标题、正文等丰富的文本信息。简单地用id表示他们是不合适的，从他们的文本中理解他们的内容是很重要的。第三，对用户在新闻平台上发布的新闻文章没有明确的评分。因此在新闻推荐中，用户对新闻的兴趣通常是从用户的点击行为中隐含地推断出来的。

大规模和高质量的数据集可以显著促进某一领域的研究，例如ImageNet用于图像分类(Deng et al.， 2009)和机器阅读理解SQuAD(Rajpurkar et al.， 2016)，Amazon dataset用于产品推荐，MovieLens dataset用于电影推荐。然而，现有的关于新闻推荐的研究较少，很多都是在专有数据集上进行的(Okura et al.， 2017; Wang et al.， 2018;吴等，2019a)。

本文提出一个大规模的微软新闻数据集(MIND)用于新闻推荐研究，该数据集是从Microsoft News的用户行为日志中收集，包含了100万用户以及他们点击超过16万篇英语新闻的行为。在不同的专有数据集上实现了许多最新的新闻推荐方法，并比较它们在思维数据集上的表现，为新闻推荐研究提供基准。实验结果表明，利用NLP技术对新闻文章进行深入理解对新闻推荐具有重要意义。有效的文本表示方法和预先训练好的语言模型都有助于提高新闻推荐的性能。此外，适当地对用户兴趣进行建模也很有用。希望MIND可以作为新闻推荐的基准数据集，促进这一领域的研究。

2. 相关工作

2.1 新闻推荐

新闻推荐旨在从大量候选新闻中寻找用户感兴趣的新闻文章(Das et al.，2007)。新闻推荐中存在两个重要的问题，即如何表示文本内容丰富的新闻文章，以及如何从用户之前的行为中建模用户对新闻的兴趣(Okura et al.， 2017)。传统的新闻推荐方法通常依靠特征工程来代表新闻文章和用户兴趣。例如，Li等人(2010)使用url和类别来表示新闻文章，使用人口统计数据、地理信息和从他们在雅虎上的消费记录推断出的行为类别来表示用户。

近年来，一些基于深度学习的新闻推荐方法被提出，以端到端方式学习新闻文章的表示和用户兴趣(Okura et al., 2017; Wu et al., 2019a; An et al., 2019年)。例如，Okura等人(2017)使用去噪自动编码器模型表示来自新闻内容的新闻文章，使用GRU模型表示来自历史点击新闻文章的用户兴趣。他们在日本雅虎平台的实验显示，通过深度学习模型学习到的新闻和用户表示很有希望用于新闻推荐。Wang et al.(2018)提出通过结合从知识图谱中推导出的词向量和实体向量，利用CNN网络从新闻标题中学习知识感知的新闻表示。Wu et al. (2019a)提出了一种专注的多视角学习框架来表示标题、正文、类别等不同文本的新闻文章。他们使用了一个注意力模型，通过选择信息丰富的文章，从用户点击的新闻文章中推断出用户的兴趣。这些工作通常开发和验证的专有数据集，这是不可公开的，使它为其他研究人员验证这些方法和发展自己的方法困难。

新闻推荐与NLP有着丰富的内在关联。首先，新闻是一种常见的文本形式，文本建模技术CNN和Transformer可以很自然地被用来表示新闻文章(Wu et al., 2019a; Ge et al., 2020)。其次，从之前点击的新闻文章中学习用户兴趣表示，与从句子中学习文档表示有相似之处。第三，新闻推荐可以表述为一个特殊的文本匹配问题，即在某个新闻阅读兴趣空间中，一篇候选新闻文章与一组之前点击过的新闻文章之间的匹配。因此，新闻推荐越来越受到NLP社区的关注(An et al., 2019; Wu et al.2019c)。

2.2 现有数据集

新闻推荐的公共数据集很少，总结见表1。Kille等人(2013)通过收集在13个德国新闻门户网站上发表的新闻文章以及用户对其的点击日志，构建了Plista数据集，它包含70353篇新闻文章和1095323次点击事件。该数据集中的新闻文章是德语的。Gulla等人(2017)在十周内发布了Adressa数据集，该数据来源于Adresseavisen网站的日志。它拥有48486篇新闻文章，308w用户和2722w点击事件。每个点击事件包含几个特性，如会话时间、新闻标题、新闻类别和用户ID。每个新闻文章都与一些详细信息相关联，如作者、实体和主体。这个数据集中的新闻文章是挪威语的。Moreira等人(2018)从巴西热门新闻门户Globo.com构建Globo新闻推荐数据。这个数据集包含大约31w个用户，46000篇新闻文章和300万次点击记录。每个单击记录都包含用户ID、新闻ID和会话时间等字段。每个新闻文章都有ID、分类、发布者、创建时间以及由一个在news metadata分类任务中预训练的神经网络得到的词向量。Yahoo数据集用于基于会话的新闻推荐。它包含14180篇新闻文章和34022次点击事件。每个新闻文章都由单词ID表示，不提供原始新闻文本。该数据集中的用户数量未知，因为没有用户ID。

3. MIND数据集

3.1 数据集构建

本文构建了MIND数据集(MIcrosoft News Dataset)。它是从Microsoft News的用户行为日志中收集的。随机抽取了100万用户，他们在2019年10月12日至11月22日的6周内至少有5条新闻点击记录。为了保护用户隐私，将每个用户安全地散列到一个匿名ID中。我们收集了这些用户在此期间的行为日志，并将其格式化为impression logs。impression logs 记录用户在特定时间访问新闻网站主页时显示给用户的新闻文章，以及用户对这些新闻文章的点击行为。由于在新闻推荐中，通常根据用户之前的行为推断出的个人兴趣来预测用户是否会点击候选新闻文章，因此将用户的新闻点击历史记录添加到他们的impression logs中，构造带标签的样本（labeled sample），用于训练和验证新闻推荐模型。

每个带标签的示例的格式是 $[u I D, t, C l i c k H i s t, I m p L o g]$ ，其中 $u I D$ 是用户的匿名ID， $t$ 是这个impression的时间戳。 $C l i c k H i s t$ 是该用户先前单击的新闻文章的ID列表(按单击时间排序)。 $I m p L o g$ 包含显示在此impression中的新闻文章的id和指示是否点击它们的标签，即 $[(nID_1, label_1), (nID_2, label_2), \dots]$ ，其中 $n I D$ 为新闻文章ID, $l a b e l$ 为点击标签（1表示点击，0表示未点击）。

使用最后一周的样本进行测试，使用第五周的样本进行训练。对于训练集中的样本，使用前四周的点击行为来构建新闻的点击历史。对于测试集中的示例，提取新闻点击历史记录的时间段是前五周。我们只保留了带有非空新闻点击历史记录的示例。在训练数据中，我们使用第五周最后一天的样本作为验证集。

MIND数据集中的每一篇新闻文章都包含一个新闻ID、一个title、一个abstract、一个body和一个category label，比如人工打标label的“Sports”。此外，我们发现这些新闻文本包含丰富的实体。例如，在图1所示的新闻标题中，“Mike Tomlin: Steelers ‘accept responsibility’ for role in brawl with Browns”，“Mike Tomlin”是一个person entity，“Steelers”和“Browns”是美式足球队的entity。为了便于知识感知型新闻推荐的研究，我们将新闻文章的title、abstract和body中的实体提取到MIND数据集中，并使用内部的NER和实体链接工具链接到WikiData中的实体。还从WikiData中提取了这些实体的知识三元组，并使用TransE (Bordes et al.， 2013)方法学习实体和关系的embeddings。这些实体、知识三元组以及实体和关系embeddings也包含在MIND数据集中。

3.2 数据分析

MIND数据集的详细统计如表2和图2所示。该数据集包含10万用户和16万篇新闻文章。在训练集中有218万个样本，验证集中有36万个样本，测试集有234万样本，这样可以增强数据密集型新闻推荐模型的训练。图2(a)、(b)、（c）展示了新闻title、abstract、body的长度分布。我们可以看到，新闻标题通常很短，平均长度只有11.52个字。相比之下，新闻摘要和正文要长得多，可以包含更丰富的新闻内容信息。因此，整合title、abstract、body等不同类型的新闻信息有助于更好地理解新闻文章。图2(d)显示了新闻文章的生存时间分布。这里使用新闻文章在数据集中首次出现和最后一次出现之间的时间间隔估计新闻文章的生存时间。我们发现，超过84.5%的新闻文章存活时间不到两天。这是由于新闻信息的性质，新闻媒体总是追求最新的新闻，现有的新闻文章很快就会过时。因此，冷启动问题是新闻推荐中常见的现象，传统的基于id的推荐系统(Koren, 2008)并不适合这项任务。使用文本内容表示新闻文章对新闻推荐至关重要。

4. 方法

4.1 通用推荐方法

LibFM：2012年Rendle发提出LibFM是一个基于因子分解机（factorization machine）的经典推荐方法。除了用户ID和新闻ID之外，我们还使用从先前点击的新闻和候选新闻中提取的内容特性作为附加特性来表示用户和候选新闻。
DSSM：2013年Huang等人提出深度结构化语义模型（deep structured semantic model），采用三格哈希（tri-gram hashes）和多前馈神经网络进行查询文档匹配。我们使用从先前点击的新闻中提取的内容特性作为查询，从候选新闻中提取的内容特性作为文档。
Wide&Deep：2016年Cheng等人提出了一种宽线性变换通道和深神经网络通道（wide linear transformation channel）的双通道神经网络推荐方法。我们为两个channel使用相同的用户和候选新闻内容特性。
DeepFM：2017年Guo等人提出另一种流行的神经推荐方法是将深度神经网络和分解机结合起来。为两个组件提供相同的用户和候选新闻内容特性。

4.2 新闻推荐方法

DFM：2018年Lian等人提出深度融合模型(deep fusion model)，一种新闻推荐方法，它采用inception网络将不同深度的神经网络结合起来，捕捉特征之间复杂的交互作用。我们使用了与上述方法相同的用户和候选新闻特性。
GRU：2017年Okura等人利用自动编码器从新闻内容中学习潜在的新闻表示，并利用GRU网络从点击的新闻序列中学习用户表示。
DKN：2018年Wang等人提出一种知识感知（knowledge-aware）的新闻推荐方法。使用CNN从包含word embedding和entity embedding的新闻标题中提取新闻的representaion(从知识图中推断)，并根据候选新闻与之前点击的新闻之间的相似性来学习用户representaion。
NPA：2019年Wu等人提出一种具有个性化注意机制的神经新闻推荐方法，根据用户偏好选择重要词汇和新闻文章，以获取更多信息的新闻和用户表示。
NAML：2019年Wu等人提出一种专注多视角学习的神经新闻推荐方法，将不同种类的新闻信息合并到新闻文章的表示中。
LSTUR：2019年An等人提出一种具有长期和短期用户兴趣的神经新闻推荐方法。它利用GRU从用户最近点击的新闻中塑造短期用户兴趣，从整个点击历史中塑造长期用户兴趣。
NRMS：2019年Wu等人利用多头自注意（multi-head self-attention）从新闻文本中的单词中学习新闻表示，从已点击的新闻文章中学习用户表示。

5. 个人公众号：四一五学习笔记

由于CSDN一直把公众号的二维码当做违规处置，故增加一个标题。
公众号会不定期更新机器学习文章笔记。感兴趣的同学可以搜索【四一五学习笔记】进行关注。

重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
Golang数据结构与算法：实现经典算法的Go版本 Golang编程笔记 golang 算法开发语言 ai
Golang数据结构与算法：实现经典算法的Go版本关键词：Golang、数据结构、算法、经典算法、Go实现摘要：本文将带领大家深入探索在Golang中实现经典算法。我们会先介绍一些基础的数据结构和算法概念，然后用生动的故事和例子来解释这些概念，接着给出核心概念之间的关系。通过详细的代码示例，展示如何在Go语言里实现这些经典算法，还会介绍它们的实际应用场景、相关工具和资源，探讨未来的发展趋势与挑战。
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
AI原生应用领域反馈循环：助力应用持续进化 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native ai
AI原生应用领域反馈循环：助力应用持续进化关键词：AI原生应用、反馈循环、持续进化、数据驱动、用户体验摘要：本文围绕AI原生应用领域的反馈循环展开探讨。首先介绍了反馈循环在AI原生应用中的重要性，接着详细解释了反馈循环的核心概念及其相关要素。通过具体的算法原理和操作步骤展示了反馈循环如何在技术层面实现。以实际项目案例说明反馈循环在实际开发中的应用和效果。还探讨了反馈循环在不同场景下的应用，推荐了相
AI原生应用性能优化：混合推理的7个最佳实践 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 性能优化 ai
AI原生应用性能优化：混合推理的7个最佳实践关键词：AI原生应用、性能优化、混合推理、最佳实践、推理效率摘要：本文主要探讨了AI原生应用性能优化中混合推理的相关内容。首先介绍了文章的背景、目的、预期读者和文档结构等信息，接着对混合推理的核心概念进行了通俗易懂的解释，并阐述了各核心概念之间的关系，给出了核心概念原理和架构的文本示意图以及Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，用数
c++STL库与快速排序浪子小院基础精讲 c++算法开发语言数据结构
什么是STL库STL=StandardTemplateLibrary，标准模板库，是一系列软件的统称。从根本上说，STL是一些“容器”的集合，这些“容器”有list,vector,set,map等，STL也是算法和其他一些组件的集合。前面已经学习过的中sort函数、中string类都是STL的内容。STL库还有很多内容，比如：向量（vector）、栈（stack）、队列（queue）、优先队列（p
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能自动驾驶 unix ai
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择关键词：AI伦理、自动驾驶、道德算法、电车难题、责任归属、技术监管、人机协作摘要：本文深入探讨自动驾驶技术发展过程中面临的伦理挑战，从经典的"电车难题"出发，分析AI决策系统在生死抉择中的道德困境。我们将剖析自动驾驶的伦理框架设计原则，探讨技术实现方案，并通过代码示例展示伦理算法如何嵌入自动驾驶系统。文章还将讨论法律责任划分、社会接受度等现实问题，最
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Excel VBA属性、方法、事件大全——Part13（Complete List of Excel VBA attribute/method and event）预见未来to50
对象/属性/方法/事件（Object/Attribute/Method/Event）描述（Description）Save保存指定工作簿所做的更改本示例保存当前活动工作簿。ActiveWorkbook.Save本示例保存所有打开的工作簿，然后关闭MicrosoftExcel。ForEachwInApplication.Workbooksw.SaveNextwApplication.QuitSave
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Microsoft VBA Excel VBA学习笔记——双重筛选+复制数值1.0 偷心伊普西隆 VBA学习和实践 microsoft excel
问题场景CountryProductCLASS1CLASS2CLASS3CLASS4CLASS5CLASS6…USApple0.3641416030.8918210610.0591451990.7320110290.0509636560.222464259…USBanana0.2300833330.4027262180.1548836670.2988904860.7802326210.028592
Microsoft VBA Excel 得到全部sheet名称偷心伊普西隆 VBA学习和实践 microsoft excel
项目场景简述：有一个几百个sheet的Excel文件，我需要得到全部的名称以便核对。转换一下就是新建一个.xlsm，得到另一个.xlsx的全部sheet名称。代码描述打开Excel，新建一个工作簿并保存为.xlsm格式。按下Alt+F11打开VBA编辑器。在“项目-VBAProject”窗格中，右键点击你的工作簿名称，选择“插入”->“模块”，这样就会创建一个新的模块。在新模块的代码窗口中，复制并
Microsoft VBA Excel 操控 Access资料表和查询代码进行搬运操作偷心伊普西隆 VBA学习和实践 microsoft excel 前端
问题场景Run_NoSource_AddressSource_FileDestination_AddressDestination_FileCopy_IndicatorRun_Start_Time1C:\Users\EP\path\to\FileSSS-1.MDBC:\Users\EP\path\to\FileSSC-1.MDBY2C:\Users\EP\path\to\FileSSS-2.MDB
【安全漏洞】深入剖析CVE-2021-40444-Cabless利用链 IT老涵安全网络漏洞安全安全漏洞网络安全
背景CVE-2021-40444为微软MHTML远程命令执行漏洞，攻击者可通过传播MicrosoftOffice文档，诱导目标点击文档从而在目标机器上执行任意代码。该漏洞最初的利用思路是使用下载cab并释放、加载inf文件的形式执行恶意代码。独立安全研究员EduardoB.在github公开了一种新的“无CAB”的漏洞利用方法及其POC。公众号之前发布的研判文章中已对在野利用中出现的新的Cable
Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
SQL Server的个人学习笔记萌尛喵 sql 学习数据库
1.基础SQLServer是由Microsoft开发和销售的关系数据库管理系统或RDBMS。SQLServer建立于SOL之上，是一种用于关系数据交互的标准编程语言。2.组件SQLServer主要由数据库引擎和SQLOS两个组件组成。①数据库引擎SQLServer的核心组件是数据库引擎。数据库引擎由处理查询的关系引擎和管理数据库文件、页面、索引等的存储组成。数据库引擎也创建并执行数据库对象，如存储
什么是 Paxos和Raft MonkeyKing.sun paxos raft
Raft和Paxos是两种经典的分布式一致性算法（ConsensusAlgorithms），广泛应用于数据库、分布式系统、微服务架构中，用来确保在多个节点中即使有部分节点故障，系统仍然可以就“某一值”达成一致（即：分布式共识）。它们不是区块链专属，但在联盟链、私有链或数据库复制系统中常被用来替代PoW、PBFT等共识机制。一、什么是Paxos？定义：Paxos是一种保证在部分节点失效或网络延迟时，
什么是DPoS（Delegated Proof of Stake，委托权益证明） MonkeyKing.sun DPoS
DPoS（DelegatedProofofStake，委托权益证明）是一种基于PoS（权益证明）演进而来的共识算法，设计初衷是提高性能、增强治理效率、实现社区自治。一、什么是DPoS（委托权益证明）？DPoS是一种将记账权“委托给投票选出的代表节点”的共识机制。普通用户不直接参与出块，而是通过投票选出“代表人”代为记账和验证交易。可以理解为：“股东大会投票选董事会代表他们管理公司”。二、DPoS的
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
OpenCV CUDA模块设备层-----线性插值函数log() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该函数用于创建线性插值访问器，支持对GPU内存中的图像数据进行双线性插值采样。主要应用于图像缩放、旋转等几何变换中需要亚像素级精度的场景。为输入图像构造一个基于“双线性插值”的访问器对象LinearInterPtrSz，可以在CUDA核函数中按需访问缩放后的像素值
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
算法训练营|数组总结慧泽huize 数据结构算法 leetcode python c++
时间复杂度：算法执行语句的次数空间复杂度：算法在运行过程中临时占存储空间大小数组（C++）：存放在连续内存空间的相同类型固定大小的数据的集合，不能删除，只能覆盖列表（Python）：数据可以是不同类型，列表长度可变1.二分查找循环不变量原则，清楚区间定义时间复杂度：O(logn)空间复杂度：O(1)2.双指针法快指针找到新数组元素，慢指针指向新数组下标时间复杂度：O(n)空间复杂度：O(1)3.双
手把手教程：在 VS2017 32位 Windows 环境下编译 OR-Tools 9.6 并集成到 C++ 项目 A小庞 C++知识算法 c++开发语言 or-tools 算法库
OR-Tools是Google开源的优化算法库，支持路径规划、线性规划、约束编程等多种功能。本文将详细介绍在VisualStudio201732位Windows环境下编译OR-Tools9.6的两种方法：联网自动下载依赖和手动编译依赖项，并提供避坑指南。方法一：联网自动下载依赖（推荐新手）步骤1：克隆OR-Tools仓库gitclonehttps://github.com/google/or-to
Google的OR-Tools：运筹学与优化的强大工具 A小庞算法调度算法 or-tools Google
在当今数字化时代，优化问题无处不在，从物流配送到生产计划，从资源调度到交通流量优化，这些看似复杂的问题都可以通过专业的工具来解决。Google的OR-Tools正是这样一款强大的运筹学和优化工具包，它为开发者提供了丰富的算法和功能，帮助解决各种复杂的优化问题。一、OR-Tools简介OR-Tools（OperationsResearchTools）是Google开源的一个用于组合优化的软件套件，旨
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt