macidoo

【信息流推荐论文大赏】Predicting Clicks: Estimating the Click-Through Rate for New Ads

文章目录

太长不看版
Motivation
- 为什么要预测广告CTR?
- 为什么要预测新广告的CTR？
广告搜索框架
作者提出来的新特征
- 1. Estimating Term CTR
- 2. Estimating AD Quality
- 3. Measuring Order Specificity
- 4. External Sources Of Data
数据集
模型
自己的一点思考

太长不看版

Predicting Clicks: Estimating the Click-Through Rate for New Ads

论文主要思想：提出了一种预测新广告CTR的办法。

论文使用方法：提出了新的特征，使用逻辑回归 (logistic regression) 模型训练，使用模型预测CTR的 KL散度和均方差(MSE)来验证实验效果。

上述新的特征包括以下四个方面：

CTR相关特征：
- Term CTR：包含相同关键词的其他广告的CTR
- Related Term CTR：包含相近关键词的其他广告的CTR
新广告本身特征
- Appeareanc：广告本身是否美观
- Attention Capture：广告是否有吸引力
- Reputation：广告主的知名度
- Landing Page Quality：登陆页的质量（我理解为广告引流页的质量）
- Relevance：广告和用户检索词 (search query)的相关性
广告指向的明确性：
- 作者认为指向越明确的广告CTR越高
外部特征：
- 关键词在网络上的词频
- 关键词在搜索引擎上的词频

Motivation

为什么要预测广告CTR?

因为广告主爸爸给钱。例如谷歌雅虎等广告主爸爸会按照点击结算方式(cost-per-click CPC)给钱，即用户每点一次广告，爸爸就要给一次钱。

卑微的广告展示方怎么才能挣到更多钱呢，他们可以用这个公式计算收入的期望值：
$E_{ad}[revenue] = p_{ad}(click)*CPC_{ad}$
其中 $CPC_{ad}$ 是广告爸爸对一次点击的出价， $p_{ad}(click)$ 是对该条广告的点击率预测(CTR)。出价是爸爸定的，但是把CTR高的广告往前放，卑微的广告展示方就可以挣到更多钱。

这里论文作者做了一个简单的解释，在广告展示界面上，排在越靠前的广告被用户注意到的可能性越大(这也导致CTR越大)。因此，在决定广告出现顺序的时候，需要精确预估每条广告的CTR，然后把CTR高的排前面。

在预估每条广告的CTR时，作者先排除了广告出现位置的影响，否则就会死锁：广告CTR越高越往前放，越往前放进而导致CTR越高，就不好计算了。

为什么要预测新广告的CTR？

因为广告主爸爸每天发来的新广告特别多，由于缺少历史点击数据，无法准确预估其CTR，卑微的广告展示方需要尽快确定新广告质量，以决定投放顺序，挣更多钱。所以作者针对这个问题，提出了一系列的新特征来拟合新广告的质量。

广告搜索框架

广告的点击率(CTR)由两个因素决定：

用户看到它的可能性：由广告出现的位置(pos)决定
用户看到它之后点击它的可能性：由它本身质量决定

因此，广告的点击率可以公式化为：
$p (c l i c k ∣ a d, p o s) = p (c l i c k ∣ a d, p o s, s e e n) * p (s e e n ∣ a d, p o s)$
为此，论文作者做了简化假设，假设广告被用户看到的概率只与出现位置有关(与广告本身质量无关)；用户看见广告后，点击它的概率只与广告质量有关(与广告出现位置无关)。这里有点绕口，其实就是假定了上述两个因素互相独立。于是，公式可以简化为：
$p (c l i c k ∣ a d, p o s) = p (c l i c k ∣ a d, s e e n) * p (s e e n ∣ p o s)$
本文中作者研究的CTR是 $p (c l i c k ∣ a d, s e e n)$ ，即用户看到广告后点击它的概率。因为广告在不同位置被看到的概率可以假定为一条固定的曲线，对任何广告，给定位置就有对应的“被看见概率”，所以这不是本文讨论的范围。

作者提出来的新特征

1. Estimating Term CTR

预测一条新广告的CTR时，作者首先使用了和新广告有相同或相近关键词的其他广告的CTR来构建特征，辅助预测。

1.1 Term CTR

含义：和当前广告含有相同关键词的广告的平均CTR。

该特征的计算公式为：
$f_{0}(ad) = \frac{\alpha \overline{CTR} + N(ad_{term} )*CTR(ad_{term})}{\alpha +N(ad_{term} )}$
其中：

$\overline{CTR}$ 是训练集中所有广告的CTR的平均值(先验特征)
$\alpha$ 是先验特征的比例
这两项的作用是针对新广告中有未出现过关键词或者低频关键词。
$N(ad_{term})$ 是包含相同关键词的其他广告的数量(忽略词序)，
$CTR(ad_{term})$ 是包含相同关键词的其他广告的平均CTR

本实验中 $\alpha$ 设置为1，并且作者发现实验结果对 $\alpha$ 取值不敏感。

实验结果：

第一行是baseline，即只使用了 $\overline{CTR}$ 这个特征。第二行是使用了Term CTR的实验结果，性能有13.28%的提升。

1.2. Related Term CTR

含义：与当前广告有相关关键词的广告的平均CTR。

相关是指：假设 $R_{mn}(t)$ 是一组广告的关键词，当从t中删除m个关键词，从新广告中删除n个关键词后，他们会有相同关键词。可以理解为，将当前广告的关键词经过一定的增删编辑操作后，可以得到的关键词，就是相关关键词。
$R_{mn}(t) = \left\{ \begin{array}{lr} |ad_{item} \cap t| > 0 \space \space and& \\ |t - ad_{item} | = m \space \space and\\ |ad_{item} - t| = n & \end{array} \right.$
例如，如果 $t$ 是“red shoes”，那么对于新广告中的关键词“buy red shoes”就是 $R_{01}$ ，关键词“shoes”就是 $R_{10}$ ，关键词“blue shoes”就是 ${R_{11}}$ 。

所以，该特征的计算公式为：
$CTR_{mn}(term) = \frac{1}{|R_{mn(term)}|} \sum_{x\in R_{mn(term)}} CTR_{x}$
其中CTR_{mn}(term)和上一个特征一样要做平滑处理。

另外，作者还把相关广告的数量也作为一个特征：
$v_{mn}(term) = ｜R_{mn}｜$

实验结果

参考table1的第三行，相比于baseline有19.67%的提升。

2. Estimating AD Quality

由于广告的CTR的变化范围很大，方差特别大，所以仅仅用CTR这个特征是不够准确的。作者统计了一些常用关键词的CTR变化范围，如下图：

例如，对于surgery这个关键词，其最大的CTR是其平均CTR的5倍多。因此，作者还加入了广告本身质量作为其特征。

2.1. Appearance
定义：广告的外观是否符合美学。
例如，广告的标题和内容包含多少单词，广告的资本化程度好不好，是否有太多标点符号，长单词多还是短单词多？

2.2. Attention Capture
定义：广告本身是否有吸引力。
例如，广告的标题和内容里是否有“购买”、“加入”、“订阅”等关键词，是否提供了数量、价格、折扣等数字信息？

2.3. Reputation
定义：广告主的知名度
例如，显示的URL是否以.com、.net、.edu等结尾，URL被分成了多少段 (book.com就比book.something.com要好) ，是否包含破折号和数字？因为短的域名往往更贵，所以域名越好，广告主的实力越强，其广告质量也相对更好。另外，用户也会对自己更熟悉的域名更感兴趣。

2.4. Landing page quality
定义：登陆页的质量。
例如，登陆页使用了flash吗，符合W3C吗，页面中哪部分被图片遮住了，是否使用了样式表等？虽然登陆页是用户点击进去之后才能看到，但是广告往往会把用户引导到用户熟悉的登陆页上，反过来想，登陆页的质量也能反应用户是否点击该广告的概率。

2.5. Relevance
定义：广告和用户检索词汇的相关度。
例如，关键词是否准确的出现在标题中，关键词的子集是否出现在标题或者广告体中？

作者针对以上5个方面定义了81个新特征，并且添加了一元特征(unigram feature)，例如作者统计了出现在训练集中最频繁的10000个关键词，如果待测广告中包含这些关键词，该特征就取值为1，否则取值0。这些一元特征的作用是捕捉一些没有被注意到的关键词，这些词可以增加我们对广告特征的捕捉。

实验结果

作者发现，在不使用广告词频的一元特征，仅使用广告本身质量特征，相对于baseline有20.72%的提升(图最后一行)，也就是相对于related term ctr只有1%的提升；如果加入广告词频的一元特征，相对于baseline有23.45%的提升(图倒数第二行)。

作者说这一点令他们很震惊。毕竟他们本以为一些手工定义的广告质量特征（前面说到的81个特征）会有很好的效果，可惜并不是。反而是一元特征比较有用。这里其实引发了我的一些思考，写在了文章结尾。

3. Measuring Order Specificity

作者认为指向性明确的 (即广告目标群体与广告的关键词更接近) 广告会有更高的CTR。故作者将关键词分成了74类，然后计算广告中的关键词与这74类的熵，用以表征广告指向性是否明确，并作为一个特征进行计算。

此外，作者还将广告订单中不重复的单词数量作为特征，与上述的指向性熵特征一起送入模型进行训练。

实验结果：

作者发现，加入这两个特征后，模型的准确率提升到了28.97%，说明这两个特征效果明显。作者为了验证这两个特征是否都有正向收益，他还尝试了只使用广告指向性特征进行训练，发现模型有26.37%的提升。而同时使用广告指向性特征和不重复单词数量特征，模型有28.97%的提升，说明这两个特征都带来了正向收益。

4. External Sources Of Data

定义：广告中关键词在Web中出现的频率和在用户近三个月中在搜索引擎中搜索的频率。

作者认为，不仅可以用广告本身的特征，还可以使用一些外部特征，即广告中关键词在Web和搜索引擎中的出现频率。因为如果广告中包含的关键词是人们经常搜索的，说明该广告有更大几率会吸引人们点击它。

对于广告中关键词在Web中出现的频率，作者使用了一个巧妙的统计方法。作者通过统计在搜索引擎中搜索该关键词，并统计包含该关键词的网页页面数，并用这个数量代表关键词出现的频率。

对于关键词在用户搜索引擎中的出现的频率，作者使用了用户最近三个月在搜索引擎中的历史记录，并统计广告中关键词在用户历史记录中的出现频率。

另外，作者对上述两个频率特征进行了分桶处理，每个特征分别分了20个桶。
实验结果

作者发现，这两个特征能在baseline的基础上带来3.11%的正向收益，但是与前面的特征结合起来后，却只有0.5%的额外收益，这说明此类特征与前面提出来的特征有较大的重合度。

数据集

本论文使用了微软公司的搜索引擎上的广告信息，每个广告都包含了以下几个方面：

Landing page：登陆页
Bid term：关键词
Title：广告的标题
Body：广告的内容
Display URL：广告的超链接
Clicks：自投放以来广告被点击的数量
Views：自投放以来广告被看到的数量

整个数据集包含了超过10000个广告主爸爸，上百万条广告和50万个关键词。

由于本文研究的是新广告的CTR，即我们不知道任何关于新广告的信息，也不知道该广告主爸爸的任何信息以及他原来投放广告的信息。故作者按照广告主来划分数据集，把属于同一个广告主的广告放到一起。然后随机抽取70%的广告作为训练集，10%作为验证集，20%作为测试集。

为了实验的准确性，作者还过滤掉了浏览量少于100的广告，因为这些广告计算出来的CTR是不置信的。

模型

作者选用了逻辑回归模型，因为它非常适合预测概率，总能得到0-1之间的概率结果：
$\frac{1}{1+e^{-Z}} ,\space Z = \sum_{i}{w_i f_i(ad)}$
其中 $f_i(ad)$ 是广告中第 $i$ 个特征的值， $w_i$ 是相应的权重矩阵。作者使用的是交叉熵损失函数，和一个均值为0，方差为0.1的高斯权重先验(方差是通过多组实验选了个最好的值)。同时，作者还加了一个始终为1的偏置(常规操作)。

此外，作者还做了一系列的数据预处理：

增加了一个衍生特征 $log({f_1+1})$ 和 ${f_1}^2$ ：目的是防止有些特征最小值为0。
特征数据做标准化：目的是防止离群数据的影响(使用的是训练集上的均值和方差)
超过标准差5倍的数据做截断：超出5倍的数据按照5倍来计算，防止特征数据的长尾效应

自己的一点思考

个人觉得本文让人比较有收获的点是：

构建新广告的特征考虑较为全面，不仅考虑了广告本身的吸引力，而且考虑了一些外部条件对广告的影响。
分析实验很“控制变量”，对于每一类新特征作者都用单独的实验验证其了有效性，并且分析了他们之间可能存在的overlap(覆盖)的情况
现在信息流推荐大家其实比的就是特征工程，谁的特征做得好，效果往往就会更显著。在本文中作者发现，其实一些统计特征的效果比手工特征来的更有效。手工特征往往加入了太多工程师自身对业务的理解，而统计数据才是最贴近用户行为的。

聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
goldengate sqlserver mysql_使用 Oracle GoldenGate 在 Microsoft SQL Server 和 Oracle Database 之间复制事务... weixin_39907713 goldengate sqlserver mysql
大多数关注数据复制的Oracle技术专家都熟悉OracleStreams。在2009年之前，Streams一直是推荐使用的最流行的Oracle数据分发技术。2009年7月，Oracle收购了GoldenGate这一数据库复制软件供应商。Oracle现在鼓励客户使用OracleGoldenGate(Oracle融合中间件系列的组成部分)来满足新应用中的数据复制需求。Oracle关于OracleStr
报错Failed to load resource: net::ERR_FILE_NOT_FOUND--浏览器设置跨域 Biver__ 工具 js
浏览器报错Failedtoloadresource:net::ERR_FILE_NOT_FOUND代表此应用运行需要做跨域推荐使用火狐浏览器做跨域，之后也用火狐访问。在地址栏输入about:config点击接受风险并继续：输入security.fileuri.strict_origin_policy把true改为false重启浏览器跨域就做好了，上述问题也就解决了。如果你是内嵌的浏览器，可以把应用
年轻人痉挛性斜颈：健康饮食助力康复全力以赴66 生活
痉挛性斜颈是一种神经系统疾病，表现为颈部肌肉不自主收缩，导致头部歪斜或转动困难。虽然其病因复杂，可能与遗传、环境、神经损伤或压力有关，但通过健康饮食，可以辅助缓解症状，改善生活质量。1.增加镁的摄入：放松肌肉镁是一种天然的肌肉松弛剂，能够帮助缓解肌肉紧张和痉挛。痉挛性斜颈患者通常伴有颈部肌肉过度收缩，补充镁有助于放松肌肉。推荐食物：绿叶蔬菜（如菠菜、羽衣甘蓝）。坚果（如杏仁、腰果）。全谷物（如糙米
老人痉挛性斜颈：健康饮食助力缓解症状全力以赴66 生活
痉挛性斜颈是一种神经系统疾病，表现为颈部肌肉不自主收缩，导致头部歪斜或转动困难。老年人由于身体机能下降，更容易受到这种疾病的困扰。虽然痉挛性斜颈的治疗需要结合医学手段，但通过健康饮食，可以辅助缓解症状，改善生活质量。1.增加镁的摄入：放松肌肉镁是一种天然的肌肉松弛剂，能够帮助缓解肌肉紧张和痉挛。痉挛性斜颈患者通常伴有颈部肌肉过度收缩，补充镁有助于放松肌肉。推荐食物：绿叶蔬菜（如菠菜、羽衣甘蓝）。坚
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
人工智能专业毕业设计选题清单：热点课题推荐 HaiLang_IT 人工智能算法 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
【资料分享】标准规范汇总(2025.3.13更新) 交换机路由器测试之路网络协议网络协议国标行标 ITU TR069 802.11 IEEE
引言学习标准规范不仅是测试人员的基本职责，也是确保测试质量、提升产品竞争力和降低风险的关键。通过掌握和应用标准规范，测试工作可以更加规范、高效和权威，为产品和项目的成功提供有力保障。本文分享交换机路由器测试中涉及到标准规范。国标行标国家标准由国家市场监督管理总局和国家标准化管理委员会负责管理，代号为GB（国标拼音首字母），分GB（强制性标准）和GB/T（推荐性标准）。通信行业标准是针对通信技术和设
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了强化学习的基本概念，并使用深度Q网络（DQN）解决了CartPole问题。本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。我们将使用PyTorch实现Actor-Critic算法，并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战（17）：Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法，并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出，通过异步并行的多个智能体（Worker）与环境交互
React-state响应式内部数据(类组件&Hook两种方式整理) 一蓑烟雨，一任平生 React javascript 前端 react.js
类组件在类组件中要定义内部数据，由两种方案构造器里面定义state属性，在这个对象中定义你需要的数据constructor(){super()this.state={count:1}}在类的下面直接定义一个属性state(推荐)state={count:10}页面要使用state数据{this.state.count}建议大家在React中使用内部state数据的时候，使用解构的方式将内容解构出来
python基于django/flask体育馆管理系统Django-SpringBoot-php-Node.js-flask QQ_511008285 python django flask spring boot php node.js
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
(六)接口api测试我思故我在6789 测试大神之路可用性测试压力测试单元测试功能测试
1.简述什么是API测试？正确回答通过率：95.0%[详情]推荐指数：★★★★试题难度：初级API测试是一种用于验证API（应用程序编程接口）的软件测试类型。它与GUI测试非常不同，主要集中在软件体系结构的业务逻辑层。在API测试中，您无需使用标准的用户输入（键盘）和输出，而是使用软件将调用发送到API，获取输出并记下系统的响应。接口测试是一种常见的软件测试方法，用于测试软件系统中不同模块之间的接
7招教你掌握用DeepSeek辅助论文写作的提示词技巧学境思源AcademicIdeas 学境思源 AI写作 ChatGPT 人工智能
随着人工智能技术的快速发展，大模型（如DeepSeek、ChatGPT等）已经成为论文写作的重要辅助工具。合理运用提示词（Prompt），不仅能极大提高写作效率，还能辅助生成高质量的学术内容。今天的内容将分享如何利用DeepSeek的提示词技巧，助力论文写作。1.明确写作目标，让AI理解你的需求在使用大模型时，清晰的写作目标至关重要。一个好的提示词应当包括：写作主题、内容范围、格式要求、风格倾向等
基于Spring Boot+vue技术的导游系统设计与实现除了菜一无所有！ spring boot vue.js 后端
论文下载【免费】基于SpringBoot+vue技术的导游系统设计与实现资源-CSDN文库摘要本研究背景主要聚焦于当前旅游业信息化、智能化的发展趋势。随着移动互联网的普及和人们出行方式的多样化，导游系统作为旅游服务的重要组成部分，亟需进行技术革新以提升用户体验和服务效率。本研究旨在利用SpringBoot后端框架与Vue前端框架，构建一个功能丰富、交互友好的导游系统。研究内容主要包括系统需求分析、
毕业论文需要进行几次AIGC检测？ kexiaoya2013 人工智能 AIGC 论文阅读论文笔记
每到毕业季，许多同学都会面临论文查重的困扰。尤其是今年Deepseek的爆火，学校对论文AIGC检测也越来越严格。那么，毕业论文AIGC检测究竟需要做几次呢？一、检测次数受哪些因素影响1、学校政策部分高校提供1-2次免费检测机会，有的则要求自己检测合格后才能提交。检测前，务必提前了解所在院校的检测规则。若学校未明确，建议至少自查2次（初稿+定稿）。2、AI率波动如果首次AI率检测结果超过或接近学校
php开发转go的学习计划及课程资料信息老李要转行 php golang 学习
以下是为该课程体系整理的配套教材和教程资源清单，包含书籍、视频、官方文档和实战项目资源，帮助你系统化学习：Go语言学习教材推荐（PHP开发者适配版）一、核心教材（按学习阶段分类）1.基础语法阶段（阶段一）资源类型名称推荐理由链接/获取方式官方教程Go语言之旅交互式学习，快速上手基础语法官方免费中文书籍《Go语言入门指南》专为有其他语言经验的开发者编写京东/当当速查手册Go速查表PHP与Go语法对比
李开复：AI 2.0 时代的机遇 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
人工智能，深度学习，Transformer，大模型，通用人工智能，AI2.0，应用场景，未来趋势1.背景介绍人工智能（AI）技术近年来发展迅速，从语音识别、图像识别到自然语言处理等领域取得了突破性进展。其中，深度学习作为人工智能的核心技术之一，推动了AI技术的飞速发展。然而，深度学习模型的训练成本高、数据依赖性强、可解释性差等问题仍然制约着AI技术的进一步发展。李开复先生在《AI2.0时代的机遇》
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
Graphene Federation指南：实现 GraphQL 联邦架构邴联微
GrapheneFederation指南：实现GraphQL联邦架构graphene-federationFederationsupportforgraphene项目地址:https://gitcode.com/gh_mirrors/gr/graphene-federation项目介绍Graphene-Federation是由CSDN公司开发的InsCodeAI大模型推荐的一个用于Graphene
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
EDAS：投稿经验-word版本-问题解决 weixin_41724971 学习总结 Latex写作经验总结 SCI科研写作方法总结 word
1.字体不对，字体未嵌入问题问题：word转PDF后，总是显示有字体格式不对（忘记截图了）。办法：1.EDAS投稿PDF格式问题-CSDN博客-PDF上修改+IEEE论文检测的字体未嵌入问题TimesNewRoman,Bold,TimesNewRoman,Italicisnotembedded解决方法_打开其他人的word显示文字未嵌入-CSDN博客（必须有会员，说实话我没弄出来。如有需要这俩结合
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C