BAAIBeijing

庖丁解牛剖析国际学术论文写作的快速入门

2020年3月17日，在超千人同时在线的“智源论坛·论文写作专题报告会”上，三位智源青年科学家分别进行了精彩的在线分享，题目分别为：中国科学院计算技术研究所研究员兰艳艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视觉会议论文从投稿到接收》。

他们通过丰富的实战示例，分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度，详细解析了如何写好一篇优秀的国际学术论文，收到了直播间观众的热烈反响。我们将他们的演讲整理成文字，陆续发布。

今天，我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。

赵鑫智源青年科学家、中国人民大学副教授

2014年获得北京大学计算机系统结构专业博士学位。主要从事面向复杂背景环境的用户兴趣建模和推荐系统的相关研究，在国内外著名学术期刊与会议上发表或者录用论文70 篇。其中，以第一作者或通信作者身份发表CCF A 类长文20篇，曾获得CIKM2017最佳短文候选、AIRS 2017最佳论文等。发表在主题建模方面的论文《Comparing Twitter and Traditional Media Using Topic Models》单文被引用1200 余次，所提出的Twitter-LDA模型已经成为短文本主题建模领域最重要的基准模型之一。累计谷歌学术引用超3300次。

本次报告中，赵鑫从一篇国际学术论文的通常逻辑布局入手：引言、相关工作、模型、实验、参考文献等，通过大量的实战示例，详细解析了它们的写作方法、技巧和注意事项等，此外还分享了他本人对于一些国际期刊的投稿经验。

需要说明的是，本次报告的示例主要以信息检索，自然语言处理以及数据挖掘的论文展开。同时赵鑫认为，国际论文不同领域的基本方法和思路都是相通的。写作堪称一门学术内功，需要时间加以修炼，报告人也在修炼途中；而且写作千人千面，没有绝对的正确和错误。本次报告仅作为他个人写作经验的一次交流分享。

下面让我们进入赵鑫演讲的精华要点部分。

整理：李卓然，李黎

首先，赵鑫给我们介绍了两篇主要的示例论文，第1篇发表在SIGKDD 2019上，主题是基于背景信息的智能化路径搜索算法。作者将从起点到终点的路径搜索算法定义为A*算法，原始的A*算法会分解启发式搜索值为两个部分，其中g用来计算历史消耗，h用来预估未来消耗，论文的新思路是采用了图神经网络进行计算，包括采用深度学习方法来计算其中的g以及h。

第2篇发表在SIGIR 2018上，是基于知识属性的序列推荐算法。赵鑫指出，为了帮助论文初学者们快速入门，他接下来的内容风格可能会有点像“八股文”：按照论文的撰写顺序，介绍每一个部分该怎么写，有哪些规范、技巧或教训等。

引文：论文必须装点的“门面”

一般来讲，摘要部分只要不出现太大的失误就不会成为拒稿的因素，但引文部分如果把握不好就容易成为文章被拒的理由，或者让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用：

1.交代研究任务，向读者传达作者的任务和目的；

2.阐述研究现状总结不足，说明目前状态，为读者提供研究背景的铺垫，带出论文研究的挑战和难点，如果论文需要解决的技术挑战重大，可以单独列出⼀段进行描述。但切忌单纯罗列工作，而不突出难点；

3.提出解决的新思路，主要是用来引出论⽂的解决思路；

4.给出新方案的设计，较为详细地介绍所提出思路的实现；

5.总结论⽂的贡献以及实验结论，这部分需要总结并且强调论⽂的贡献。

以第一篇示例论文（SIGKDD 19）为例，其在引文中首先介绍了个性化路径推荐问题，即给定路网结构，旨在解决生成特定用户的路径推荐问题。因而需要突出在大图以及路网上的复杂性等难点。其次是在引文中阐述了研究现状并总结出了不足，为读者做出了研究背景方面的铺垫。这部分不同于对相关工作的介绍，主要是总结已有算法的不足。传统启发式搜索如A*算法的好处在于大图上的有效性，而机器学习算法的优点在于突出了算法的灵活性。很自然地，引出能否结合两者的优点呢？这一想法通过加入在策略游戏上的过渡句来带出：同时结合A*算法与机器学习算法的优点。下面还是给出新方案的具体设计过程，即通过一句话说清楚算法的具体功能与设计思路。最终强调论文的贡献，尽量避免强调的贡献过多，细致强调一个贡献效果更好。

在引文中也特别需要注意讲究逻辑性，逻辑错误是目前许多同学都会出现的问题。常见的逻辑错误有以下几个方面：

因为模型A好使，所以用A做某任务。这是机器学习学生前期论文经常出现的错误。典型的错误如“因为Deep Learning好用，所以就可以用来完成某个任务”；
因为任务B没有人做，所以我做了。没有人做的事情很多，并不能体现出意义；
之前的人做了什么工作，我做了什么工作，我的比前人做得好。这种情况很容易出现缺乏解释性，强迫进行衔接；
这个任务很难，这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述；
夸大自己模型的贡献、忽略别人的工作。这一定要和related work建立联系，不能夸大贡献。

引文的确需要适度的包装，不能够进行过度包装。过度包装是对于学术的很大不尊重，如随意给出主观的意见；随意给出一些非常泛化的词汇；随意夸大自己的模型，放大自己的贡献。例如"significantly improve"这样的副词+动词结构是较为不切实际的，需要慎用这样的词汇，所以需要就限定范围与条件进行说明。

引文的作用就是让大家容易读懂全文，从而起到一个铺垫的作用，包括：解释清楚“主要术语”；解释清楚模型的主要涉及思维以及技术路线。避免面面俱到，自我沉浸，可以通过多画图举例来说明解决方法；强调主要创新点，放在显眼位置。

综上所述，赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结：

①第一句写任务介绍以及研究意义

②第二句概述研究现状以及存在主要的问题

③第三句写解决这些问题的研究挑战

④第四句写当前方法的主要出发点以及解决思路

⑤第五句写当前方法的主要技术方案

⑥第六句写总结、强调贡献

写出这六句话后，可以分别按段进行拓展，用以完成introduction的写作。

除此之外，在引文写作中还需要注意过渡词的使用，例如yet、although等。

在更高层级上去理解引文写作，这是一门讲故事的艺术。通过讲清楚故事让大家明白所做的事情，说清楚工作的重要性，让大家觉得结局思路好，工作有不可或缺性，甚至达到如沐春风的感觉。这需要把握引文写作的节奏感，需要交代背景，做好铺垫，解析细节，总结重点。

相关工作：分类整理，覆盖全面

论文写作中相关工作部分的要求，主要包括这四个方面：

①尽量覆盖所有相关工作，其中可以匹配一些特定排版风格；多读论文；

②进行细致的分类整理并突出相关之处；

③强调差异与不同之处，例如主要任务，数据，算法的归纳与整理，这样可以写的非常高瞻远瞩并且浓缩；

④兼顾长写与短写，铺垫好足够的内容再展开相关工作。

在这个过程中，以下几点错误是较为常见的，我们需要特别避免：

简单罗列阅读文章，并没有在平时读论文的过程中做到分类总结；
没有讲清楚区别与联系，这体现了对论文进行分类总结的重要性；
语法错误，论文的时态可以选择过去时或现在完成时，但切忌混乱使用时态;
套用与滥用模板。

定义：清楚明晰是关键

通常来说，定义部分主要具有以下三个作用：

① 介绍清楚所有术语，让符号符合人的直觉与常用思维（如首字母命名法）；

②给出所有符号的含义以及使用方式，好看、好记、成体系并活用上下标（推荐花书的符号参考，避免黑白式符号）；

③形式化地描述清楚任务。

在定义的写作中，其中需要注意或避免的问题有以下几个方面：

⼀个符号多次使用，又代表不同意思
全部使用未加粗的notation表示集合、矩阵等
符号不遵照习惯使用
频繁使用⼀些单词的缩写用于notation (src,dest)
频繁使用上下角标都存在的符号
符号的数量过多
\log,\exp\min……这些数学符号都有规范的用法，不能直接写“log”之类，需要前面加一个斜杠代表数学公式。

模型部分：注重逻辑与收尾

模型部分的写作一定要强调逻辑，这对论文最终呈现出的质量极其重要。其中，最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍，各部分联系紧密且title比较清晰；总-基础-增强式是指首先概述一个基本模型，并在基本模型之上进行拓展。

在对模型进行收尾即在总结模型训练的过程中，可以通过加入模型分析、模型训练和模型学习等方面的介绍，用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面：

• 正确性证明

• 时间复杂度

• 完整的算法流程

• 参数汇总+学习算法

• 与之前工作的区别（突出创新性）

• 与之前工作的联系（增强泛化性）

• 模型可扩展的地方（堵漏）

实验部分：注重对比实验

在文章的实验部分，往往遵循如下的一般流程：数据集合（包括：评测指标和评测流程）、对比方法、主干实验分析、模型细致分析、定性实验，下面是各流程节点写作的详细方法：

1.数据集合，首先要在文章中写明原始数据来源，以及经过哪些预处理步骤得到最终用于评测的数据集。最终的数据还要列表进行诸如数据量类别数等的对比。一个小技巧是将表格中的数字右对齐，使用逗号表示法，如“200,000”，这样方便审稿人进行比较不同数据集合的大小。至于评测指标和评测流程，新任务的评测指标或流程，则要详细给出，老任务的则可以沿用已有指标。

2.对比方法时首先要简略的介绍baseline，若有特殊实现或者重要参数需要指明。而后需要对baseline进行整体总结。最后可以利用表格的形式对不同方法的性能进行对比。

3.主干实验分析时首先自己要清楚实验目的，文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般，比如A比B好，B比C好，而是要突出原因。此外若有些实验结果不如人意，也要进行分析。最后还要进行统计性检验证明提升有效。讲者举例如下，可以看到作者分析了过往方法的不足和优点，证明了自己方法的优越之处。

4.模型细致分析时可以通过Ablation study展开，也就是利用控制变量法对结果进一步分析，从而得出不同组件的贡献。此外还可以进行组件内部调节分析，以及不同参数或者不同数据处理下的对比分析。讲者举例如下，可以看到作者进行了不同组件贡献的分析，还有各个组件内部不同实现的分析。

5.定性实验是指举例子进行实验说明。用例子来解释想法的有效性，或者解释结果显著提升是基于哪些场景，本质上是对引言中motivation的呼应。举例子时应该注意不要探索式的写，而要有核心驱动，也就是直截了当的去举例证明自己的motivation。举例子的主要形式是一个图搭配一段描述。需要注意的是图的标题里要将图中的符号、颜色和整体场景设置等写清楚，而不能写在文本描述中，图本身要自洽。图画完之后要写一段对应的文本描述，首先写清楚目的，接着写清楚当前例子的整体故事，然后分解进关键部分，也就是图中哪些地方可以证明讲的故事，最后一句话进行总结。讲者举例如下，可以看到作者在图标题中将图中符号颜色等都进行了说明。

而在文本描述中，也是先交待了故事整体，然后针对图的不同部分进行阐述，对文章的motivation进行验证，最后总结了文章提出模型的作用。

摘要和总结：整体把握

写摘要应该是时间花费最少的，建议在文章完结后进行摘要写作。因为此时论文已经成型，方便你直接借鉴或者改动论文中一些已经很成熟的重要语句。摘要部分要注意讲清楚任务、方法和创新点，不要提实现细节，不需要代入，而是要直接了当地写。

总结也是一样，简要总结工作，不要再埋包袱、打伏笔，具体流程可以这样写：①具体任务、②解决方案、③实验结果、④未来扩展。需要注意的是，语法上，现在完成时和过去时都可以，但是不能混着用。

写作习惯：如何安排写作顺序

对于论文写作、修改时的流程，一般来说，我首先会花费半天时间写相关工作，之后会对问题定义和模型细节进行足够了解并且进行写作，随后将写作重点放在引言和实验部分，一般会在2-3日内完成初稿。初稿完成后会花费一天时间在引言和其他部分反复进行迭代修改，全文定稿，最后完成摘要和结论部分及修改相关工作（如下图）。

对于论文写作、修改，推荐的方式如下图：

在论文写作中应该避免的问题上，除了下图列出的一些问题，还涉及到了不同p题目之间要有关联性和逻辑性，同时要避免无意义的长句子，对于自己文章的贡献，应该在几句话内讲明白，不要舍本逐末罗列太多创新点。此外，要注意英语词汇的正确用法，避免缩写。

此外，要使用英语词汇习惯的正式用法，避免缩写等（如下图）。

建议：最快、最稳的论文写作学习法

演讲最后，赵鑫提纲挈领提了一系列“high level”的建议。

首先，是论文写作中一些“固定而正确”的实践建议，赵鑫解释说，“只有学会跑之后才能考虑飞翔”，初学论文者首先要像学习八股文一样进行论文写作。具体建议如下：

学一手好的LaTex，建议模板化、流程化、标准化。同时观念上将写论文作为科研的一部分——只有做好了科研，才能写出好论文。
学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。
重学四级单词或者学术论文常用单词，了解这些词的准确用法。（可以写个程序，找出来最频繁的词汇，以及它们的搭配，对于自己使用的新搭配要小心）
建议学会一套好的画图技术、做表技术
相关工作应该平时准备好，对于bib提前找好
自己做拼写检查。

对于论文写作，最快的学习途径，赵鑫认为是不断地复盘：多写论文，然后找师长修改；赵鑫强调：“要珍惜每一次老师给你的修改。作为中国人，尽管老师难免可能会出现语病，但他毕竟写过的论文比你多，一定要好好琢磨他为什么这么做”。

对应的，对于论文写作最稳妥的学习途径，赵鑫建议寻找一些科普的文章，如一些大组的工作，从头到尾去学习写作、背诵甚至默写；此外还有一种“廉价”的方法，是读论文的时候不看abstract，从而根据论文写abstract，然后进行对比，这在本质上相当于是写论文然后找人修改的过程。

对于期刊论文的写作，赵鑫的建议包括如下要点：

学会把论文写长、但又看起来也不冗余。所以如何使用图表、公式，如何组织十分重要。
尽量把参考文献写全。
尽量把实验做全。
写好Response很重要。期刊论文的response和会议论文rebuttal的重要不同之处，要保证自己会进行修改。

赵鑫的最后一个建议，是要养成写英文note、特别是写数学推导note 的习惯，比如对图神经网络等最新的算法或者模型进行总结或者推导等。这样一方面有利于对相关领域或知识进行有效梳理，另一方面有利于自己的复盘，可以有效提高英文的逻辑表达技能等。

Q&A

Q:先写中文还是翻译全英文？

A:如果英语不好，可以先写清楚中文的六句话然后再翻译。

Q:Related work和Introduction的研究任务有什么区别？

A:Related work是要突出覆盖性，Introduction主要是强调现在已有的工作为什么解决不了当前的任务，没有必要面面俱到去介绍。再就是Introduction里面所有相关工作的介绍，都是为了突出你要自己的工作。

Q:论文比较时用自己复现的代码还是别人原始代码？

A:看原作者愿不愿意去share，如果share，建议用原始那个代码。

Q:先写内容还是先排版？

A:先写内容再排版，但是提前一定要做好模板，比如图应该怎么放，表怎么放，然后比如说哪个章节应该怎么写。

Q:写论文的时候一边看文献一边写，还是先看很多文献再写？

A:如果文献没看到足够多的时候，不建议写论文，因为文献不足够多的时候，可能你现在做的工作别人已经做过了。

Q:画图做表用什么软件更专业一些？

A:Visio、PPT。对于画图一定要留时间，画图最后一定要留出一天或者半天时间。

Q:读论文数学推导如何看？

A:建议大家都去看一下国外机器学习课程的数学推导note。

Q:Note要有什么模板？

A:随便去上一门国外的机器学习的课上，一般可以找到相应的作业LaTex模板，或者直接搜note+tex+template。

Q:写Related work的时候，可以借用之前别人的句子或者微小的改动吗？

A:不建议完全去抄别人的，但是可以变一些句式，可以去做一个基本的命名。

Q:与baseline比较的时候，可以取人家的结果可以吗？

A:在通用的比较环境下，可以；如果使用了不同的实验设置，例如数据变动了，不要这么做。

Q:Reject到Resubmit的文章，没有说出具体截止时间，一般多久结束？

A:半年。

Q:Note有什么地方可以分享？

A:可以挂在一些网页，或者让你的老师帮你宣传一下，或者挂在一些公众号上都可以。

Q:怎么follow相关的研究的最新进展？

A:Google Scholar；大牛主页。

Q:怎么做论文分类汇总？

A:建议做重写摘要，或者试着对每一篇看过的论文用一两句话说清楚contribution，然后再去做论文分类。

Q:博士期间应该注意数量和质量?

A:数量保证毕业，质量代表实力。

Q:如何找出大牛?

A:把现在领域的顶会论文，近五年的paper拿出来，然后做引用排序的author list。

Q:Related work可不可以不特别相关？

A:可以拓展，但不是不要故意占用空间。

Q:会议改期刊需要什么注意的?

A:一定要做有意义的增量。

Q:读论文的时候可以从哪些方面去找可以改进的地方?

A:只能多去思考。

Q:论文放在文件夹里有的时候会乱怎么办？

A:记在脑袋里。论文不多的时候，应该清楚地记得每一篇论文讲的什么东西。

Q:怎么增强理论基础?

A:建议先系统看几本书，或者做一些note。

Q:模型中用的理论都是别人的还用写出来吗？

A:加一些引用。

Q:Sota论文太多，怎么选baseline？

A:大概归类，每一类都覆盖一些。

Q:实验效果好，但是没有理论支撑怎么办？

A:一定是没有想清楚整个模型的contribution是什么，建议多和交叉领域的同学去做一个结合，或者让老师去帮你想想。

此外QA环节中，赵鑫还提到以下几点：

1、建议大家读论文的时候，一定先有一个大概的topic，把论文量首先积累到50篇，然后开始做一个分类的操作，然后做一个重写摘要的操作，这两个事情做完以后，论文基本上确定了。不要硬写论文，一定想清楚自己的contribution是不是已经足够了，或者自己是不是已经做好了写论文的准备，做好文献阅读的情况下才可以写论文。

2、论文中相关术语的缩写一定要和原始论文中的一样，比如BERT不是Bert或者bert。

3、不要把图画得复杂，把故事说清楚，就是图要画得越简单越好，很多情况下是因为要讲的故事复杂它才复杂，千万不要把模型图画得太复杂。

智源论坛，AI技术前沿精粹尽览

独家经验分享，顶尖学者零距离

探讨前沿技术，亦分享职业经验

助你成为更好的研究者、工程师

敬请期待“智源论坛·论文写作专题报告会”下期：

施柏鑫《计算机视觉会议论文从投稿到接收》

你可能感兴趣的:(庖丁解牛剖析国际学术论文写作的快速入门)

魔兽地图服务器修改,如何修改魔兽地图（傻瓜版） leniou的牙膏魔兽地图服务器修改
最近很多互通图流入各大平台。很多人都想知道这个是如何制作的。现在我就教下大家。首先你要理解互通图之所以逃过各大平台以及暴雪检测的方法本来魔兽争霸是有一个地图验证的，如果你跟主机的图不同，是进不去的(要下载地图)。但是魔兽对地图中的war3map.j文件是进行bcc(blockcheckcharacter)校验的，bcc不同于md5，bcc一般只是用来排错的，并不是加密算法。所以就有人写出了这样的代
3章mysql表连接查询_mysql学习笔记（六）--- 多表查询之外键、表连接、子查询、索引... kindle电子书单 3章mysql表连接查询
本章主要内容：一、外键二、表连接三、子查询四、索引一、外键：1、什么是外键2、外键语法3、外键的条件4、添加外键5、删除外键1、什么是外键：主键：是唯一标识一条记录，不能有重复的，不允许为空，用来保证数据完整性外键：是另一表的主键,外键可以有重复的,可以是空值，用来和其他表建立联系用的。所以说，如果谈到了外键，一定是至少涉及到两张表。例如下面这两张表：上面有两张表：部门表(dept)、员工表(em
Docker免费空间申请-使用DaoCloud一键搭建Wordpress/Ghost博客 weixin_33842328 运维
零成本，免费空间，直接使用当今最火的Docker搭建Wordpress/Ghost博客，不用学习docker，可以一键搭建。Docker的热门同样在国内也催生了众多的基于了Docker技术的服务，本文要介绍的DaoCloud就是一家采用Docker轻量级虚拟化平台，DaoCloud支持持续集成、镜像构建和云端容器托管，与Github、Bitbucket、Coding、GitCafe等都有合作，实现
IT 运营架构杂谈【前言】 weixin_33860553 操作系统数据库运维
[什么是IT服务？]OGC官方的ITIL服务定义：中文定义：实施和管理IT服务，满足业务的需要。IT服务管理由IT服务提供方通过人员、流程和信息技术的适当组合而进行。[什么是IT运营？]什么是IT运营管理?IT运维管理，是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等，对IT运行环境（如硬软件环境、网络环境等）、IT业务系统和IT运维人员进行的综合管理。IT运维管理主要包括七个方面的
Python Twisted weixin_33946605 网络运维 python
Twsited异步网络框架Twisted是一个事件驱动的网络框架，其中包含了诸多功能，例如：网络协议、线程、数据库管理、网络操作、电子邮件等。事件驱动简而言之，事件驱动分为二个部分：第一，注册事件；第二，触发事件。例：程序一#!/usr/bin/envpython#-*-coding:utf-8-*-#event_drive.pyevent_list=[]defrun(): foreventin
django开发-django和tornado的不同 weixin_33693070 数据库网络 javascript ViewUI
python中常用的几个web框架有django,tornado,flask等，今天来总结一下django和tornado的不同。工作中django和tornado都用过，使用django相对更多一些。个人感觉django虽然好用，有搭建项目快、自带ORM、自动生成路由、自带管理后台等优势；但若实际工作中选择，我还是会偏向于使用tornado框架，因为torndo使用更加灵活，并且支持websoc
python twisted和flask_浅谈Python Web 框架：Django, Twisted, Tornado, Flask, Cyclone 和 Pyramid... 冯妥坨 python twisted和flask
Django是一个高级的PythonWeb框架，支持快速开发，简洁、实用的设计。如果你正在建一个和电子商务网站相似的应用，那你应该选择用Django框架。它能使你快速完成工作，也不必担心太多的技术选择。它能提供从模版引擎到ORM所需的一切东西。用Django构建你的app的时候，你必须要遵循Django的方式，这点像极了RubyonRails的Rails框架。有些人会觉得这样有点不爽，但在我看来这
介绍两个Python web框架：Django & Tornado weixin_30879169 python 数据库前端 ViewUI
在各种语言平台中，python涌现的web框架恐怕是最多的；猜想原因应该是在py中构造框架十分简单，使得轮子不断被发明。这里记述一下我了解过的两个pyweb框架，供大家参考，希望能起他山之石的作用。======Django======Django应该是最出名的py框架，GoogleAppEngine甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只
.net开发面试题神之王楠 .net 面试
一、.NET初级开发包括关于.NET基础知识、C#编程语言、ASP.NETMVC框架等方面的问题。什么是.NET？C#中的委托是什么？请简述private、protected、public、internal修饰符的访问权限。什么是ASP.NETMVC？在ASP.NETMVC中，模型、视图和控制器的作用是什么？什么是视图模型（ViewModel）？简述装箱和拆箱的概念。二、.NET中级开发涉及.NE
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
云计算运维工程师面试道亦无名面试云计算运维
1.云计算运维工程师的角色和职责是什么？回答：云计算运维工程师负责确保云计算环境（包括硬件和软件系统）的高可用性和稳定性。他们的主要职责包括：监测系统和应用程序的性能，确保它们正常运行。故障排除，快速响应并解决系统或应用程序中出现的问题。容量规划，根据业务需求预测和规划未来的资源需求。升级和维护操作系统、应用程序及相关的基础设施。与开发团队紧密合作，确保新功能的顺利部署和现有功能的持续优化。2.请
【面试系列】DevOps工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试 devops 职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：公众号：野老杂谈⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什
Linux系统管理体系-进程管理自动化运维 Linux运维工程师必备技能 linux 运维服务器
1、进程名字含义程序安装包,程序代码,app,存在磁盘上面进程运行起来的程序,命令,服务(远程连接服务,网络服务)都可以成为进程。运行在内存中。守护进程守护进程，一直运行的进程，也可以叫做服务2、僵尸进程僵尸进程是当子进程比父进程先结束，而父进程又没有回收子进程,释放子进程占用的资源，此时子进程将成为一个僵尸进程。僵尸进程成因：由于某个原因导致某个进程挂掉了，但是进程本身任然存在，还占用着系统资源
LLM大模型部署实战指南：部署简化流程汀、人工智能 AI Agent LLM工业级落地实践人工智能
LLM大模型部署实战指南：Ollama简化流程，OpenLLM灵活部署，LocalAI本地优化，Dify赋能应用开发1.Ollama部署的本地模型()Ollama是一个开源框架，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。，这是Ollama的官网地址：https://ollama.com/以下是其主要特点和功能概述：简化部署：Ollama目标在于简化在Docker容器中部署大型语言
利用MediaWikiDump解析和处理Wiki数据 srudfktuffk python
MediaWikiXMLDumps包含了Wiki页面及其所有修订的内容，但不包括与站点相关的数据，比如用户帐户、图像和编辑日志。因此，虽然它们没有创建Wiki数据库的完整备份，却在处理Wiki内容时具有独特的价值。技术背景介绍MediaWiki是许多Wiki（例如Wikipedia）后台的开源软件。使用MediaWikiXMLDumps，你可以获得Wiki页面的详细修订历史记录。这在数据分析和内容
Azure学生订阅上手实操：在Ubuntu VPS上利用Docker快速部署PostgreSQL数据库 shelby_loo 数据库 azure ubuntu
引言本文将详细指导您如何在Azure100学生订阅中，利用Ubuntu虚拟机，通过Docker容器技术快速搭建PostgreSQL数据库。我们将从Docker和PostgreSQL的基础知识入手，逐步讲解部署过程中的每一个步骤，并提供完整的命令和配置文件示例。Docker和PostgreSQL简介Docker是一种开源的容器化平台，它可以让开发者打包他们的应用以及依赖项到一个可移植的容器中。这些容
3D高斯泼溅原理及实践【3DGS】新缸中之脑 3d
人工智能可能是我们这个时代的主要领域之一，它几乎可以用于从驾驶汽车到医疗保健甚至能够预防失明等所有领域，最近提出了一种新的3D重建方法。SNGULAR及其人工智能团队希望了解有关3D重建技术的最新更新的更多信息。目前可用于3D重建的许多SOTA方法需要大量CPU/GPU使用率来处理场景或渲染场景，其中一些甚至需要两者兼而有之。SIGGRAPH2023GaussianSplatting上提出的新方法
抖音算法：信息茧房的真相与AI代码生成器的助力前端
近年来，抖音的推荐算法备受争议，引发了公众对“信息茧房”的广泛关注。抖音集团副总裁李亮近日接受采访，就抖音算法的运作机制和“信息茧房”问题发表了独到见解。他认为，抖音算法并非神秘莫测，其核心原理与业界普遍使用的算法并无本质区别，关键在于平台的目标和用户体验的侧重点。这也引出了一个关键问题：如何利用技术手段，例如AI代码生成器，来优化算法，提升用户体验，并最终打破“信息茧房”的困局？抖音算法：长期留
AI赋能软件工程：领域特定语言的智能生成前端
软件开发的世界日新月异，效率和成本始终是开发者们关注的焦点。为了应对日益复杂的软件项目，领域特定语言（DSL，Domain-SpecificLanguage）应运而生。DSL允许开发者使用更贴近特定领域问题的语言进行编程，从而提高开发效率并降低错误率。然而，DSL的开发通常需要专业的知识和大量的投入，这使得许多团队望而却步。幸运的是，AI代码生成器技术的崛起为我们提供了解决方案，让DSL的开发和应
500人规模的企业CRM系统选型推荐
在当今竞争激烈的商业环境中，客户关系管理（CRM）对于企业的生存与发展起着至关重要的作用。尤其对于500人规模的中型企业而言，如何高效地管理客户资源、提升销售业绩、优化客户服务已成为企业战略布局中的关键环节。CRM系统作为企业实现这些目标的有力工具，其选型的恰当与否直接影响到企业在市场中的竞争力与运营效率。因此，本文深入分析500人中型企业对CRM的需求，并准确推荐合适的CRM系统，为企业主选型提
如何用Python实现流式下载，节省内存还带进度条！ python
引言本篇文章来分享一下如何使用Requests下载文件并且显示进度条。下载文件说到下载文件，大家可能一下子就能写出以下的代码：importrequeststotal=10485url=f'https://speed.cloudflare.com/__down?during=download&bytes={total}'#上面的URL是cloudflare的测试链接，可以传入想要下载的长度res=r
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
常见的图形库概览-01-Chart.js 入门例子后端java
入门例子Chart.js入门示例//在这里编写Chart.js代码//获取canvas元素的上下文constctx=document.getElementById('myChart').getContext('2d');//创建图表constmyChart=newChart(ctx,{type:'bar',//图表类型：柱状图data:{labels:['January','February','
BUUCTF--[HarekazeCTF2019]Avatar Uploader 1 Uzero.
name随便输一个，进入之后看到是让上传头像，这个应该是一个文件上传漏洞接下来分析所给的源码256000){error('Uploadedfileistoolarge.');}//checkfiletype$finfo=finfo_open(FILEINFO_MIME_TYPE);$type=finfo_file($finfo,$_FILES['file']['tmp_name']);finfo_
MySQL学习笔记（8）--连接查询绿皮豚二号 MySQL mysql 数据库
·概念将多张表连在一起查询（会导致记录数行和字段数列发生改变）意义：在关系型数据库设计过程中，实体与实体之间是存在很多联系的。在关系型数据库表的设计过程中，遵循着关系来设计：一对一，一对多，多对多。通常在实际操作中，需要利用这层关系来保证数据的完整性。·交叉连接将两张表的数据与另外一张表彼此交叉（笛卡尔积）表1crossjoin表2--实例select*frommy_studentcrossjoi
【Codex】Evaluating Large Language Models Trained on Code NLP_wendi 深度学习 Transformer deep learning 人工智能
这篇文章来解读最近比较有意思的Transformer预训练模型在自动生成代码方面的应用，PaperLink:EvaluatingLargeLanguageModelsTrainedonCode自动生成Code系列文章解读：【AlphaCode】Competition-LevelCodeGenerationwithAlphaCodeAbstract我们提出了Codex模型，基于GPT的模型架构，在G
3D Gaussian Splatting 部署学术菜鸟小晨最新人工智能技术三维重建
简介：3DGaussianSplatting是一种用一组2d图像创建3d场景的方法，你只需要一个场景的视频或者一组照片就可以获得这个场景的高质量3d表示，使你可以从任何角度渲染它。它们是一类辐射场方法（如NeRF），但同时训练速度更快（同等质量）、渲染速度更快，并达到更好或相似的质量。3DGaussianSplatting可以实现无界且完整的场景1080p分辨率下进行高质量实时（≥100fps）视
数据库存储过程和QT数据库访问并获取返回值的几种方式沐雨潇竹 QT技术数据库 qt oracle
数据库存储过程和QT数据库访问并获取返回值的几种方式前言说明:在Qt中使用QSqlQuery执行存储过程时，如果存储过程有RETURN值，但执行成功后没有返回任何结果，这通常是因为存储过程的RETURN值并不会像SELECT查询那样作为数据集返回。存储过程中的RETURN语句只是返回一个整数值，而不是一个查询结果集，因此不会被QSqlQuery直接捕获到结果集中。在SQLServer或MySQL等
大模型系列-fastgpt,ollama搭建本地知识库 GeekPlusA 人工智能人工智能深度学习 AIGC fastgpt 知识库
大模型系列-fastgpt,ollama搭建本地知识库1.安装fastgpt,oneapi2.安装ollama运行大模型2.1.安装ollama2.2.ollama下载模型3.安装开源的文本向量模型小技巧阿里云部署fastgptoneapi,并且在本机映射autodl的ollama端口docker运行m3e错误解决1.docker-composeup-d后oneapi不能启动2.oneapi配置大
MySQL函数程序研 mysql 数据库
MySQL函数概述MySQL提供了大量的内置函数，这些函数可以分为以下几类：字符串函数：用于操作字符串，如连接、查找、替换等。数值函数：用于进行数学运算，如取整、求绝对值、随机数等。日期和时间函数：用于处理日期和时间，如获取当前日期、时间差、格式化日期等。聚合函数：用于对一组值进行计算并返回单个值，如求和、平均值、最大值等。条件函数：用于根据条件返回不同的值，如IF、CASE等。加密函数：用于加密
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa