沃恩智慧

如何理解深度学习就是一个“积木游戏”，浅谈深度学习的创新点与实验

如果你是刚考研上岸的科研小白，大概率问老师的第一个问题是：研究生期间研究什么？

通常老师会告诉你一个大概的方向，比如说自监督学习现在很火，去关注一下。

如果再进一步问老师，那我具体怎么做呢？老师可能会让你先去充分调研一下，先看论文。或者让某个学长先带带你；而学长很可能也会告诉你多看论文。

这可能是很多同学的现状。

所以又回到最开始，怎么去做文献调研呢？

这里我总结了一些方法。

读论文——入门

中文期刊综述+中文博客+Github资源

如果我们是刚刚入门某个领域，这个时候建议先从中文期刊综述开始，这样阅读起来比较轻松，更能够理解，还可以看一些中文博客，比如知乎，经常刷知乎的同学，可能会发现知乎上有一些号主，会经常分享一些干货，比如对论文的详细解读；还有一些公众号、博客等。当然在我们读论文的时候，我们还可以通过Github获得关于论文开源代码、公式等等的信息。

读论文——深入了解

顶会survey+顶会tutorial+Paper-with-code

如果我们对某一个领域已经有了一定的了解，希望做一些深入的研究，深入去了解一下这个任务到底是什么？这个时候我们可以看一些顶会顶刊的survey、综述，因为通常这些文章都是国外的大牛写的对某个领域总的研究历程的总结回顾，或者对未来的研究方向的展望。我们看完之后，对整个发展脉络会有一个比较清楚的了解。

其次，我们还可以看一些顶会的tutorial，一般每个会议都会“讲习班”，之前线下会议的时候我们需要去现场参与，最近两年因为疫情的原因，很多是通过线上直播的方式去做一些分享，我们还可以在b站上找到相关的回放，通过类似“讲习班”的分享，是非常好的深入了解一个领域的方式，还有一个网站叫Paper-with-code，会有一些公开了代码的paper，我们可以直接找到它的代码进行学习。

读论文——定点突破

Follow领域内做得最好的学者和机构

如果我们对研究领域已经有一些深入的了解，可能就需要定点出突破了，这个时候我们可以直接follow这个领域做的最好的学者或机构，我们可以发现他们的一些idea，或者关注一下他们做了哪些问题，比如现在比较受关注的何恺明大神，他提出了一个什么新东西，这些知乎上都会有解读。最直接的就是我们去关注他的主页，去看一下他最近的工作。

如果你研究自然语处理的话，清华大学的刘智源老师，孙茂松老师，他们团队有一些非常强的研究者，他们组经常会推出一些工作。或者关注一些比较强的机构，对于研究方向的最前沿的信息，能够及时获取，做到知己知彼，百战不殆。

文献调研tips——

①找导师或学长推荐5-10篇必读的经典论文：新手入门，通常是从几篇必读论文起步的。清华大学NLP组维护了一个自然语言处理的阅读列表（https://mp.weixin.qq.com/s/UmkISRyTrAhUW1eG4VFrRA），其中有必读论文。建议先读一下。

②ACL Anthology：网址：https://aclanthology.info/ ACL Anthology是自然语言处理的论文库，涵盖了绝大部分的自然语言处理国际期刊、会议和Workshop的论文。大家可以重点阅读其中的Computational Linguistics、ACL、EMNLP、NAACL等期刊和会议的论文。

③NIPS Proceedings：网址：https://papers.nips.cc/ NIPS Proceedings 包含了机器学习顶级会议NIPS历年的论文集。

④PMLR：网址：http://proceedings.mlr.press/index.html PMLR包含了非常多的机器学习方面的期刊、会议和Workshop的论文。大家可以重点阅读其中机器学习顶级会议ICML的论文集。

⑤OpenReview：网址：https://openreview.net/ OpenReview是一个非常有开创性的网站，可以看到公开的论文评审意见以及作者的回复意见。覆盖了机器学习非常多的会议，其中最重要的是ICLR的历年论文集。OpenReview也把NIPS和ICML纳入进来，但是只包含了近年来的几届会议。

⑥arXiv：网址：https://arxiv.org/ arXiv是由康奈尔大学维护的一个论文预印版的网站。所谓预印版，就是指尚未正式发表。由于每天都有来自全世界的学者发布他们的论文预印版，所以arXiv是获取学术界最新动态最重要的渠道。但是这里的论文由于没有经过严格的同行评议，鱼龙混杂，质量参差不齐，阅读时需要有所甄别。通常阅读cs.CL和cs.LG两个频道。

⑦微信公众号：机器之心、新智元, PaperWeekly，专知、AI Time等媒体经常会发布很多介绍最新科研进展的文章，都是用中文撰写，也是获得论文的重要渠道。

⑧学者个人主页：可以定期访问本领域著名学者的个人主页或者Google Scholar页面。

⑨搜索引擎：在搜索引擎输入研究方向的名称，并可以获得大量该方向的论文。推荐使用Google和Google Scholar，可以通过引用数来判定论文的质量。

第二个问题——调研完成之后，怎么去读论文？

·Definition部分——明确问题的描述，这到底是什么任务

我们在总结一篇论文的时候，要定位到核心，解决情感分析任务、解决分割任务这些都太笼统了，我们要明确它具体解决了一个什么小问题，把它具体化。

·Movtivation部分——了解动机是什么？为什么要做这种工作，本任务中别人解决不了或者解决不到位的是什么？

这里要呈现的是这篇工作的贡献，作者用了什么技术，为什么要用这个技术，为什么要解决这个工作等等。

我们自己在写论文的时候，可以说明一下A做了什么，B做了什么，但是有一些局限性，然后我是怎么做的。一定要总结出别人解决不了或解决不到位的是什么来突出你的贡献。

·Related Work部分——掌握本领域中目前最常用的方法，直接相关的方法，别人怎么做的，前人工作的优缺点。

·Challange部分——知悉本领域有什么挑战，必须做有意义的工作。

·Proposed Method部分——了解别人提出了哪些方法，提出的方法详细描述出来，尽量用数学公式。

要看懂数学公式中每个字母是什么意思，这样才能有利于理解作者提出的方法。

·Discussion and Analysis部分——掌握本篇论文研究发现的总结，与其它研究的对比，哪些是已经知道的，哪些是新知道；与其它研究对照有何不同，研究的优势和不足之处。研究的结论有什么提示。

我认为论文中很难的部分之一就是Discussion and Analysis部分；很多人写这个部分的时候，只是简单的描述结果，但是实验的讨论分析写的非常不到位。我们可以多关注别人是怎么写的，顶会的论文是从哪几个角度去讨论这些问题的，我们通过别人论文的讨论部分，也有利于我们自己去提出一个新的问题。

·Idea/创新点——我读了这些论文，调研了本领域后自己的感想，我应该做一下哪方面的工作比较好，也就别人尚未得到解决或者解决的不太理想的是什么工作等等。

·Risk——如果我做这个工作，估计会遇到的问题是哪些？比如：我的想法不太能work /我的方法实验周期长，或者我做不出来等/存在的冒险……

创新点——这里提供一些创新的思路

·数据集创新

这篇文章EMNLP2021的最佳论文，这篇文章就是提出来一个数据集的问题，他发现现在数据集的一个痛点是好多图像类的任务，如果没有做一些语言类的预训练工作的话，会对结果产生很大影响；现有数据集也存在偏见，因为很多数据集都是欧美人整理的，

这篇best paper就提出了一个视觉和语言的数据集，而且是通过不同的语言去标注，做了一个基于视觉语言多元图文推理的数据集。

（这是一个NLP的会议，但是他提出了一个多模态的问题，所以在知乎上就出现了这个搞笑的评价……）

回到正题，我们能不能类似的去发现一下数据集中的问题，去做些改进？

咱们不再看一个例子。

这是清华大学提出的一个多轮对话的数据集，它发现多轮对话之中一些回答其实不是很准确，由于缺少知识标注，其实涵盖在多轮对话中的知识交互会有一些限制，他们就通过对每个话语多加一个标注（其实就是一个知识图谱），去提高他们回答的能力，这也是一种解决数据集创新的方式。

比如我们可以运用不同的数据增强去在我们的任务上做测试，看一下哪一种数据增强方式更有利于我们的工作，去报告一下这些实验结果。

·模型创新

我们不会提出新的模型那么怎么办呢？我们就可以用组装积木的方式来组装别人的模型。

比如这篇文章，做了一个说话人识别的问题，创新点之一，首先是多层特征的聚合相加，在这方面就是一个很好的创新，这个这方面他其实没有提出一个新的模型，所以在你的任务上能不能这样用一些多层的聚合或者相加这方面的工作呢？

第二个创新点是1-Dimensional Squeeze-Excitation Res2Blocks模块，但是这里面的东西其实也都不是他提出的，他只是做了一个组合。第三个创新是Context-dependent statistics pooling。它其实就是对于模型做了一个串联的工作。

·Pooling创新

·损失函数创新

比如Triple Loss、AM-Softmax、AAM-Softmax

第三个问题——怎么去编程实现？

·渐进式编程：

不要尝试一步到位就实现完整的idea，而是要采用渐进式的策略。首先实现一个功能完整但是各个模块都简化的版本，经测试无误后再增加新的功能），这样“添砖加瓦”直至所有的功能都实现。

例如，假设你想建立一个文本分类器，想到的idea是使用多头自注意力机制。不要马上就去实现多头自注意力机制，而是先实现一个简单的双向LSTM，然后开始做实验。当双向LSTM的实验结果符合预期（与其他论文报的实验结果相当）后，再将双向LSTM替换为多头自注意力机制。这时候，我们预计多头注意力机制肯定能超过双向LSTM。由于双向LSTM的结果是正常的，只是将双向LSTM替换成注意力机制一般有很大的几率成功。如果实验结果不好，可以集中考察将双向LSTM替换成注意力机制替换这一步哪里出了问题。

在写简单版的程序时，也要采用渐进式，也就是说写一部分就调试一部分，而不是都先写完了再调试。以我的经验，渐进式编程可以大幅度减少bug出现的几率，这是因为每次只需要在增量部分查找bug即可。另一个好处是简单的版本本身也可以作为实验中的基准系统。

·快速建立编程与实验的闭环：

一定要在一开始建立起编程与实验的闭环，即编程、做实验、根据实验结果再编程。建立了这样一个闭环之后，就能够从实验中获得反馈信号，根据反馈信号来判断程序是否存在bug。

这里的要点是“快”，要从写第一版程序时就要建立闭环，而不是等到完整的idea都实现后再建立。这个闭环和渐进式编程是相互配合的。

·缩短实验周期：

深度学习从本质上说是一种“trial-and-error”的范式，必须通过不断的实验尝试来确定最优策略。因此，缩短实验周期至关重要，做一个实验要5分钟和要5天之前有着天壤之别。虽然NLP天然就是一个“重量级”的任务，需要很长的实验周期，但是还是可以采用一定的策略来缩短实验周期。我通常区分三个级别的实验数据：玩具例子（不超过1000个训练样本）、小规模数据（十万规模）和大规模数据（百万规模），三个级别的模型：玩具模型（维度不超过10）、小模型（维度是正常模型的1/3）和大模型（正常模型），和两个级别的实验平台：笔记本电脑和GPU服务器。

在起步阶段，重要的是代码的编写和调试。我通常会在在玩具例子上运行玩具模型，仅仅使用笔记本电脑，努力将实验周期控制在30分钟以内。用笔记本电脑编程的好处在于可以随时随地使用，也不用与人抢GPU。当我确认在笔记本上的版本应该正确无误后，我才会在GPU服务器上运行小规模实验，努力将实验周期控制在1天之内。当全部的代码都完成并且在小规模数据上取得了非常好的效果后，我才会在GPU服务器上使用大规模数据训练标准模型，这样的实验可能要跑好几天，但是并不会跑很多次。

在写代码时，调试能力极其关键。我通常采用以下策略：

一、知道什么是正确的：要想发现程序是否出错、哪里出错，首先要知道什么是正确的。通常会采用大家公认的观点，比如Transformer在WMT数据上的BLEU值应该大致在某个范围。如果你跑出来的结果远远低于这个范围，那说明一定有问题。因此，一定要跑一下内部评测。或者说双向LSTM一定优于单向LSTM，如果你跑出来的结果是相反的，说明有问题。如果心里知道程序的正确结果应该是怎样的，那么当实验效果不好时，就不会去怀疑idea的正确性，而是花时间去检查bug。

二、加强可视化：调试非常类似于探案，必须通过蛛丝马迹去发现隐藏极深的bug。因此，必须要加强可视化来提供“蛛丝马迹”。我在写程序的时候，几乎每一段程序都会增加显示中间结果的功能。通常会定一个变量名叫verbose Level，确定中间结果信息显示的详细程度。当输出结果不正常时，我会打开最高级别的verbose Level，把整个运行过程写到一个纯文本文件中，然后打开文件逐行阅读、观察和分析，试图找到反常之处。此外，也需要和基准系统多做对比。以机器翻译为例，可以把开发集上所有的翻译结果写入一个纯文本文件，每句话依次给出源语言句子、参考译文、基准系统译文和我们方法的译文。通过对比，发现我们方法的问题。

三、分区定位：调试程序的一个重要方法是分区定位。自然语言处理任务通常是一个流水线，以文本生成任务为例，包括：数据获取、编码转换、全半角转换、大小写转换、长度过滤、分词、BPE、训练、测试、后处理等。任何一个环节出错，都会导致实验结果不好。需要从头到尾一段一段排查问题。在写程序时，也可以按照模块逐个排查。对于复杂的网络架构，可以屏蔽其中的部分模块进行排查。

第四个问题，如何做实验？

·深度学习作为一个应用学科，通过实验来验证所提出方法的正确性至关重要。通常，深度学习的时间周期非常长，而准备论文的时间通常都很短，因此务必要从一开始就做好顶层设计，确保后面少走或者不走弯路。

·首先要明确做实验的目的。

很多同学一开始不知道为什么要做实验？做什么实验？只是阅读相关的文献，把里面列出的实验都列进来，全部都做。这种做法是错误的，而且会浪费大量的计算资源和个人的时间。以我的经验，做实验与写论文是密不可分的，做实验的主要目的是论证你在论文提出的论点。 p

·是否选择了学术界公认的标准数据集？所谓标注数据集，是指所有人都可以获取、使用的人非常多的数据集，这样便于别人验证你的方法，也便于与前人在该数据集上报的实验结果进行对比。在情感分析领域，目前公信度高的数据集有Sentiment140，IMDB数据集等。

·是否选择了合适的且足够强的基准系统？ 你所提方法的有效性必须通过与目前世界上在该问题上最好的方法（也就是基准系统）的对比来凸显出来。选哪些基准系统？千万不要只选择模型本身。举个例子，假设要基于Transformer实现一个情感分析方法，那么只超过Transformer是不够的，必要要超过已知的所有的情感分析方法，尤其是大家公认的最好的方法。

如何实现基准系统？有三个策略。

第一个策略是直接报最好的方法原始论文在标准数据集上的结果，这样就不要做实验。第二个策略是使用原始论文作者发布的开源工具包，在你使用的数据集上做实验，要列清楚具体的配置。第三个策略是你重新实现最好的方法，但是要证明重新实现的版本能够达到原始论文的水平。基准系统的选择至关重要，很多论文被拒都是因为基准系统选择不当。

·是否显著超过了所有的基准系统？最好的结果应该是在所有的评价指标（准确率、时间复杂度、空间复杂度、参数规模等）上都显著超过了所有的方法。如果判定是否显著，要使用开源工具包来做统计显著性检验。所提出的方法相对于基准系统提升得越多，越容易得到大家的认可，越容易引起轰动效果。如果所提出的方法在标准数据集上取得了公开发表的最高性能，也可以在论文里强调一下，这些都是加分项。

·是否能够重现论文中的实验结果？近年来，为了打击学术不端行为，论文实验结果的可重复性已经越来越受到学术界的重视。每位同学在写论文时都应该尽可能把所有的参数设置列全，便于读者重新实现，这已经成为论文评审中的必备环节了。此外，有些组要求所有论文的源代码都要在论文发表后开源，确保论文实验结果可重复。

·是否对论文中提出所有论点都进行了实验验证？ 不要轻易发表观点。一旦发表观点，就要负责，或者引经据典来论证，或者通过实验来验证。轻率地在论文的介绍和方法部分发表观点却不在实验部分呼应，是一个非常糟糕的做法，严重损伤审稿人对论文的认可度。

·在设计实验时，一定以读者尤其是审稿人为中心，想一下审稿人在看了方法部分的介绍后，心里会产生哪些问题，我们的实验能不能很好地回答这些问题。需要牢记，不要机械地照搬其他论文的实验，该做哪些实验完全是围绕着论证论文的论点而展开。

通常，我们会设计以下类型的实验：

·与基准系统的对比实验：与基准系统进行主要评价指标上的直接对比。一般会用多个数据集、多个语言对。这通常是论文的主实验，也就是决定主要结论的实验。

·超参数对系统性能的影响：我们的方法通常会用到各种类型的超参数，需要考察超参数不同取值对于系统性能的影响。辅助实验。

·各种因素对系统性能的影响：通常需要考察语料库规模、句子长度等因素对系统性能的影响,辅助实验。

·可视化分析：对神经网络的某些部分进行可视化分析，试图找到语言学上的证据。这对于提升审稿人（尤其是偏语言学背景）对论文的认可度非常重要。辅助实验。

·样例分析：在具体样例上与基准系统进行对比。辅助实验。

在做实验时，一般建议用以下顺序：

·做基准系统的实验。先把最基础的基准系统的实验在一个数据集上跑完，得到它的实验结果。

·做我们方法的实验。在一个数据集上做我们方法的实验，调各种超参数，直至显著超过基准系统为止。

·增加更多的基准系统的实验。把所有的基准系统都跑一遍实验。如果其中有系统超过了我们的方法，则需要回到第二步继续完善。

·扩展到全部的数据集和语言对。确保我们的方法在所有数据集和语言对上显著超过所有基准系统。完成其他辅助实验。完成各种因素的影响、可视化分析和样例分析实验。

做实验一定要成良好的习惯，做好实验数据和实验文档的整理工作。我的个人经验如下：

实验数据主要放在服务器上,应该建立目录分类存放。通常分为代码区、数据区、实验区三个部分。代码区主要存放源代码。数据区主要存放训练集、验证集和测试集。实验区主要存在实验运行的结果问题。每次实验都应该专门建目录，重要的文件（如超参配置文件、模型文件等）要保存，以便恢复。对于不常用的数据，应该进行压缩存储，以便节省硬盘空间。文本文件的压缩比非常高，能够节省大量的存储空间。
Linux的命令非常复杂，很多刚入门的同学容易出错。建议写一个文档记录下每一步的命令，之后就容易重复了。熟练了以后，建议全部用Python程序作为脚本来串联，用bash来执行，这样可以最大程度上减少错误输入造成的影响。三、不要只是简单地用Excel记录实验的最终结果。应该写专门的实验报告进行详细的记录、观察和分析，很多错误和灵感都是在实验分析中发现的。不要因为实验结果不好而气馁，要坚定信心，并且静下心来仔细分析。
与他人交流时，不要直接拿出原始实验数据来讨论，因为很多命名是不规范的，只有你自己能看懂。在学术讨论时，应该对实验设置、实验结果进行梳理，让不熟悉你工作的人更容易知道你的实验过程和结论。

基本原则——

遵从以下机器学习基本原则

p·汇报Training/Dev/Test数据集如何划分的

·在训练数据集上进行训练

p·在验证集上验证

·汇报测试数据集的结果

·不要在验证集上过度拟合模型并报告它们！

数据原则——

·数据收集过程的完整描述，包括样本量；

·预处理步骤的说明；

·解释如何为训练/验证/测试分配样本；

·如果您使用外部预训练数据（在 NLP 中正常）

·讨论数据将如何影响结果

实验设置原则 - 实施细节

·超参数

·超参数范围

·选择最佳超参数配置的方法

·评估运行的确切次数

·实验如何进行的描述（随机种子可能会产生巨大的影响）

·明确定义用于报告结果的评价指标或统计数据

·明确定义的error bars

·具有集中趋势（平均值）和变化（标准差）的结果描述

·每个结果的平均运行时间，或估计的能源成本

·计算基础设施的描述

工具安利——实验管理

你可能感兴趣的:(深度学习,自然语言处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。