Evan-yzh

中文预训练模型研究进展

点击上方“AI遇见机器学习”，选择“星标”公众号

重磅干货，第一时间送达

来自：专知

近年来,预训练模型在自然语言处理领域蓬勃发展,旨在对自然语言隐含的知识进行建模和表示,但主流预训练模型大多针对英文领域。中文领域起步相对较晚,鉴于其在自然语言处理过程中的重要性,学术界和工业界都开展了广泛的研究,提出了众多的中文预训练模型。文中对中文预训练模型的相关研究成果进行了较为全面的回顾,首先介绍预训练模型的基本概况及其发展历史,对中文预训练模型主要使用的两种经典模型Transformer和BERT进行了梳理,然后根据不同模型所属类别提出了中文预训练模型的分类方法,并总结了中文领域的不同评测基准,最后对中文预训练模型未来的发展趋势进行了展望。旨在帮助科研工作者更全面地了解中文预训练模型的发展历程,继而为新模型的提出提供思路。

１引言

自然语言处理(NaturalLanguageProcessing,NLP)是计算机利用人类定义的算法对自然语言形式的输入进行加工处理的过程,旨在让计算机可以像人类一样理解和生成语言,具备如人类一样的听、说、读、写、问、答、对话、聊天等的能力,并利用已有知识和常识进行推理分析.自然语言处理技术的发展经历了从基于规则到基于统计的过程.随着深度学习的发展,图像、文本、声音、视频等不同形式的信息载体被自然语言处理技术突破,大量的神经网络被引入自然语言理解任务中, 如循环神经网络[１](RecurrentNeuralNetworks,RNN)、卷积神经网络[２](ConvolutionalNeuralNetworks,CNN)、注意力机制[３](AttentionMechanism)等.在特定的自然语言处理任务中,神经网络可以隐性地学习到序列的语义表示与内在特征,因此,神经网络成为了解决复杂自然语言处理任务最有效的方法.随着计算力的不断增强,深度学习在自然语言处理领域中不断发展,分布式表示占据了主导地位,不仅在指定任务中可以端到端地学习语义表示,而且可以在大规模无标注的文本上进行自主学习,能更灵活地运用在各种下游任务中. 然而,早期在有监督数据上训练浅层模型往往存在过拟合和标注数据不足等问题,在训练深层模型参数时,为了防止过拟合,通常需要大量的标注数据,但有监督的标注数据成本较高,因此模型主要利用网络中现存的大量无监督数据进行训练.在此背景下,预训练技术被广泛地应用在自然语言处理领域.其中,最经典的预训练模型是 BERT [４]模型,在多个自然语言处理任务中取得了最好结果(StateoftheArt,SOＧ TA).此后出现了一系列基于 BERT 的预训练模型,掀起了深度学习与预训练技术的发展浪潮。

随着国内外研究者在预训练模型方面的深入研究,目前已有很多关于预训练模型的综述,但缺少专门针对中文领域的相关综述.当前,中文预训练模型蓬勃发展并取得一定的成绩,因此,对现有研究成果进行全面的分析和总结非常必要.本文期望能为中文预训练相关领域的学者提供参考,帮助科研工作者了解目前的研究现状和未来的发展趋势.本文第２节概述预训练模型的基本情况;第３节主要介绍两种基本模型,即 Transformer和 BERT;第４节根据不同模型的所属类别提出典型的中文预训练模型的分类方法,并汇总了中文预训练模型的相关资源;第５节梳理了中文领域的不同评测基准;最后总结全文并展望未来.

２预训练模型

2.1 预训练模型发展史

从预训练语言模型的发展时间来看,可以将其分为静态预训练模型和动态预训练模型.２０１３年,Mikolov等[５]在神经网络语言模型(NeuralNetworkLanguageModel,NNLM) 思想的基础上提出 Word２Vec,并引入大规模预训练的思路, 旨在训练具有特征表示的词向量,其中包括 CBOW 和 SkipＧ Gram 两种训练方式.相比 NNLM 模型,Word２Vec可以更全面地捕捉上下文信息,弥补 NNLM 模型只能看到上文信息的不足,提高模型的预测准确性,Word２Vec极大地促进了深度学习在 NLP中的发展.自 Word２Vec模型被提出以来,一批训练词向量的模型相继涌现,例如,Glove [６]和 FastText [７] 等模型均考虑如何得到文本单词较好的词向量表示,虽然对下游任务性能有所提升,但其本质上仍是一种静态的预训练模型.

２０１８年,Peters等[８]提出的 ELMo模型将语言模型带入动态的预训练时代.ELMo模型采用双层双向的 LSTM [９]编码器进行预训练,提取上下文信息,并将各层词嵌入输入特定下游任务中进行微调.该模型不仅可以学习到底层单词的基础特征,而且可以学到高层的句法和语义信息.然而,ELMo 模型只能进行串行计算,无法并行计算,模型训练的效率较低;此外,该模型无法对长序列文本进行建模,常出现梯度消失等问题.而后,OpenAI提出了 GPT(GenerativePreＧtraiＧ ning)[１０]模型.与 ELMo模型不同,GPT 采用 Transformer 深度神经网络,其处理长文本建模的能力强于 LSTM,仅使用 Transformer解码器进行特征提取,在机器翻译等生成式任务上表现惊人,但这一特点也导致 GPT 只利用到了当前词前面的文本信息,并没有考虑到后文信息,其本质上依旧是一种单向语言模型.为了解决 GPT等模型单向建模的问题,２０１８年, Devlin等[４]提出了 BERT 模型,该模型是第一个基于 Transformer的双向自监督学习的预训练模型,在英文语言理解评测基准[１１]榜单中的多个任务上达到了SOTA 结果,此后出现了一大批基于 BERT的预训练模型,大幅提升了下游自然语言处理任务的性能.中文预训练模型虽然起步较晚, 但发展迅速,已经取得了一定成果,本文第４节将对其进行重点介绍.

2.2 研究中文预训练模型的原因

首先,中文和英文分别是世界上使用人数最多和范围最广的两种语言,然而在自然语言处理领域,英文预训练模型较为普遍,例如,以 BERT 为首及其后出现的大量预训练模型均是在单一语料英文数据集上进行训练,此外模型的设计理念也更适用于英文,比如分词方式及掩码方式等.其次,中文和英文语言本质上存在差异,它们的主要区别是,中文文本通常由多个连续的字符组成,词与词之间没有明显的分隔符. 如果使用英文预训练模型去处理常见的中文任务,效果往往不佳.因此,为了推动中文领域自然语言处理技术和预训练模型在多语言任务方面的发展,构建以中文为核心的预训练模型势在必行.

３ Transformer和 BERT

自２０２１年以来,中文预训练模型进入井喷式的发展阶段,其架构主要基于 Transformer和 BERT 两种基础模型,本节主要介绍这两种模型. 图１为典型的 Transformer架构,该架构由６个结构相同的编码器和解码器堆叠而成.单个编码器由堆叠的自注意力层和前馈神经网络组成,解码器由堆叠的自注意力层、掩码注意力层和前馈神经网络组成.有关 Transformer的详细细节介绍请参考文献[１４].

BERT

BERT [４] (Bidirectional Encoder Representations from Transformers)是由谷歌提出的一种面向自然语言处理任务的无监督预训练语言模型,由 Transformer的双向编码器表示.BERT的架构如图２所示.

图２ BERT示意图[４]

４中文预训练模型分类

在自然语言处理领域,继 Transformer和 BERT 出现之后,涌现出大量的预训练模型,这些模型主要针对英文领域, 中文领域的研究起步较晚.但在近两年,中文预训练模型受到广大学者的关注并取得了一定的研究成果.为了阐明现有的中文预训练模型,本节主要从以下６个方面对现有的预训练模型进行分类,图３展示了典型的中文预训练模型的分类图.

(１) 预训练模型的方法改进,主要包括掩码方式的转变、位置编码的转变、LN 层的位置变化、MoE 层的使用、多粒度训练和其他改进.

(２) 融入外部信息的预训练,主要包括命名实体、知识图谱、语言学知识和特定知识.

(３) 关于多模态融合的预训练模型.

(４) 侧重于高效计算的预训练,主要包括数据处理阶段、预训练阶段以及技术优化.

(５) 指特定领域的预训练,主要包括对话系统和其他领域的预训练模型.

(６) 介绍一些其他变体,主要侧重于典型的英文预训练模型开源的中文版本.

图３中文预训练模型分类图

5. 中文领域的评测基准

5.1 为什么建立中文领域的评测基准

首先,从使用人数上看,中国人口占世界人口的五分之一,人数庞大,因此中文是世界上使用人数最多的语言;其次, 从语言体系上看,中文与英文差异较大;最后,从数据集角度出发,中文领域公开可用的数据集较少,此前提出的中文预训练模型在英文评测基准上评估,无法完全体现出模型性能. 当下预训练模型的发展极其迅速,英文领域的评测基准已步入成熟阶段,而中文领域的缺失必然会导致技术落后,因此中文领域的评测基准必不可少.本节主要介绍４种不同的评测基准.

６研究趋势与展望

中文预训练模型已在多个领域实现商业化落地,并展现出一定的市场潜力,取得了长足发展,但也存在较多挑战,例如预训练模型规模和性能之间的平衡问题;如何构建更加通用型的预训练模型;如何突破现有多模态和轻量化模型的瓶颈;如何构建融入更多中文特色的预训练模型等.本文主要从以下几个方面对未来进行展望.

6.1 规模

随着以 BERT和 GPT等为代表的大规模预训练模型的出现,逐渐掀起了预训练模型朝大规模方向发展的浪潮.大量的研究表明,模型参数量越大,训练数据量越多的预训练模型表现更出色.中文领域存在众多大规模预训练模型,如源１．０参数２４５７亿,训练数据集达５０００GB;ERNIE３．０Titan 参数２６００亿;中文多模态模型 M６参数量已经扩展至十万亿级别.目前预训练模型还未达到模型的性能极限,增大模型参数量和训练数据仍是提高模型性能最有效的手段,探索超大规模预训练模型的道路还将继续,也需要更加注重模型的创新性、训练的低碳化和应用的高效性. 然而,训练超大规模的模型仍存在很大挑战.首先,使用最大 GPU 也不可能在内存中拟合所有参数;其次,算法优化不足会耗费极长的训练时间;最后,搭建超大规模模型会带来巨大的成本,让学术界和小型科技公司望而却步.如何在模型性能和成本之间取得平衡也是当前学者探索的另外一条道路,如探索轻量化的预训练模型.近期腾讯提出的“神农”、澜舟科技提出的“孟子”及IDEA 研究院提出的“二郎神”等轻量化模型,仅以十亿左右的参数量就在部分任务上达到了 SOＧ TA 结果,因此探索轻量化模型势在必行.

6.2 融入外部信息

预训练模型在部分任务上已无限接近人类,甚至超越人类,然而,其对知识的掌握依旧不足,如何让预训练模型真正理解并运用知识是一个值得长期研究的课题,尤其是中华民族上下五千年形成的文化知识颇多,比如“常识性知识”和“特定领域的知识”等.特定领域的知识可以帮助模型挖掘不同领域特有的知识,如果能够将特定领域的行业知识与模型结合起来训练,不仅可以将预训练模型更广泛地应用到不同的下游任务,在各行各业中实现良好的产业落地,而且可以与脑科学、心理学、神经学等其他学科融合,更好地发展人工智能, 服务人类生活. 除了融入知识信息之外,还可以从中文字形和字音等方面考虑.因为中文语言的特殊性,其字符的符号也包含一些额外信息,这些额外信息能增强中文自然语言的表现力,如 ChineseBERT [４６]模型中提出将中文字形和拼音信息融入预训练模型中,以此增强模型对中文语料的建模能力,但这一方向的研究还相对较少,仍有待完善.

6.3 多模态领域

现实世界离不开语言,语言离不开语音和视觉信息,类似于人的感觉器官:眼、耳、嘴,任何一样的缺失都会影响生活. 当前,互联网音视频资源占比较大,纯文本信息只能覆盖互联网资源的一小部分,更加丰富的音视频信息并没有被充分利用,因此预训练模型必然朝着多模态的趋势发展.目前,多模态预训练模型的研究大多只考虑了两种模态,图像文本或者视频文本,而音频信息大多被忽视.中文预训练模型起步虽晚,但成绩斐然.中科院自动化所提出了全球首个图文音(视觉Ｇ文本Ｇ语音)三模态的预训练模型 OPT [５１],该模型同时具备跨模态理解与生成的能力.通过上述分析可知,多模态的研究拥有很大的发展空间.

本文主要围绕中文预训练模型的研究现状进行概述.从模型规模上看,中文预训练模型的发展正处于两条道路上.一是朝着超大规模预训练模型的方向发展;二是寻求轻量化模型的发展.从外部信息来看,大多数的预训练模型都融入了各种知识,预训练与先验知识的深度融合刻不容缓.从高效训练上看,现有模型都在不断地探索更加高效的训练方式.从多模态的角度上看,中文多模态预训练模型的发展正处于上升阶段,正朝着更多模态、更加通用的方向发展.从特定领域的模型来看,预训练模型可应用于多种领域, 具有较大的发展潜力.综上所述,中文预训练模型虽然取得了不可忽视的成绩,但还有更大的发展空间,未来将朝着更大规模、更加高效、适用更多领域的方向发展.

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

中文预训练模型研究进展

你可能感兴趣的:(神经网络,大数据,自然语言处理,编程语言,机器学习)