RPAPlus

实在智能参与中文自然语言理解评价标准体系(CLUE)阶段性进展回顾

「实在智能」简介

「实在智能」（杭州实在智能科技有限公司）是一家人工智能科技公司，聚焦大规模复杂问题的智能决策领域，通过AI+RPA技术打造广泛应用于各行业的智能软件机器人，即“数字员工”。助力客户提质、降本、增效，从“劳动密集型”向“AI密集型”转型，推动生产模式与业务流程实现颠覆式创新升级。

2018 年，来自纽约大学、华盛顿大学、DeepMind 等机构的研究者创建了一个多任务自然语言理解基准和分析平台——GLUE（General Language Understanding Evaluation）。GLUE 包含九个英文数据集，目前已经成为衡量模型在语言理解方面最为重要的评价体系之一。对中文 NLP 而言，之前缺少与之相对应的成熟评价体系和交流平台。

在此背景下，「实在智能」算法团队联合中文 NLP 行业专家及热心人士共同发起了“Chinese GLUE”，即中文自然语言理解评价标准体系—— CLUE benchmark（Chinese Language Understanding Evaluation Benchmark）简称为 CLUE项目。

一方面，该项目精心梳理整合中文NLP领域相关资源，助力研究人员提升工作效率和产出。另一方面，该项目希望通过建立leaderboard 榜单机制，为从业人员及爱好者提供一个高质量的衡量模型效果平台，促进行业中文语言理解能力的快速提升。

整体贡献

1.提出为中文NLP模型定制的中文语言理解测评基准，包括8大数据集、多个排行榜，促进中文数据集的标准化，便利中文模型测评和研究。

2. 开源多个数据集，包括细粒度命名实体识别（CLUENER2020）、指代消解数据集（CLUEWSC2020），论文关键词识别（CSL)，丰富中文数据集。

3.提供超过100G的中文预训练语料库，发放给100+国内外科研单位，为中文NLP中的关键技术（预训练模型）发展提供充足动能。

4. 提供一系列中文预训练模型，促进预训练模型的研究。包括为国内外最受欢迎的通用NLP预训练模型transformers项目提供了11个中文模型。

5. 与中国计算机学会的中文信息技术专委合办NLPCC高性能小模型测评，推动模型小型化的研究和落地。

现状问题描述
内容体系
排行榜
发布的Arxiv论文和项目介绍
NLPCC高性能小模型测评
团队介绍
数据集介绍及有奖征集

一、现状问题描述

相对英文，中文NLP 的资源比较匮乏并缺少有价值的整合。相信很多从业人员及爱好者在推进相关工作的时候，都曾或多或少遇到过下面问题：1）找不到官方数据集下载链接，而论文中的资源链接已过期；2）数据集有很多版本，从业者反馈结果五花八门，采信存疑；3）原始数据集需要繁琐的预处理工作；4）实验结果复线困难，预处理和模型的细节可能对最终的结果带来非常显著的影响。类似以上问题会花掉很多宝贵科研时间，严重影响工作效率，对初学者而言更是如此，提高研究门槛。

为解决上述问题，「实在智能」算法团队组织中文NLP行业专家及热心人士共同发起了 CLUE benchmark （简称为 CLUE）项目。

CLUE旨在综合形式不同、难度各异的中文自然语言理解数据集，制作一个统一的测试平台，以准确评价模型的自然语言理解能力。目前已收集了至少9大数据集，并制作了排行榜。包括华为、阿里、腾讯等知名公司，以及中科院相关院所等高校参与了测评。我们的GitHub repository已获得超过1000颗星。下面是我们的网站：

官网地址：www.CLUEbenchmark.com

Github 地址：https://github.com/CLUEbenchmark/CLUE

论文地址：https://arxiv.org/abs/2004.05986

二、内容体系

下面是CLUE 为大家整理的包含数据集、标准模型、语料库以及Python工具包：

1)收集处理了一系列性质各异的中文数据集（不同领域、不同规模、不同难度）；

2)构建了在线提交评测平台即排行榜。这个平台能帮助我们横向比较不同的中文NLP 模型，为大家选择模型提供依据；

3)一些列基准模型，帮助大家轻易地复现经典模型在一系列数据集上的结果;

4)超过100G的中文预训练语料库，可用于中文预训练模型、语言模型、文本生成、语音识别等任务的训练；

5)Python工具包(PyCLUE)，可以快速测评代表性数据集、基准（预训练）模型，并针对自己的数据选择合适的基准（预训练）模型进行快速应用。

三、排行榜介绍

基于一系列的中文数据集，目前已经构建了包含5个不同方向的排行榜，覆盖了分类、小模型、阅读理解、命名实体识别等不同子领域。吸引了包括华为诺亚方舟实验室& 华为云、阿里巴巴PAI、腾讯Oteam等行业内领先的团队参与测评。

NLPCC高性能小模型测评：

NLPCC是中国计算机学会（CCF）的中文信息技术专委的年度学术会议，是专注于自然语言处理（NLP）和中文计算（CC）领域的国际前沿会议。

针对目前面向中文的轻量级模型资源缺乏问题，CLUE在NLPCC2020会议上举办了面向中文的小模型大赛（shared task 1）。本次竞赛吸引了包括华为、小米、腾讯等公司的关注，目前排行榜的前两名分别是华为诺亚方舟和小米LAB，获奖者将获得NLPCC和CCF中国信息技术技术委员会认证的证书。

同时，通过相关经验的直播分享，将促进模型小型化的应用和落地。华为、微软、小米的研究员或算法工程师针对预训练模型、模型小型化和高性能小模型测评的比赛分享了自己的心得和体会。

四、Arxiv论文介绍

《CLUE:A Chinese Language Understanding Evaluation Benchmark》

这是CLUE的主论文，系统地介绍了CLUE benchmark中文语言理解基准测评，包括对8大任务的构造和介绍、一系列的基线模型上的测评、人类测评和模型测评的分析，以及语言学专家构造的用于评估模型在中文现象上的诊断集上的效果。

《CLUENER2020: Finegrained Named Entity Recognition Dataset and Benchmark for Chinese》

CLUENER2020发布了一个细粒度的命名实体识别的数据集，包含10个标签类别，并提供了三个基准模型和人类测评上的效果。

《CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model》

发布了CLUECorpus2020，一个目前为止专门针对预训练模型用途的高达100G中文语料库，一个专门优化后的中文词汇表。还包括在这基础上的高质量中文预训练模型集合，包括最先进大模型、最快小模型、相似度专门模型。累积发放给超过100家机构和个人使用，包括中科院国家重点实验室、北大教授博导、创新工场研究院、小米人工智能实验室等专业的科研机构和个人。

五、团队介绍

顾问

张俊林，顾问。中国中文信息学会理事，中科院软件所博士，新浪微博机器学习团队AI Lab负责人。《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届优秀图书奖），《大数据日知录：架构与算法》的作者。

徐国强，顾问。MIT博士，平安集团上海Gammalab负责人。

陈哲乾，顾问。浙江大学计算机学院博士，一知智能联合创始人，2017年代表一知智能参加斯坦福大学的举办SQuAD机器阅读理解比赛，获得单模型组世界第二、多模型组世界第三的优异成绩。主导设计一知智能大脑项目。

创始会员

徐亮，会长。CLUE项目发起人及总负责人。「实在智能」NLP算法负责人。昵称brightmart，深耕NLP近10年，在深度学习、意图识别、问答系统有深入研究创新，Github Top 10最受欢迎的文本分类项目作者。多个预训练模型中文版、文本分类和数据集开源项目作者。

Danny Lan，副会长。首席学术指导。SOTA语言理解模型ALBERT第一作者，美国卡耐基梅隆大学博士, 前Google AI科学家、美国智能监控公司首席科学家。研究领域主要集中在自然语言处理，计算机视觉和深度学习的结合与应用。近年来在多个国际会议和期刊发表论文20余篇，在ACM Multimedia, CVPR, ECCV, ICCV 等国际顶会的程序委员会委员以及TPAMI, TIP, TMM, TCSVT, CVIU 等期刊担任审稿人。

张轩玮，CLUE Github项目负责人、北京负责人。硕士毕业于北京大学，目前在爱奇艺从事NLP相关工作，之前从事热点聚合，文本分类，标签生成，机器翻译方面的工作。

李露，CLUE分类任务与测评负责人。华中师范大学在读研究生，曾参与筹备中文自然语言推理的数据集。暑期在平安科技实习，主要负责利用自然语言处理模型进行序列标注和情感分类任务。

董倩倩，文本生成与NER负责人。中科院自动化所博士在读，2017年度AI Challenger 英中机器同声传译赛道冠军团队成员。主要研究语音翻译，曾参与多个中文NLP项目。

曹辰捷，阅读理解小组负责人。平安金融壹账通算法工程师，负责阅读理解和预训练相关业务，CMRC 2019阅读理解冠军团队成员。

喻聪，CLUE 测评系统负责人。杭州实在智能算法工程师。主要研究多轮对话、意图识别、实体抽取、知识问答相关任务。

刘伟棠，CLUE主项目完善& Pytorch负责人。浙江大华从事算法相关工作，主要负责警务、司法等文本建模、知识图谱构建工作。

胡海，CLUE 新数据集负责人。美国印第安纳大学语言学系、计算语言学方向博士生。主要研究方向是自然语言推理、自然语言理解数据集收集和标注，以及句法树库标注。

六、相关报道

1.机器之心，ChineseGLUE：为中文NLP模型定制的自然语言理解基准；

2.新智元，超100亿中文数据，要造出中国自己的BERT！首个专为中文NLP打造的语言理解基准CLUE升级；

3.Paper weekly，ChineseGLUE（CLUE）：针对中文自然语言理解任务的基准平台；

4.AINLP，CLUECorpus2020：可能是史上最大的开源中文语料库以及高质量中文预训练模型集合；

5.机器之心，10大类\142条数据源，中文NLP数据集线上搜索开放。

附件·数据集介绍

1.AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus

数据量：训练集（34334）验证集（4316）测试集（3861）。例子：{“sentence1”: “双十一花呗提额在哪”, “sentence2”: “里可以提花呗额度”, “label”: “0”}每一条数据有三个属性，从前往后分别是句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

2.TNEWS’ 今日头条中文新闻（短文本）分类Short Text Classificaiton for News

该数据集来自今日头条的新闻版块，共提取了15个类别的新闻，包括旅游，教育，金融，军事等。

数据量：训练集(53,360)，验证集(10,000)，测试集(10,000)。例子：{“label”: “102”, “label_des”: “news_entertainment”, “sentence”: “江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物”}每一条数据有三个属性，从前往后分别是分类ID，分类名称，新闻字符串（仅含标题）。

3.IFLYTEK’ 长文本分类Long Text classification

该数据集共有1.7万多条关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别：”打车”:0,”地图导航”:1,”免费WIFI”:2,”租车”:3,….,”女性”:115,”经营”:116,”收款”:117,”其他”:118(分别用0-118表示)。

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)例子：{“label”: “110”, “label_des”: “社区超市”, “sentence”: “朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug”}

每一条数据有三个属性，从前往后分别是类别ID，类别名称，文本内容。

4.CLUEWSC2020: WSC Winograd模式挑战中文版，新版2020-03-25发布

Winograd Scheme Challenge（WSC）是一类代词消歧的任务。新版与原CLUE项目WSC内容不同，即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现，如：

句子：这时候放在床上枕头旁边的手机响了，我感到奇怪，因为欠费已被停机两个月，现在它突然响了。需要判断“它”指代的是“床”、“枕头”，还是“手机”？

数据来源：数据由CLUE benchmark提供，从中国现当代作家文学作品中抽取，再经语言专家人工挑选、标注。

数据形式：{“target”: {“span2_index”: 37, “span1_index”: 5, “span1_text”: “床”, “span2_text”: “它”},”idx”: 261,”label”: “false”,”text”: “这时候放在床上枕头旁边的手机响了，我感到奇怪，因为欠费已被停机两个月，现在它突然响了。”}”true”表示代词确实是指代span1_text中的名词的，”false”代表不是。数据集大小：训练集：1244；开发集：304

5.CSL 论文关键词识别Keyword Recognition

中文科技文献数据集(CSL)取自中文论文摘要及其关键词，论文选自部分中文社会科学和自然科学核心期刊。使用tf-idf生成伪造关键词与论文真实关键词混合，构造摘要-关键词对，任务目标是根据摘要判断关键词是否全部为真实关键词。

数据量：训练集(20,000)，验证集(3,000)，测试集(3,000)例子：{“id”: 1, “abst”: “为解决传统均匀FFT波束形成算法引起的3维声呐成像分辨率降低的问题,该文提出分区域FFT波束形成算法.远场条件下,以保证成像分辨率为约束条件,以划分数量最少为目标,采用遗传算法作为优化手段将成像区域划分为多个区域.在每个区域内选取一个波束方向,获得每一个接收阵元收到该方向回波时的解调输出,以此为原始数据在该区域内进行传统均匀FFT波束形成.对FFT计算过程进行优化,降低新算法的计算量,使其满足3维成像声呐实时性的要求.仿真与实验结果表明,采用分区域FFT波束形成算法的成像分辨率较传统均匀FFT波束形成算法有显著提高,且满足实时性要求.”, “keyword”: [“水声学”, “FFT”, “波束形成”, “3维成像声呐”], “label”: “1”}

每一条数据有四个属性，从前往后分别是数据ID，论文摘要，关键词，真假标签。

6.CLUENER2020 细粒度命名实体识别

数据分为10个标签类别，分别为: 地址（address），书名（book），公司（company），游戏（game），政府（government），电影（movie），姓名（name），组织机构（organization），职位（position），景点（scene）
以train.json为例，数据分为两列：text & label，其中text列代表文本，label列代表文本中出现的所有包含在10个类别中的实体。例如：

text: “北京勘察设计协会副会长兼秘书长周荫如”label: {“organization”: {“北京勘察设计协会”: [[0, 7]]}, “name”: {“周荫如”: [[15, 17]]}, “position”: {“副会长”: [[8, 10]], “秘书长”: [[12, 14]]}}

其中，organization，name，position代表实体类别，”organization”: {“北京勘察设计协会”: [[0, 7]]}：表示原text中，”北京勘察设计协会” 是类别为”组织机构（organization）” 的实体, 并且start_index为0，end_index为7 （注：下标从0开始计数）

7.CMRC2018 简体中文阅读理解任务Reading Comprehension for Simplified Chinese

https://hfl-rc.github.io/cmrc2018/

数据量：训练集(短文数2,403，问题数10,142)，试验集(短文数256，问题数1,002)，开发集(短文数848，问题数3,219)

8.ChID 成语阅读理解填空Chinese IDiom Dataset for Cloze Test

https://arxiv.org/abs/1906.01265/成语完形填空，文中多处成语被mask，候选项中包含了近义的成语。

数据量：训练集(84,709)，验证集(3,218)，测试集(3,231)

9.C3 中文多选阅读理解Multiple-Choice Chinese

CMachine Reading Comprehensionhttps://arxiv.org/abs/1904.09679中文多选阅读理解数据集，包含对话和长文等混合类型数据集。训练和验证集中的d,m分别代表对话、多种文本类型混合。

数据量：训练集(11,869)，验证集(3,816)，测试集(3,892)。以上三个阅读理解数据集，请到GitHub项目查看详细例子。

七、写在最后：中文数据集有奖公开征集

现在，我们诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者为我们提供更多的中文自然语言理解数据集。这些数据集可以是您自己制作推出的，也可以是您认为很有意义但是是他人制作的数据集。

我们计划在6月14日前完成第二轮筛选，推出正式的CLUE Benchmark。请您将推荐数据集的名称、作者、形式以及License情况发送至：邮箱[email protected]

【奖励】

如果您推荐的数据集被选中，将能提高扩展数据集的知名度，并为学界、业界对自然语言理解的研究做出贡献。CLUE组织会引用和推广该数据集；我们也会结合数据集质量、意义、量级和标注难度、任务类型设置不同等级的奖励，给予1000—5000元现金奖励。

【要求】您推荐的数据集需要满足以下条件：

【任务与自然语言理解相关】我们要求数据集能够测试模型是否理解了中文，模型或者以研究为导向，或者以实际应用为导向，重点是需要包含语言理解成分。同时，确保任务质量。

【任务形式】任务输入是一段文本（可长可短），具体可以是分类、序列标注、指代消歧、多项选择、回归任务等。任务最好能够使用基本的神经网络模型做出基线，方便测评。

【能够测评】提交的任务需要有简单、客观的评测标准。如果是包含文本生成的项目，那么需要证明该项目有易行的可靠评测标准。

【公开的训练数据】任务的训练数据和开发数据需要公开，并且授权CLUE使用。【未公开的测试集】任务最好有尚未公开的测试集。

【任务难度】提交的任务不能过于简单。具体来讲，目前已有模型如BERT，相较训练过的普通标注者，结果还是会逊色很多。

BPMN.js详解 GISer_Jinger Javascript 前端基础项目 javascript 开发语言 ecmascript
bpmn.js是一个基于JavaScript的开源库，它允许开发者在Web应用程序中创建、查看和编辑BPMN2.0流程图。以下是对bpmn.js的详细解析：一、基本概念与功能定义：bpmn.js是bpmn-io团队开发的一个JavaScript库，它专注于BPMN（业务流程模型和标记法）2.0标准的实现。主要功能：渲染BPMN图表：bpmn.js能够将BPMN2.0的XML文件渲染成SVG格式的图
【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理 lys_828 python科研数据处理及绘图 python 爬虫能源行业标准国家标准
基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理1背景2标准检索平台2.1能源标准化信息平台2.2全国标准信息公共服务平台3标准信息数据的爬取与处理3.1能源标准化信息平台的信息爬取3.2全国标准信息公共服务平台的信息爬取3.3标准信息处理1背景在进行项目背景介绍时，有时需要使用到有关标准进行背书，因此查询某一行业领域的标准信息就是第一步操作。接下来就是以海上风电相
Python的未来 future模块 gftygff
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！转载：http://omencathay.itpub.net/post/30163/414347简单介绍一下python未来将会支持的一些语言特点,虽然Ibm的网站上也有介绍.但是太凌乱了.而且中翻译过后,代码的
7、知识库内容更新与自动化 MaxCode-1 自动化运维知识库
1知识库内容更新与自动化企业级知识库的内容随着业务发展不断增长，涉及政策法规、内部文档、技术规范、FAQ、产品手册等多个领域。如果完全依赖人工维护，成本高、效率低，且容易造成信息滞后。因此，企业需要借助自动化工具、智能算法、订阅机制，构建高效、动态的知识更新体系，确保知识的实时性、准确性和可追溯性。本节将介绍自动化知识更新的最佳实践，并探讨数据版本管理与历史溯源，以确保知识库的高效运营。1.1自动
AI学习指南Ollama篇-Ollama简介俞兆鹏 AI学习指南人工智能 ollama
一、定义大语言模型（LLM）是一种基于深度学习的自然语言处理模型，能够生成文本、回答问题、翻译语言、撰写代码等。这些模型通过海量的文本数据进行训练，学习语言的模式和结构，从而能够生成自然流畅的文本内容。随着技术的不断进步，大语言模型在各个领域都展现出了巨大的潜力。二、应用场景大语言模型的应用场景非常广泛，以下是一些常见的例子：聊天机器人：通过自然语言理解与生成，为用户提供智能对话服务。内容创作：帮
云计算如何与物联网（IoT）结合？云上的阿七云计算物联网
今天我们来聊一个既酷炫又实用的话题：云计算如何给物联网插上腾飞的翅膀。智能时代的技术密码想象一下，你家的冰箱会自动帮你订购即将用完的牛奶，工厂的机器能预测何时需要维修，城市的路灯会根据实时交通流量调整亮度。这些看似科幻的场景，正是云计算与物联网完美融合的魔法。架构师视角下的技术融合我深知这不仅仅是简单的技术叠加，而是一场深度革命。云计算为物联网提供了超级加速器：弹性计算：像变形金刚一样随时调整计算
typing库离开那天 windows
typing库是Python标准库的一部分，用于支持静态类型检查。通过使用typing库，你可以为函数、变量和类添加类型注解，从而提高代码的可读性和可维护性，并帮助工具如IDE和类型检查器（例如mypy）进行静态类型检查。以下是typing库的一些常见用法和示例：1.基本类型注解你可以为函数参数和返回值添加类型注解：defgreet(name:str)->str:returnf"Hello,{na
《手写Mybatis渐进式源码实践》实践笔记 (第三章映射器的注册和使用) Suwg209 手写mybatis mybatis 笔记 java 数据库
文章目录第3章映射器的注册和使用背景特点结构代码示例（Java）适用场景优点缺点目标设计实现工程代码类图实现步骤1.映射器注册机2.SqlSession标准定义和实现3.SqlSessionFactory工厂定义和实现测试事先准备测试用例测试结果总结第3章映射器的注册和使用背景工厂模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，但允许子类决定实
Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成汀、人工智能 AI Agent langchain AI Agent LangGraph 多智能体协作 AI智能体 AI大模型 Agent框架
Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成1.异步和流因为任何大模型在推理的时候，都会有一定的时间延迟，这是由大模型的底层架构决定的，所以在很多应用，尤其是对话应用中，使用异步以及流式输出，是大幅提升用户体验的较好方法。在langGraph中可以很方便的实现异步和流，简单例子为例：异步调用方法：inputs={"messages"
ESP32-S3模组上跑通esp32-camera（30）蓝天居士 ESP32-S3 ESP32-S3 camera sensor OV5640
接前一篇文章：ESP32-S3模组上跑通esp32-camera（29）一、OV5640初始化2.相机初始化及图像传感器配置上一回解析完了camera_probe函数的第6段代码，本回继续往下解析该函数后续内容。为了便于理解和回顾，再次贴出camera_probe函数源码，在components/esp32-camera/driver/esp_camera.c中，如下：staticesp_err_
注解Annontation 详解宸之元亨利贞 JavaSE基础 java lombok junit spring integration
什么是注解Annontation？Annontation是Java5开始引入的新特征，中文名称叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且供指定的工具或框架使用。Annontation像一种修饰符一样，应用于包、类型
策略模式-简单工具包冥王 • 雷利技术经验设计模式策略模式策略
策略是大家开发中用的很多模式，特别在解决相同流程多场景的模式下显得尤为的重要，其标准的结构就是一个加载多钟场景的上下文context，一个标准的处理接口handler及若干个根据不同场景的实现。举一个实际中碰到的场景，我要获取用户登录态中的登录信息，因为种种原因，需要根据不同的登录端，从不同环境或是请求域中获取登录态信息，例如APP端，H5，PC，那么根据不同端获取登录态信息就可以通过策略模式实现
Java 入门指南：集合概述 ZachOn1y Java java 开发语言后端 eclipse java-ee
Java集合概述Java集合（Collections）是Java中提供的一种容器，用于存储和管理多个对象。与数组不同，集合的长度是可变的，且只能存储对象（包括对象的引用），不能存储基本数据类型。集合是Java编程中非常重要的一部分，特别是在处理大量数据时，集合提供了丰富的操作方法和灵活的数据结构。Java集合的体系结构Java集合，也叫作容器，主要是由两大接口派生而来：一个是Collection接
Direct Preference Optimization (DPO): 一种无需强化学习的语言模型偏好优化方法 Yuleave 论文学习语言模型人工智能自然语言处理
论文地址：https://arxiv.org/pdf/2305.182901.背景与挑战近年来，大规模无监督语言模型（LM）在知识获取和推理能力方面取得了显著进展，但如何精确控制其行为仍是一个难题。现有的方法通常通过**强化学习从人类反馈（RLHF）**来引导模型行为，但RLHF存在以下问题：复杂性高：RLHF需要先训练一个奖励模型来反映人类偏好，然后使用强化学习来微调语言模型，使其在最大化奖励的
基于ARM的智能灯光控制系统（1）项目介绍国产化创客嵌入式项目 Linux应用 Linux驱动 arm html c语言 linux驱动网络编程
基于ARM的智能灯光控制系统（1）项目介绍项目实践说明：本实践项目是嵌入式开发培训（阶段2）底层系统开发视频课程的综合实践项目。项目开发使用的技术知识点包括：C语言编程，文件编程，串口编程，网络编程，多线程编程，进程间通信，嵌入式交叉开发，嵌入式Web服务器开发，HTML编程，Linux驱动程序开发。嵌入式开发培训（阶段2）底层系统开发视频地址智能灯光控制系统视频地址系统功能智能灯光系统是对灯光进
物联网网关Web服务器--CGI开发接口国产化创客物联网Web服务器嵌入式项目服务器物联网 web网关
1、CGI(公用网关接口)CGI(公用网关接口)规定了Web服务器调用其他可执行程序(CGI程序)的接口协议标准。Web服务器通过调用CGI程序实现和Web浏览器的交互,也就是CGI程序接受Web浏览器发送给Web服务器的信息,进行处理,将响应结果再回送给Web服务器及Web浏览器。CGI程序一般完成Web网页中表单(Form)数据的处理、数据库查询和实现与传统应用系统的集成等工作。CGI程序可以
three.js中文字符随机生成旋转动画一粒马豆 javascript three.js 中文字符动画
Three.js随机中文字符生成旋转动画body{margin:0;}canvas{display:block;}{"imports":{"three":"https://cdn.jsdelivr.net/npm/[email protected]/build/three.module.js","three/addons/":"https://cdn.jsdelivr.net/npm/[email protected]
【Python高阶篇】探索人工智能：使用Python构建一个简单的聊天机器人码农必胜客 python 人工智能机器人
人工智能是计算机科学中一个非常热门的领域，近年来得到了越来越多的关注。它通过模拟人类思考过程和智能行为来实现对复杂任务的自主处理和学习，已经被广泛应用于许多领域，包括语音识别、自然语言处理、机器人技术、图像识别和推荐系统等。本文将介绍如何使用Python构建一个简单的聊天机器人，以展示人工智能的基本原理和应用。我们将使用Python语言和自然语言处理库来构建一个聊天机器人，该机器人可以接收用户的输
Java IO流：NIO 介绍及使用栗筝i 栗筝i 的 Java 技术栈（付费部分）#Java 基础 -专栏栗筝i 的 Java 技术栈 Java 基础 Java IO 流
大家好，我是栗筝i，这篇文章是我的“栗筝i的Java技术栈”专栏的第042篇文章，在“栗筝i的Java技术栈”这个专栏中我会持续为大家更新Java技术相关全套技术栈内容。专栏的主要目标是已经有一定Java开发经验，并希望进一步完善自己对整个Java技术体系来充实自己的技术栈的同学。与此同时，本专栏的所有文章，也都会准备充足的代码示例和完善的知识点梳理，因此也十分适合零基础的小白和要准备工作面试的同
企业数字化运维运营体系规划设计方案PPT 公众号：优享智库数字化转型数据治理主数据数据仓库运维大数据
这份文件是关于企业数字化运维运营体系规划设计的综合解决方案，主要围绕构建高效、安全、稳定和集约的运维运营体系展开。以下是文件的核心要点总结：设计原则与目标：设计原则：包括自主可控、适配自身管理体系、稳快结合。强调不依赖厂商，通过体系变革实现统一运营运维，以及平衡创新与稳定性。目标：围绕“安全、稳定、高效、集约”建设运维运营体系，支撑高效警务运行。运维运营体系架构：强调构建“标准化、自助化、可视化、
python程序发钉钉消息乌11111 python
参考：使用python通过接口方式发送钉钉消息分两步：1.在钉钉群---智能群助手里添加机器人，拿到webhook链接，设置关键词。2.写python代码，用requests请求接口的方式。参考代码和实现结果如下。#python发钉钉消息importjson,requestsdefsendDing(msg):dingding_url='https://oapi.dingtalk.com/robot
.NET 7迁移后OutOfMemoryException的解决之旅 t0_54coder 编程问题解决手册个人开发
引言最近，我们将应用从.NET5升级到了.NET7，并将UI框架从标准MVC升级到了Vue3。升级后，一切看起来都运行良好，但仅仅一周后，我们开始遇到了令人困惑的System.OutOfMemoryException。这些异常出现在代码库的不同、看似无关的部分，而这些部分并不总是处理大量数据。这篇博客将详细记录我们如何解决这些内存异常的问题。问题描述在迁移到.NET7后，我们开始频繁地看到Syst
JHipster入门 - 生成单体架构的应用 yorkwu1977 软件工程架构
JHipster入门-生成单体架构的应用目标准备工作生成基础功能输入指令开始问答环节问答环节结束，开始自动生成基础功能代码生成业务功能输入指令开始问答环节问答环节结束，开始自动生成业务功能代码调试启动启动后端服务启动前端服务访问前端页面打包启动构建启动访问前端页面关于数据库交给JHipster自己启动目标30分钟内生成一个开箱即用的单体架构应用。生成SpringBoot后端代码和Vue前端代码。基
openbmc简介天地元黄 linux
openbmc简介OpenBMCIPMI简介OpenBMC软件架构OpenBMC在说OpenBMC之前，先说一下BMC（BaseboardManagerController，简称BMC），BMC应用了IPMI架构的智能性，是嵌入在计算机（通常是服务器）主板上的专用的微控制器。它是负责管理系统和管理软件与服务器平台硬件之间的一个接口。根据IPMI规范，BMC需要满足如下条件：具有IMPI命令;提供B
从零到一：低代码平台的核心技术解析低代码
在数字化转型的浪潮中，低代码平台正逐渐成为企业加速应用开发、提升效率的重要工具。它打破了传统开发模式的束缚，让更多非专业开发者也能参与到应用构建中来。今天，我们就来深入剖析低代码平台背后的核心技术，看看它是如何实现高效开发的。可视化设计引擎低代码平台的显著特征之一就是可视化设计。可视化设计引擎就像是一个图形化的工作区，开发者通过简单的拖拽、配置操作，就能搭建出应用的界面和流程。它提供了丰富的组件库
如何找回丢失的智能合约（SimpleToken ）地址并清理合约纸鸢666 合约破解案例区块链
简介在以太坊和其他区块链平台上，智能合约的部署和交互非常重要。然而，在实际应用中，开发者有时会遇到一些问题，比如丢失了已经部署的合约地址。在本文中，我们将探讨一个简单的智能合约示例，说明如何找回丢失的合约地址，并清理这些合约以避免资源浪费。1.问题背景假设有一个非常简单的代币工厂合约，任何人都可以通过它轻松创建新的代币合约。这个代币合约会接收以太币并根据以太币数量发行代币。在合约创建后，代币合约部
PD充电中的PD英文全称是什么，翻译成汉语是什么意思呢？神笔馬良电脑
问题描述：PD充电中的PD英文全称是什么，翻译成汉语是什么意思呢？问题解答：PD充电中的“PD”是“PowerDelivery”的缩写，翻译成中文意思是“电力传输”或“电力供应”。USBPowerDelivery是一种快速充电技术，允许通过USB-C接口为设备提供更高的电力输出，并且可以动态调节输出电压和电流。这意味着设备可以在同一接口上使用不同的功率级别，以更快地为不同类型的设备充电，如智能手机
linux 二进制编辑工具,全网最全Linux的十大十进制编辑器，要接触Linux的你摆脱不了... 金雪锋 linux 二进制编辑工具
简单来说，十六进制编辑器允许您检查和编辑二进制文件。标准文本编辑器和十六进制编辑器之间的区别在于，逻辑文件内容由常规编辑器表示，而实际文件内容由十六进制编辑器表示。在本文中，我们将看到Linux的顶级十六进制编辑器。谁在使用十六进制编辑器：为了编辑数据的各个字节，使用了十六进制编辑器，程序员或系统管理员经常使用十六进制编辑器。调试或逆向工程二进制通信协议是一些最常用的情况。当然，您可以将十六进制编
Java SE与Java EE的区别 Tech Synapse java java-ee 前端
一、javase与javaee的区别在于领域不同和作用不同：1.领域不同：javase为平台标准版，可供任何领域使用。javaee为平台企业版，主要供应企业的使用。2.作用不同：javase提供了开发与运行Java软件的编译器等开发工具、软件库及Java虚拟机。它也是Java2平台、企业版本和Java网页服务的基础。编写一次、随处运行”的特性、方便存取数据库的JDBCAPI、CORBA技术以及能够
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南 m0_57781768 langchain python 网络
深入解析LangChain框架：使用Python开发LLM应用的全生命周期指南前言在当前的人工智能浪潮中，大型语言模型（LLM）已成为众多应用的核心。LangChain是一个专为开发大型语言模型应用而设计的框架，它简化了LLM应用的整个生命周期，包括开发、生产化和部署。本文将详细介绍LangChain框架的各个方面，涵盖其核心组件、第三方集成、开发教程、API参考等，并通过实际案例展示如何使用La
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/