AINLPer

中文命名实体识别（NER）数据集大盘点（含下载）

来源: AINLPer公众号（每日干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2023-4-024

引言

命名实体识别是自然语言处理研究的重要方向之一，目的是识别文本中的命名实体并将其归纳到相应的实体类型中。那么做命名实体识别就少不了数据集，经过一周的时间，终于把所有的能找到的数据集做了一下汇总，同时也分享给大家。说全网最全可能有点夸张，但真的尽力了。资料获取方式：关注 AINLPer公众号，后台回复：中文NER全

文娱NER–Youku

文娱NER数据集主要是基于youku视频相关标题制作的，该数据集包括包括了3大类（娱乐明星名、影视名、音乐名）、9小类实体类别（例如：动漫、电影、影视、综艺等），其中训练集8001条、验证集1000条、测试集1001条。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。最近Github更新时间是2022年。

电商NER–Taobao

电商NER数据集主要基于Taobao电商数据制作的一个命名实体数据集，该数据集包括了4大类(商品名称、商品型号、人名、地名)、9小类实体类别（电脑、汽车、日用品等）。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。其中，训练数据集6000条，验证数据集998条，测试数据集1000条。最近Github更新时间是2022年。

简历 NER–新浪财经

该数据集基于新浪财经(Sina Finance4)收集了一个简历数据集，其中包括中国股票市场上市公司高管的简历。随机选择了1027份简历摘要，并使用YEDDA系统手动标注了8种命名实体[国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)]。该本数据集包括训练集（3821）、验证集（463）、测试集（477），实体类型包括，文本比较规范，实体识别模型效果通常F1 90%以上。

微博-NER

该数据集是一个为NER标注的微博信息语料库。相较于MSRA-NER该数据更加的具体，其主要包括：人名（具体名字和泛指名字）、地址（具体地址和泛指地址）、行政区、组织机构（特定机构和泛指名称）。该语料库主要基于2013年11月至2014年12月期间从微博上采样的1890条信息标注完成（训练数据集1350条，开发数据集270条，测试数据集270条），在数量方面相较于MSRA-NER偏少。目前Github最近一次更新时间是在2018年。

人民日报(1998/2014)-NER

该数据集同样是一个为NER标注数据集，本NER数据集由人民日报语料库1998版和2014版生成，包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。对于命名实体资料其主要包括：人名、地名和机构名。其中1998版本语料库训练数据集2W+条，开发数据集2.3k+条，测试数据集4.6k+条。目前该数据集Github最近一次更新时间是在2018年。另外关于该数据集的论文出处没有找到，有知道的小伙伴可以私信给我。

MSRA-NER

该数据集是Microsoft Research Asia (MSRA)推出的关于中文命名实体识别的数据集，其中主要包括：地名、机构名和人名，采用的标签策略是BIO。其中训练数据集含有4.5万个句子，3.6万多个地名，2万多个机构名，1.7万多个人名；测试数据集大概是训练数据集的十分之一，其中含有3.4k+个句子，2.8k+地名，1.3k+组织名，1.9k+人名。目前Github最近一次更新是在2018年。

Boson-NER

Boson提供的命名实体识别数据，采用UTF-8进行编码，每行为一个段落标注，共包括2000段落。数据集共包含2000个段落，实体类型有六种，主要包括：时间、地点、人名、组织名、公司名、产品名。该数据集查了出处网上都指向地址：https://bosonnlp.com/，但该网站好像已经访问不到了好在网上数据集还能找到。

CLUENER 细粒度-NER

本数据是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注得到。其中训练集共计10748条，验证集共计1343条。，数据分为10个标签类别，分别为: 地址（address），书名（book），公司（company），游戏（game），政府（government），电影（movie），姓名（name），组织机构（organization），职位（position），景点（scene），其中训练集共计10748条，验证集共计1343条。

电子病历-NER

该数据集是由全国知识图谱与语义计算大会(CCKS)公布的，它们在2017年到2020年举办了四次关于电子病历命名实体识别（简称CNER Clinical Named Entity Recognition）的竞赛，即对于给定的一组电子病历纯文本文档，任务的目标是识别并抽取出与医学临床相关的实体，并将它们归类到预先定义好的类别（pre-defined categories），比如症状，药品，手术等。其中主要包括CCKS2017-NER、CCKS2018-NER、CCKS2019-NER、CCKS2020-NER。具体CCKS2017-NER数据集，共2229条样本，5种类别，为symp、dise、chec、body和cure；CCKS2018-NER数据集，共797条样本，5种类别，为症状和体征、检查和检验、治疗、疾病和诊断、身体部位；CCKS2019-NER数据集，共1379条样本，6种类别，为解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查；CCKS2020-NER，共计1887条样本，

军事装备试验鉴定-NER

该数据集源于军事科学院系统工程研究院在CCKS 2020中组织关于军事装备试验鉴定的命名实体识别评测，其中训练集和测试集分别为400条，平均长度150，最大长度358。实体类型主要包括四大类：试验要素(如：RS-24弹道导弹、SPY-1D相控阵雷达)、性能指标(如测量精度、圆概率偏差、失效距离)、系统组成(如中波红外导引头、助推器、整流罩)、任务场景(如法国海军、导弹预警、恐怖袭击)。

中文医学CMeEE-NER

CMeEE数据集出自，中文医疗信息处理挑战榜CBLUE。数据集将医学文本命名实体划分为九大类，包括：疾病(dis)，临床表现(sym)，药物(dru)，医疗设备(equ)，医疗程序(pro)，身体(bod)，医学检验项目(ite)，微生物类(mic)，科室(dep)。标注之前对文章进行自动分词处理，所有的医学实体均已正确切分，另外CMeEE-V2是对CMeEE的补充。

中国文学-NER

该数据集基于中国文学文章进行标注制作，共计包含726篇文章。一共定义了7个实体：物件、任务、地址、事件、计量单位、组织、出处等。

银行借贷2021-NER

该数据集共10000条样本，4种类别，为BANK、COMMENTS_ADJ、COMMENTS_N和PRODUCT。

任务对话2018-NER

该数据集是NLPCC2018发布的比赛任务公布出来的，主要对应任务式对话任务4，该数据集共21352条样本，15种类别，为language、origin、theme、custom_destination、style、phone_num、destination、contact_name、age、singer、song、instrument、toplist、scene和emotion。

CCIR2021-NER

全国信息检索学术会议（CCIR)由中国中文信息学会和中国计算机学会联合举办，则全国信息检索挑战杯（CCIR Cup）是由全国信息检索学术会议（CCIR）发起的技术评测比赛。数据集CCIR2021是该比赛发布的，旨在提高算法在中文命名实体识别方面鲁棒性，该数据数据集共15723条样本，4种类别，分别为LOC、GPE、ORG和PER。

瑞金MCC2018-NER

该数据集是由上海瑞金医院与阿里云联合发起主办AI大赛上发布的，其主要任务是通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。该数据集共计3498条样本，18种类别，为Level、Method、Disease、Drug、Frequency、Amount、Operation、Pathogenesis、Test_items、Anatomy、Symptom、Duration、Treatment、Test_Value、ADE、Class、Test和Reason。

中医药应用2020-NER

该数据集主要是在2020年智慧中医药应用创新挑战赛中发布，该比赛主要由阿里和万科主办，旨在选出优秀的中医药人工智能大数据领域的应用创新解决方案。该数据集共1255条样本，13种类别，为药物剂型、疾病分组、人群、药品分组、中药功效、症状、疾病、药物成分、药物性味、食物分组、食物、证候和药品。

商品标题2022-NER

GAIIC2022数据集主要出自2022全球人工智能技术创新大赛。主要背景是：京东商品标题包含了商品的大量关键信息，商品标题实体识别是NLP应用中的一项核心基础任务，能为多种下游场景所复用，从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。共有标注训练样本：4万条左右；无标注样本：100万条。实体共有52种类型，均已经过脱敏处理，用数字代号1至54表示（不包含27和45）；其中“O”为非实体。标签中“B”代表一个实体的开始，“I”代表一个实体的中间或者结尾。“-”后的数字代号表示该字符的实体类型。

诊疗对话2021-NER

在线问诊平台逐渐兴起，在线问诊是指医生通过对话和患者进行病情的交流、疾病的诊断并且提供相关的医疗建议，医患对话理解旨在对问诊文本信息进行信息抽取，主要包括两个任务，分别是命名实体识别和症状检查识别。目前是从医患对话文本中识别出五类重要的医疗相关实体（Operation、Drug_Category、Medical_Examination、Symptom和Drug），数据包含2000多组对话，共98452条样本。

FNED数据集合-NER

FNED数据集包含8种事件类型，共计1.3万个具有事件信息的句子（每个句子中包含一个事件），数据来源于公开军事新闻网站（如新浪军事、凤凰军事和网易军事等），标注信息包含事件提及（触发词、事件类型和事件元素）、实体提及（实体）和关系提及（头实体、尾实体和关系类型），其中8种事件类型，7种实体类型，8种关系类型。

推荐阅读

[1] Centos/Ubuntu离线部署清华chatGLM（特别详细，十分钟搞定）
[2] 2023年！自然语言处理（NLP）10 大预训练模型
[3]NLP不断突破界限，2023 十篇必读的顶级NLP论文！
[4] 分享 8 篇NLP论文，有研究惊奇发现：大语言模型除了学习语言还学到了… …

你可能感兴趣的:(人工智能,开源)

推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
IDLark 开源项目使用教程缪阔孝Ruler
IDLark开源项目使用教程idlark项目地址:https://gitcode.com/gh_mirrors/id/idlark1.项目的目录结构及介绍IDLark项目的目录结构如下：idlark/├──LEGAL.md├──LICENSE├──README.md├──poetry.lock├──pyproject.toml└──idlark/└──__init__.py目录结构介绍LEGAL.
开源项目PyWakeOnLan常见问题解答李申山
开源项目PyWakeOnLan常见问题解答pywakeonlanAsmallpythonmoduleforwakeonlan.项目地址:https://gitcode.com/gh_mirrors/py/pywakeonlan项目基础介绍PyWakeOnLan是一个轻量级的Python模块，用于实现Wake-on-LAN（WOL）功能。通过这个工具，开发者可以方便地发送魔包信号来远程唤醒支持WOL
迅翼SwiftWing | ROS 固定翼开源仿真平台正式发布! 迅翼SwiftWing ROS PX4 固定翼控制器开源 python 无人机
经过前期内测调试，ROS固定翼开源仿真平台今日正式上线！现平台除适配PX4+ROS环境外，也已实现AP+ROS环境下的单机飞行控制仿真适配。欢迎大家通过文末链接查看项目地址以及具体使用手册。1平台简介ROS固定翼仿真平台旨在实现固定翼无人机决策、规划和控制仿真，区别于传统基于Matlab/Simulink的仿真方案：高度封装：平台将基础无人机控制算法封装为可复用的类，从而有效简化了开发流程。同时，
3DUnet实现3D医学影像的有效分割 Andrew_Xzw python 深度学习 github opencv 计算机视觉分割
最近涉及到了3D医学影像的分割，网络上相关的实现比较少，因此进行实现记录。3DUnet实现3D医学影像的有效分割1.配置代码环境2.配置数据集以及模型文件3.训练4.预测1.配置代码环境这里介绍一个很好的开源项目，git为：https://github.com/ellisdg/3DUnetCNN.git。安装环境为：nibabel>=4.0.1numpy>=1.23.0#torch>=1.12.0
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
基于生成式人工智能的网联自动驾驶：通感融合决策技术罗伯特之技术屋行业信息处理技术与政策研究专栏人工智能自动驾驶机器学习
【摘要】探讨了生成式人工智能在网联自动驾驶技术中的潜在价值。现有研究主要侧重于传统感知决策和车联网技术，但却忽视了生成式人工智能在推动自动驾驶方面的重要作用。首先讨论了生成式人工智能技术如何提高自动驾驶决策、训练、感知和导航等模块的性能，接着探讨了其在融合了语义通信、通感一体和新型空口技术的下一代车联网中的角色，然后提出了基于人工智能代理的网联自动驾驶模型，最后强调生成式人工智能是实现车辆高级别自
SDL2：Android APP编译使用 -- SDL2多媒体库使用音频实例 XiaoJ1234567 Env android
SDL2：AndroidAPP编译使用3.SDL2：AndroidAPP编译使用3.1AndroidStudio环境准备：3.2构建AndroidAPP（1）方式一：快速构建APK工程（2）方式二：自定义APK工程（3）方式三：CMake构建APK工程3.3android-project项目文件说明SDL2（SimpleDirectMediaLayer2）是一个开源的跨平台多媒体开发库，它提供了一
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
文秘要学计算机吗,高考志愿：计算机专业和文秘专业哪个适合女生？ weixin_39707851 文秘要学计算机吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
计算机专业毕业可以做文秘吗,高考志愿：计算机专业和文秘专业哪个适合女生？... ShuYini 计算机专业毕业可以做文秘吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
Chromium 132 编译指南 Mac篇（一）- 环境准备守城小轩浏览器开发 chrome devtools 浏览器开发指纹浏览器 chrome
1.引言在当今浏览器领域，开源项目Chromium的地位举足轻重。作为GoogleChrome浏览器的技术核心，Chromium不仅驱动着这款全球流行的浏览器，还为众多衍生浏览器项目奠定了坚实的基础。对于热衷于浏览器技术研究，或有志于开发自有浏览器的开发者来说，掌握Chromium的编译技术是迈向成功的第一步。本指南将聚焦于macOS平台，为开发者提供一份详尽的Chromium132编译入门教程。
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
Go实战全家桶之三十六： go动态创建结构体 leijmdas go go实战全家桶 golang 开发语言后端
开源：water/gowebfunc(self*PagedbRequest)CreateDbTableStru(meta*metadata.MetadataTable)reflect.Value{varmetaColService=service.NewMetadataFactroy()dbFields:=[]reflect.StructField{}for_,col:=rangemeta.Col
EOF分析在Python中的利器：eofs库使用指南潘妙霞
EOF分析在Python中的利器：eofs库使用指南项目地址:https://gitcode.com/gh_mirrors/eo/eofs项目介绍eofs是一个专为Python环境设计的开源包，用于执行经验正交分解（EmpiricalOrthogonalFunction,EOF）分析。该库遵循GNUGPLv3许可协议，旨在简化Python中进行EOF分析的流程。它特别适合处理大型时空数据集，通过高
Python学习路线 Python_JC python
Python是一门易学易用的编程语言，广泛应用于数据处理、Web开发、人工智能、自动化运维、游戏开发等领域。本篇文章将介绍Python的学习路线以及一些值得参考的书籍。Python学习路线Python的学习路线主要包括以下几个方面：掌握Python基础知识：了解变量、数据类型、表达式、流程控制、函数、模块等基础概念。学习Python面向对象编程：学习类、对象、继承、多态等面向对象编程的概念和技术。
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
docker 与K8s的恩怨情仇慧香一格 docker K8s 容器 docker kubernetes 容器
Docker和Kubernetes（通常简称为K8s）是容器化和容器编排领域的两大重要工具，它们在技术生态中扮演着不同的角色，并且有着密切的关系。虽然有时候人们会讨论它们之间的关系，但实际上它们更多的是互补而不是对立。下面详细探讨Docker与Kubernetes的关系及其各自的优劣势。Docker什么是Docker？Docker是一个开源的平台，用于自动化应用程序的部署、扩展和管理。它允许开发者
人工智能领域单词：英文解释周杰伦_Jay 人工智能深度学习神经网络中文分词全文检索
目录1、前言2、单词组1：15个3、单词组2：15个4、单词组3：15个5、单词组4：15个6、单词组5：15个1、前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：[email protected]、单词组1：15个1、人工智能(ArtificialIntelligence,AI):atechnologythatsi
华为CANN架构与Ascend C算子开发 z1931195 华为
CANN架构CANN（ComputeArchitectureforNeuralNetworks）是华为专为应对人工智能场景而推出的一种新型异构计算架构。在当前快速发展的AI技术背景下，CANN致力于提供一种高效且灵活的解决方案，以支持多种AI框架的应用。其设计不仅仅关注于上层应用的兼容性，同时也服务于底层AI处理器的优化和编程需求，发挥了承上启下的关键作用，成为华为昇腾AI处理器计算效率提升的核心
在 macos 下 gcc 编译找不到系统头文件解决方案 TDengine （老段） macos
当我们在macos下安装GCC编译开源软件或自己开发的软件的时候，如果遇到已经正确安装了编译所需的组件，如进行地理位置的开发的geos，你已经下载geos的源码进行了编译，并且正确的完成了makeinstall,头文件安装到了/usr/local/include下，库文件安装到了/usr/local/lib目录下，但在自己的工程中就是找不到geos_c.h文件，报编译错误。这个错误的原因是你的gc
鸿蒙开发进阶(由南向北) Android小码家鸿蒙 harmonyos 华为
文章目录PurpleOH官方示例投屏工具推荐需要HDMI诱骗器智能插件问答社区应用层开发文档开源应用集合第三方仓库竖屏显示源码快速修改验证竖屏效果第一个页面设备端开发文档官方投屏PurplePiOH使用手册固件烧写固件下载源码编译源码导入VSCode指令集repo使用总存储空间使用率搭建编译容器运行编译容器开始编译编译成功查看固件烧录window访问共享路径固件路径复制固件到RKDevtool打开
探索极致AI性能：昇腾NPU与PyTorch的完美融合 —— Ascend Extension for PyTorch 尤琦珺Bess
探索极致AI性能：昇腾NPU与PyTorch的完美融合——AscendExtensionforPyTorch去发现同类优质开源项目:https://gitcode.com/项目简介在人工智能领域，高效灵活的框架与强大的硬件加速器是实现先进算法的关键组合。AscendExtensionforPyTorch插件，即torch_npu，正是这样一个解决方案，它无缝对接PyTorch框架，将华为昇腾AI处
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】 FF-Studio 大语言模型开源
本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调1.1大语言模型发展简史随着深度学习的飞速发展，特别是Transformer架构在自然语言处理（NLP）领域的成功，大语言模型（LLM,LargeLanguageModel）成为近年来
WeChatFerry 开源项目教程翁良珏Elena
WeChatFerry开源项目教程项目地址:https://gitcode.com/gh_mirrors/we/WeChatFerry项目介绍WeChatFerry是一个强大的微信自动化工具，旨在帮助用户更高效地管理微信生活。该项目支持多种编程语言的客户端，包括Python、Go、Java等，并且可以接入多种大模型，如Gemini、ChatGPT等。WeChatFerry提供了丰富的功能，包括消息
三款顶级开源RAG (检索增强生成)工具：Verba、Unstructured 和 Neum XianxinMao 人工智能自然语言处理 RAG
三款顶级开源RAG(检索增强生成)工具：Verba、Unstructured和Neum概述随着企业对话式数据处理需求的提升，面临的挑战是数据隐私性和缺乏企业级解决方案。虽然类似LangChain能在短时间内构建RAG应用，但忽视了文档解析、多来源数据ETL、批量处理、访问控制等问题。此文评估了三款开源RAG工具的潜力，专为生产环境设计。Verba：理想的RAG选择Weaviate提供的Verba项
云原生周刊：Prometheus 3.0 正式发布云计算
开源项目推荐Achilles-SDKAchilles-SDK是一个专为构建Kubernetes控制器而设计的开源开发工具包。它简化了控制器的开发流程，提供了强大的API和高效的抽象层，使开发者能够专注于业务逻辑的实现，而无需处理底层复杂性。Achilles-SDK支持快速构建高性能、可扩展的Kubernetes控制器，是开发Kubernetes原生应用和自动化操作的理想选择。KLKL是一个为终端提
《盘古大模型——鸿蒙NEXT的智慧引擎》人工智能深度学习
在当今科技飞速发展的时代，华为HarmonyOSNEXT的发布无疑是操作系统领域的一颗重磅炸弹，其将人工智能与操作系统深度融合，开启了智能新时代。而盘古大模型在其中发挥着至关重要的核心作用。赋予小艺智能助手超强能力在鸿蒙NEXT中，盘古大模型赋予了小艺智能助手更强的记忆、推理和规划能力，使其能够支持23类常用记忆类型，掌握万亿token的知识量。基于盘古大模型，小艺可以实现诸如将带有表格的图片转化
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他