OpenDataLab

收藏丨20个中文语料数据集，含数学考试、公务员考题、医患对话等

#要想训练出具有中文语境特色的大语言模型，中文语料数据必不可少，今天给大家分享20个中文语料数据集，欢迎转发、分享，催更下一期

No.1 Math23K (Math23K for Math Word Problem Solving)

● 发布方：腾讯人工智能实验室

● 发布时间：2017

● 简介：
Math23K 是为解决数学单词问题而创建的数据集，包含从互联网上爬取的 23,162 个中文问题。

● 下载地址：
https://opendatalab.org.cn/Math23K

● 论文地址：
https://aclanthology.org/D17-1088.pdf

No.2 Ape210K

● 发布方：猿辅导 AI Lab，西北大学

● 发布时间：2020

● 简介：
Ape210K是一个新的大规模和模板丰富的数学单词问题数据集，包含 210K 个中国小学水平的数学问题，是最大的公共数据集 Math23K 的 9 倍（Wang et al., 2017）。每个问题都包含黄金答案和得出答案所需的方程式。 Ape210K 也具有更大的多样性，有 56K 个模板，是 Math23K 的 25 倍。我们的分析表明，解决 Ape210K 不仅需要自然语言理解，还需要常识知识。

● 下载地址：
https://github.com/Chenny0808/ape210k

● 论文地址：
https://arxiv.org/pdf/2009.11506v1.pdf

No.3 DRCD (Delta Reading Comprehension Dataset)

● 发布方：台达研究中心,台达电子

● 发布时间：2018

● 简介：
一个数据集，其中包含 2,221 个来自不同学科（历史、生物学、地理和哲学）的十二年级入学考试的问题，以及来自历史在线测验的 412 个附加问题。

● 下载地址：
https://opendatalab.org.cn/DRCD

● 论文地址：
https://arxiv.org/ftp/arxiv/papers/1806/1806.00920.pdf

No.4 FCGEC

● 发布方：浙江大学,华为

● 发布时间：2022

● 简介：
FCGEC是一个带有多个参考文献的人类注释语料库，由主要从公立学校语文考试的多选题中收集的41,340句子组成。

● 下载地址：
https://opendatalab.org.cn/FCGEC

● 论文地址：
https://arxiv.org//pdf/2210.12364.pdf

No.5 E-KAR (Benchmark for Explainable Knowledge-intensive Analogical Reasoning)

● 发布方：复旦大学,字节跳动人工智能实验室,Brain Technologies, Inc.

● 发布时间：2022

● 简介：
识别类比的能力是人类认知的基础。测试单词类比的现有基准并未揭示神经模型类比推理的底层过程。我们坚信能够推理的模型应该是正确的，因此我们提出了首创的可解释知识密集型类比推理基准 (E-KAR)。我们的基准测试包括来自公务员考试的 1,655 个（中文）和 1,251 个（英文）问题，这些问题需要深入的背景知识才能解决。更重要的是，我们设计了一个自由文本解释方案来解释是否应该进行类比，并为每个问题和候选答案手动注释它们。

● 下载地址：
https://opendatalab.org.cn/E-KAR

● 论文地址：
https://arxiv.org/pdf/2203.08480v1.pdf

No.6 Douban Conversation Corpus

● 发布方：北京航空航天大学,南开大学,微软研究院

● 发布时间：2017

● 简介：
我们发布豆瓣会话语料库，包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含 1000 个对话上下文，对于每个上下文，我们创建 10 个响应作为候选。我们招募了三名标注员来判断候选人是否对会议做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签，大部分标签被视为最终决定。据我们所知，这是第一个用于基于检索的聊天机器人的人工标记测试集。

● 下载地址：
https://opendatalab.org.cn/Douban_Conversation_Corpus

● 论文地址：
https://arxiv.org/pdf/1612.01627v2.pdf

No.7 ODSQA (Open-Domain Spoken Question Answering)

● 发布方：台湾大学

● 发布时间：2018

● 简介：
ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。

● 下载地址：
https://opendatalab.org.cn/ODSQA

● 论文地址：
https://arxiv.org/pdf/1808.02280v1.pdf

No.8 XiaChuFang Recipe Corpus

● 发布方：清华大学,百度,北京通用人工智能研究院

● 发布时间：2020

● 简介：
完整的食谱语料库包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱的平均长度是224个字符。最大长度为62,722个字符，最小长度为10个字符。食谱由415,272位作者贡献。其中，最有生产力的作者上传5,394食谱。我们提供脱敏的作者信息。

● 下载地址：
https://opendatalab.org.cn/XiaChuFang_Recipe_Corpus

● 论文地址：
https://arxiv.org//pdf/2210.11431.pdf

No.9 CrossWOZ

● 发布方：北京信息科学与技术国家研究中心,清华大学

● 发布时间：2020

● 简介：
CrossWOZ是第一个面向任务的大型中文跨域Wizard-of-Oz向导数据集。它包含 5 个领域的 6K 对话会话和 102K 话语，包括酒店、餐厅、景点、地铁和出租车。此外，语料库包含丰富的对话状态注释和用户和系统双方的对话行为。

● 下载地址：
https://opendatalab.org.cn/CrossWOZ

● 论文地址：
https://arxiv.org/pdf/2002.11893v2.pdf

No.10 MATINF (Maternal and Infant Dataset)

● 发布方：武汉大学 · 密歇根大学

● 发布时间：2020

● 简介：
Maternal and Infant (MATINF) Dataset 是一个联合标注的大规模数据集，用于中文母婴护理领域的分类、问答和总结。数据集中的一个条目包括四个字段：问题（Q）、描述（D）、类别（C）和答案（A）。从中国大型母婴护理 QA 网站收集了近 200 万对问答对，其中包含细粒度的人工标记类。作者进行自动和手动数据清洗并删除：（1）样本不足的类； (2) 描述字段长度小于问题字段长度的条目； (3) 任何字段长度超过 256 个字符的数据； (4) 人为发现的格式错误的数据。数据清洗后，用剩余的 107 万个条目构建 MATINF。

● 下载地址：
https://opendatalab.org.cn/MATINF

● 论文地址：
https://arxiv.org/pdf/2004.12302v2.pdf

No.11 MedDialog

● 发布方：加州大学圣地亚哥分校

● 发布时间：2020

● 简介：
MedDialog 数据集（中文）包含医生和患者之间的对话（中文）。它有 110 万条对话和 400 万条话语。数据不断增长，将添加更多对话。原始对话来自 haodf.com。数据的所有版权归haodf.com所有。

● 下载地址：
https://opendatalab.org.cn/MedDialog

● 论文地址：
https://arxiv.org/pdf/2004.03329v2.pdf

No.12 MCSCSet

● 发布方：中山大学,Mila – Quebec Artifcial Intelligence Institute,清华大学深圳国际研究生院,腾讯天衍实验室

● 发布时间：2022

● 简介：
我们介绍了MCSCSet，这是一个大型的专家注释数据集，专门用于医学领域的中文拼写校正 (MCSC)。与现有的开放域CSC数据集相比，MCSCSet涉及: i) 从腾讯一点收集的大量真实医学查询，ii) 由医学专家手动注释的相应拼写错误的句子。我们的资源进一步提供了医学领域的混淆集，其中包括医学中常见的易出错字符及其相应的拼写错误。

● 下载地址：
https://opendatalab.org.cn/MCSCSet

● 论文地址：
https://arxiv.org//pdf/2210.11720.pdf

No.13 KdConv (Knowledge-driven Conversation)

● 发布方：清华大学

● 发布时间：2020

● 简介：
KdConv 是一个中文多领域知识驱动的对话数据集，将多轮对话中的主题建立在知识图谱上。 KdConv 包含来自三个领域（电影、音乐和旅行）的 4.5K 对话，以及平均转数为 19.0 的 86K 话语。这些对话包含对相关话题的深入讨论和多个话题之间的自然过渡，而语料库也可以用于探索迁移学习和领域适应。

● 下载地址：
https://opendatalab.org.cn/KdConv

● 论文地址：
https://arxiv.org/pdf/2004.04100v1.pdf

No.14 DialogRE

● 发布方：康奈尔大学,腾讯人工智能实验室

● 发布时间：2020

● 简介：
DialogRE 是第一个基于人工注释的基于对话的关系提取数据集，包含来自美国著名电视情景喜剧《老友记》的完整抄本的 1,788 条对话。这些是对话中参数对之间存在的所有出现的 36 种可能关系类型的注释。 DialogRE 提供英文和中文版本。

● 下载地址：
https://opendatalab.org.cn/DialogRE

● 论文地址：
https://arxiv.org/pdf/2004.08056v1.pdf

No.15 NAIST COVID

● 发布方：奈良先端科学技术大学院大学

● 发布时间：2020

● 简介：
NAIST COVID是新型冠状病毒肺炎相关的社交媒体帖子的多语言数据集，由Twitter的英语和日语微博以及微博的中文微博组成。该数据涵盖了从2020年1月20日到2020年3月24日的微博。

● 下载地址：
https://opendatalab.org.cn/NAIST_COVID

● 论文地址：
https://arxiv.org/pdf/2004.08145v1.pdf

No.16 LCCC (Large-scale Cleaned Chinese Conversation corpus)

● 发布方：清华大学 · 三星中国研究院

● 发布时间：2020

● 简介：
我们提出了一个大型清洁汉语会话语料库（LCCC），其中包含：LCCC-base 和 LCCC-large。为了保证语料库的质量，设计了严格的数据清洗流水线。该管道涉及一组规则和几个基于分类器的过滤器。诸如攻击性或敏感词、特殊符号、表情符号、语法错误的句子和不连贯的对话等噪音都会被过滤掉。

● 下载地址：
https://opendatalab.org.cn/LCCC

● 论文地址：
https://arxiv.org/pdf/2008.03946v2.pdf

No.17 DogWhistle

● 发布方：加州大学,北京航空航天大学,微软亚洲研究院

● 发布时间：2021

● 简介：
隐语（也称为双语、密文、暗语、反话或密语）对于理解广告、喜剧和狗哨政治很重要。 DogWhistle 是一个庞大而多样的中文数据集，用于从计算语言学的角度创建和理解隐语。

● 下载地址：
https://opendatalab.org.cn/DogWhistle

● 论文地址：
https://arxiv.org/pdf/2104.02704v2.pdf

No.18 CHECKED

● 发布方：锡拉丘兹大学

● 发布时间：2021

● 简介：
开发了第一个关于新型冠状病毒肺炎错误信息的中文数据集。CHECKED提供了从2019年12月到2020年8月的总共2,104个与新型冠状病毒肺炎相关的已验证微博，这些微博通过使用特定的关键字列表进行识别。相应地，CHECKED包括1,868,175转发、1,185,702评论和56,852,736点赞，这些评论揭示了这些经过验证的微博是如何在微博上传播和反应的。该数据集包含每个微博的丰富多媒体信息集，包括地面真相标签，文本，视觉，时间和网络信息。在使用CHECKED预测假新闻时，已经进行了广泛的实验来分析已检查的数据并为完善的方法提供基准结果。

● 下载地址：
https://opendatalab.org.cn/CHECKED

● 论文地址：
https://arxiv.org/pdf/2010.09029v2.pdf

No.19 Lyra

● 发布方：北京大学

● 发布时间：2021

● 简介：
Lyra 是一个用于代码生成的数据集，由带有嵌入式 SQL 的 Python 代码组成。该数据集包含来自实际使用项目的 2,000 个经过仔细注释的数据库操作程序。每个程序都配有中文评论和英文评论。。

● 下载地址：
https://opendatalab.org.cn/Lyra

● 论文地址：
https://arxiv.org/pdf/2108.12144v1.pdf

No.20 MUSIED

● 发布方：北京大学

● 发布时间：2022

● 简介：
我们在领先的食品服务电子商务平台中，基于用户评论，文本对话和电话对话，提出了一个新的大型中文事件检测数据集。

● 下载地址：
https://opendatalab.org.cn/MUSIED

● 论文地址：
https://arxiv.org/pdf/2211.13896.pdf

以上就是本次分享，因为篇幅有限，更多数据集，请访问OpenDataLab官网https://opendatalab.org.cn/

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
穷人做什么生意最赚钱？10个适合穷人赚钱的路子？氧惠爱高省
不管在什么地方，一般都是穷人占大量数，而富人只有少数，但是它们却掌握着大量的财富。对于穷人来说，想要买车、买房等奢侈品就难如登天，因为他们只能通过打工来赚取几千元的月薪。➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

收藏丨20个中文语料数据集，含数学考试、公务员考题、医患对话等

No.1 Math23K (Math23K for Math Word Problem Solving)

No.2 Ape210K

No.3 DRCD (Delta Reading Comprehension Dataset)

No.4 FCGEC

No.5 E-KAR (Benchmark for Explainable Knowledge-intensive Analogical Reasoning)

No.6 Douban Conversation Corpus

No.7 ODSQA (Open-Domain Spoken Question Answering)

No.8 XiaChuFang Recipe Corpus

No.9 CrossWOZ

No.10 MATINF (Maternal and Infant Dataset)

No.11 MedDialog

No.12 MCSCSet

No.13 KdConv (Knowledge-driven Conversation)

No.14 DialogRE

No.15 NAIST COVID

No.16 LCCC (Large-scale Cleaned Chinese Conversation corpus)

No.17 DogWhistle

No.18 CHECKED

No.19 Lyra

No.20 MUSIED

你可能感兴趣的:(开源数据集下载,公开数据集下载,人工智能,大数据)