一支王同学

NLP冻手之路(2)——文本数据集的下载与各种操作(Datasets)

✅ NLP 研 0 选手的学习笔记

文章目录

一、需要的环境
二、数据集的了解
三、数据集的获取
- 3.1 方法一：直接调用函数获取
- 3.2 方法二：官网下载获取
四、数据集的操作
- 4.1 排序与打乱
- 4.2 选择和过滤
- 4.3 切分和分桶
- 4.4 列的新增、删除和重命名
- 4.5 map 函数
- 4.6 保存与加载
五、小结
六、补充说明

上一篇文章链接: NLP冻手之路(1)——中文/英文字典与分词操作(Tokenizer)

一、需要的环境

● python 需要 3.6+，pytorch 需要 1.10+

● 本文使用的库基于 Hugging Face Transformer，官网链接：https://huggingface.co/docs/transformers/index 【一个很不错的开源网站，针对于 transformer 框架做了很多大集成，目前 github 72.3k ⭐️】

● 安装 Hugging Face Transformer 的库只需要在终端输入 pip install transformers【这是 pip 安装方法】；如果你用的是 conda，则输入 conda install -c huggingface transformers

● 本文除了要安装上述配置，还要安装名为 datasets 的数据集处理包，只需要在终端输入 pip install datasets【这是 pip 安装方法】；如果你用的是 conda，则输入 conda install -c huggingface -c conda-forge datasets

二、数据集的了解

● 这里我用了 pprint 函数来打印，它比 print 打印出来的内容更整洁。

import datasets
from pprint import pprint

my_datasets_list = datasets.list_datasets()
print("Number of datasets in the Datasets library: ", len(my_datasets_list))
pprint(my_datasets_list[:20], compact=True)  # 打印数据集列表中的前 20 个来看看

输出结果：
Number of datasets in the Datasets library:  12173 
['acronym_identification', 'ade_corpus_v2', 'adversarial_qa', 'aeslc',
 'afrikaans_ner_corpus', 'ag_news', 'ai2_arc', 'air_dialogue',
 'ajgt_twitter_ar', 'allegro_reviews', 'allocine', 'alt', 'amazon_polarity',
 'amazon_reviews_multi', 'amazon_us_reviews', 'ambig_qa', 'americas_nli', 'ami',
 'amttl', 'anli']

● 从结果可以看到，截止目前 2022年10月20日，目前数据库已有 12172 个数据集。

● 接着，我们来了解一下一个 中文情感分析的数据集，即 seamew/ChnSentiCorp。注意，后面所有的实验都将基于这个数据集。一般这里面的数据集都有 description，但是这个没有，我大致说一下，就是这个数据集全是一段一段的文本，每一段文本都是用户针对于某件事、某个东西等的评价。

index = my_datasets_list.index('seamew/ChnSentiCorp')  # 获取该数据集在 my_datasets(其 type 为list) 的位置
info = datasets.list_datasets(with_details=True)[index]  # 通过设置 with_details 为 True 来获得数据集的详细信息
pprint(info)

输出：
DatasetInfo: {
	id: seamew/ChnSentiCorp
	sha: 5fad0d07523f9c5fc76b8babaca9ab6fdeb6af2d
	lastModified: 2021-06-22T08:58:53.000Z
	tags: []
	private: False
	author: seamew
	description: None
	citation: None
	cardData: None
	siblings: None
	gated: False
	downloads: 1512
	likes: 8
}

三、数据集的获取

● 数据集的获取有两种方法，第一种是直接调用 load_dataset 函数获取，第二种是从官网下载下来。

● 第一种方法可能需要一下 F墙的 VPN，需注意的是，这个 VPN 要打开到 “网卡模式”，而不只是 “网页模式”。因为 “网页模式” 只能去看看 Youtube 等外网网页，并不能使得 Python编辑器访问到外网。

3.1 方法一：直接调用函数获取

● 我们通过设置 cache_dir 来将数据集下载到 ./my_data 中。

import datasets

my_dataset_all = datasets.load_dataset(path='seamew/ChnSentiCorp', cache_dir='./my_data')  # 获取整个数据集
my_dataset_train = my_dataset_all['train']
my_dataset_validation = my_dataset_all['validation']
my_dataset_test = my_dataset_all['test']

print("my_dataset_all:", my_dataset_all)
print("my_dataset_train:", my_dataset_train)
print("my_dataset_validation[0]:", my_dataset_validation[0])  # 打印第一个
print("my_dataset_test[:3]:", my_dataset_test[:3])  # 打印前三个

● 运行结果如下，其中 label 为 1 代表对应的那段评论是 积极 的，反之，若 label 为 0 则代表对应的那段评论是 消极 的。其中训练集有 9600 个样例，验证集和测试集分别有 1200 个样例。

● 如果通过这种方法下载的数据集，即可通过 save_to_disk 函数来保存到本地，下一次加载数据集时，就不需要再重复到网上下载，直接加载本地的即可。加载函数详见 “2.2 方法二：官网下载获取” 的 load_from_disk。

my_dataset_all.save_to_disk(dataset_dict_path='./save_data')

3.2 方法二：官网下载获取

● 如果方法一行不通，就用这个方法。首先进入该数据集的网页：https://huggingface.co/datasets/seamew/ChnSentiCorp。

● 然后，依照上图打开对话框，接着使用 git clone https://huggingface.co/datasets/seamew/ChnSentiCorp 来将数据集下载到本地，如下图所示。

● 我们然后还有做一系列文件夹划分操作，以便代码调用：1. 首先，我们在 ChnSentiCorp 文件夹里新建一个 dataset.json 文件，其中写入 { "splits": ["train", "validation", "test"] } 即可。2. 然后，我们需要编辑三个文件夹，分别命名为 train、validation、test。然后需要将 dataset_info.json 复制三份，分别放到这三个文件夹中，同时，对应的 *.arrow 数据文件也放入其中。3. 最后，在这三个文件夹内新建一个 state.json 文件，其内容如下(以 train 为例，注意，对于不同的文件夹(train、validation和test)，其 filename 和 _split 要做相应的改写)：

{
    "_data_files": [
      {
        "filename": "chn_senti_corp-train.arrow"
      }
    ],
    "_fingerprint": "24c4fd9824d8b978",
    "_format_columns": null,
    "_format_kwargs": {},
    "_format_type": null,
    "_indexes": {},
    "_output_all_columns": false,
    "_split": "train"
}

● 最后，ChnSentiCorp 文件夹里面的结构如下：

● 我们通过 load_from_disk 函数来将本地保存的数据集加载到内存：

my_dataset_all_git = datasets.load_from_disk('./git_example/ChnSentiCorp')
print(my_dataset_all_git)

输出：
DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 9600
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
})

四、数据集的操作

4.1 排序与打乱

● 在实际训练的时候，我们常用到排序(sort) 与打乱(shuffle)，具体操作如下：

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
print(my_dataset)  # 简单打印 train集 的信息
pprint(my_dataset[:10])  # 未排序的 label 是乱序的

my_dataset_sort = my_dataset.sort('label')  # 排序之后 label 便有序了
print(my_dataset_sort['label'][:10])  # 前十个 label 的值
print(my_dataset_sort['label'][-10:])  # 最后十个 label 的值

shuffled_dataset = my_dataset.shuffle(seed=42)  # 打乱顺序 seed 的值可调
print(shuffled_dataset['label'][:10])

● 运行结果：

4.2 选择和过滤

● 再介绍一下常用的选择函数 select 和过滤函数 filter。

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
x = my_dataset.select([1, 0, 10, 20, 30, 40, 50])  # 选择下标为 1、0、10、...、50 的数据
pprint(x)

def f(data):
    return data['text'].startswith('很差')  # 返回一个 true 或者 false

# 这里的 filter 函数需要用一个 lambda 函数
start_with_ar = my_dataset.filter(f)
print(len(start_with_ar), start_with_ar['text'])  # 打印以 '很差' 开头的句子的数量和内容

输出：
Dataset({
    features: ['label', 'text'],
    num_rows: 7
})
2 ['很差，相当差，搞得我们的外国客人都发大火了！！！服务不符合四星级的酒店标准！', '很差劲的地方。是人都不要住。设施什么都不好还贵。真是晦气']

4.3 切分和分桶

● 如果我们还想对 train集进行划分，可以用 train_test_split 函数，另外还有一个好用的均分函数 shard。

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
x = my_dataset.train_test_split(test_size=0.1)  # 按照 9:1 的比例对 train集 再划分为新的 'train集' 和 'test集'
print("原始 train集: ", my_dataset)
print("切分过后的 train集: ", x)

t = my_dataset.shard(num_shards=4, index=0)  # 把数据均匀分配到 4 个桶中. 然后取下标为 0 的桶里的数据
print("均匀(4)分桶过后且取下标为 0 的桶里的数据: ", t)

● 运行结果：

4.4 列的新增、删除和重命名

● 如果我们想对数据集里面的每一个样例都多加一个标签，即列的新增，那就要用到 add_column，具体方法如下。另外还有常用的，列的删除 remove_columns 和列的重命名 rename_column。

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
new_column = ["null"] * len(my_dataset)
my_dataset_add = my_dataset.add_column("info", new_column)
print("原始 train集: ", my_dataset)
print("新增了一列的 train集: ", my_dataset_add)
print("原始 train集 的一个例子: ", my_dataset[1])
print("新增了一列的 train集 的一个例子: ", my_dataset_add[1])

my_dataset_newName = my_dataset_add.rename_column('info', 'likes')
print("重命名后的 train集: ", my_dataset_newName)

my_dataset_remove = my_dataset_newName.remove_columns(['likes'])
print("删除了一列的 train集: ", my_dataset_remove)

● 运行结果：

4.5 map 函数

● 这个 map 函数是比较重要的，说白了，可以用这个函数对数据集里面的内容进行了人为的修改。

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
def m(data):
    data['text'] = 'My sentence: ' + data['text']
    return data

my_datatset_map = my_dataset.map(m)  # 也是通过一个 lambda 函数来处理
pprint(my_datatset_map['text'][:5], width=300)  # 打印前五个
print("原始 train集: ", my_dataset)
print("经过 map 后的 train集: ", my_datatset_map)

● 运行结果：

4.6 保存与加载

● 其实在 “3.1 方法一：直接调用函数获取” 中已经讲了一个保存的函数 save_to_disk，下面运行结果图中，文件夹里的 save_data 即为函数 my_dataset.save_to_disk(dataset_dict_path='./save_data') 运行后的结果。另外，如果保存为 .csv 或 .json 格式的文件，就要用到 to_csv 或 to_json 函数，加载的话，除了本地加载的 load_from_disk 函数，还有一个就是 load_dataset。

my_dataset = datasets.load_from_disk('./git_example/ChnSentiCorp')['train']  # 获取 train 集
print("原始的数据:", my_dataset[1:3], end='\n')  # 打印 2 个例子看看
my_dataset.to_csv(path_or_buf='./save_csv_data.csv')  # 导出为 csv 格式
csv_dataset = datasets.load_dataset(path='csv', data_files='./save_csv_data.csv', split='train')  # 加载 csv 格式数据
print("csv 格式的数据:", csv_dataset[1:3], end='\n')  # 打印 2 个例子看看

csv_dataset.to_json(path_or_buf='./save_json_data.json')  # 导出为 json 格式
json_dataset = datasets.load_dataset(path='json', data_files='./save_json_data.json', split='train')  # 加载 json 格式数据
print("json 格式的数据:", json_dataset[1:3], end='\n')  # 打印 2 个例子看看

● 运行结果：

五、小结

● 关于数据集的操作不难，但是很重要，大致看一遍，过一遍即可。

六、补充说明

● 上一篇文章链接: NLP冻手之路(1)——中文/英文字典与分词操作(Tokenizer)

● 若有写得不对的地方，或有疑问，欢迎评论交流。

● 参考视频：HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入门.

● 参考资料：使用Hugging Face的数据集库

⭐️ ⭐️

向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
《Solidity智能合约开发：从零到一实战指南》大纲白马区块Crypto100 智能合约
为什么要学Solidity智能合约？在过去几年，区块链从一种“投机工具”进化为一种全新的技术基础设施。无论是NFT、DeFi、GameFi还是DAO，它们的核心都是——智能合约。✨什么是智能合约？智能合约是运行在区块链上的“自动执行程序”，不用依赖中介或第三方，信任直接写进代码里。而Solidity是智能合约开发的“通用语言”。为什么要做这个专栏？做区块链项目的人越来越多，但真正从零系统学习Sol
【第21节】windows sdk编程：网络编程基础攻城狮7号 Windows编程(C++)windows windows编程 windows sdk c++网络编程
目录引言：网络编程基础一、socket介绍(套接字)1.1BerkeleySocket套接字1.2WinSocket套接字1.3WSAtartup函数1.4socket函数1.5字节序转换1.6绑定套接字1.7监听1.8连接1.9接收数据1.10发送数据1.11关闭套接字二、UDP连接流程2.1接收数据2.2发送数据三、阻塞与非阻塞模式四、示例代码4.1TCP协议代码4.2UDP协议代码引言：网络
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
索骥馆－编程语言之《网络编程实用教程（第2版）》扫描版[PDF] cinnarnia 面壁区 windows编程程序设计 TCPIP 网络
内容介绍：本书主要介绍基于tcp/ip协议栈的套接字网络编程技术。全书分为10章，第1章介绍网络编程基础，第2章介绍套接字网络编程接口，第3章介绍windows环境的网络编程，第4章介绍mfc编程，第5章介绍mfcwinsock类的编程，第6章介绍wininet编程，第7章介绍winsock的多线程编程，第8章介绍winsock的输入/输出模型，第9章介绍http及高级编程，第10章介绍电子邮件协
Milvus学习整理 louisliao_1981 milvus 学习
Milvus学习整理一、度量类型(metric_type)二、向量字段和适用场景介绍三、索引字段介绍（一）、概述总结（二）、详细说明四、简单代码示例（一）、建立集合和索引示例（二）、搜索示例（三）、参考文档五、数据搜索(一)、基础搜索参数说明(二)、范围搜索1.概述总结2.详细说明(三)、全文搜索(BM25)1.概述2.使用全文搜索步骤(四)、其他搜索一、度量类型(metric_type)相似度量
Windows下重叠I/O模型智驾 Windows开发 windows开发重叠IO模型
目录一.Windows下重叠I/O模型二．重叠模型的优点三．重叠模型的基本原理五、实现重叠模型的步骤六.客户端情况的注意事项七．已知问题原文链接：https://blog.csdn.net/zhongguoren666/article/details/1827928在此感谢原作者。一.Windows下重叠I/O模型重叠模型的优点重叠模型的基本原理关于重叠模型的基础知识重叠模型的实现步骤多客户端情况
如何用3个月零基础入门网络安全？_网络安全零基础怎么学习白帽黑客啊一学习 web安全安全 python 网安入门
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言写这篇教程的初衷是很多朋友都想了解如何入门/转行网络安全，实现自己的“黑客梦”。文章的宗旨是：1.指出一些自学的误区2.提供客观可行的学习表3.推荐我认为适合小白学习的资源.大佬绕道哈！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
11.网络编程的基础知识就很对网络 linux
11.网络编程的基础知识**1.OSI模型与TCP/IP模型****2.IP地址分类****3.Socket编程****4.TCP三次握手与四次挥手****5.常用网络测试工具****6.练习与作业****7.总结**1.OSI模型与TCP/IP模型OSI模型（开放系统互联模型）：7层结构：应用层：为网络用户提供各种服务（如HTTP、FTP）。表示层：数据加密解密、压缩解压缩。会话层：管理进程会话
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
第十六章:Specialization and Overloading_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
SpecializationandOverloading一、模板特化与重载的核心概念二、代码实战与测试用例三、关键知识点总结四、进阶技巧五、实践建议多选题设计题代码测试说明一、模板特化与重载的核心概念函数模板重载(FunctionTemplateOverloading)//基础模板templateTmax(Ta,Tb){returna>b?a:b;}//显式特化(FullSpecializatio
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
java选择语句 FAQEW java
Java选择结构深度解析一、if结构体系1.单条件判断//基础if结构intscore=85;if(score>=60){System.out.println("考试通过");}//判断空值（防御性编程）Stringtext=null;if(text!=null&&!text.isEmpty()){System.out.println(text.length());}执行流程：truefalse条
C/C++数据类型--整型类型蓝心湄 C/C++数据类型 c语言
概念数据类型表示的是数据的身份决定它可以进行什么操作、占用多少空间与数据结构的区别数据类型更倾向于表示数据的身份数据结构表示的是怎么操作数据（是在类型的基础上进行对数据的操作的）C语言允许使用的类型类型的分类算术类型：基本类型和枚举类型纯量类型：算术类型和指针类型组合类型：数组类型和结构体类型整型数据基本整型（int）长度为2字节或4字节短整型（shortint）长度为2字节长整型（longint
Linux——Linux系统编程之基于TFTP实现服务器与开发板间的文件传输实战总结 Winter_world Linux系统 TFTP服务器搭建 TFTP文件传输
目录0引言1TFTP服务器搭建1.1TFTP基础1.2Ubuntu搭建TFTP服务器1.3测试TFTP服务器2开发板实现TFTP文件传输2.1同一网段2.2配置2.3客户端与服务器的通信0引言我们前面总结的Linux字符设备、串口编程博文中，在虚拟机中编译得到可执行文件后，都是通过U盘连接开发板进行测试验证的，或者就是把可执行文件编译到最小系统中，再OTG烧写进开发板，这两种方法都比较麻烦，这里我
python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
全国一体化算力网演进与多域协同发展智能计算研究中心其他
内容概要全国一体化算力网的建设正从技术探索迈向系统性布局，其核心目标是通过多源异构资源的动态调度与协同管理，构建覆盖全域的智能化算力基础设施。当前，东数西算战略通过跨区域算力资源整合，推动智能算力、超级算力与边缘计算的有机衔接，逐步形成支撑工业互联网、元宇宙、智能家居等多元化场景的泛在服务能力。技术层面，异构计算架构的突破与量子计算、模型压缩等创新技术的融合，正在重塑算力系统的可扩展性与可靠性边界
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
Android Compose 框架按钮与交互组件模块源码深度剖析(二) &有梦想的咸鱼& Androiod Compose原理 Android开发大全 android
一、引言在现代Android应用开发中，用户交互体验至关重要。AndroidCompose作为Google推出的声明式UI工具包，为开发者提供了简洁、高效且灵活的方式来构建用户界面。其中，按钮与交互组件模块是用户与应用进行交互的重要组成部分。本文将深入剖析AndroidCompose框架中按钮与交互组件模块的源码，从基础概念到具体实现，逐步揭示其工作原理和设计思路。二、AndroidCompose
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
LabVIEW实现LoRa通信不脱发的程序猿 LabVIEW物联网开发实战 labview
目录1、LoRa通信原理2、硬件环境部署3、程序架构4、前面板设计5、程序框图设计6、测试验证本专栏以LabVIEW为开发平台，讲解物联网通信组网原理与开发方法，覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。结合实际案例，展示如何利用LabVIEW和常用模块实现物联网系统的快速开发与原型设计，助你从基础到实战，全面掌握物联网开发技能。开源免费LabVIEW学习专栏分享：L
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

NLP冻手之路(2)——文本数据集的下载与各种操作(Datasets)

文章目录

一、需要的环境

二、数据集的了解

三、数据集的获取

3.1 方法一：直接调用函数获取

3.2 方法二：官网下载获取

四、数据集的操作

4.1 排序与打乱

4.2 选择和过滤

4.3 切分和分桶

4.4 列的新增、删除和重命名

4.5 map 函数

4.6 保存与加载

五、小结

六、补充说明

你可能感兴趣的:(NLP基础学习笔记,自然语言处理,人工智能,python)