daydreamer9816

BioCreative比赛：Track2：PubMed文章中的NLM-CHEM全文化学识别（NER）、实体链接（EL）和标引（indexing）

一、任务介绍

命名实体识别是许多复杂知识提取任务的重要组成部分。识别相关生物医学实体的错误是准确检索、分类和进一步理解文本语义（例如关系提取）的关键障碍。化学实体出现在整个生物医学研究文献中，是 PubMed 中最常搜索的实体类型之一。准确自动识别期刊出版物中提到的化学物质有可能转化为许多下游 NLP 任务和生物医学领域的改进

MeSH identifer：MeSH (Medical Subject Headings) is the NLM controlled vocabulary thesaurus used for indexing articles for PubMed. 用于为PubMed的文章建立索引。

任务1：Chemical Identification in full text: predicting all chemicals mentioned in recently published full-text articles, both span (i.e. named entity recognition) and normalization (i.e. entity linking) using MeSH. 命名实体识别+实体链接

任务2：Chemical Indexing prediction task: predicting which chemicals mentioned in recently published full-text articles should be indexed, i.e. appear in the listing of MeSH terms for the document. 二分类预测问题

本方法基于nlp数据处理工具spacy和BioBERT模型，并对biobert模型进行改进，同时完成NER、实体链接和indexing三个任务

二、数据集

数据集来自NLM-Chem语料库，包括150篇发表在PubMed Central Open Access上的全文期刊文章。

有两种类型的注释：

化学实体注释，用于化学命名识别任务（NER）

两种格式

注释类型、对应mesh标识符、位置信息、实体信息

2.网格索引注释，用于化学索引任务

两种格式：

annotation type：’MeSH_Indexing_Chemical’

an annotation identifier

the MeSH identifier

the MeSH terminology entry term

三、实验过程

思路：在原有BioBert模型上进行修改，增加实体链接任务和是否被索引预测的loss，三个子任务loss相加统一优化输出预测结果

1、数据集转换

spacy是Python里面的一个工业级别的nlp工具，足见其在自然语言处理方面的优势，所以我们有必要去了解，学习它。Spacy的功能包括词性标注，句法分析，命名实体识别，词向量，与深度学习无缝对接，以及它支持三十多种语言等等

使用spacy需要在环境中安装预训练模型

pip install --user spacy
python -m spacy download en_core_sci_sm

import spacy
nlp = spacy.load("en_core_sci_sm")

第一步将bioc形式的数据集转换为huggingface中NER模型输入的格式

主要代码：

def write_bert_ner_file(total_sentences, filename):
	cnt = 0
	elements = []
	for sentence in total_sentences:
		ner_tags = []
		tokens = []
		spans = []
		for i, ann in enumerate(sentence.annotations):
			tokens.append(ann.text)
			ner_tags.append(ann.infons.get('NE_label', "O"))
			spans.append((ann.total_span.offset, ann.total_span.end))
		element = {"id": len(elements), "document_id": sentence.infons["document_id"], "ner_tags": ner_tags, "tokens": tokens, "spans": spans}
		elements.append(element)
		cnt += 1
	with open(filename, 'w') as file:
		for element in elements:
			file.write(json.dumps(element) + "\n")
	return len(elements)

def convert_bioc_to_json(srcs, dest, entity_type = None):
	total_sentences = []
	for src in srcs:
		reader = bioc.BioCXMLDocumentReader(src)
		for document in reader:
			print("Processing document " + str(document.id) + ", number of sentences = " + str(len(total_sentences)))
			for passage in document.passages:
				text = passage.text
				sentences = tokenize_text(text, document.id, offset=passage.offset)
				total_sentences.extend(sentences)

				for ann in passage.annotations:
					if entity_type is None or ann.infons['type'] == entity_type:
						anns = _find_toks(sentences, ann.total_span.offset, ann.total_span.end)
						if len(anns) == 0:
							logging.debug('%s: Cannot find %s', document.id, ann)
							print_ner_debug(sentences, ann.total_span.offset, ann.total_span.end)
							continue
						has_first = False
						for ann in anns:
							if not has_first:
								ann.infons['NE_label'] = "B-" + entity_type
								has_first = True
							else:
								ann.infons['NE_label'] = "I-" + entity_type

	cnt = write_bert_ner_file(total_sentences, dest)
	logging.debug("Number of mentions: %s", cnt)
	return cnt

添加mesh和index的输入信息

entity_type = 'Chemical'
for document in reader: 
    print("Processing document " + str(document.id) + ", number of sentences = " + str(len(total_sentences)))
    for passage in document.passages:
        text = passage.text
        #display(text)  #输出文本
        sentences = tokenize_text(text, document.id, offset=passage.offset)
        #display(sentences)#分句
        #total_sentences.extend(sentences)
        total_sentences.extend(sentences)
        for ann in passage.annotations:
            #meshs=meshs.append(ann.infons['identifier'])
            #display(ann.infons['identifier'] )
            ann.infons['mesh']=ann.infons['identifier'] 
            if entity_type is None or ann.infons['type'] == entity_type:
                anns = _find_toks(sentences, ann.total_span.offset, ann.total_span.end)
                if len(anns) == 0:
                    logging.debug('%s: Cannot find %s', document.id, ann)
                    print_ner_debug(sentences, ann.total_span.offset, ann.total_span.end)
                    continue
                has_first = False
               # print(anns)
                #print(ann)
                for annn in anns:
                    mesh_count+=1
                    #print(annn)
                    if not has_first:
                        annn.infons['NE_label'] = "B-" + entity_type
                        annn.infons['mesh']=ann.infons['identifier']
                        
                        test_dict['id'].append(mesh_count)
                        test_dict['text'].append(annn.text)
                        test_dict['identifier'].append(annn.infons['mesh'])
                        has_first = True
                    else:
                        annn.infons['NE_label'] = "I-" + entity_type
                        annn.infons['mesh']=ann.infons['identifier']
                                                
                        test_dict['id'].append(mesh_count)
                        test_dict['text'].append(annn.text)
                        test_dict['identifier'].append(annn.infons['mesh'])
                #ann.infons['mesh']=ann.infons['identifier']

for document in reader: 
    print("Processing document " + str(document.id) + ", number of sentences = " + str(len(total_sentences)))
    for passage in document.passages:
        for ann in passage.annotations:
            text=ann.text
            #print(type(text))
            #print(ann)
            #print(ann.infons['type'])
            types=ann.infons['type']
            if types=='MeSH_Indexing_Chemical':
                #print(ann.infons["identifier"])
                index_mesh.append(ann.infons["identifier"])
                index_entry=ann.infons["entry_term"]
                #print(test_dict['identifier'])
                
i=0
for identifier in test_dict2['identifier']:
    if identifier in index_mesh:
        #print(identifier)
        #print(1)
        test_dict2['mesh_index_class'][i]=1
    i+=1

以json形式存入后

2、数据集处理

数据分析代码：获取label_to_id,id_to_label代码

#获取ner label list
	if isinstance(features[label_column_name].feature, ClassLabel):
		label_list = features[label_column_name].feature.names
		# No need to convert the labels since they are already ints.
		label_to_id = {i: i for i in range(len(label_list))}
	else:
		label_list = get_label_list(datasets["train"][label_column_name])
		label_to_id = {l: i for i, l in enumerate(label_list)}
	num_labels = len(label_list)
	print("LABELS: {}, len: {}".format(label_list, num_labels))

	#获取mesh label list
	if isinstance(features[label_mesh_column_name].feature, ClassLabel):
		label_mesh_list = features[label_mesh_column_name].feature.names
	# No need to convert the labels since they are already ints.
		label_mesh_to_id = {i: i for i in range(len(label_mesh_list))}
	else:
		label_mesh_list = get_label_list(datasets["train"][label_mesh_column_name])
		label_mesh_to_id = {l: i for i, l in enumerate(label_mesh_list)}
	num_mesh_labels = len(label_mesh_list)
	print("mesh_LABELS: {}, len: {}".format(label_mesh_list, num_mesh_labels))

	#获取index_class label list
	if isinstance(features[label_01_column_name].feature, ClassLabel):
		label_01_list = features[label_01_column_name].feature.names
	# No need to convert the labels since they are already ints.
		label_01_to_id = {i: i for i in range(len(label_01_list))}
	else:
		label_01_list = get_label_list(datasets["train"][label_01_column_name])
		label_01_to_id = {l: i for i, l in enumerate(label_01_list)}
	index_num_labels = len(label_01_list)
	print("index_LABELS: {}, len: {}".format(label_01_list, index_num_labels))

	id_to_label = dict(zip(label_to_id.values(), label_to_id.keys()))
	id_mesh_to_label = dict(zip(label_mesh_to_id.values(), label_mesh_to_id.keys()))
	id_01_to_label = dict(zip(label_01_to_id.values(), label_01_to_id.keys()))

		#ner labels
		labels = []
		for i, label in enumerate(examples[label_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels.append(label_ids)
		
		#mesh labels
		labels_mesh=[]
		for i, label in enumerate(examples[label_mesh_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_mesh_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_mesh_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels_mesh.append(label_ids)
		
		#index labels
		labels_01=[]
		for i, label in enumerate(examples[label_01_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_01_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_01_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels_01.append(label_ids)

编码ner、mesh和index三个任务的labels：

		#ner labels
		labels = []
		for i, label in enumerate(examples[label_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels.append(label_ids)
		
		#mesh labels
		labels_mesh=[]
		for i, label in enumerate(examples[label_mesh_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_mesh_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_mesh_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels_mesh.append(label_ids)
		
		#index labels
		labels_01=[]
		for i, label in enumerate(examples[label_01_column_name]):
			word_ids = tokenized_inputs.word_ids(batch_index=i)
			previous_word_idx = None
			label_ids = []
			for word_idx in word_ids:
				# Special tokens have a word id that is None. We set the label to -100 so they are automatically
				# ignored in the loss function.
				if word_idx is None:
					label_ids.append(-100)
				# We set the label for the first token of each word.
				elif word_idx != previous_word_idx:
					label_ids.append(label_01_to_id[label[word_idx]])
				# For the other tokens in a word, we set the label to either the current label or -100, depending on
				# the label_all_tokens flag.
				else:
					label_ids.append(label_01_to_id[label[word_idx]] if data_args.label_all_tokens else -100)
				previous_word_idx = word_idx

			labels_01.append(label_ids)

传入tokenize数据集：

tokenized_inputs["labels_mesh"] = labels_mesh
		tokenized_inputs["labels_01"] = labels_01
		tokenized_inputs["labels"] = labels

3、修改BioBERT模型代码：

主要修改/home1/zhaiwq/anaconda3/envs/biobert/lib/python3.9/site-packages/transformers/models/bert/modeling_bert.py和/home1/zhaiwq/anaconda3/envs/biobert/lib/python3.9/site-packages/transformers/trainer.py

模型修改：class BertForTokenClassification(BertPreTrainedModel):函数中增加两个分类器，一个多分类解决mesh identifer链接问题，一个二分类器解决indexing问题

self.net1 = nn.Sequential(
            nn.Linear(768, 512),
            nn.ReLU(),
            nn.Linear(512, 768),
            nn.ReLU(),
            nn.Linear(768, 1411),
            nn.Softmax(dim=None)
            )   

        #index_class模型
        self.net2 = nn.Sequential(
            nn.Linear(768, 512),
            nn.ReLU(),
            nn.Linear(512, 100),
            nn.ReLU(),
            nn.Linear(100, 2),
            nn.Sigmoid()
            )

sequence_output = outputs[0]
        sequence_output = self.dropout(sequence_output)
        logits1 = self.classifier(sequence_output)
        outputs1=logits1
        logits2 = self.net1(sequence_output)
        logits3 = self.net2(sequence_output)
        loss = None

        labels1 = logits1.argmax(2)
        labels2 = logits2.argmax(2)
        labels3 = logits3.argmax(2)

        nlabels1, nlabels2, nlabels3 = [], [], []
        for i in range(labels.shape[0]):
            nlab1, nlab2, nlab3 = [], [], []
            for l, l1, l2, l3 in zip(labels[i], labels1[i], labels2[i], labels3[i]):
                if l == -100: continue
                nlab1.append(l1.item())

                if l1 == 0:
                    nlab2.append(l2.item())
                    nlab3.append(l3.item())
                else:
                    nlab2.append(-1)
                    nlab3.append(-1)

            nlabels1.append(nlab1)
            nlabels2.append(nlab2)
            nlabels3.append(nlab3)

        return nlabels1, nlabels2, nlabels3, loss

train.py中调用模型

loss, outputs1, outputs2, outputs3 = self.compute_loss(model, inputs, return_outputs=True)
                    # ipdb.set_trace()
                    return outputs1, outputs2, outputs3
                    loss = loss.mean().detach()
                    if isinstance(outputs, dict):
                        logits = tuple(v for k, v in outputs.items() if k not in ignore_keys + ["loss"])
                    else:
                        logits = outputs

预测：

all_labels1, all_labels2, all_labels3 = [], [], []
        # Main evaluation loop
        for step, inputs in enumerate(dataloader):
            #if step > 10: continue 
            # Update the observed num examples
            observed_batch_size = find_batch_size(inputs)
            if observed_batch_size is not None:
                observed_num_examples += observed_batch_size
            
            

            # Prediction step
            #ipdb.set_trace()
            # loss, logits, labels = self.prediction_step(model, inputs, prediction_loss_only, ignore_keys=ignore_keys)
            labs1, labs2, labs3 = self.prediction_step(model, inputs, prediction_loss_only, ignore_keys=ignore_keys)
            all_labels1.extend(labs1)
            all_labels2.extend(labs2)
            all_labels3.extend(labs3)

最后结果：

任务1

任务2：

python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
Python if-else对缩进的要求宇寒风暖 python编程 python 开发语言学习笔记
在Python中，缩进是语法的一部分，用于表示代码块的层次结构。if-else语句的代码块必须通过缩进来定义，缩进不正确会导致语法错误或逻辑错误。1.缩进的基本规则1.1缩进的作用缩进用于表示代码块的层次结构。同一代码块中的语句必须具有相同的缩进级别。缩进通常使用4个空格，这是Python官方推荐的风格。1.2示例x=10ifx>5:print("x大于5")#缩进4个空格print("这是if代
一文弄懂 Python assert 断言宇寒风暖 python编程 python 开发语言学习笔记
在Python中，assert是一种用于调试的语句，用于检查某个条件是否为True。如果条件为False，assert会抛出AssertionError异常，并可选地输出错误信息。assert通常用于在开发阶段验证程序的假设条件，确保代码的正确性。1.assert的基本语法1.1语法assertcondition,messagecondition：需要检查的条件表达式。message：可选参数，当
开源项目常见问题解决方案——cryptography 周屹隽
开源项目常见问题解决方案——cryptographycryptographycryptographyisapackagedesignedtoexposecryptographicprimitivesandrecipestoPythondevelopers.项目地址:https://gitcode.com/gh_mirrors/cr/cryptography项目基础介绍cryptography是一个
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
Python文件加密库之cryptography使用详解 Rocky006 python 开发语言
概要在现代信息社会中，数据的安全性变得越来越重要。为了保护敏感信息，文件加密技术被广泛应用。Python的cryptography库提供了强大的加密功能，可以轻松实现文件加密和解密。本文将详细介绍如何使用cryptography库进行文件加密，包含具体的示例代码。cryptography库简介cryptography是Python中一个功能强大且易用的加密库，提供了对称加密、非对称加密、哈希算法、
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
cryptography，一个神奇的 Python 库！ Sitin涛哥 Python python 开发语言
更多资料获取个人网站：ipengtao.com大家好，今天为大家分享一个神奇的Python库-cryptography。Github地址：https://github.com/pyca/cryptography在当今数字化时代，信息安全越来越受到重视。数据加密是保护数据安全的重要手段之一，而Python的cryptography库提供了丰富的功能来支持各种加密算法和协议。本文将深入探讨crypto
深度讨论Python for循环观智能 python 开发语言
作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
Python第六章08：元组操作练习题苹果.Python.八宝粥 python 开发语言
#元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
Python第六章07：元组的定义和操作苹果.Python.八宝粥 python 前端开发语言
#tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
babel 埋点插件小猫儿工具环境配置等 javascript 开发语言 ecmascript
我们通常对babel的理解就是它可以帮助我们去处理兼容性，也就是有些JavaScript的新特性，可能我们想去使用，但对于某些浏览器来说还并未支持，此时我们就可以通过babel将我们的代码降级处理为浏览器兼容的执行版本，以便能够运行在当前和旧版本的浏览器或其他环境中。Babel插件就是作用于抽象语法树。Babel三个主要的处理步骤就是解析（parse），转换（transform），生成（gener
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

BioCreative比赛：Track2：PubMed文章中的NLM-CHEM全文化学识别（NER）、实体链接（EL）和标引（indexing）

你可能感兴趣的:(自然语言处理,hilbert,transform,python,深度学习)