天然玩家

自然语言处理:数据集预处理词向量嵌入

1 原始数据提取问答数据集并保存

原始数据剪切即把如下格式的问答语句转换成正常的问答语料.从原始数据中提取完整的对话,并处理成问答格式,最终将问题和答案数据分开保存.

原始数据

E
M 呵呵
M 是王若猫的。
E
M 不是
M 那是什么？
E

正常问答语料

呵呵
是王若猫的。
不是
那是什么？

1.0 提取对话

def process_cut(source_path, cut_path):
	'''提取完整对话集.
	参数:
	source_path: 原始语料路径
	cut_path: 保存剪切后的数据路径
	'''
	'''完整对话集.'''
	convs = []
	with open(source_path, 'r', encoding='utf8') as f:
		'''<_io.TextIOWrapper name='./data/source_data.conv' mode='r' encoding='utf8'>'''
		print("open context object: {}".format(f))
		# data = f.readlines()
		'''['E\n', 'M 呵呵\n', 'M 是王若猫的。\n]'''
		# print("data: {}".format(data))
		'''完整对话集,包含问题和答案.'''
		complete_dialog = []
		for line in f:
			'''删除换行符: \n'''
			line = line.strip('\n')
			
			if line == "":
				continue
			if line[0] == "E":
				if complete_dialog:
					'''若判断为E标志,将问答语句填充到语料库convs.'''
					convs.append(complete_dialog)
					'''存储一组对话后,清空当前对话,为下一组对话存储准备'''
					complete_dialog = []
			if line[0] == 'M':
				'''若为M则提取对话内容,存储到单独对话库complete_dialog.'''
				complete_dialog.append(line[1:])
				'''
				contain M: M 三鹿奶粉也假，不一样的卖啊

				'''
				# print("contain M: {}".format(line))
			'''
			line data: E
			
			line data: M 呵呵
			
			'''
			# print("line data: {}".format(line))
		# print("Complete dialog {}".format(complete_dialog))
	print("All complete dialog: {}".format(convs))
	return convs

if __name__ == "__main__":
	source_path = "./data/source_data.conv"
	process_cut(source_path, None)

Result

[[' 呵呵', ' 是王若猫的。'], [' 不是', ' 那是什么？'], [' 怎么了', ' 我很难过，安慰我~'], [' 开心点哈,一切都会好起来', ' 嗯 会的'], [' 我还喜欢她,怎么办', ' 我帮你告诉她？发短信还是打电话？'], [' 短信', ' 嗯嗯。我也相信'], [' 你知道谁么', ' 肯定不是我，是阮德培'], [' 许兵是谁', ' 吴院四班小帅哥'], [' 这么假', ' 三鹿奶粉也假，不一样的卖啊'], [' 许兵是傻逼', ' 被你发现了。'], [' 许兵是谁', ' 是我善良可爱的主人的老公啊'], [' 许兵是谁', ' 是穆森的老婆啊'], [' 许兵是谁', ' 奇葩']]

1.2 提取问答对话

def question_answer(convs):
	questions = []
	answers = []
	for conv in convs:
		if len(conv) == 1:
			continue
		if len(conv) % 2 != 0:
			'''if dialog was not one to one, delete the last one and keep Q&A.'''
			conv = conv[:-1]
		for i in range(len(conv)):
			if i % 2 == 0:
				questions.append(conv[i])
			else:
				answers.append(conv[i])
	print("questions: {} \n answers: {}".format(questions, answers))
	return questions, answers
if __name__ == "__main__":
	source_path = "./data/source_data.conv"
	convs = process_cut(source_path, None)
	questions, answers = question_answer(convs)

Result

questions: [' 呵呵', ' 不是', ' 怎么了', ' 开心点哈,一切都会好起来', ' 我还喜欢她,怎么办', ' 短信', ' 你知道谁么', ' 许兵是谁', ' 这么假', ' 许兵是傻逼', ' 许兵是谁', ' 许兵是谁', ' 许兵是谁'] 
 answers: [' 是王若猫的。', ' 那是什么？', ' 我很难过，安慰我~', ' 嗯 会的', ' 我帮你告诉她？发短信还是打电话？', ' 嗯嗯。我也相信', ' 肯定不是我，是阮德培', ' 吴院四班小帅哥', ' 三鹿奶粉也假，不一样的卖啊', ' 被你发现了。', ' 是我善良可爱的主人的老公啊', ' 是穆森的老婆啊', ' 奇葩']

1.3 保存问答语料

def save_question_answer(questions, answers, test_size,
							train_question_path, train_answer_path,
							test_question_path, test_answer_path):
	'''保存问答语料数据集.

	:params questions: 问题列表
	:params answers: 答案列表
	:params test_size: 测试数据数量
	:params train_question_path: 用于训练的问题数据集 
	:params train_answer_path: 用于训练的答案数据集
	:params test_question_path: 用于测试的问题数据集
	:params test_answer_path: 用于测试的答案数据集
	'''
	'''训练数据集文件文件路径.'''
	train_quesition_enc = open(train_question_path, "w")
	train_answer_dec = open(train_answer_path, "w")
	'''测试数据集文件路径.'''
	test_question_enc = open(test_question_path, "w")
	test_answer_dec = open(test_answer_path, "w")
	'''根据设定的测试数据集尺寸随机提取测试数据.''' 
	test_index = random.sample([i for i in range(len(questions))], test_size)

	for i in range(len(questions)):
		'''提取测试数据集'''
		if i in test_index:
			test_question_enc.write(questions[i]+'\n')
			test_answer_dec.write(answers[i]+'\n')
		else:
			'''提取训练数据集'''
			train_quesition_enc.write(questions[i]+'\n')
			train_answer_dec.write(answers[i]+'\n')
	train_quesition_enc.close()
	train_answer_dec.close()
	test_question_enc.close()
	test_answer_dec.close()
if __name__ == "__main__":
	source_path = "./data/source_data.conv"
	convs = process_cut(source_path, None)
	print("convs: {}".format(convs))
	questions, answers = question_answer(convs)
	# print("questions: {} \n answers: {}".format(questions, answers))
	'''文件夹列表'''
	folder_list = ["./data/train/", "./data/test/"]
	'''文件列表'''
	file_list = ["./data/train/question.enc", "./data/train/answer.dec", "./data/test/question.enc", "./data/test/answer.dec"]
	for i in range(len(folder_list)):
		'''若文件夹不存在,则新建'''
		if not os.path.exists(folder_list[i]):
			os.makedirs(folder_list[i])
	for i in range(len(file_list)):
		'''若文件不存在,则新建'''
		if not os.path.exists(file_list[i]):
			os.mknod(file_list[i])
	'''设置训练数据集路径.'''
	train_question_path = file_list[0]
	train_answer_path = file_list[1]
	'''设置测试数据集路径.'''
	test_question_path = file_list[2]
	test_answer_path = file_list[3]
	save_question_answer(questions, answers, 5,
						train_question_path, train_answer_path,
						test_question_path, test_answer_path)

2 问答数据集词转向量

2.1 生成词汇表

def generate_vocabulary(datasets, vocabulary_data):
	PAD = "__PAD__"
	GO = "__GO__"
	EOS = "__EOS__"  # 对话结束
	UNK = "__UNK__"  # 标记未出现在词汇表中的字符
	START_VOCABULART = [PAD, GO, EOS, UNK]
	PAD_ID = 0
	GO_ID = 1
	EOS_ID = 2
	UNK_ID = 3
	vocabulary = {}
	new_vocabulary = []
	with open(datasets, "r") as f:
		counter = 0
		for line in f:
			counter += 1
			'''删除句子首尾的换行,并提取句子中的字,进行计数.'''
			tokens = [word for word in line.strip()]
			for word in tokens:
				if word in vocabulary:
					vocabulary[word] += 1
				else:
					vocabulary[word] = 1

	vocabulary_list = START_VOCABULART + sorted(vocabulary, key=vocabulary.get, reverse=True)
	print("vocabulary: {}".format(vocabulary_list))
	with open(vocabulary_data, "w") as f:
		for word in vocabulary_list:
			f.write(word+'\n')

if __name__ == "__main__":
	file_list = ["./data/train/question.enc", "./data/train/answer.dec", "./data/test/question.enc", "./data/test/answer.dec"]
	voc_list = ["./data/train/question_voc", "./data/train/answer_voc"]
	for i in range(len(voc_list)):
		'''检测保存的词汇表是否存在,不存在则新建新建'''
		if not os.path.exists(voc_list[i]):
			os.mknod(voc_list[i])
		'''生成问题和答案的词汇表并保存'''
		generate_vocabulary(file_list[i], voc_list[i])

Result

vocabulary: ['__PAD__', '__GO__', '__EOS__', '__UNK__', '是', '谁', '许', '兵', '呵', '么', '不', '短', '信', '你', '知', '道', '这', '假', '傻', '逼']
vocabulary: ['__PAD__', '__GO__', '__EOS__', '__UNK__', '是', '。', '的', '嗯', '我', '也', '不', '，', '王', '若', '猫', '那', '什', '么', '？', '相', '信', '肯', '定', '阮', '德', '培', '吴', '院', '四', '班', '小', '帅', '哥', '三', '鹿', '奶', '粉', '假', '一', '样', '卖', '啊', '被', '你', '发', '现', '了', '奇', '葩']

2.2 词转向量

def word_to_vector(dataset_qa, vocabulary, vector):
	UNK_ID = 3
	tmp_vocab = []
	with open(vocabulary, "r") as f:
		'''
		读取全部数据到内存,使用extend方法将整个数据拆分为单个数据,
		而不是以整块数据存储到列表中,如数据[0, 1, 2],[2, 3, 5]
		使用append则存储的为:[[0, 1, 2],[2, 3, 5]]
		使用extend存储为:[0, 1, 2, 2, 3, 5]
		'''
		tmp_vocab.extend(f.readlines())
	'''删除换行符: \n'''
	tmp_vocab = [line.strip() for line in tmp_vocab]
	'''
	将文字与对应的数字即行号对应,使用enumerate使数与字对应(0,"__PAD__")
	不达标,因此使用交换(y,x)to(x,y)即可
	最后使用dict将tuple转为dict,格式为{'__PAD__': 0, '__GO__': 1, '__EOS__': 2, '__UNK__': 3, '是': 4, '谁': 5, '许': 6, '兵': 7, '呵': 8, '么': 9, '不': 10, '短': 11, '信': 12, '你': 13, '知': 14, '道': 15, '这': 16, '假': 17, '傻': 18, '逼': 19}
	'''
	vocab = dict([(x,y) for (y,x) in enumerate(tmp_vocab)])
	print("vocabulay dictionary: {}".format(vocab))
	with open(vector, "w") as f_vector:
		with open(dataset_qa, "r") as f_qa:
			for line in f_qa:
				line_vec = []
				for words in line.strip():
					'''将字与序号对应:提取字典键对应的值,若不存在,使用UNK_ID替代'''
					line_vec.append(vocab.get(words, UNK_ID))
				print("line vector: {}".format(line_vec))
				f_vector.write(" ".join([str(num) for num in line_vec]) + '\n')
if __name__ == "__main__":
	
	word_to_vector("./data/train/question.enc","./data/train/question_voc", "./data/train/question.voc")

Result

vocabulay dictionary: {'__PAD__': 0, '__GO__': 1, '__EOS__': 2, '__UNK__': 3, '是': 4, '谁': 5, '许': 6, '兵': 7, '呵': 8, '么': 9, '不': 10, '短': 11, '信': 12, '你': 13, '知': 14, '道': 15, '这': 16, '假': 17, '傻': 18, '逼': 19}
line vector: [8, 8]
line vector: [10, 4]
line vector: [11, 12]
line vector: [13, 14, 15, 5, 9]
line vector: [6, 7, 4, 5]
line vector: [16, 9, 17]
line vector: [6, 7, 4, 18, 19]
line vector: [6, 7, 4, 5]

2.3 按行截取数据

def extract_data(source_path, output_path, start, stop):
	'''提取指定行的数据并保存.
	:params source_path: 原始数据路径.
	:params output_path: 保存数据路径.
	:params start: 起始行号.
	:params stop: 结束行号.
	return:
	返回文件数据行数.
	'''
	line_number = 0
	if not os.path.exists(output_path):
		os.mknod(output_path)
	with open(source_path, 'r') as fi:
		'''读取文件,获取文件行数'''
		line_number = len(fi.readlines())

	with open(source_path, 'r') as fi:
		if start < 0 or start > line_number or stop <= start or stop < 0:
			return "起始行设置错误,请重新设置."
		else: 
			counter = 0
			for line in fi:
				counter += 1
				if counter >= start:
					with open(output_path, "a") as fo:
						fo.write(line)
						if counter == stop:
							break	
			return line_number
if __name__ == "__main__":
	counter_line = extract_data("./data/source_data.conv", "./data/extra_data.conv", 2, 14)
	print("data lines nubmers: {}".format(counter_line))

3 完整代码

import random
import os
def process_cut(source_path, cut_path):
	'''Process source data.
	Save data expect E,M.

	:params source_path: source dialog path
	:params cut_path: save dialog path

	return:
	convs: complete dialogs.
	'''

	'''Saved all conversations.'''
	convs = []
	with open(source_path, 'r', encoding='utf8') as f:
		'''<_io.TextIOWrapper name='./data/source_data.conv' mode='r' encoding='utf8'>'''
		print("open context object: {}".format(f))
		# data = f.readlines()
		'''['E\n', 'M 呵呵\n', 'M 是王若猫的。\n]'''
		# print("data: {}".format(data))
		# one_conv = []
		'''Complete dialog: contains Question and Answer.'''
		complete_dialog = []
		for line in f:
			'''Delete line feed symbol: \n'''
			line = line.strip('\n')
			
			if line == "":
				continue
			if line[0] == "E":
				if complete_dialog:
					'''Add dialog to conversations list.'''
					convs.append(complete_dialog)
					complete_dialog = []
			if line[0] == 'M':
				'''Extract Question and Answer which contains in M'''
				complete_dialog.append(line[1:])
				'''
				contain M: M 三鹿奶粉也假，不一样的卖啊

				'''
				# print("contain M: {}".format(line))
			'''
			line data: E
			
			line data: M 呵呵
			
			'''
			# print("line data: {}".format(line))
		# print("Complete dialog {}".format(complete_dialog))
	# print("All complete dialog: {}".format(convs))
	return convs
def question_answer(convs):
	'''Extract questions and answers from dialog.
	:params convs: dialogs.

	return:
	questions: questions
	answers: answers
	'''
	questions = []
	answers = []
	for conv in convs:
		if len(conv) == 1:
			continue
		if len(conv) % 2 != 0:
			'''if dialog was not one to one, delete the last one and keep Q&A.'''
			conv = conv[:-1]
		for i in range(len(conv)):
			'''Extract Question.'''
			if i % 2 == 0:
				questions.append(conv[i])
			else:
				'''Extract Answer.'''
				answers.append(conv[i])
	print("questions: {} \n answers: {}".format(questions, answers))
	return questions, answers


def save_question_answer(questions, answers, test_size,
							train_question_path, train_answer_path,
							test_question_path, test_answer_path):
	'''Save question and answer dataset.
	:params questions: question
	:params answers: answer
	:params test_size: set test data number and save
	:params train_question_path: question dataset path for train 
	:params train_answer_path: answer dataset path for train
	:params test_question_path: question dataset path for test
	:params test_answer_path: answer dataset path for test
	'''
	'''Train dataset.'''
	train_quesition_enc = open(train_question_path, "w")
	train_answer_dec = open(train_answer_path, "w")
	'''Test dataset.'''
	test_question_enc = open(test_question_path, "w")
	test_answer_dec = open(test_answer_path, "w")
	'''Random get test dateset which number is test_size.''' 
	test_index = random.sample([i for i in range(len(questions))], test_size)

	for i in range(len(questions)):
		if i in test_index:
			test_question_enc.write(questions[i]+'\n')
			test_answer_dec.write(answers[i]+'\n')
		else:
			train_quesition_enc.write(questions[i]+'\n')
			train_answer_dec.write(answers[i]+'\n')
	train_quesition_enc.close()
	train_answer_dec.close()
	test_question_enc.close()
	test_answer_dec.close()

def generate_vocabulary(datasets, vocabulary_data):
	PAD = "__PAD__"
	GO = "__GO__"
	EOS = "__EOS__"  # 对话结束
	UNK = "__UNK__"  # 标记未出现在词汇表中的字符
	START_VOCABULART = [PAD, GO, EOS, UNK]
	PAD_ID = 0
	GO_ID = 1
	EOS_ID = 2
	UNK_ID = 3
	file_list = ["./data/train/question.enc", "./data/train/answer.dec", "./data/test/question.enc", "./data/test/answer.dec"]
	vocabulary = {}
	new_vocabulary = []
	with open(datasets, "r") as f:
		counter = 0
		for line in f:
			counter += 1
			'''Delete lind feed symbol: \n, and extract word in sentence.'''
			tokens = [word for word in line.strip()]
			for word in tokens:
				if word in vocabulary:
					vocabulary[word] += 1
				else:
					vocabulary[word] = 1

	vocabulary_list = START_VOCABULART + sorted(vocabulary, key=vocabulary.get, reverse=True)
	print("vocabulary: {}".format(vocabulary_list))
	with open(vocabulary_data, "w") as f:
		for word in vocabulary_list:
			f.write(word+'\n')


def word_to_vector(dataset_qa, vocabulary, vector):
	UNK_ID = 3
	tmp_vocab = []
	with open(vocabulary, "r") as f:
		'''Append word one by one to list as dependent element not entirely append to list.'''
		tmp_vocab.extend(f.readlines())
	'''Delete line feed: \n'''
	tmp_vocab = [line.strip() for line in tmp_vocab]
	'''Trans tmp_vocab to this format[()] and then convert to dict by dict{key:value}.'''
	vocab = dict([(x,y) for (y,x) in enumerate(tmp_vocab)])
	'''vocabulay dictionary: {'__PAD__': 0, '__GO__': 1, '__EOS__': 2, '__UNK__': 3, '是': 4, '谁': 5, '许': 6, '兵': 7, '呵': 8, '么': 9, '不': 10, '短': 11, '信': 12, '你': 13, '知': 14, '道': 15, '这': 16, '假': 17, '傻': 18, '逼': 19}
'''
	print("vocabulay dictionary: {}".format(vocab))
	with open(vector, "w") as f_vector:
		with open(dataset_qa, "r") as f_qa:
			for line in f_qa:
				line_vec = []
				for words in line.strip():
					line_vec.append(vocab.get(words, UNK_ID))
				# print("line vector: {}".format(line_vec))
				f_vector.write(" ".join([str(num) for num in line_vec]) + '\n')


def process_data(dataset_qa, vocabulary, vector):
	'''Read and save dataset.'''
	source_path = "./data/source_data.conv"
	convs = process_cut(source_path, None)
	print("convs: {}".format(convs))
	questions, answers = question_answer(convs)
	# print("questions: {} \n answers: {}".format(questions, answers))
	folder_list = ["./data/train/", "./data/test/"]
	file_list = ["./data/train/question.enc", "./data/train/answer.dec", "./data/test/question.enc", "./data/test/answer.dec"]
	for i in range(len(folder_list)):
		if not os.path.exists(folder_list[i]):
			os.makedirs(folder_list[i])
	for i in range(len(file_list)):
		if not os.path.exists(file_list[i]):
			os.mknod(file_list[i])
	'''Seting train dataset path.'''
	train_question_path = file_list[0]
	train_answer_path = file_list[1]
	'''Seting test dataset path.'''
	test_question_path = file_list[2]
	test_answer_path = file_list[3]
	save_question_answer(questions, answers, 5,
						train_question_path, train_answer_path,
						test_question_path, test_answer_path)
	PAD = "__PAD__"
	GO = "__GO__"
	EOS = "__EOS__"  # 对话结束
	UNK = "__UNK__"  # 标记未出现在词汇表中的字符
	START_VOCABULART = [PAD, GO, EOS, UNK]
	PAD_ID = 0
	GO_ID = 1
	EOS_ID = 2
	UNK_ID = 3
	voc_list = ["./data/train/question_voc", "./data/train/answer_voc"]
	for i in range(len(voc_list)):
		if not os.path.exists(voc_list[i]):
			os.mknod(voc_list[i])
		generate_vocabulary(file_list[i], voc_list[i])
	word_to_vector(dataset_qa, vocabulary, vector)
if __name__ == "__main__":
	process_data("./data/train/question.enc","./data/train/question_voc", "./data/train/question.vec")

4 总结

文本处理流程:

Created with Raphaël 2.2.0 开始清洗原始数据,提取问答到内存将问答语料拆分为问和答并保存(train&test) 从问答语料创建词汇表并保存将词汇表在内存中生成字和数字的映射通过映射数据生成词向量结束

文本编号

将文本按照词频顺序排列

import codecs
import collections
from operator import itemgetter

RAW_DATA = "vocabulary.txt"
VOCAB_OUTPUT = "ptb.vocab"

counter = collections.Counter()
with codecs.open(RAW_DATA, "r", "utf-8") as f:
	for line in f:
		for word in line.strip().split():
			counter[word] += 1
			print(counter)

sorted_word_to_cnt = sorted(counter.items(), key=itemgetter(1), reverse=True)
print(sorted_word_to_cnt)
sorted_words = [x[0] for x in sorted_word_to_cnt]
print(sorted_words)

sorted_words = [""] + sorted_words
print(sorted_words)

sorted_words = ["", "", ""] + sorted_words
print(sorted_words)

with codecs.open(VOCAB_OUTPUT, 'w', 'utf-8') as file_output:
	for word in sorted_words:
		file_output.write(word + "\n")

文本分配编号

import codecs
import sys

RAW_DATA = "vocabulary.txt"
VOCAB = "ptb.vocab"
OUTPUT_DATA = "ptb.train"

#读取词汇表
with codecs.open(VOCAB, "r", "utf-8") as f_vocab:
	vocab = [w.strip() for w in f_vocab.readlines()]
#新建字典：文本:行号
word_to_id = {k: v for (k, v) in zip(vocab, range(len(vocab)))}
#获取词汇表中词对应的行号
def get_id(word):
	return word_to_id[word] if word in word_to_id else word_to_id[""]

fin = codecs.open(RAW_DATA, "r", "utf-8")
fout = codecs.open(OUTPUT_DATA, "w", "utf-8")

for line in fin:
	words = line.strip().split() + [""]
	out_line = ' '.join([str(get_id(w)) for w in words]) + '\n'
	fout.write(out_line)

fin.close()
fout.close()

带你拿捏哈希表ん贤算法哈希算法算法散列表 c++java 数据结构
向Carl老师学习，用最简单的话，讲述最复杂的知识。(•̀ω•́)✧什么是哈希表？灵魂一问，这是正常人看到后，都会产生的疑问，就好比你是谁。初学者可以将其看成一个数组！大家都知道数组是怎么存数据的！通过下标(0~N，是一串连续的数字)，将对应数据为其赋值。哈希表大致就是这样存储的。既然如此，那为啥它不叫数组，而叫哈希表(⊙_⊙)？因为哈希表计算计算下标的时候，是通过一个名为哈希函数的工具，将key
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
【数字IC验证】博客内容全览 MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
【导读】：数字IC验证百宝箱涵盖博主在实际工作中常用的技能与工具，包括但不限于SV、UVM、Formal、脚本(perl/python/shell)及EDA工具快速上手使用等。无论你是刚踏入职场的验证小白，还是希望回顾基础寻找跳槽机会的从业者，本专栏都能为你提供实用的技术支持，在达成目标的路上，助你一臂之力。“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接
论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
SDN技术解码：架构革新与数字化转型实践指南 ——从控制平面到AI融合的网络进化论不想加班的码小牛架构平面人工智能网络协议
一、引言：SDN如何重塑网络价值体系？在数字化浪潮下，传统网络架构的僵化性已成为制约业务创新的瓶颈。SDN（软件定义网络）通过解耦控制与转发平面，将网络从“黑盒设备”转变为“可编程服务”，为云计算、物联网等领域提供动态、智能的网络底座。例如，某金融企业通过SDN实现跨地域数据中心流量智能调度，业务故障恢复时间缩短至分钟级。二、SDN核心架构与技术原理1.三层架构：控制-转发-应用的协同生态•控制层
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
应用场景下的芯片分类绿算技术芯片类型科普探索 html 人工智能科技
从数据中心级别的高性能芯片，到消费类产品级别的日常应用芯片；从工业类产品级别的稳定可靠芯片，到汽车电子级别的高要求芯片；再到军工和国防级别的专用芯片，不同类型的芯片正以其独特的功能和应用场景，满足着多样化的需求。电路类型下的芯片分类·数字电路芯片：处理数字信号，广泛应用于计算机、通信设备等领域。·模拟电路芯片：处理模拟信号，常用于音频、视频处理等场景。·数模混合电路芯片：兼具数字和模拟信号处理功能
解锁数字世界的多样力量绿算技术芯片类型科普探索人工智能云计算 html 科技
数字科技蓬勃发展，芯片作为现代电子设备的核心驱动力，正以其多样化的类型和独特的功能，塑造着我们生活中的每一个角落。从智能手机的高效运作，到超级计算机的超强算力，芯片无处不在，默默推动着科技的进步与革新。绿算技术致力于数据“智慧加载、安全存取”的信息技术创新，自主研发多类芯片产品。今天，就让我们一同走进芯片的世界，揭开那些鲜为人知却至关重要的芯片类型，感受它们背后的科技魅力。功能视角下的芯片分类1.
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
MyBatis相关的面试题努力的搬砖人. java 面试 mybatis
以下是150道MyBatis相关的面试题及详细答案：MyBatis基础1.MyBatis是什么？MyBatis是一个优秀的持久层框架，它支持自定义SQL语句、存储过程以及高级映射，避免了几乎所有的JDBC代码和手动设置参数以及获取结果的操作。2.MyBatis的优缺点是什么？优点：•提高开发效率，减少重复的JDBC代码。•提供XML和注解两种方式编写SQL，灵活方便。•支持动态SQL，可以根据不同
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
自动化测试：从入门到精通的全面指南测试工程师成长之路测试工程师成长之路自动化测试
一、引言在当今数字化时代，软件行业蓬勃发展，软件产品的更新换代愈发频繁。为了确保软件的质量和稳定性，测试工作变得至关重要。然而，随着软件规模的不断扩大和功能的日益复杂，传统的手工测试方法逐渐暴露出效率低下、容易出错等问题。自动化测试作为一种高效、可靠的测试手段，应运而生并迅速发展，成为现代软件测试领域不可或缺的一部分。自动化测试是指借助专门的测试工具和编程技术，将原本由人工执行的测试用例转化为机器
3D FFT在波束形成中的详细解释 DuHz 算法信息与通信信号处理
3DFFT在波束形成中的详细解释1.引言在雷达、声呐和无线通信等领域，为了从空间中获取目标或信号的方向信息，通常需要用到波束形成(Beamforming)技术。波束形成可以理解为一种通过数字信号处理手段，将天线阵列（或传感器阵列）接收的多路信号进行加权和，形成对特定方向（或多个方向）的增强或抑制，从而实现对目标/信号的方位估计与检测的技术。1.11D,2D,和3D波束形成1D波束形成通常针对线阵(
【正则表达式】 lmk565 工具正则表达式
文章目录1元字符2重复3字符4分支条件5反义6分组6.1捕获分组6.2非捕获分组7零宽断言8注释9贪婪与懒惰10POSIX字符类（仅US-ASCII）11转义12匹配模式1元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字^匹配字符串的开始$匹配字符串的结束\b匹配字符串的结束举例：8答案：\d2重复代码/语法说明*重复零次或更多次+重复一次
Linux基础指令详解：掌握Linux系统的必备技能 A-Kamen linux 服务器运维
Linux基础指令详解：掌握Linux系统的必备技能在数字化时代，Linux以其稳定性、安全性和灵活性成为了服务器、嵌入式系统以及开发环境中的首选操作系统。对于初学者而言，掌握Linux的基本指令是踏入这个强大操作系统的第一步。本文将详细介绍一些Linux系统中最为基础且常用的指令，帮助读者快速上手Linux。一、Linux基础指令概述Linux指令行界面（CLI）是其核心部分之一，通过命令行可以
在线 SQL 转 Python ORM工具 A__tao sql oracle 数据库
一款高效的在线SQL转PythonORM，支持自动解析SQL语句并生成PythonORM模型代码，适用于数据库管理、后端开发和ORM结构映射。无需手写ORM模型，一键转换SQL结构，提升开发效率，简化数据库操作。gotool
【蓝桥杯】24省赛：数字串个数遥感小萌新蓝桥杯蓝桥杯职场和发展
思路本质是组合数学问题：9个数字组成10000位数字有9**10000可能不包括3的可能8**10000不包括7的可能8**10000既不包括3也不包括77**10000根据容斥原理：结果为9∗∗10000−8∗∗10000−8∗∗10000+7∗∗100009**10000-8**10000-8**10000+7**100009∗∗10000−8∗∗10000−8∗∗10000+7∗∗10000
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来 ai开发
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来在数字化转型加速的今天，企业新质生产力的核心已从传统资源投入转向技术驱动的效率革命。开源应用凭借其灵活性、成本优势和技术创新力，成为企业实现这一目标的关键引擎。作为开源技术与行业场景化落地的领航者，Websoft9通过企业应用平台（EPP）、AI智能引擎与知识库系统三位一体的解决方案，助力企业快速构建新一代生产力工具，实
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发应用开发
引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个二维矩阵，每个元素代表一个像素的灰度值或颜色值。在HarmonyNex
Linux arp(地址解析协议) 命令使用详解 linux
简介arp（地址解析协议）命令用于查看、添加和修改系统的ARP缓存。ARP缓存存储了IP地址和MAC地址之间的映射，有助于网络中的计算机高效通信。许多现代Linux发行版使用ipneigh（来自iproute2）而不是arp。但是，arp对于管理ARP表仍然有用。示例用法显示ARP表arp-a或ipneighshow#这将显示当前ARP缓存，显示IP地址、MAC地址和网络接口示例输出192.168
人脸识别生物特征脱敏：不可逆编码技术与隐私保护实战燃灯工作室 Ai 自动化 pytorch tensorflow 人工智能
一、技术原理与数学基础1.1特征脱敏核心思想脱敏函数f:Rd→Rk(k
边缘设备模型量化部署：TFLite INT8校准实现细节深度解析燃灯工作室 Ai 人工智能机器学习
一、技术原理与数学公式INT8量化的核心是通过线性映射将浮点数值范围（[-max,max]）映射到8位整数范围（[-128,127]）。校准过程通过分析真实数据分布确定最优缩放因子（scale）和零点（zeropoint）：量化公式：Q=round(float_valuescale)+zero_pointQ=round(\frac{float\_value}{scale})+zero\_point
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来！深度学习
开源应用驱动企业新质生产力：Websoft9以EPP+AI+知识库助您领跑未来在数字化转型加速的今天，企业新质生产力的核心已从传统资源投入转向技术驱动的效率革命。开源应用凭借其灵活性、成本优势和技术创新力，成为企业实现这一目标的关键引擎。作为开源技术与行业场景化落地的领航者，Websoft9通过企业应用平台（EPP）、AI智能引擎与知识库系统三位一体的解决方案，助力企业快速构建新一代生产力工具，实
软件测试之测试用例详细解读隐居人家的炊烟测试用例软件测试自动化测试
一、通用测试用例八要素1、用例编号；2、测试项目；3、测试标题；4、重要级别；5、预置条件；6、测试输入；7、操作步骤；8、预期输出二、具体分析通用测试用例八要素1、用例编号一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；用例编号具有唯一性和易识别性。（比如说我们唯一标识一个人：中国-上海市
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
【图像处理】ISP(Image Signal Processor) 图像处理器的用途和工作原理？ AndrewHZ 图像处理基石图像处理智能手机影像系统算法深度学习人工智能 ISP
ISP（图像信号处理器）是数字影像设备的“视觉大脑”，负责将传感器捕获的原始电信号转化为我们看到的高清图像。以下从用途和工作原理两方面通俗解析：一、ISP的核心用途：让照片“更像眼睛看到的”提升画质：降噪：去除暗光下的噪点（如手机夜景模式，通过多帧合成+算法抑制噪点）。色彩还原：校正传感器偏色（例如索尼传感器常偏黄，ISP通过白平衡算法还原真实色彩）。动态范围优化：保留高光和暗部细节（类似HDR，
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
【深度学习与大模型基础】第3章-张量 lynn-66 深度学习与大模型基础深度学习人工智能
大家好！今天我们来聊聊张量（Tensor）。别被这个词吓到，其实它没那么复杂。什么是张量？简单来说，张量就是一个多维数组。你可以把它看作是一个装数据的容器，数据的维度可以是一维、二维，甚至更高。标量（0维张量）：就是一个单独的数字，比如3。向量（1维张量）：一串数字，比如[1,2,3]。矩阵（2维张量）：一个表格，比如[[1,2],[3,4]]。更高维张量：比如[[[1,2],[3,4]],[[5
Python eval 函数 Python 学习者 Python
Pythoneval函数学习与总结。基本用法简介eval()函数用来执行一个字符串表达式，并返回表达式的值。eval(expression[,globals[,locals]])expression：表达式。globals：变量作用域，全局命名空间，如果被提供，则必须是一个字典对象。locals：变量作用域，局部命名空间，如果被提供，可以是任何映射对象。>>>x=7>>>eval('3*x')21
NAT 和 IP 直接通信的区别曹天骄 tcp/ip 服务器网络协议
1.NAT的工作原理NAT（NetworkAddressTranslation，网络地址转换）是一种网络技术，用于将私有网络中的IP地址映射到公共网络中的IP地址，或者在不同的网络之间转换IP地址。NAT的主要目的是解决IPv4地址不足的问题，同时提供一定程度的安全性和灵活性。NAT设备（如路由器或防火墙）会在数据包经过时修改其源IP地址或目标IP地址。常见的NAT类型包括：静态NAT：将私有IP
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

自然语言处理:数据集预处理词向量嵌入

1 原始数据提取问答数据集并保存

1.0 提取对话

1.2 提取问答对话

1.3 保存问答语料

2 问答数据集词转向量

2.1 生成词汇表

2.2 词转向量

2.3 按行截取数据

3 完整代码

4 总结

文本编号

将文本按照词频顺序排列

文本分配编号

你可能感兴趣的:(#,自然语言处理,词频统计,数字映射)