CQU-XJTU-Mr. Wu

NLP基础：检索式问答系统实战

1. 目的与思路
2. 简单思路的实现
- 2.1 问题-答案库的读取
- 2.2 对数据的相关统计
- - 2.2.1 单词统计
  - 2.2.2 单词频率统计
  - 2.2.3 Top10 单词统计
- 2.3 对qlist进行预处理
- 2.4 文本TF-IDF表示
- 2.5 返回最匹配的TOP5 答案
3. 基于倒排表的优化
- 3.1 建立倒排表
- 3.2 利用倒排表进行优化
4. 基于词向量的文本表示
- 4.1 embedding 获取
- 4.2 句子的表示
- 4.3 基于`词向量-倒排表`的问答系统
5. 总结

1. 目的与思路

检索式问答系统所需要的数据已经提供，对于每一个问题都可以找得到相应的答案，所以可以理解为每一个样本数据是 <问题、答案>pair。那系统的核心是当用户输入一个问题的时候，首先要找到跟这个问题最相近的已经存储在库里的问题，然后直接返回相应的答案即可。

最简单的思路是：将用户的输入与问题库中每个问题进行比较，找到与输入最相似的问题，并将该问题对应的答案返回给用户即可。这里衡量相似度通过计算输入与问题表示之间的欧式距离、余弦相似度实现。
上述的思路简单，但是操作复杂度高，因为要计算输入与库中的每一个问题进行相似度计算。因此要考虑优化，引入倒排表，通过层层过滤，将可选的问题范围逐步缩小。比如，可以先筛选出与用户输入有1个公共字符的问题，甚至是2个、3个…条件越严格，那么候选的问题数量就越少，计算量大大减小。
计算输入与问题的相似度时，需要得到它们的向量表示。在这里，首先采用TF-IDF文本表示，进行计算；其次，采用已经训练好的glove.6B 100维词向量，通过average操作，得到句子的整体向量表示进行计算。

2. 简单思路的实现

将用户的输入与问题库中每个问题进行比较，找到与输入最相似的Top5问题，并将Top5问题对应的答案返回给用户即可。

2.1 问题-答案库的读取

采用的数据集是机器阅读理解数据集（SQuAD 2.0），一共86821个问题-答案 pair。

#读取数据
# 分数（5）
import json
import matplotlib.pyplot as plt
import numpy as np
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer

def read_corpus():
    """
    读取给定的语料库，并把问题列表和答案列表分别写入到 qlist, alist 里面。 在此过程中，不用对字符换做任何的处理（这部分需要在 Part 2.3里处理）
    qlist = ["问题1"， “问题2”， “问题3” ....]
    alist = ["答案1", "答案2", "答案3" ....]
    务必要让每一个问题和答案对应起来（下标位置一致）
    """
    qlist = []
    alist = []
    with open("././data/train-v2.0.json") as f:
        all_data = json.load(f)['data']
        for data in all_data:
            paragraphs = data['paragraphs']
            for paragraph in paragraphs:
                for qa in paragraph['qas']:
                    # print(qa['id'])
                    if qa['answers']:
                        qlist.append(qa['question'])
                        alist.append(qa['answers'][0]['text'])
    assert len(qlist) == len(alist)  # 确保长度一样
    print("Load question and answer success. The length :{}".format(len(qlist)))
    return qlist, alist

qlist, alist = read_corpus()

运行结果：

Load question and answer success. The length :86821

2.2 对数据的相关统计

2.2.1 单词统计

# TODO: 统计一下在qlist 总共出现了多少个单词？ 总共出现了多少个不同的单词？
#       这里需要做简单的分词，对于英文我们根据空格来分词即可，其他过滤暂不考虑（只需分词）
word_voc = []
for question in qlist:
    question = question.replace('?', ' ?')
    line = question.strip().split()
    word_voc += line
word_voc = set(word_voc)
word_total = len(word_voc)
print("Num of total words:{}".format(word_total))#51930

运行结果：

Num of total words:51930

2.2.2 单词频率统计

# TODO: 统计一下qlist中每个单词出现的频率，并把这些频率排一下序，然后画成plot. 比如总共出现了总共7个不同单词，而且每个单词出现的频率为 4, 5,10,2, 1, 1,1
#       把频率排序之后就可以得到(从大到小) 10, 5, 4, 2, 1, 1, 1. 然后把这7个数plot即可（从大到小）
#       需要使用matplotlib里的plot函数。y轴是词频
word_freq = {}#统计qlist的单词频率
for question in qlist:
    question = question.replace('?', ' ?')
    line = question.strip().split()
    for word in line:
        if word in word_freq:
            word_freq[word] += 1
        else:
            word_freq[word] = 1
sort_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
all_word = []
word_count = []
for word, count in sort_word_freq:
    all_word.append(word)
    word_count.append(count)
# scale_ls = range(len(all_word))
# plt.plot(scale_ls, word_count)
# plt.xticks(scale_ls, all_word)
plt.bar(range(20), word_count[:20], color='rgb', tick_label=all_word[:20])#画出前20个词
plt.show()

运行结果：

从上面的图中可以看，这样的一个图的走势跟反比例函数形状很类似，也就是学术界的 Zipf’s law：第二常见的频率是最常见频率的出现次数的½，第三常见的频率是最常见的频率的1/3，第n常见的频率是最常见频率出现次数的1/n。

2.2.3 Top10 单词统计

# TODO: 在qlist和alist里出现次数最多的TOP 10单词分别是什么？
word_freq_ = {}#统计alist的单词频率
for answer in alist:
    answer = answer.replace('.', ' .')
    line = answer.strip().split()
    for word in line:
        if word in word_freq_:
            word_freq_[word] += 1
        else:
            word_freq_[word] = 1
sort_word_freq_ = list(sorted(word_freq_.items(), key=lambda x: x[1], reverse=True))

print("qlist top 10 单词分别是：")
for x in range(10):
    print(all_word[x])

print("alist top 10 单词分别是：")
for y in range(10):
    print(sort_word_freq_[y][0])

运行结果：

qlist top 10 单词分别是：
?
the
What
of
in
to
was
is
did
what
alist top 10 单词分别是：
the
of
and
to
a
in
.
The
or
for

2.3 对qlist进行预处理


# TODO: 对于qlist做文本预处理操作。 可以考虑以下几种操作：
#       1. 停用词过滤 （去网上搜一下 "english stop words list"，会出现很多包含停用词库的网页，或者直接使用NLTK自带的）
#       2. 转换成lower_case： 这是一个基本的操作
#       3. 去掉一些无用的符号： 比如连续的感叹号！！！， 或者一些奇怪的单词。
#       4. 去掉出现频率很低的词：比如出现次数少于10,20....
#       5. 对于数字的处理： 分词完只有有些单词可能就是数字比如44，415，把所有这些数字都看成是一个单词，这个新的单词我们可以定义为 "#number"
#       6. stemming（利用porter stemming): 因为是英文，所以stemming也是可以做的工作
#       7. 其他（如果有的话）
#       请注意，不一定要按照上面的顺序来处理，具体处理的顺序思考一下，然后选择一个合理的顺序
#  hint: 停用词用什么数据结构来存储？ 不一样的数据结构会带来完全不一样的效率！
new_qlist = []
new_alist = []
stopwords =[]
porter_stemmer = PorterStemmer()
##加载停止词
with open("././data/stopwords") as f1:
    lines = f1.readlines()
    for line in lines:
        stopwords.append(line.strip())
stopwords = set(stopwords)

for question in qlist:
    tmp = ''
    for sign in ['.', '?', '/', '#', '$', '@', '^', '*', '!', '(', ')']:
        question = question.replace(sign, '')
    # question = question.replace('?', ' ?')
    line = question.strip().split()
    for word in line:
        try:
            if word_freq[word] <= 20:#筛选出频率大于20的词
                continue
            word = word.lower()
        except:
            pass
        if word in stopwords:
            continue
        for num in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:#将含有数字的字符统一设置为1
            if str(num) in word:
                word = '1'
        word = porter_stemmer.stem(word)# 进行stemming 操作
        tmp = tmp + word + " "
    new_qlist.append(tmp[:-1])
    
qlist = new_qlist# 更新后的#得到更新后问题列表
print("预处理完成！")

2.4 文本TF-IDF表示

做完关键的预处理过程之后，就需要把每一个文本转换成向量

# TODO: 把qlist中的每一个问题字符串转换成tf-idf向量, 转换之后的结果存储在X矩阵里。 X的大小是： N* D的矩阵。 这里N是问题的个数（样本个数），
#       D是字典库的大小。

vectorizer = TfidfVectorizer(use_idf=True, smooth_idf=True, norm='l2') # 定义一个tf-idf的vectorizer

tf_idf_model = vectorizer.fit(qlist)
X = tf_idf_model.transform(qlist)
X = X.toarray()
print(len(vectorizer.get_feature_names()))

# TODO: 矩阵X有什么特点？ 计算一下它的稀疏度
sparsity = 1.0 - np.count_nonzero(X)/X.size
print(sparsity)  # 打印出稀疏度(sparsity)

运行结果：

2688
0.9985813766871741

TF-IDF的维度（词典库的大小）为2688，qlist的稀疏度为0.99

2.5 返回最匹配的TOP5 答案

def top5results(input_q):
    """
    给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
    1. 对于用户的输入 input_q 首先做一系列的预处理，然后再转换成tf-idf向量（利用上面的vectorizer)
    2. 计算跟每个库里的问题之间的相似度
    3. 找出相似度最高的top5问题的答案
    """
    #预处理
    tmp = ''
    for sign in ['.', '?', '/', '#', '$', '@', '^', '*', '!', '(', ')']:
        question = input_q.replace(sign, '')
    # question = question.replace('?', ' ?')
    line = question.strip().split()
    for word in line:
        try:
            if word_freq[word] <= 20:
                continue
            word = word.lower()
        except:
            pass
        if word in stopwords:
            continue
        for num in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
            if str(num) in word:
                word = '1'
        word = porter_stemmer.stem(word)
        tmp = tmp + word + " "
    input_str = [tmp[:-1]]
    input_str = tf_idf_model.transform(input_str).toarray()[0]

    simlarity = [0]*len(X)
    for index in range(len(X)):
        cos_sim = np.dot(input_str, X[index]) / (np.linalg.norm(input_str)*np.linalg.norm(X[index])+1)
        simlarity[index] = cos_sim

    top_idxs = []# top_idxs存放相似度最高的（存在qlist里的）问题的下表
    for _ in range(5):
        index = simlarity.index(max(simlarity))
        top_idxs.append(index)
        del simlarity[index]

    # hint: 利用priority queue来找出top results. 思考为什么可以这么做？

    return [alist[indx] for indx in top_idxs]# 返回相似度最高的问题对应的答案，作为TOP5答案

# TODO: 编写几个测试用例，并输出结果
print(top5results("What areas did Beyonce compete in when she was growing up?"))

运行结果：

[‘singing and dancing’,
‘2003’,
‘racial minorities and white liberals. Because of this, the area has consistently voted as one of the most Democratic areas of the state’,
‘crown’,
‘feminism and female empowerment’]

3. 基于倒排表的优化

基于倒排表的优化。在这里，我们可以定义一个类似于hash_map, 比如 inverted_index = {}，然后存放包含每一个关键词的文档出现在了什么位置。也就是，通过关键词的搜索首先来判断包含这些关键词的文档（比如出现至少一个），然后对于candidates问题做相似度比较。

3.1 建立倒排表

得到一个倒排表，key为word，value为含有该word的文档索引，这里使用的qlist是最原始的qlist，并不是预处理后的qlist，因为只是需要进行筛选，没必要预处理

def generate_inverted_idx():
    """
    return : 返回一个倒排表，key为word，value为含有该word的文档索引
    """
    inverted_idx = {}  # 定义一个简单的倒排表

    for i in range(len(qlist)):
        quest = qlist[i].replace('?', ' ?')
        line = quest.strip().split()
        for word in line:
            if word in inverted_idx:
                inverted_idx[word].append(i)
            else:
                inverted_idx[word] = [i]

    return inverted_idx
inverted_idx = generate_inverted_idx()

3.2 利用倒排表进行优化

返回最匹配的TOP2 答案

def top5results_invidx(input_q, k):
    """
    param :input_q :输入的问题
    param :k:要包含问题的前K个字符，依次来对问题库进行过滤， k 越大要求越严格
    return : 返回相似度Top2的答案
    给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
    1. 利用倒排表来筛选 candidate
    2. 对于用户的输入 input_q 首先做一系列的预处理，然后再转换成tf-idf向量（利用上面的vectorizer)
    3. 计算跟每个库里的问题之间的相似度
    4. 找出相似度最高的top5问题的答案
    """
    #利用倒排表，筛选出候选问题的索引 doc_lst 
    quest = input_q.replace('?', ' ?')
    line = quest.strip().split()
    doc_lst = range(len(qlist))
	# 得到包含用户输入的前 k 个字符的 candidates
    for j in range(k):
        word = line[j]
        doc = inverted_idx[word]
        doc_lst = list(set(doc_lst) & set(doc))

    # 预处理
    tmp = ''
    for sign in ['.', '?', '/', '#', '$', '@', '^', '*', '!', '(', ')']:
        question = input_q.replace(sign, '')
    # question = question.replace('?', ' ?')
    line = question.strip().split()
    for word in line:
        try:
            if word_freq[word] <= 20:
                continue
            word = word.lower()
        except:
            pass
        if word in stopwords:
            continue
        for num in [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]:
            if str(num) in word:
                word = '1'
        word = porter_stemmer.stem(word)
        tmp = tmp + word + " "
    input_str = [tmp[:-1]]
    
	#获得用户输入的tf-idf表示
    input_str = tf_idf_model.transform(input_str).toarray()[0]

    simlarity = {}
    for index in doc_lst:
        cos_sim = np.dot(input_str, X[index]) / (np.linalg.norm(input_str) * np.linalg.norm(X[index]) + 1)
        simlarity[index] = cos_sim

    top_idxs = []  # top_idxs存放相似度最高的（存在qlist里的）问题的下表

    simlarity = list(sorted(simlarity.items(), key=lambda x: x[1], reverse=True))

    for _ in range(2):
        index, cos = simlarity[_]
        top_idxs.append(index)
    # hint: 利用priority queue来找出top results. 思考为什么可以这么做？

    return [alist[indx] for indx in top_idxs]  # 返回相似度最高的问题对应的答案，作为TOP5答案

# TODO: 编写几个测试用例，并输出结果
print (top5results_invidx("What areas did Beyonce compete in when she was growing up?", 3))

运行结果：

[‘singing and dancing’, ‘local customs and traditions’]

4. 基于词向量的文本表示

上述进行相似度的计算，都是基于句子的tf-idf表示，现在换成word embeding进行句子表示，得到基于词向量的返回结果。

4.1 embedding 获取

采取的是glove.6B 100维向量，直接去官网下载速度较慢，下载请参考glove.6B下载（百度云下载)。

emb = {}  # 读取每一个单词的嵌入.key为单词，value 为相应的词向量
with open("././data/glove.6B.100d.txt", encoding='utf-8') as f2:
    all_lines = f2.readlines()
    for one_line in all_lines:
        line_splits = one_line.strip().split()
        emb[line_splits[0]] = [np.float(x) for x in line_splits[1:]]

4.2 句子的表示

基于词向量，对一个句子的所有词的词向量取平均值，作为句子的向量表示。

def get_sentence_emb(input_str):
    """
    param: input_str :输入的句子
    return : 句子的表示
    """
    emb_list = []
    #句子的预处理
    # 其中，最简单的方式 句子向量 = 词向量的平均（出现在问句里的）， 如果给定的词没有出现在词典库里，则忽略掉这个词。
    quest = input_str.replace('?', ' ?')
    line = quest.strip().split()
    for word in line:
        if word.lower() in emb:
            emb_list.append(emb[word.lower()])
        else:
            pass
    result = np.mean(np.array(emb_list), axis=0)
    return result

4.3 基于`词向量-倒排表`的问答系统

def top5results_emb(input_q, k):
    """
    param :input_q :输入的问题
    param :k:要包含问题的前K个字符，依次来对问题库进行过滤， k 越大要求越严格
    return : 返回相似度Top2的答案
    给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
    1. 利用倒排表来筛选 candidate
    2. 对于用户的输入 input_q，转换成句子向量
    3. 计算跟每个库里的问题之间的相似度
    4. 找出相似度最高的top5问题的答案
    """

    #通过过滤，得到少量候选问题
    quest = input_q.replace('?', ' ?')
    line = quest.strip().split()
    doc_lst = range(len(qlist))
    for j in range(k):
        word = line[j]
        doc = inverted_idx[word]
        doc_lst = list(set(doc_lst) & set(doc))


    simlarity = {}
    for index in doc_lst:
        input_emb = get_sentence_emb(input_q)
        doc_emd = get_sentence_emb(qlist[index])
        cos_sim = np.dot(input_emb, doc_emd) / (np.linalg.norm(input_emb) * np.linalg.norm(doc_emd) + 1)
        simlarity[index] = cos_sim

    top_idxs = []  # top_idxs存放相似度最高的（存在qlist里的）问题的下表

    simlarity = list(sorted(simlarity.items(), key=lambda x: x[1], reverse=True))

    for _ in range(2):
        index, cos = simlarity[_]
        top_idxs.append(index)
    # hint: 利用priority queue来找出top results. 思考为什么可以这么做？
    return [alist[indx] for indx in top_idxs]  # 返回相似度最高的问题对应的答案，作为TOP2答案

print (top5results_emb("What areas did Beyonce compete in when she was growing up?", 3))

运行结果：

[‘singing and dancing’, ‘local customs and traditions’]

5. 总结

对倒排表这个概念有了进一步的理解。
了解numpy 里面范数的计算，比如np.linalg.norm计算向量的二范数。
基于搜索的问答还是太简单，不能够满足日常需要，现在的问答应该都是基于深度语义的，可是作为NLP的基础，可以通过此任务了解tf-idf的向量表示、numpy基本数学操作、倒排表、英文文本处理流程、可以通过哪些方法得到词向量（Skip-gram、CBOW 、Glove、RNN/LSTM、Matrix Factorization、Gaussian Embedding）等等。

jupyter notebook在Linux系统中导入虚拟环境 tiantian11253 linux jupyter python
一、创建虚拟环境：1、Anaconda自带的工具创建虚拟环境：1.1离线创建：condacreate-nenv_name--offlinepython=3.6.31.2在线创建：condacreate-nenv_namepython=3.6.3注：env_name表示你要创建的虚拟环境的名称python=3.6.3表示新建的环境指定的python解释器版本，不指定代表默认环境的python版本1.
网络安全概述 MoonSun611 自学笔记网络安全
第一章计算机网络基础知识一、电子邮件e-mail的安全ISP：InternetServiceProvider互联网服务提供商美国：AT&T、Verzion，等等中国：电信，移动，联通，等等ISP：向不通网络用户提供基本网络服务企业，单位，区域性网络无线，移动网络家用网络通讯协议（protocol）：规定通讯信息的发送与接收的一切细节例：TCPIPHTTPSkypeEthernet结构：是一个连接网
【Swift 算法实战】利用 KMP 算法高效求解最短回文串网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
python jieba+wordcloud 风夏夜中 python jieba wordcloud
pipinstalljiebapipinstallwordcloud#!-*-coding:utf-8-*-importjieba.possegaspsegstop_words=["给","被","的","最"]text="食堂的饭真的是很好吃呀，最喜欢食堂了"word_dict={}#分词并统计词频，flag表示词性forword,flaginpseg.cut(text):ifwordnotin
Redis知识深度总结文档 jay丿 redis 数据库缓存
Redis知识深度总结文档一、Redis简介与基础概念Redis（RemoteDictionaryServer）是一个开源的高性能键值对存储数据库，由SalvatoreSanfilippo（网名antirez）在2009年创建。它以内存中的数据结构存储为基础，提供了多种高级功能，使得Redis不仅是一个简单的键值存储系统，更是一个功能丰富的数据结构服务器。Redis的数据存储在内存中，因此它的读写
详解Python字符串 jay丿 python 网络开发语言
字符串str是由多个字符组成的文本内容、在python中可以使用双引号、单引号或者三引号来标记字符串类型。在编程语言中，字符串是使用频率最高的一种数据类型。Python中的字符串是不可变的序列字符串的定义方式字面量定义str工厂函数字面量定义字符串可以使用双引号、单引号或者三引号进行定义、且支持不同的符号之间的嵌套。str工厂函数str(obj)可以将任何数据类型转换为字符串字符串的运算+:字符串
Python面向对象 jay丿 python 开发语言
#面向对象在编程领域中，有多种开发模式/风格，比较常见的有面向过程、面向对象、函数式编程等手段。在Python语言中，支持面向过程、面向对象和函数式编程的。面向过程面向过程目的性很强、为了完成某个特定的功能而通过函数、判断、循环等手段编写的代码。面向对象面向对象将一个任务进行拆解、每一部分的任务由特定的类/函数等完成、最终将每一部分任务的结果合并到一块、最终完成整个任务。面向对象的三大基石封装继承
Python基础知识点全面总结 jay丿 python windows 开发语言
Python基础知识点全面总结Python作为一种简洁、易读且功能强大的编程语言，已经成为编程学习和应用领域中的热门选择。本文将对Python的基础部分进行全面总结，涵盖数据类型、条件判断、循环、函数、数据结构等重要知识点，并附上相关代码示例。一、数据类型Python中的数据类型主要分为五大类：数值、布尔、字符串、容器、None。数值类型整型（int）：在Python3中，int表示长整型，没有l
Python 进阶特性深度解析：从语法糖到内存管理的统一视角 Neo Evolution Python python windows 开发语言算法数据结构
生成式（推导式）的用法与内存效率分析Python的推导式不仅仅是语法糖，它们在内存管理和性能方面有着深刻的影响。理解推导式的工作原理，有助于我们写出更高效的代码。推导式的内存模型分析列表推导式在CPython解释器中的实现实际上比等价的for循环更为高效：#列表推导式的内存分配模式squares_list=[x**2forxinrange(1000)]#等价for循环的内存分配模式squares_
拥抱健康养生，开启活力人生 lanlande33 生活
在节奏愈发紧凑的现代生活里，健康养生已不再是一个可有可无的话题，而是我们提升生活质量、延长生命长度的关键。均衡饮食是养生的基础。多吃蔬菜，像菠菜富含铁元素，西兰花饱含维生素C和K，它们为身体提供丰富养分；水果也不能少，苹果、橙子等富含维生素与果胶，能促进肠道蠕动。主食选择粗粮，如糙米、玉米，代替部分精细米面，其丰富的膳食纤维有助于消化。蛋白质来源可以是牛奶、鸡蛋、鱼肉，为身体补充必需的氨基酸。拒绝
嵌入式学习|C语言篇进程间通信（IPC）全面解析与示例 DXX—— 学习 c语言 php
一、进程通信基础概念1.1进程隔离原理现代操作系统通过虚拟内存技术为每个进程创建独立的地址空间，这种隔离机制保障了系统的安全性，但也导致进程无法直接访问彼此的内存数据。进程间通信（IPC）正是为解决这一矛盾而设计的核心机制。1.2IPC分类体系主要通信方式可分为：传统UnixIPC：管道、FIFOSystemVIPC：消息队列、信号量、共享内存POSIXIPC：改进的消息队列、信号量、共享内存网络
大模型学习完整路径（一站式汇总），从零基础到精通！新手友好级指南 Python程序员罗宾学习语言模型知识图谱人工智能数据库 java
如果读者朋友不想深入学习大模型，则了解提示词的使用原则也可以了。要是既不想深入学习，又要做大模型相关的项目，则对于工程同学来说，学习RAG也能把大模型玩转起来。前排提示，文末有大模型AGI-CSDN独家资料包哦！先来一张整体结构图，越是下面部分，越是基础：可以按以下步骤学习：1.理解基础概念需要了解深度学习的基本原理和常见术语，如神经网络、梯度下降、反向传播、监督学习、无监督学习、分类、回归、聚类
python SSL: CERTIFICATE_VERIFY_FAILED certificate has expired 证书错误的几种情况和解决方法景影随形 python python ssl certificate 证书错误
文章目录一、哪些情况可能会遇到这个错误？二、为什么会出现这个错误？这个错误说明了什么？2.1HTTPS的简要知识2.2客户端是如何验证服务器证书的呢？2.2.1常见的证书错误有：三、哪些原因可能会导致证书错误？3.1证书无效报错3.1.1网站使用自签发证书3.1.2证书和域名不匹配3.2证书有效报错3.2.1本地计算机缺少合适的根证书3.2.2本地计算机根证书过期未更新3.2.3证书链不完整3.2
cap4：YoloV5的TensorRT部署指南（python版）我是一个对称矩阵 TensorRT全流程部署指南 YOLO python 人工智能 TensorRT 模型部署
《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（python版）cap3：自定义数据集训练ResNet的TensorRT部署指南（python版）cap4：YoloV5目标检测任务的TensorRT部署指南（python版）cap5：YoloV5
Spring Boot 如何保证接口安全坚定信念，勇往无前 java spring boot 安全后端
SpringBoot如何保证接口安全，需要架构设计、示例代码以及系统逻辑分析。首先，我得考虑常见的接口安全措施，比如身份认证、权限控制、数据加密、防止常见攻击等。然后，要结合SpringBoot的功能来实现这些措施。首先，身份认证，通常用SpringSecurity或者OAuth2。SpringSecurity比较基础，适合大部分场景。可能用JWT来做无状态认证，这样适合分布式系统。然后权限控制，
2024下半年软考——软件设计师30天冲刺学习指南！！！ winin2024 经验分享软件设计师
距离2024下半年软件设计师考试已经只剩一个多月了，还没有开始备考的小伙伴赶紧行动起来。为了帮助大家更好的冲刺学习，特此提供一份考前30天学习指南。本指南包括考情分析、学习规划、冲刺攻略三个部分，可以参考此指南进行最后的复习要领，相信小伙伴们，在这一过程中所付出的努力，都能得到回报~第一部分考情分析1、综合知识知识点分数说明比例软件工程基础知识13开发方法与开发模型、数据流图与数据字典、结构化设计
鸿蒙开发实战：状态管理框架代理-getTarget接口详解我很英俊小名男男鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）“一杯冰美式的时间”了解鸿蒙HarmonyOSNext应用开发路径！概述状态管理框架会对Class、Date、Map、Set、Array类型的原始对象添加代理，用于观测属性变化与API调用。这一层代理会使得变量类型改变，在类型判断、NAP
Python----数据分析（Numpy二：数组的索引切片，属性，更改类型和形状，修改维度）蹦蹦跳跳真可爱589 数据分析 Python numpy python 数据分析
一、数组的索引和切片Ndarray数组中的元素是可以被修改的，如果需要访问或者修改Ndarray数组某个位置的元素，则需要使用Ndarray数组的索引来完成；如果需要访问或者修改一些区域的元素，则需要使用Ndarray数组的切片。1.1、一维数组的索引与切片1.1.1、索引一维数组的索引方式与Python列表的索引方式类似，Ndarray数组使用方括号行索引，索引值从左向右从0开始，从右向左从-1
Python Cookbook-2.10 处理字符串中的 zip 文件我不会编程555 #Python学习 python 开发语言
任务程序接收到了一个字符串，其内容是一个zip文件，需要读取这个zip文件中的信息。解决方案应对这种问题，采用Python标准库的cStringIO模块的拿手好戏:importcStringIO，zipfileclassZipString(ZipFile):def__init__(self,datastring):ZipFile.__init__(self,cStringIO.StringIO(d
解决在Python中使用Win32api报错的问题，No module named win32api w36680130 Python
解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api参考文章：（1）解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api（2）https://www.cnblogs.com/SH170706/p/9640110.html备忘一下。
物联网基础知识-Netty学习路线不对法物联网 java 学习 websocket java
netty入门Netty入门教程——认识NettyNetty入门教程2——动手搭建HttpServerNetty入门教程3——Decoder和EncoderNetty入门教程4——如何使用Socket在客户端实现长连接其他基础知识IO相关Tomcat的BIO、NIO、APR模式对比与性能测试结果SOCKETWebSocket介绍和Socket的区别WebSocket机制WebSocket是HTML
ROS2安装教程（virtualbox7.0.6+ROS2） setella c++ubuntu
整个过程分两步：先安装Virtualbox，再安装ROS2一、安装virtualbox7.0.6网址：https://www.virtualbox.org/wiki/Downloads问题1安装时报错：缺少pythoncore、win32api依赖（下图网上拷贝的图，版本忽略）解决：根据virtualbox论坛的帖子，有人说不使用python控制virtualbox的话，可以先不安装，去掉pyth
unity引擎中的渲染实现细节你一身傲骨怎能输商业化游戏开发技术专栏 unity 游戏引擎
在Unity引擎中，渲染实现细节涉及多个层面，包括但不限于材质处理、光照计算、阴影渲染、后处理效果等。下面我将提供一个简化的示例，模拟Unity中的一个基本的渲染流程，特别是在处理光照和材质方面的代码实现。这个示例将使用C#语言，因为Unity主要使用C#进行开发。示例：基础光照和材质渲染在Unity中，渲染通常是通过Shader和C#脚本来控制的。以下是一个简化的Shader和C#脚本，用于实现
基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例 go5463158465 python 深度学习算法 python 迁移学习开发语言
以下是一个基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例。我们将使用PyTorch和torch_geometric库来实现图卷积网络，并模拟数据进行演示。步骤概述数据准备：模拟生成多个单视图的肺结节特征数据，并构建图数据。特征融合：将多个单视图特征进行融合。图卷积网络构建：构建一个简单的图卷积网络模型。模型训练：使用训练数据对模型进行训练。模型评估：使
virtualBox虚拟机使用 hawks:) linux 运维服务器
之前一直使用vmware，现在发现virtualbox其实用着也还可以，界面比较简洁。下载和安装官方网站：https://www.virtualbox.org/不知道为什么，这个官网看起来很亲切。我下载的是virtualbox7，直接安装提示缺少python和win32api。目前virtualbox最高支持python3.11https://www.virtualbox.org/ticket/2
天塌了！去年集成、今年信管！备考哪科，哪科改下半年开考！想靠软考落个户怎么这么难？公众号-希赛网学习方法职场和发展
软考有很多考生是为了落户才报考的中级，但这部分考生疑似被软考办“针对”了。去年提前备考系统集成项目管理工程师（简称集成），结果集成调整为仅下半年开考，今年提前备考信息系统管理工程师（简称信管），结果信管又改为下半年开考。一、软考落户需求与考试工作安排调整在一些城市，软考中级证书能助力落户。因此，很多没有什么IT基础的考生也会来考软考中级。这些考生只为拿证，通常会选择比较好学、比较好考的科目，并且因
MongoDB 查询文档 wjs2024 开发语言
MongoDB查询文档引言MongoDB是一款流行的开源NoSQL数据库，以其灵活的数据模型和强大的查询功能而闻名。本文将深入探讨MongoDB的查询文档，包括其基本概念、常用查询操作以及高级查询技巧。MongoDB查询基础数据模型MongoDB使用文档模型来存储数据。每个文档都是一个键值对集合，类似于JSON对象。文档存储在集合（Collection）中，集合是数据库中的容器。查询操作符Mong
如何使用Python快速开发一个带管理系统界面的网站-解析方案萧鼎 python基础到进阶教程 python 开发语言
如果你想用Python开发一个管理系统界面的网站，并且希望界面美观，可以考虑以下几个框架和库：1.Streamlit（快速、简洁）适合：数据分析、仪表盘、内部管理系统特点：写法简单，类似JupyterNotebook自带现代化UI，无需前端开发内置交互组件，如表单、图表、按钮缺点：不适合复杂的权限管理和大规模系统示例代码：importstreamlitasstst.title("管理系统")st.
安全见闻笔记 freesec 安全笔记
安全见闻包含了网络安全，网络技术，拓展知识面“不识庐山真面目，只缘身在此山中”编程语言:C语言：一种通用的、面向过程的编程语言，广泛应用于系统软件和嵌入式开发。C++：在C语言基础上发展而来，支持面向对象编程，常用于游戏开发、高性能计算等领域。Java：一种广泛使用的面向对象编程语言，具有跨平台性，应用于企业级应用开发等。Python：简洁易学，拥有丰富的库，适用于数据分析、人工智能、Web开发等
使用 Python 和 OpenCV 检测人体皮肤颜色变化计算心率爱搬砖的程序猿. python opencv 开发语言
一、引言心率是反映人体健康状况的重要生理指标之一。传统的心率检测方法通常需要使用专业的医疗设备，如心电图仪、心率带等。而随着计算机视觉技术的发展，我们可以利用摄像头捕捉人体皮肤的颜色变化，通过分析这些变化来计算心率。本文将介绍如何使用Python和OpenCV实现这一功能。二、原理概述当心脏跳动时，血液会在血管中流动，导致皮肤表面的颜色发生微小的变化。这种颜色变化主要体现在皮肤的红色通道上。我们可
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

NLP基础：检索式问答系统实战