编程‘小白’

NLP自然语言处理——问答系统

文章目录

NLP自然语言处理——问答系统
前言
一、基于搜索的问答系统
二、具体步骤
- 1.处理流程
- - 1.1分词
  - - 1.1.1前向最大匹配(forward-max matching)
    - 1.1.2后向最大匹配(next-max matching)
    - 1.1.3 unigram 切分
    - 1.1.4 Viterbi分词法
  - 1.2预处理
  - - 1.2.1拼写纠错
    - 1.2.2 steming
  - 1.3文本表示（word representation）
  - - 1.3.1 one-hot representation
    - 1.3.2 boolean representation
    - 1.3.3 count representation
    - 1.3.4 tf-idf representation
    - 1.3.4 word2vec (分布式的表达方法)
  - 1.4计算相似度
  - 1.6倒排表
  - 1.7返回结果
- 2.简单的问答系统
总结

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

一、基于搜索的问答系统

二、具体步骤

1.处理流程

1.1分词

将单词进行分割，例如：How do you like NLPCamp?——>[how, do, you, like, NLPCamp]

1.1.1前向最大匹配(forward-max matching)

从句子前面开始截取，从后向前匹配最大的词语
例子:我们经常有意见分歧
词典:[“我们”,“经常”,“有”,“有意见”,“意见”,“分歧”]

python代码

dicts = ["我们","经常","有","有意见","意见","分歧"]
s = '我们经常有意见啊分歧啊'
def forword_max_match(s ,dicts, maxlen=5):
    '''
    params
        s:String, split text
        dicts:list, word dict
        maxlen:int,the lentgh of one word
    return list
    '''
    i = 0
    l = len(s)
    words = []
    if l!=0:
        while i < l:
            j = i+maxlen if (i+maxlen) < l else l
            while i < j:
                if s[i:j] in dicts or i == j-1:#当分词出现在词典中或者就剩一个字时
                    words.append(s[i:j])
                    i = j
                    break
                else:
                    j -= 1
    return words
forword_max_match(s,dicts,5)

输出结果

['我们', '经常', '有意见', '啊', '分歧', '啊']

1.1.2后向最大匹配(next-max matching)

从句子后面开始截取，从前向前后配最大的词语
例子:我们经常有意见分歧
词典:[“我们”,“经常”,“有”,“有意见”,“意见”,“分歧”]

python代码

dicts = ["我们","经常","有","有意见","意见","分歧"]
s = '我们经常有意见啊分歧啊'
def next_max_match(s ,dicts, maxlen=5):
    '''
    params
        s:String, split text
        dicts:list, word dict
        maxlen:int,the lentgh of one word
    return list
    '''
    l = len(s)
    i = l
    words = []
    if l!=0:
        while i > 0:
            j = i-maxlen if (i-maxlen) > 0 else 0
            while i > j:
                if s[j:i] in dicts or i == j+1:#当分词出现在词典中或者就剩一个字时
                    words.append(s[j:i])
                    i = j
                    break
                else:
                    j += 1
    words.reverse()
    return words
next_max_match(s,dicts,5)

输出结果

['我们', '经常', '有意见', '啊', '分歧', '啊']

提示： 前向和后向最大匹配有时候结果是不一样的
缺点：

不能细分，有时候最大匹配结果不是最好的(贪心未必最优)

不能考虑语义

复杂度和maxlen相关

1.1.3 unigram 切分

求最大所有出现在字典的可能分割概率的最大值
S = X ₁ X₄X₄X₄…X_n
P = p(X_0-i₁)p(X_{(i₁+1)-i₂})…P(X_{(i_n+1)-(l-1)}) {X_{i_k-_{i_m}}∈S,l = len(S}
由于P是概率连乘，所以P可能约等于0，所以加log
P = log(p(X_0-i₁))log(p(X_{(i₁+1)-i₂}))…log(P(X_{(i_n+1)-(l-1)})) {X_{i_k-_{i_m}}∈S,l = len(S}
又由于分割的个数越多，P的值会越少，为了避免这种情况，将P取几何平均值，即
P = pow(P,1/len(words) {words为分割后单词列表}
最后求得max§

import re
import numpy as np
def cut_word(input_str,word_dict):
    #只切一刀
    a={}
    l = len(input_str)
    for i in range(l):#列举所有有前向匹配可能的组合
        if(input_str[:l-i] in word_dict) or l-i==1:#l-i == 1默认一个字也可以是一个词
            a[input_str[:l-i]]= l-i #记录切割位置
    return a
def cutwords(input_str,word_dict,max_len=4):
    #切割一刀后，等于切割前面的词组 + 切割位置后面的组合
    dicts = []
    arr = cut_word(input_str[:max_len],word_dict)#第一刀
    if(arr=={}):
        return [[]]
    for d in arr:
        v = cutwords(input_str[arr[d]:],word_dict,max_len)#后面的刀
        for i in v:
            i.append(d)
            dicts.append(i)
    return dicts     
def word_segment_naive(input_str,word_dict,max_len=5, seps=''):
    inputs = re.split(fr'[{seps}]\s*', input_str)#可以自己添加断句分隔符
    words = []
    for input_str in inputs:
        res = cutwords(input_str,word_dict,max_len)
        for i in range(len(res)):
            res[i].reverse()
        segment_p = []
        best = 0
        for k,i in enumerate(res):
            p = 1
            for j in i:
                if(j not in word_dict):
                    word_dict[j] = 0.000001
                p *= np.log10(word_dict[j])#防止数过大或过小
            p = np.power(p, 1/len(i))#几何平均，否则词组月多概率越小  
            segment_p.append(p)
            if(p>segment_p[best]):
                best = k
        words.extend(res[best])
    return words
text = '今天北京的天气真好啊，今天北京的天气真好啊'    # 保存词典库中读取的单词
word_prob = {'思':0.2,'京':0.01,"北京":0.02,"的":0.08,"天":0.005,"气":0.005,"天气":0.06,"真":0.04,"好":0.05,"真好":0.04,"啊":0.01,"真好啊":0.005, 
             "今":0.01,"今天":0.07,"课程":0.01,"内容":0.06,"有":0.05,"很":0.03,"很有":0.04,"意思":0.06,"有意思":0.005,"课":0.01,
             "程":0.005,"经常":0.02,"意见":0.01,"意":0.01,"见":0.005,"有意见":0.005,"分歧":0.01,"分":0.02, "歧":0.005}
word_segment_naive(text,word_prob,max_len=4, seps='：，。？、； ‘“@#￥%……&*（）”’\s')

输出结果

['今天', '北京', '的', '天气', '真好啊', '今天', '北京', '的', '天气', '真好啊']

缺点： 复杂度太高，递归算法导致有重复分割子串的现象，欢迎在下面评论新的算法解决复杂度问题

1.1.4 Viterbi分词法

以句子所有分割位点作为顶点（分割位点，如："你好"有三个分割位点“|你|好|”，|代表分割位点），将词语的概率看做是边，那么问题就变成了了从开始到结尾的最短路径(将概率取负对数)
例：
词典︰[“经常”,“经”,“有”,“有意见”,“意见”,“分歧”,“见”,“意”,“见分歧”,“分”]
概率︰[ 0.1,0.05,0.1,0.1, 0.2,0.2, 0.05,0.05, 0.05, 0.1]
-log(x): [ 2.3, 3, 2.3, 2.3, 1.6, 1.6, 3, 3, 3, 2.3]
将分词转化为图模型，求最短路径

#构建矩阵存储边值
import numpy as np

def viterbi(s, dicts,max_len=4):
    edges = []#构建矩阵存储边值
    for i in range(len(s)):
        edges.append([0 for _ in range(len(s))])
        if s[i] in dicts:
            edges[i][i] = -np.log2(dicts[s[i]])
        else:
            edges[i][i] = -np.log2(0.00001)
        for j in range(1,max_len):
            if(i+j+1>len(s)):
                break
            if s[i:i+j+1] in dicts:
                edges[i][i+j] = -np.log2(dicts[s[i:i+j+1]] )
    edges = np.array(edges)#第一个分位点到第一个分位点，因为是乘积的关系，设为1不影响大小
    min_rode = {0:[[],1]}
    return v(len(s),min_rode,edges)
def v(n,min_rode,edges):
    if n in min_rode:
        return min_rode[n]
    else:
        arr = []#存放所有可能路径和值
        for i,k in enumerate(edges[:,n-1]):
            if(k!=0):
                a = v(i,min_rode,edges)
                arr.append([a[0]+[s[i:n]], a[1]*k])
        min_rode[n] = sorted(arr,key=lambda x:x[1])[0]#找到最短的
        return min_rode[n]
viterbi(s, dicts,max_len=4)

输出结果

[['经常', '有意见', '分歧'], 25.622955465622145]

★中文分词工具：Jieba分词、SnowNLP、LTP、HanNLP、FndaNLP(工具包虽好也要懂得基础原理)

1.2预处理

spelling correction 拼写纠错

stop words 停用词过滤(特定无意义的词)

stemming:one way to normalize(时态归一化等)

words filter 特殊词过滤

同义词替换

1.2.1拼写纠错

拼写纠错流程

用户输入

寻找候选单词

找到概率最大的单词

寻找候选单词：

从编辑距离较小的寻找

从常用拼写错误词典寻找

从编辑距离较小的单词寻找
编辑距离：详解编辑距离(Edit Distance)及其代码实现
如果在词典里寻找编辑距离所有最小的单词，计算与每个词的编辑距离复杂度太高，所以可以先生成固定距离的编辑距离再去词典里寻找
生成编辑距离的单词

def edit_distance_words(word,distance=1):
   error_words = []
   if distance == 1:#计算编辑距离为1的
       alpha = 'abcdefghigklmnopqrstuvwxyz'
       add = [word[:i]+ j +word[i:] for i in range(len(word)) for j in alpha]
       delete = [word[:i] + word[i+1:] for i in range(len(word))]
       replace = [word[:i] + j + word[i+1:] for i in range(len(word)) for j in alpha]
       return list(set(add+delete+replace))
   else:
       for i in edit_distance_words(word,distance-1):#编辑距离不为1的，对编辑距离减1的词在进行一次编辑距离为1的变换
           error_words += edit_distance_words(i)
       return list(set(error_words))
len(edit_distance_words('word',2))

输出结果

拼写纠错练习
数据

vocab.txt

testdata.txt

spell-error.txt

from nltk.corpus import reuters
import numpy as np
import re

vocb = set([line.strip() for line in open('vocab.txt')])
def generate_candidates(word):#生成编辑距离为1的单词
    letters = 'abcdefghijklmnopqrstuvwxyz'
    splits = [(word[0:i],word[i:]) for i in range(len(word))]
    inserts = [L+c+R for L,R in splits for c in letters]
    deletes = [L+R[1:] for L,R in splits]
    replaces = [L+c+R[1:] for L,R in splits for c in letters]
    candidates = set(inserts+deletes+replaces)
    return list(candidates)
categories = reuters.categories()  
corpus = reuters.sents(categories=categories)
term_count = {}
bigram_count = {}
for doc in corpus:
    doc = ['']+doc
    for i in range(0,len(doc)-1):
        term = doc[i]
        bigram = doc[i:i+2]
        if term in term_count:
            term_count[term] += 1
        else:
            term_count[term] = 1
        bigram = ' '.join(bigram)
        if bigram in bigram_count:
            bigram_count[bigram] += 1
        else:
            bigram_count[bigram] = 1
channel_prob = {}
for line in open('spell-error.txt'):
    items = line.split(':')
    corrent = items[0].strip()
    mistakes = [item.strip() for item in items[1].strip().split(',')]
    channel_prob[corrent] = {}
    for i in mistakes:
        channel_prob[corrent][i] = 1/len(mistakes)

V = len(term_count.keys())
file = open("testdata.txt", 'r')

for line in file:
    items = line.strip().split('\t')
    mis_mun = items[1]
    mis_text = items[2]
    mis_words = re.split(r'[\., \s]\s*',mis_text)
    for mis_word  in mis_words:
        if mis_word not in vocb:
            candidate = generate_candidates(mis_word)
            if len(candidate) < 1:
                continue
            probs = []
            for cand in candidate:
                prob = 0
                if cand in channel_prob and mis_word in channel_prob[cand]:
                    prob = np.log(channel_prob[cand][mis_word])
                else:
                    prob += np.log(0.0001)
                idx = mis_text.index(mis_word)+1
                if mis_text[idx-1] in bigram_count and cand in bigram_count[mis_text[idx-1]]:
                    prob += np.log((bigram_count[mis_text[idx-1]][cand] + 1.0) / (term_count[bigram_count[mis_text[idx - 1]]] + V))
                else:
                    prob += np.log(1.0 / V)
                probs.append(prob)
            max_idx = probs.index(max(probs))
            print(mis_word, candidate[max_idx])

输出结果

protectionst kprotectionst Tkyo's Tkyos's retaiation retniation Japan's Japman's tases atases wouldn't woyldn't busines busiles ltMC ltcMC Taawin Taaswin seriousnyss serisousnyss aganst against bililon bililocn ...

提示： 编辑距离为2的单词就已经非常多了

寻找最佳候选词
给定一个字符串s,我们要找出最有可能成为正确的字符串c,也就是 $c = argmax_{c∈cnadidates}p(c|s)$ $贝叶斯定里的：$ $c= argmax_{c∈cnadidates}p(s|c)p(c)/p(s)$ $由于 p (s) 是固定的的：$ $c= argmax_{c∈cnadidates}p(s|c)p(c)$
p(s|c)基于统计的计算得出，例如有多少人把c写成了s
p( c)文章中c出现的概率

1.2.2 steming

意思相同，单词的不同形式转化(根据具体的应用场景选择转化)
went,going,go -> go（时态）
fly, flies -> fly（单复数）
fast, faster,fastest ->fast（比较级）
PorterStemmer算法python版，可以自己下载用一用，这里就不在展示

1.3文本表示（word representation）

text->vector

boolean vector

count vector

tf-idf

word2vec

seq2seq

1.3.1 one-hot representation

词典：[我们，去，爬山，今天，你们，昨天，跑步]
我们：[1,0,0,0,0,0,0]
爬山：[0,0,1,0,0,0,0]
…
特点：稀疏向量，只有一个为1，向量大小与词典大小相同，词与词之间相似度为0，无法表达语义。

1.3.2 boolean representation

句子表示，1代表出现过，0代表没有出现
词典：[我们，又，去，爬山，今天，你们，昨天，跑步]
我们今天去爬山：（1,0,1,1,1,0,0,0)
你们昨天跑步：(0,0,0,0,0,1,1,1)
你们又去爬山又去跑步：(0,1,1,1,0,1,0,1)
特点：无法考虑语序,无法表示单词出现个数

1.3.3 count representation

句子表示，m代表出现过m次
词典：[我们，又，去，爬山，今天，你们，昨天，跑步]
我们今天去爬山：（1,0,1,1,1,0,0,0)
你们昨天跑步：(0,0,0,0,0,1,1,1)
你们又去爬山又去跑步：(0,2,2,1,0,1,0,1)
特点：无法考虑语序,并不是出现个数越多就越重要

1.3.4 tf-idf representation

$t f i d f (w) = t f (d, w) * i d f (w)$ $t f (d, w) = 文档 d 中 w 出现的词频$ $i d f (w) = l o g (N / N (w))$
N：语料库中文档的总数
N(w)：词语w出现在多少个文档
Idf代表单词重要性，出现在不同文档的数越多，越不重要

1.3.4 word2vec (分布式的表达方法)

分布式的单词表示方法，例如使用模型训练出100维度的向量(0.1,0.2,0.1…0.3),解决了词向量稀疏问题，而且100维就可以表达所有单词。
word2vec的方法（这里先挖个坑）

skip-gram

glove

cbow

RNN/LSTM

MF

Gaussian Embedding

1.4计算相似度

欧氏距离

$d = |S_1-S_2|$
缺点：向量是有方向的，欧式距离没有考虑方向

余弦相似度

$d = S_1 S_2/(|S_1|*|S_2|)$

Jaccard 相似度

1.6倒排表

在我们计算相似度时，我们需要对输入的问题与每一个问题计算相似度，这样十分浪费时间，于是可以使用倒排表进行检索优化
词典：[key1,key2,key3,…keyn]
文档：[doc1,dco2,doc2,…docn]
key1：[doc1,doc5]
key2：doc2,doc4,doc6]
key3：[doc1,doc3,doc7]
…
当我们需要查找计算相似度时，直接计算与关键词相关的文档即可，不需要遍历每一个文档

1.7返回结果

直接返回相似最高的结果

过滤最高的几个

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') import ssl ssl._create_default_https_context = ssl._create_unverified_context

2.简单的问答系统

搭建一个问答系统做个练习吧
数据：

英语停用词

问答数据

代码如下（示例）：

import json #加载问题和答案 def load_data(): with open('问答系统.json', encoding='utf-8') as f: data = json.load(f) f.close() data['data'][0]['paragraphs'][0]['qas'][0]['question'] data['data'][0]['paragraphs'][0]['qas'][0]['answers'][0]['text'] question = [] answers = [] for i in data['data']: for j in i['paragraphs']: for k in j['qas']: question.append(k['question']) answers.append(k['answers']) stop_words = [line.strip('\n') for line in open('stop_words_English.txt', encoding='utf-8')] return question,answers,stop_words question,answers,stop_words = load_data() #建立词典 import re def count_word(question,answers,stop_words): words_dict = {'NAN':0} for i in question: arr = re.split(r'[0-9\'<>\":;.\+\-\*\/,()?$：，。？、； ‘“@#￥%……&*（）”’\s]\s*',i) for j in arr: j = j.lower() if(j == ''): continue elif( j in stop_words): words_dict['NAN'] += 1 #停用词过滤 elif (j in words_dict): words_dict[j] += 1 else: words_dict[j] = 1 # del_keys = [key for key in words_dict if words_dict[key]<=1]#删除低频单词 # [words_dict.pop(key) for key in del_keys] words_dict['NAN'] = 11 return words_dict words_dict = count_word(question,answers,stop_words) #自己写的TfIdf效率有点低 import numpy as np from scipy.sparse import lil_matrix class TfidfVectorizer: def __init__(self): self.document = None def fit_transform(self,document,words_dict): self.words_dict = words_dict.copy()#词典 self.document = document#句子 self.N = len(words_dict)#句子个数 self.dict = {'NAN':10}#单词在不同句子的个数 self.words = []#切分后的单词 self.keys = {'NAN':0} for i in document: arr = re.split(r'[0-9\'<>\":;.\+\-\*\/,()?$：，。？、； ‘“@#￥%……&*（）”’\s]\s*',i) self.words.append(arr) self.count_word_in_document() self.data = [] for i in self.words: s = lil_matrix((1,self.N),dtype=float) count = {} for word in i: if word in count: count[word] += 1 else: count[word] = 1 for word in count: if word in self.words_dict: s[(0,self.keys[word])] = count[word] * np.log2(self.N/self.dict[word]) # else: # s[(0,0)] += count[word] * np.log2(self.N/self.dict['NAN']) self.data.append(s) def count_word_in_document(self): count = 1 for i in self.words: i = list(set(i)) for word in i: if word in self.words_dict: if word in self.dict: self.dict[word] += 1 else: self.keys[word] = count count += 1 self.dict[word] = 1 def tranform(self, s): arr = re.split(r'[0-9\'<>\":;.\+\-\*\/,()?$：，。？、； ‘“@#￥%……&*（）”’\s]\s*',s) s = lil_matrix((1,self.N),dtype=float) count = {} for word in arr: if word in count: count[word] += 1 else: count[word] = 1 for word in count: if word in self.words_dict: s[(0,self.keys[word])] = count[word] * np.log2(self.N/self.dict[word]) # else: # s[(0,0)] += count[word] * np.log2(self.N/self.dict['NAN']) return s tf = TfidfVectorizer() tf.fit_transform(question,words_dict) w = tf.tranform('When did Beyonce start becoming popular?') similary = [] for i in tf.data: print(w.dot(i.T))#找到最大的分数的索引返回答案即可 #由于自己写的TfIdf效率太低，可以用sklearn的Tfidf from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() tf_idf = tfidf.fit_transform(raw_documents=question) w = tfidf.transform(['When did Beyonce start becoming popular']) similary = [] maxIndex = 0 for k,i in enumerate(tf_idf): simi = w.dot(i.T)[0,0] similary.append(simi) if simi > similary[maxIndex]: maxIndex = k print(answers[maxIndex][0]['text'])

输出结果：

in the late 1990s

总结

以上就是今天要讲的内容，本文仅仅简单介绍了比较传统的问答系统的基本原理，欢迎大家评论沟通。

006 python-if条件梅洪 python python 服务器开发语言
Pythonif条件教学设计一、教学目标了解if语句的基本结构和执行逻辑。掌握if-else和if-elif-else语句的使用方法。能够运用条件判断解决实际问题，如分数判断、用户登录等。理解if语句中的比较运算符和逻辑运算符的作用。二、教学重点if语句的基本语法if-else语句if-elif-else语句逻辑运算符and、or、not在if语句中的应用三、教学难点多重if-elif-else结
神经网络模型压缩&实例教程—非结构化剪枝程序先锋《python深度学习》笔记神经网络剪枝深度学习
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）3.1随机剪枝weight3.2L1范数剪枝bias4.总结最先进的深度学习技术依赖于难以部署的过度参数化模型。相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。这反过来又允许您在设备上部署轻量级模型，并通过设备上的私
【python双目标定轮椅】基于python的双目标定迟钝皮纳德 python opencv 计算机视觉
代码部分话不多说直接上代码：新建文件getdata.pyimportcv2importosid_image=0#图片的IDcamera=cv2.VideoCapture(1)#找到棋盘格的标准criteria=(cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,30,0.001)camera.set(cv2.CAP_PROP_FRAME_WIDTH,
Python 中的离线语音转文本无水先生语音编程人工智能综合 python 开发语言
Python中的离线语音转文本一、说明写作、编码、写博客、办公室工作、文档、报告都需要一个人在键盘上打字。这会导致健康问题，如腕管综合症、手和手指疼痛等。我非常了解这种痛苦。这是用于创建自己的离线运行的听写程序的Python代码。只需对着耳机的麦克风说话，它就会将您的话转换为文本并将其保存在文本文件中。二、安装您将需要安装Python库—vosk、pyaudio。 Vosk是一个语音识别
深度学习模型压缩：非结构化剪枝与结构化剪枝的定义与对比从零开始学习人工智能深度学习剪枝人工智能
****在深度学习中，模型压缩是优化模型性能、降低存储和计算成本的重要技术之一。其中，剪枝（Pruning）是最常用的方法之一。根据剪枝的粒度和目标，剪枝可以分为非结构化剪枝（UnstructuredPruning）和结构化剪枝（StructuredPruning）。本文将详细介绍这两种剪枝方法的定义，并通过对比帮助读者更好地理解它们的差异。1.非结构化剪枝（UnstructuredPruning
最方便的离线python实时中文语音识别！迟钝皮纳德 python 语音识别
废话不多说，直接上代码，先安装环境需要安装的包：jsonpyaudionumpyvosk新建一个py文件写入：importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数FORMAT=pyaudio.paInt16#音频流的格式RATE=
python插入排序算法编程小白gogogo python python 排序算法算法
defi_sort(arr):#从第二个元素开始遍历整个数组foriinrange(1,len(arr)):key=arr[i]#当前要插入的元素j=i-1#指向当前元素的前一个元素#将大于key的元素都向右移动一位whilej>=0andkey
python 创建子图_在python中以绘图方式创建子图 weixin_39899691 python 创建子图
Iamfairlynewtopythonandploty(<3monthsofactualcodingatthispoint).Iamtryingtocreatesubplotsinplotly.Ihavecreatedgraphsinplotlyusingthecodebelow(codesnippetsattachedbelowaswell),butIcan'tseemtogetthemtow
pythonsubplot_python matplotlib中的subplot函数使用详解郝志鹄 pythonsubplot
python里面的matplotlib.pylot是大家比较常用的，功能也还不错的一个包。基本框架比较简单，但是做一个功能完善且比较好看整洁的图，免不了要网上查找一些函数。于是，为了节省时间，可以一劳永逸。我把常用函数作了一个总结，最后写了一个例子，以后基本不用怎么改了。一、作图流程：1.准备数据，，3作图，4定制，5保存，6显示1.数据可以是numpy数组，也可以是list2创建画布：impor
基于关键词的文本知识的挖掘系统的设计与实现赵谨言论文毕业设计经验分享
标题:基于关键词的文本知识的挖掘系统的设计与实现内容:1.摘要随着信息时代的发展，文本数据呈爆炸式增长，如何从海量文本中高效挖掘有价值的知识成为重要问题。本文旨在设计并实现一个基于关键词的文本知识挖掘系统。方法上，该系统先对输入的文本进行预处理，包括分词、去除停用词等操作，然后基于关键词匹配算法从文本中提取相关信息，最后将提取的知识进行整理和存储。通过实际测试，该系统能够在平均3秒内对一篇5000
python 替换字符串 Aa123456789_55 pandas python 数据库开发语言
在Python中，替换字符串可以通过多种方式实现，具体取决于您的需求和上下文。以下是几种常见的方法：1.使用str.replace()方法str.replace(old,new[,count])是最常用的字符串替换方法。它会将字符串中的所有匹配项替换为新的字符串。old:要被替换的子字符串。new:用来替换的新字符串。count(可选):替换的最大次数。如果未指定，则替换所有匹配项。示例代码：or
数据结构与算法：单调栈 WBluuue c++算法数据结构 leetcode
前言单调栈是一种维护数组当前位置左右两侧比它小或大的最近的数的一种数据结构。一、经典用法单调栈的经典用法就是找数组当前位置的数左右两侧比它小或大的最近的数。1.模板——单调栈结构(进阶)#includeusingnamespacestd;voidfindSmall(vector&arr){stackindex;vector>ans(1000001,vector(2,0));//存下标intcur;
python数据可视化玩转Matplotlib subplot子图操作，四个子图（一包四），三个子图，子图拉伸_python subplot 2401_83817843 程序员 python 信息可视化 matplotlib
大锤爱编程的博客_CSDN博客-大数据,Go,数据分析领域博主Matplotlib是一个流行的Python可视化库，它提供了许多功能来创建各种类型的图表。其中一个功能是子图，它允许您在单个图表中绘制多个图。一、创建子图要创建子图，请使用plt.subplots()函数。该函数接受三个参数：行数、列数和子图编号。以下是一个简单的示例：importmatplotlib.pyplotaspltfig,a
python subplot函数应用 - 创建多个子图 Aa123456789_55 图形展示代码学习 python 开发语言
subplot语法：plt.subplot是Matplotlib库中的一个非常有用的函数，用于在一个图形窗口中创建多个子图plt.subplot函数用于在当前图形窗口中创建并激活一个子图。其基本语法如下：plt.subplot(nrows,ncols,index)参数详解：nrows:子图的行数。这是指整个图形窗口将被分成多少行子图。ncols:子图的列数。这是指整个图形窗口将被分成多少列表子图。
数据结构与算法：洪水填充 WBluuue c++算法 leetcode 数据结构深度优先剪枝图论
前言洪水填充是一种用在图上的搜索算法，其过程就像洪水或病毒一样逐渐蔓延整个区域，继而达到遍历和统计相同属性的连通区域的功能，中间也可以通过每走过一个节点就设置路径信息的方法来达到剪枝的效果。一、岛屿数量——洪水填充方法classSolution{public:intnumIslands(vector>&grid){returnsolve2(grid);}//洪水填充方法intsolve2(vect
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
pythoneasyinstall安装第三方库_【Python使用】Python安装第三方包（easy_install和pip工具）... 不死鹰阿江
本文是对python的第三方包/模块的安装的说明，官方下载第三方包的地址为：https://pypi.org/。1.工具安装部署1.1setuptools安装部署(easy_install)easy_install是由PEAK(PythonEnterpriseApplicationKit)开发的setuptools包里带的一个命令，它用来自动地从http://pypi.python.org/sim
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
scikit-image（Scikit-image 是用于图像处理的 Python 包，使用原生的 NumPy 数组作为图像对象） Clark-dj 图像处理 python numpy
Scikitimage中文开发手册-开发者手册-腾讯云开发者社区-腾讯云昨天搜索一个函数时无意间发现这个网站，今天来学习一下，仅作学习笔记。measureskimage.measure.approximate_polygon（coords，...）近似具有指定公差的多边形链。skimage.measure.block_reduce（image，block_size）通过对局部块应用函数来下采样图像
深入理解AI编程的上下文窗口限制及解决方案：巧妙利用提示词 SuperMale-zxq AI编程——程序员的进阶之路 c++python java AI编程人工智能
深入理解AI编程的上下文窗口限制及解决方案：巧妙利用提示词当AI模型遇到记忆瓶颈想象一下这个场景：一位开发者正在使用AI助手编写一个复杂的应用程序。他详细描述了需求，AI生成了初步代码框架。但当他要求AI继续完善某个模块时，AI却似乎"忘记"了之前讨论的关键细节，甚至生成了与项目需求不符的代码。这不是偶然现象，而是当前所有大型语言模型（LLMs）面临的共同挑战——上下文窗口限制。在过去两年指导数百
从Manus爆红到OpenAI反击：AI Agent技术架构与实战解析大F的智能小课大模型理论和实战 DeepSeek技术解析和实战人工智能架构
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！1.引：一夜爆红的Manus与OpenAI的反击2025年3月6日凌晨，中国团队Monica推出的通用人工智能代理产品Manus横空出世。这款被称作"Agent界的DeepSeek时刻"的产品，
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
python`print`函数中flush参数需要重新演唱 Python python
print函数中flush参数在计算机中，输出通常会被缓冲，这意味着数据不会立即发送到目标位置（如控制台或文件），而是先存储在内存中的一个缓冲区里。这样做的好处是可以提高性能，因为一次性发送大量数据通常比逐个发送数据更高效。然而，在某些情况下，你可能希望立即看到输出，而不是等待缓冲区填满或程序结束。这时就可以使用flush参数来强制刷新缓冲区。flush参数的作用flush参数是一个布尔值，默认是
算法——图论——关键活动阿饼240 算法图论
原题#include#include#include#includeusingnamespacestd;structedge{intdestination;intdist;edge(intdestination_,intdist_):destination(destination_),dist(dist_){}};vectorgraph[100];vectorreGraph[100];vector
算法——图论——交通枢纽阿饼240 算法 c++动态规划图论
原题#include#include#includeusingnamespacestd;typedefpairPII;vectorgraph[100];vector>Dist(100,vector(100,-1));vectorState(100,false);voidDijkstra(ints,intn){for(inti=0;i,greater>pq;pq.emplace(0,s);while
算法——动态规划——买卖股票阿饼240 算法动态规划
力扣原题classSolution{public:intmaxProfit(vector&prices){vector>dp(prices.size(),vector(2));//每一行各有两个状态，一个是持有股票，一个是不持有股票dp[0][0]=-prices[0];dp[0][1]=0;for(inti=1;i
二叉树非递归遍历算法分析小瓶子36 算法数据结构
以前没有学习过树的相关算法，只是了解一些皮毛，最近开始认真学习它。看视频或者网上查资料，可以知道怎么去遍历一棵树，但是算法为什么是这样的呢？少有讲到。如果有一天，我忘记了这个算法，我需要重新去看视频，看文档，这不是我想要的。我想要的是，知道这个算法是怎么设计出来的。下次我忘记的时候，我需要一支笔，一张纸，重新设计出这个算法，而不是去找资料看视频。我想要知道的是，为什么如此，而不是仅仅知道如此而已。
DeepSeek使用教程 rider189 杂谈 java 职场和发展学习方法创业创新开发语言健康医疗媒体
一、教育行业：个性化学习与智能辅导机会点：智能作业批改：教师上传学生作业，DeepSeek自动识别答案并生成批改报告，节省80%人工时间。虚拟导师：学生输入数学题或编程问题，模型实时生成分步解析，支持追问互动，解决“卡壳”难题。个性化学习路径：根据学生测试结果，自动推荐课程和习题，提升学习效率30%以上。教程亮点：登录DeepSeek官网，进入“问答系统”模块，输入学科问题即可获取答案。上传学生作
python的print函数中file_【Python-1】初解print函数 weixin_39849762
print(*objects,sep='',end='\n',file=sys.stdout,flush=False)Printobjectstothetextstreamfile,separatedbysepandfollowedbyend.sep,end,fileandflush,ifpresent,mustbegivenaskeywordarguments.print函数可将对象以字符串的形
在数字化时代重构人际关系：探索真实连接的创新方式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学程序员实现财富自由
在数字化时代重构人际关系：探索真实连接的创新方式关键词数字化时代、人际关系、真实连接、创新方式、社交算法、用户体验、跨界合作摘要随着数字化时代的到来，人际关系面临着前所未有的挑战。传统的面对面交流被虚拟互动所取代，人们之间的真实连接日益减弱。本文旨在探讨在数字化时代重构人际关系的创新方式，通过分析数字化工具对人际关系的影响，探索真实连接的要素及其在数字化环境下的实现路径。文章从核心概念、创新方法、
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

NLP自然语言处理——问答系统

NLP自然语言处理——问答系统

文章目录

前言

一、 基于搜索的问答系统

二、具体步骤

1.处理流程

1.1分词

1.1.1前向最大匹配(forward-max matching)

1.1.2后向最大匹配(next-max matching)

1.1.3 unigram 切分

1.1.4 Viterbi分词法

1.2预处理

1.2.1拼写纠错

1.2.2 steming

1.3文本表示（word representation）

1.3.1 one-hot representation

1.3.2 boolean representation

1.3.3 count representation

1.3.4 tf-idf representation

1.3.4 word2vec (分布式的表达方法)

1.4计算相似度

1.6倒排表

1.7返回结果

2.简单的问答系统

总结

你可能感兴趣的:(NLP,语言模型,问答系统,nlp,python,算法,自然语言处理,深度学习)

一、基于搜索的问答系统