若年封尘

详细介绍NLP关键词提取算法

PageRank 算法

基于词图模型的关键词提取算法主要有 PageRank 和 TextRank。
PageRank 是 TextRank 算法的思想基础，TextRank 是 PageRank 在文本上的应用。

来源：
Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索系统原型时提出的链接分析算法，通过计算网页链接的数量和质量来粗略估计网页的重要性。

应用：
该算法创立之初即应用在谷歌的搜索引擎中，是谷歌搜索的核心算法，对网页进行排名，从而解决互联网网页的价值排序问题。

核心思想：
链接数量：如果一个网页被很多其他网页链接到，说明这个网页比较重要，也就是 PageRank 值会相对较高。
链接质量：如果一个 PageRank 值很高的网页链接到一个其他的网页，那么被链接到的网页的 PageRank 值会相应地因此而提高。

基本原理：
可以将整个万维网看作一张有向图，网页构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它，那么这个节点应该就很重要。同样，如果有多个高权重的节点指向某一节点，且这个节点指向外部的链接数很少，那么这个被链接的点显然非常重要。

S(vi) 是网页 i 的重要性（PR 值），初始为1。
d 是阻尼系数，一般设置为 0.85。
In(vi) 表示节点 vi 的前驱节点集合。
Out(vj) 表示节点 vj 的后继节点集合;
|Out(vj)| 是集合中元素的个数。

算法流程：
①给每个网页一个 PageRank 值（简称 PR 值）。
②通过（投票）算法不断迭代，直至达到平稳分布为止。

案例分析：
如图所示，有 A、B、C 三个页面，假设三者的初始 PR 值都是 1，d=0.85，计算每个网页的权重。

计算权重：
PR(A) = 0.15 + 0.85 * ( PR(B) / 2 )
= 0.15+0.85 * 0.5
= 0.575
PR(B) = 0.15 + 0.85 * ( PR(A) / 2+ PR( C) ）
= 0.15+0.85 * 1.5
= 1.425
PR( C) = 0.15 + 0.85 * ( PR(B) / 2+ PR(A) /2)
= 0.15+0.85 * 1
= 1
所以网页 B 是图中最重要的节点。

TextRank 算法

TextRank 算法是一种基于图的、用于处理文本的排序算法。

来源：
由 PageRank 算法改进而来，区别：PageRank 算法根据网页之间的链接关系来构建网络，而 TextRank 算法是根据词之间的共现关系来构建网络。即：TextRank 算法以词作为节点，以共现关系建立起节点之间的链接，每个词的外链来源于该词前后固定大小窗口的所有词。

应用：
TextRank 算法最早用于文档的自动摘要，基于句子维度的分析，利用 TextRank 对每个句子进行打分，挑选出分数最高的 n 个句子作为文档的关键句，以达到自动摘要的效果。后来，该算法利用一篇文档内部的词语之间的共性信息（语义）来抽取关键词，能够从一个给定的文本中抽取出关键词、关键词组，并用抽取式的自动摘要方法抽取出关键句。

核心思想：
TextRank 算法将文档看做词语的网络，该网络中的链接表示词语之间的语义关系。
①如果一个单词在很多单词边上都会出现，说明这个单词比较重要。
②一个 TextRank 值很高的单词边上的单词，TextRank 值会相应的因此而提高。

算法原理：
PageRank 算法构造的网络是有向无权图，而 TextRank 算法构造的网络是无向有权图。除了考虑链接句的重要性之外，还考虑两个句子之间的相似性。计算每个句子给它链接句的贡献时，不是通过平均分配的方式，而是通过计算权重占总权重的比例来分配。这里的权重即指句子之间的相似度，可通过编辑距离、余弦相似度等来进行计算。

TextRank 算法构建一张关系图来表达文本、词语以及其他实体。词语、词语集合、整个句子等都可以作为图中的顶点，在这些顶点之间建立联系（如词序关系、语义关系、内容相似度等），就能够构建一张合适的关系图。
基于 PageRank 计算权重的公式，TextRank 算法改写为如下公式来计算权重：

参数说明：
d ：阻尼系数，取值范围为 0 ～ 1；代表从图中某一特定点指向其他任意点的概率，一般取值为 0.85。
In(vi) ：指向节点 vi 的所有单词集合。
：分子表示词 vj 链接到 vi 的权重；分母表示节点 vj 指向的所有链接的权重和。

当 TextRank 应用到关键词提取时，与应用在自动摘要中时有两点不同：
（1）单词之间的关联是没有权重的；将得分平均贡献给每个链接的词。
（2）每个单词并不是与文本中所有词都有链接。（专家学者提出窗口的概念，在窗口中的词相互间都有链接关系。得到链接关系就可以套用 TextRank 的公式，对每个词的得分进行计算，最后选择得分最高的 n 个词作为文档的关键词。)

算法流程：
使用 TextRank 算法提取关键词和关键词组的具体步骤如下：
①将原文本分割成句子。
②对每个句子进行分词，并做词性标记，然后去除停用词，只保留指定词性的词（如名词、动词、形容词等）。
③构建词图，节点集合由以上步骤生成的词组成，然后用共现关系构造任意两个节点之间的边：两个节点之间存在边仅当它们对应的词在长度为 K 的窗口中共现，K 表示窗口大小，即最多共现 K 个单词，一般 K 取 2。
④迭代计算各节点的权重，直至收敛，得到各节点重要性的分值。
⑤对各节点的权重进行倒序排序，得到最重要的 N 个单词，作为 top-N 关键词进行输出。
⑥在原文本中标记 top-N 关键词，若它们之间形成了相邻词组，则作为关键词组提取出来。

算法特点：
优点：
● 无监督方式，无需构造数据集训练。
● 算法原理简单，部署简单。
● 继承了 PageRank 的思想，效果相对较好，可以更充分的利用文本元素之间的关系，综合考虑文本整体的信息来确定哪些词或句子可以更好的表达文本。
缺点：
● 结果受分词、文本清洗影响较大，即对于某些停用词的保留与否，直接影响最终结果。
● 虽然不只利用了词频，但是仍然受高频词的影响，因此，需要结合词性和词频进行筛选，以达到更好效果，但词性标注显然又是一个问题。
注意：其他算法的关键词提取都要基于一个现成的语料库，而 TextRank 算法不需要。

案例分析：
对于 TextRank 的算法，目前已经有很多优秀的开源实现，在此分别利用结巴分词和 TextRank4zh 两种方法去实现 TextRank 算法。

1.采用结巴分词工具的方式实现 TextRank 算法
（1）使用结巴分词工具之前，要先安装 jieba 分词工具。可在终端中使用如下命令进行安装：pip install jieba
（2）导入结巴分词工具包，用 jieba.analyse.extract_tags 函数来提取关键词。
用法：keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())

参数：
● content, ：待提取关键词的原文本。
● topK ：返回关键词的数量，重要性从高到低排序。
● withWeight ：是否同时返回每个关键词的权重。
● allowPOS：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词。

import jieba.analyse 
str = " 基于词图模型的关键词提取算法 TextRank" 
result = jieba.analyse.extract_tags(str,withWeight=True) 
print(result)

2.采用 TextRank4zh 的方式实现 TextRank 算法
（1）先安装 textrank4zh 模块。可使用以下命令： pip install textrank4zh
（2）导入 textrank4zh 模块，使用其中的 TextRank4Keyword 可以提取关键词。
另外，如果想提取关键句也可以使用其中的 TextRank4Sentence。在关键词提取时，用到两个函数：analyze 和 get_keywords。
① analyze 函数：对文本进行分析。
② get_keywords 函数：获取最重要的关键词，关键词的数量是 num 个，且每个的长度要大于等于 word_min_len。

from textrank4zh import TextRank4Keyword    # 导入相关模块
if __name__ == '__main__':         # 定义要提取的文本 
    text = (" 燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校， 北京高科大学联盟成员。") 
    tr4w = TextRank4Keyword()     # 关键词提取 
    tr4w.analyze(text=text, lower=True, window=5)   
    print(' 关键词 ：') 
    for item in tr4w.get_keywords(10, word_min_len=1): 
        print(item['word'], item['weight'])

TF-IDF 算法

基于统计特征的关键词提取算法：
基本思想：
利用文档中词语的统计信息来抽取适当的关键词，通常将文本经过预处理得到候选词语的集合，然后采用特征值量化的方式从候选集合中得到关键词。

关键： 采用什么样的特征值量化指标。
评估词的重要性的常见指标：

TF-IDF算法：
TF-IDF 是一种统计方法，是一种用于信息检索与文本挖掘的常用加权技术，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
字词的重要性与它在文本中出现的次数成正比关系，与它在语料库中出现的频率成反比关系。
应用：在搜索引擎、关键词提取、文本相似性、文本摘要等领域都有所应用。

基本原理：
1.计算词频TF：
如果某个词在当前文本中出现的频率（TF）高，并且在其他文本中出现的频率（TF）低，则认为这个词具有很好的类别区分能力，适合用来分类。
计算公式：

2.计算逆文档频率 IDF：
计算 IDF 时需要一个语料库，用来模拟语言的使用环境。如果一个词越频繁出现，则分母越大，逆文档频率 IDF 就越小、越接近 0。分母之所以要加 1，是为了避免分母为 0，即所有文档都不包含该词。
计算公式：

3.计算TF-IDF：
先计算得到 TF 和 IDF，然后可以让二者相乘来计算 TF-IDF。TF-IDF 与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。
计算公式：

算法流程：
（1）对原文本进行分词，做词性标注和去除停用词等数据预处理操作，得到候选关键词。
（2）计算某词语在原文本中的词频 TF。
（3）计算该词语在整个语料库的逆文档频率 IDF。
（4）计算该词语的 TF-IDF 值（TF*IDF），并重复（2）～（4）步骤，得到所有候选关键词的 TF-IDF 值。
（5）对候选关键词的 TF-IDF 值进行倒序排列，得到排名前 Top-N 个词汇作为文本关键词。

算法举例：
假定某本书共有 50w 个词，其中“词向量”共出现 9800 次，“文本”出现 14000 次，“自然语言”出现了 17000 次；假设我们的语料库中共有 10000 个文档，包含“词向量”的文档数为 347 个，包含“文本”的文档数为 621 个，包含“自然语言”的文档数为 440 个。计算这三个词的 TF-IDF。

（1）计算词频。
TF（" 词向量 “）=9800/500000=0.020
TF（” 文本 “）=14000/500000=0.028
TF（” 自然语言 “）=17000/500000=0.034
（2）计算逆文档频率。
IDF（” 词向量 “）=log(10000/(347+1))=1.458
IDF（” 文本 “）=log(10000/(621+1))=1.206
IDF（” 自然语言 “）=log(10000/(440+1))=1.356
（3）计算TF-IDF。
TF-IDF（” 词向量 “）=TF（” 词向量 “）IDF（" 词向量 "）=0.0201.458=0.0292
TF-IDF（” 文本 “）=TF（” 文本 “）IDF（" 文本 "）=0.0281.206=0.0338
TF-IDF（” 自然语言 “）=TF（” 自然语言 "）IDF（" 自然语言 "）=0.0341.356=0.0461

“自然语言”这个词的 TF-IDF 值最大，“文本”次之，“词向量”最小。如果只取一个关键词，则取“自然语言”一词。

算法特点：
优点：简单快速，提取结果较符合实际情况。
缺点：
①单纯以词频来衡量一个词的重要性，不够全面。
②未考虑词的位置的影响，出现位置靠前或靠后的词被视为同等重要。
③严重依赖语料库，需要选取高质量且与待处理文本相符的语料库进行训练。

TF-IDF关键词提取案例：
用 TF-IDF 算法实现关键词提取。
Python 第三方工具包 Scikit-learn 提供了 TF-IDF 算法的相关函数。本案例主要用到了sklearn.feature_extraction.text 类的 TfidfTransformer 和 CountVectorizer 函数。
● TfidfTransformer 函数：用来计算词语的 TF-IDF 权值。其参数 smooth_idf，默认值是 True。若设置为 False，则计算 IDF。
● CountVectorizer 函数：用来构建语料库中的词频矩阵。

实现步骤：
（1）安装 pandas 和 sklearn。

pip install pandas 
pip install sklearn

（2）导入相关模块。

import sys,codecs 
import pandas as pd 
import numpy as np 
import jieba.posseg            # 词性标注 
import jieba.analyse           # 提取关键词 
from sklearn import feature_extraction        # 文本特征提取 
from sklearn.feature_extraction.text import TfidfTransformer     # 文本特征提取—TF-IDF权值计算 
from sklearn.feature_extraction.text import CountVectorizer      # 文本特征提取—特征数值计算

（3）读取样本源文件。定义标记函数，读取语料文件，读取完成后会调用标记函数生成标记文件 flag1。

def create__file(file_path): 
    f=open(file_path,'w') 
    f.close 
# 读取数据集（语料） 
dataFile = './data/sample_data - Copy.csv' 
data = pd.read_csv(dataFile) 
create__file('./data/flag1')

（4）数据预处理。对读取到的数据进行预处理，包括分词、去停用词和词性筛选。处理完成后生成标记文件 flag2 ，表示预处理部分完成。

注意：dataPrepos 函数中的词性标注有如下含义：
● 词性编码为 ‘n’ ：表示词性是名词。
● 词性编码为 ‘nz’ ：表示词性是其他专有名词。
● 词性编码为 ‘v’ ：表示词性是动词。
● 词性编码为 ‘vd’ ：表示词性是副动词（直接做状语的动词）。
● 词性编码为 ‘vn’ ：表示词性是名动词（具有名词功能的动词）。
● 词性编码为 ‘l’ ：表示词性是习用语。
● 词性编码为 ‘a’ ：表示词性是形容词。
● 词性编码为 ‘d’ ：表示词性是副词。

# 停用词表 
stopWord = './data/stopWord.txt' 
stopkey = [w.strip() for w in codecs.open(stopWord, 'rb').readlines()] 
# 数据预处理操作：分词，去停用词，词性筛选 
def dataPrepos(text,stopkey): 
    l = [] 
    pos = ['n','nz','v', 'vd', 'vn', 'l', 'a', 'd']             # 定义选取的词性 
    seg = jieba.posseg.cut(text)                        # 分词 
    for i in seg: 
        if i.word not in stopkey and i.flag in pos: # 去停用词 + 词性筛选
            l.append(i.word) 
    return l 
create__file('./data/flag2')

（5）构建 TF-IDF 模型，计算 TF-IDF 矩阵。
● 构建词频矩阵，
● 计算语料中每个词语的 TF-IDF 权值，
● 获取词袋模型中的关键词，
● 获取 TF-IDF 矩阵，
● 完成后生成标记文件 flag3。

def get_tfidf(data): 
# 1. 构建词频矩阵 
vectorizer = CountVectorizer() 
X = vectorizer.fit_transform(data)         # 词频矩阵，a[i][j]: 表示 j 词在第 i 个文本中的词频 
# 2. 统计每个词的 TF-IDF 权值 
transformer = TfidfTransformer() 
tfidf = transformer.fit_transform(X) 
# 3. 获取词袋模型中的关键词 
word = vectorizer.get_feature_names() 
# 4. 获取 TF-IDF 矩阵，a[i][j] 表示 j 词在 i 篇文本中的 TF-IDF 权重 
weight = tfidf.toarray() 
create__file('./data/flag3')

（6）排序输出关键词，将结果写入文件。计算好每个词的 TF-IDF 权值之后，对权值进行排序，并以“词语，TF-IDF”的格式依次输出。全部输出完毕后生成标记文件 flag4 表示环节完成，然后将结果写入文件 keys_TFIDF.csv 中。

def getKeywords_tfidf(data, stopkey, topk): 
    idList, titleList, abstractList = data['id'], data['title'], data['abstract'] 
    corpus = []       # 将所有文档输出到一个 list 中，一行就是一个文档 
    for index in range(len(idList)): 
        text = '%s。%s' % (titleList[index], abstractList[index])     # 拼接标题和摘要 
        text = dataPrepos(text, stopkey)     # 文本预处理 
        text = " ".join(text)                           # 连接成字符串，空格分隔 
        corpus.append(text)

	# 1. 构建词频矩阵 
	vectorizer = CountVectorizer() 
	X = vectorizer.fit_transform(corpus) # 词频矩阵 ,a[i][j]: 表示 j 词在第 i 个文本中的词频 
	# 2. 统计每个词的 TF-IDF 权值 
	transformer = TfidfTransformer() 
	tfidf = transformer.fit_transform(X) 
	# 3. 获取词袋模型中的关键词 
	word = vectorizer.get_feature_names() 
	# 4. 获取 TF-IDF 矩阵，a[i][j] 表示 j 词在 i 篇文本中的 TF-IDF 权重 
	weight = tfidf.toarray() 
	create__file('./data/flag3')
	# 5. 打印词语权重 
	ids, titles, keys = [], [], [] 
	for i in range(len(weight)): 
	    print(u"------- 这里输出第 ", i + 1, u" 篇文本的词语 tf-idf------") 
	    ids.append(idList[i]) 
	    titles.append(titleList[i]) 
	    df_word, df_weight = [], [] # 当前文章的所有词汇列表、词汇对应权重列表
	    for j in range(len(word)): 
	        print(word[j], weight[i][j]) 
	        df_word.append(word[j]) 
	        df_weight.append(weight[i][j])
	    df_word = pd.DataFrame(df_word, columns=['word']) 
	    df_weight = pd.DataFrame(df_weight, columns=['weight'])
	
		keyword = np.array(word_weight['word']) # 选择词汇列并转成数组格式 
        word_split = [keyword[x] for x in range(0, topk)] # 抽取前 topK 个词作为关键词 
        word_split = " ".join(word_split) 
        keys.append(word_split) 
    result = pd.DataFrame({"id": ids, "title": titles, "key": keys}, columns=['id', 'title', 'key']) 
    create__file('./data/flag4') 
    return result 
result = getKeywords_tfidf(data, stopkey, 10) 
result.to_csv("./data/keys_TFIDF.csv", index=False)

程序运行后，控制台会分别输出语料文件中每一条文本的所有词语的 TF-IDF 权值。

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

详细介绍NLP关键词提取算法

PageRank 算法

TextRank 算法

TF-IDF 算法

你可能感兴趣的:(深度学习,自然语言处理,人工智能,关键词提取,TextRank,算法,TF-IDF,算法)