爱数星星的小H

NLP 主题抽取 Topic LDA学习案例（一）

NLP 主题抽取 Topic LDA学习案例

数据准备中的相关参考资料见：https://blog.csdn.net/xiaoql520/article/details/79883409

后续参考资料见代码末尾。

# -*- coding: UTF-8 -*-

import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

import gensim
from sklearn.datasets import fetch_20newsgroups
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from gensim.corpora import Dictionary
import os
from pprint import pprint
from sklearn.datasets import fetch_20newsgroups


#准备数据
news_dataset = fetch_20newsgroups(subset='all',remove=('headers','footers','quotes'))#获取并缓存数据
documents = news_dataset.data
print("In the dataset there are", len(documents), "textual documents")
"""
In the dataset there are 18846 textual documents
"""
print("And this is the first one:\n", documents[0])
"""And this is the first one:
I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game.          PENS RULE!!!
"""
print("In the dataset ,the filenames are as follow:\n",news_dataset.filenames)
"""
In the dataset ,the filenames are as follow:
 ['C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-test\\rec.sport.hockey\\54367'
 'C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.ibm.pc.hardware\\60215'
 'C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-train\\talk.politics.mideast\\76120'
 ...
 'C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.ibm.pc.hardware\\60695'
 'C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.graphics\\38319'
 'C:\\Users\\xiaoQ\\scikit_learn_data\\20news_home\\20news-bydate-test\\rec.autos\\103195']
"""
print("In the dataset ,the target is as follow:\n",news_dataset.target)
"""
In the dataset ,the target is as follow:
 [10  3 17 ...  3  1  7]
"""


# token化句子（分词、去stopword等），并用词袋表示出句子向量
def tokenize(text):
    """
    将text分词，并去掉停用词。STOPWORDS -是指Stone, Denis, Kwantes(2010)的stopwords集合.
    :param text:需要处理的文本
    :return:去掉停用词后的"词"序列
    """
    return [token for token in simple_preprocess(text) if token not in STOPWORDS]
print("第一篇文档通过切词和去停用词后的结果为:\n", tokenize(documents[0]))
"""
第一篇文档通过切词和去停用词后的结果为:
 ['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 
 'pens', 'massacre', 'devils', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'going', 'end',
  'non', 'pittsburghers', 'relief', 'bit', 'praise', 'pens', 'man', 'killing', 'devils', 'worse',
   'thought', 'jagr', 'showed', 'better', 'regular', 'season', 'stats', 'lot', 'fo', 'fun', 
   'watch', 'playoffs', 'bowman', 'let', 'jagr', 'lot', 'fun', 'couple', 'games', 'pens', 'going', 
   'beat', 'pulp', 'jersey', 'disappointed', 'islanders', 'lose', 'final', 'regular', 'season', 
   'game', 'pens', 'rule']
"""
#对文档集中所有文档进行切词和去停用词处理,得到对应的“词”序列集。
processed_docs = [tokenize(doc) for doc in documents]
#Dictionary封装了规范化单词和它们的整数id之间的映射，即：为每个出现在语料库中的单词分配了一个独一无二的整数编号。
# 并收集了单词计数及其他相关的统计信息
word_count_dict = Dictionary(processed_docs)
print ("word_count_dict:",word_count_dict)
"""
word_count_dict: Dictionary(95507 unique tokens: ['actually', 'bashers', 'beat', 'better', 'bit']...)
"""
#查看词条数量：编号矩阵中非零元素的总个数
print("在当前语料库中共有", len(word_count_dict), "条不同的“词”")
"""
在当前语料库中共有 95507 条不同的“词”
"""
#选择词频率大于10次，却又不超过文档大小的20%的词(备注：由于规模缩小，所以有些词的id可能会改变)
word_count_dict.filter_extremes(no_below=20,no_above=0.1)
print("通过筛选后, 预料库中只有：", len(word_count_dict), "条不同的“词”")
"""
通过筛选后, 预料库中只有： 8121 条不同的“词”
"""
#所有语料库文件构成的词袋
bag_of_words_corpus = [word_count_dict.doc2bow(pdoc) for pdoc in processed_docs]
print("bag_of_words_corpus:\n",bag_of_words_corpus)
"""
(词id,词频)
...
(4081, 1), (4372, 2), (4684, 1), (4743, 1), (5112, 1), (5117, 1), (5200, 1), (5250, 1), (5443, 1), (5586, 1), 
(5782, 1), (6212, 1), (6483, 1), (6636, 1), (6707, 1), (7237, 1), (7453, 1)], [(85, 1), (255, 1), (354, 1), 
(624, 1), (2855, 1), (3449, 1), (3626, 1), (3774, 1), (3847, 1), (3917, 1), (7613, 1)], [(24, 4), (28, 4), 
...
"""


# LDA上模型

#如果存在已有模型，则加载已有模型，否则构造器根据训练语料库估计Dirichlet模型:
model_name = "./modle/model.lda"
if os.path.exists(model_name):
    lda_model = gensim.models.LdaModel.load(model_name)
    print("加载已有模型" )

#num_topics: the maximum numbers of topic that can provide
else:
    lda_model = gensim.models.LdaModel(bag_of_words_corpus, num_topics=100, id2word=word_count_dict, passes=5)
    # 保存模型
    lda_model.save(model_name)
    print("加载新创建的模型")

# 验证非登录句子或者文档的主题抽取能力情况
print("1.不指定文档")
#获取最重要的主题：选择30个主题，每个主题包含6个词
print("选择30个主题：")
pprint(lda_model.print_topics(30,6))
"""
选择30个主题：
[(46,
  '0.749*"max" + 0.109*"ax" + 0.021*"rx" + 0.016*"mb" + 0.015*"pl" + '
  '0.015*"um"'),
 (33,
  '0.051*"et" + 0.033*"location" + 0.032*"title" + 0.027*"physics" + '
  '0.025*"msg" + 0.023*"ne"'),
 (4,
  '0.042*"page" + 0.039*"sun" + 0.034*"language" + 0.032*"cancer" + '
  '0.025*"pro" + 0.023*"ati"'),
 (83,
  '0.102*"game" + 0.037*"play" + 0.034*"games" + 0.026*"fan" + 0.022*"watch" + '
  '0.019*"night"'),
 (45,
  '0.028*"version" + 0.027*"number" + 0.027*"tech" + 0.026*"contact" + '
  '0.025*"quality" + 0.021*"phone"'),
 (58,
  '0.145*"thanks" + 0.048*"advance" + 0.037*"hi" + 0.035*"microsoft" + '
  '0.033*"anybody" + 0.030*"mail"'),
 (65,
  '0.061*"attack" + 0.042*"bank" + 0.040*"islamic" + 0.029*"islam" + '
  '0.026*"sea" + 0.025*"land"'),
 (96,
  '0.075*"book" + 0.024*"read" + 0.018*"quote" + 0.016*"physical" + '
  '0.015*"dan" + 0.014*"edge"'),
 (9,
  '0.038*"san" + 0.029*"city" + 0.025*"york" + 0.022*"division" + '
  '0.019*"boston" + 0.019*"california"'),
 (77,
  '0.188*"db" + 0.077*"tcp" + 0.073*"ip" + 0.038*"pts" + 0.032*"substance" + '
  '0.027*"rw"'),
 (34,
  '0.028*"government" + 0.019*"rights" + 0.014*"country" + 0.012*"states" + '
  '0.012*"state" + 0.010*"united"'),
 (1,
  '0.042*"ago" + 0.031*"tv" + 0.030*"face" + 0.025*"wasn" + 0.024*"heard" + '
  '0.021*"seen"'),
 (18,
  '0.024*"going" + 0.024*"hell" + 0.019*"guys" + 0.019*"guy" + 0.016*"lot" + '
  '0.015*"ll"'),
 (27,
  '0.051*"state" + 0.049*"law" + 0.042*"laws" + 0.039*"shall" + 0.028*"ra" + '
  '0.026*"amendment"'),
 (80,
  '0.110*"data" + 0.032*"message" + 0.027*"number" + 0.024*"users" + '
  '0.021*"access" + 0.016*"block"'),
 (51,
  '0.048*"technology" + 0.034*"national" + 0.030*"law" + '
  '0.026*"administration" + 0.024*"enforcement" + 0.021*"agencies"'),
 (67,
  '0.036*"section" + 0.030*"output" + 0.029*"code" + 0.029*"program" + '
  '0.028*"input" + 0.027*"line"'),
 (66,
  '0.107*"window" + 0.070*"application" + 0.037*"manager" + 0.021*"create" + '
  '0.020*"user" + 0.019*"program"'),
 (15,
  '0.082*"god" + 0.031*"bible" + 0.026*"religion" + 0.026*"christian" + '
  '0.017*"christians" + 0.016*"religious"'),
 (13,
  '0.039*"fbi" + 0.031*"koresh" + 0.024*"guns" + 0.021*"batf" + '
  '0.019*"children" + 0.018*"gun"'),
 (90,
  '0.044*"systems" + 0.027*"analysis" + 0.026*"applications" + '
  '0.023*"processing" + 0.019*"font" + 0.018*"programming"'),
 (43,
  '0.021*"evidence" + 0.010*"point" + 0.009*"case" + 0.009*"claim" + '
  '0.009*"science" + 0.007*"mind"'),
 (74,
  '0.032*"myers" + 0.018*"guide" + 0.017*"book" + 0.017*"children" + '
  '0.015*"verse" + 0.015*"considered"'),
 (2,
  '0.040*"unit" + 0.038*"vision" + 0.035*"tom" + 0.030*"length" + 0.029*"phil" '
  '+ 0.029*"instructions"'),
 (91,
  '0.068*"price" + 0.058*"board" + 0.042*"tape" + 0.037*"pin" + 0.032*"old" + '
  '0.031*"cable"'),
 (12,
  '0.093*"key" + 0.038*"chip" + 0.036*"encryption" + 0.033*"keys" + '
  '0.028*"public" + 0.027*"clipper"'),
 (87,
  '0.024*"problem" + 0.019*"ll" + 0.016*"got" + 0.016*"little" + 0.016*"thing" '
  '+ 0.015*"better"'),
 (36,
  '0.045*"team" + 0.031*"year" + 0.027*"season" + 0.021*"players" + '
  '0.019*"hockey" + 0.019*"league"'),
 (47,
  '0.109*"space" + 0.024*"shuttle" + 0.021*"design" + 0.020*"station" + '
  '0.018*"nasa" + 0.016*"flight"'),
 (25,
  '0.128*"edu" + 0.040*"cs" + 0.031*"uk" + 0.025*"apr" + 0.025*"ca" + '
  '0.024*"ac"')]
"""

print ("\n" )
#获取最重要的主题：选择10个主题，每个主题包含10个词
print("选择10个主题：")
pprint(lda_model.print_topics(10))
"""
选择10个主题：
[(70,
  '0.122*"car" + 0.041*"cars" + 0.025*"road" + 0.018*"dog" + 0.017*"auto" + '
  '0.016*"driving" + 0.016*"speed" + 0.015*"xfree" + 0.015*"ford" + '
  '0.015*"automatic"'),
 (76,
  '0.047*"games" + 0.044*"runs" + 0.039*"win" + 0.029*"mike" + 0.026*"game" + '
  '0.023*"year" + 0.020*"run" + 0.018*"pitcher" + 0.018*"smith" + '
  '0.017*"pitching"'),
 (26,
  '0.156*"drive" + 0.078*"hard" + 0.077*"disk" + 0.072*"mac" + 0.056*"apple" + '
  '0.032*"floppy" + 0.027*"internal" + 0.026*"external" + 0.015*"installed" + '
  '0.014*"software"'),
 (33,
  '0.051*"et" + 0.033*"location" + 0.032*"title" + 0.027*"physics" + '
  '0.025*"msg" + 0.023*"ne" + 0.018*"theory" + 0.018*"mercury" + 0.017*"kt" + '
  '0.016*"map"'),
 (24,
  '0.025*"unix" + 0.023*"os" + 0.023*"multi" + 0.020*"support" + 0.018*"sec" + '
  '0.017*"features" + 0.016*"built" + 0.015*"vendor" + 0.013*"installation" + '
  '0.013*"product"'),
 (93,
  '0.026*"dc" + 0.026*"reported" + 0.026*"study" + 0.024*"volume" + '
  '0.021*"newsletter" + 0.019*"washington" + 0.019*"increased" + '
  '0.018*"vehicle" + 0.016*"news" + 0.014*"reports"'),
 (46,
  '0.749*"max" + 0.109*"ax" + 0.021*"rx" + 0.016*"mb" + 0.015*"pl" + '
  '0.015*"um" + 0.011*"au" + 0.010*"dm" + 0.009*"eq" + 0.008*"shifts"'),
 (97,
  '0.051*"card" + 0.044*"mb" + 0.040*"scsi" + 0.028*"drives" + 0.025*"bus" + '
  '0.025*"mhz" + 0.025*"bit" + 0.023*"controller" + 0.020*"speed" + '
  '0.019*"cpu"'),
 (86,
  '0.060*"sale" + 0.039*"model" + 0.038*"offer" + 0.037*"condition" + '
  '0.034*"shipping" + 0.032*"asking" + 0.031*"manual" + 0.025*"box" + '
  '0.024*"included" + 0.023*"sell"'),
 (3,
  '0.062*"power" + 0.024*"drug" + 0.023*"low" + 0.023*"ground" + 0.022*"drugs" '
  '+ 0.021*"high" + 0.020*"rate" + 0.019*"wire" + 0.019*"supply" + '
  '0.018*"current"')]
"""

print("2. 使用unseed 文档")
unseen_document = "In my spare time I either play badmington or drive my car"
print("unseen document的内容如下:", unseen_document )
print()
bow_vector = word_count_dict.doc2bow(tokenize(unseen_document))
for index, score in sorted(lda_model[bow_vector], key=lambda tup: -1 * tup[1]):
    print("Score: {}\t Topic: {}".format(score, lda_model.print_topic(index, 7)))

"""
unseen document的内容如下: In my spare time I either play badmington or drive my car

Score: 0.23174265027046204  Topic: 0.156*"drive" + 0.078*"hard" + 0.077*"disk" + 0.072*"mac" + 0.056*"apple" + 0.032*"floppy" + 0.027*"internal"
Score: 0.21374230086803436  Topic: 0.122*"car" + 0.041*"cars" + 0.025*"road" + 0.018*"dog" + 0.017*"auto" + 0.016*"driving" + 0.016*"speed"
Score: 0.2019999921321869   Topic: 0.102*"game" + 0.037*"play" + 0.034*"games" + 0.026*"fan" + 0.022*"watch" + 0.019*"night" + 0.019*"espn"
Score: 0.16051504015922546  Topic: 0.024*"problem" + 0.019*"ll" + 0.016*"got" + 0.016*"little" + 0.016*"thing" + 0.015*"better" + 0.015*"probably"

"""

print_topics ( num_topics=20, num_words=10 )

获取最重要的主题(show_topic()方法的别名)。

Parameters:	num_topics (int, optional) – 要选择的主题的数量，如果-1则所有的主题都将在结果中(按重要性排序)。 num_words (int, optional) – 每个主题包含的单词数量(按重要性排序)。
Returns:	(topic_id, [(word, value), … ])序列.
Return type:	list of (int, list of (str, float))

gensim.models.ldamodel.LdaModel(corpus=None, num_topics=100, id2word=None, distributed=False, chunksize=2000, passes=1, update_every=1, alpha='symmetric', eta=None, decay=0.5, offset=1.0, eval_every=10, iterations=50, gamma_threshold=0.001, minimum_probability=0.01, random_state=None, ns_conf=None, minimum_phi_value=0.01, per_word_topics=False, callbacks=None, dtype=)

构造器根据训练语料库估计Dirichlet模型参数:

通过加载/保存保存方法完成模型的持久性。

corpus 语料库：如果给定，立即从可迭代的语料库开始训练。如果没有给出，模型就没有经过训练(大概是因为您想手动调用update())。

num_topic：需要从训练语料库中提取的潜在主题的数量。

id2word：表示一个从单词id(整数)到单词(字符串)的映射。它用于确定词汇表的大小，以及调试和主题打印。

alpha和eta：是影响文档主题(theta)和词主题(lambda)分布的稀疏性的超参数。两者都默认为一个对称的1.0/num_topic prior。

可以将alpha设置为一个明确的数组=之前选择过的。它还支持“asymmetric”和“auto”这种特殊值:前者使用固定的标准化非对称1.0/topic no prior，后者直接从你的数据中学习一个不对称的。

eta：可以是一个对称先验的标量，而不是主题/词的分布，或者是一个num_words维的向量，它可以用来加强词分布的(用户定义的)不对称先验概率。它还支持特殊值“auto”，表示直接从您的数据中学习一个不对称的单词。eta也可以是一个num_topic x num_words维的矩阵，表示用来在每个基本主题(不能从数据中学习)上增加单词分布的不对称的先验概率

从最新的每一个模型更新(设置为1减慢训练~2x)计算和记录复杂的估计。默认值为10，以获得更好的性能。设置为None，使困惑估计失效。

load(fname, *args, **kwargs)

从文件中加载先前通过使用save()保存的对象

Parameters:	fname (str) – 包含需要的文件对象的路径 mmap (str, optional) – 内存映射选项。如果该对象被单独存储在不同的数组中时，则可以使用mmap= ' r '来加载这些数组。如果加载的文件是压缩的(不管是“.gz”或' .bz2 ')，那么必须设置' mmap=None'。

doc2bow ( document, allow_update=False, return_missing=False )

Convert document into the bag-of-words (BoW) format = list of (token_id, token_count).

将文档转换为词袋格式=一个包含(token_id, token_count)的列表

Parameters:

Parameters:	document (list of str) –输入文档 allow_update (bool, optional) – 如果为True - 在处理规程中允许更新词典 (包含添加新标记和更新频率) return_missing (bool, optional) – 是否返回丢弃的“词”(它不包含在当前字典中。).
Returns:	(int, int)的列表 – 表示一篇文档的词袋 (int, int)列表, (str, int) 构成的字典– 如果return_missing 为True, 返回文档词袋+丢失的词和其对应的词频.

document (list of str) –输入文档
allow_update (bool, optional) – 如果为True - 在处理规程中允许更新词典 (包含添加新标记和更新频率)
return_missing (bool, optional) – 是否返回丢弃的“词”(它不包含在当前字典中。).

Returns:

(int, int)的列表 – 表示一篇文档的词袋
(int, int)列表, (str, int) 构成的字典– 如果return_missing 为True, 返回文档词袋+丢失的词和其对应的词频.

filter_extremes ( no_below=5, no_above=0.5, keep_n=100000, keep_tokens=None )

按频率在字典中过滤“词”

Parameters:

Parameters:	no_below (int, optional) –保存在至少no_below文档中包含的“词” no_above (float, optional) – 保存包含在no_above文档中的“词”(全部文集大小的分数，而不是绝对数字)。 keep_n (int, optional) –只保留第一个keep_n最频繁的标记。 keep_tokens (iterable of str) –可迭代的“词”序列：在过滤后必须留在字典中“词”。

no_below (int, optional) –保存在至少no_below文档中包含的“词”
no_above (float, optional) – 保存包含在no_above文档中的“词”(全部文集大小的分数，而不是绝对数字)。
keep_n (int, optional) –只保留第一个keep_n最频繁的标记。
keep_tokens (iterable of str) –可迭代的“词”序列：在过滤后必须留在字典中“词”。

gensim.utils.simple_preprocess(doc, deacc=False, min_len=2, max_len=15)

Convert a document into a list of tokens (also with lowercase and optional de-accents), used tokenize().

将文档转换为“词”列表。

Parameters:

Parameters:	doc (str) –输入文档. deacc (bool, optional) –则通过使用`deaccent()`使用去除字符串中的重音 min_len (int, optional) – 结果集中“词”的最小长度. max_len (int, optional) –结果集中“词”的最大长度.
Returns:	从文本中提取出的“词”集合.
Return type:	字符串列表

doc (str) –输入文档.
deacc (bool, optional) –则通过使用deaccent()使用去除字符串中的重音
min_len (int, optional) – 结果集中“词”的最小长度.
max_len (int, optional) –结果集中“词”的最大长度.

Returns:

从文本中提取出的“词”集合.

Return type:

字符串列表

filter_extremes ( no_below=5, no_above=0.5, keep_n=100000, keep_tokens=None )

Filter tokens in dictionary by frequency.。

Parameters:	no_below (int, optional) –保存在至少no_below文档中包含的令牌。 no_above (float, optional) –保存包含在no_above文档中的令牌(全部文集大小的分数，而不是绝对数字)。 keep_tokens (iterable of str) – Iterable of tokens that must stay in dictionary after filtering.

本文参考资料：

1、https://blog.csdn.net/scotfield_msn/article/details/72904651

2、https://radimrehurek.com/gensim/apiref.html

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
读李中莹先生论“阿Q精神" 猫咪06
这阵子重读《重塑心灵》，对“阿Q精神"一段很有感慨，在我们从小的信念里，阿Q的精神胜利法是被贬低的，是对无能力改变自己的境遇时，似手只能采用自我安慰的人的讽刺。李中莹先生在他的书中结合对话者的认可，定义阿Q精神“只求精神胜利，罔顾真实情况"，他就针对这两句话，解析阿Q精神，并进行了肯定‘，。首先“精神胜利"指的是自己内心有成功的感觉，这很符合NLP!如果所有人都认为你成功，而你自己没有成功的喜悦，
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
OPENAI中RAG实现原理以及示例代码用PYTHON来实现 dzend aigc python 开发语言 ai
OPENAI中RAG实现原理以及示例代码用PYTHON来实现1.引言在当今人工智能领域，自然语言处理（NLP）是一个非常重要的研究方向。近年来，OPENAI发布了许多创新的NLP模型，其中之一就是RAG（Retrieval-AugmentedGeneration）模型。RAG模型结合了检索和生成两种方法，可以用于生成与给定问题相关的高质量文本。本文将介绍RAG模型的实现原理，并提供使用Python
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

NLP 主题抽取 Topic LDA学习案例（一）

你可能感兴趣的:(NLP)