智者也

sklearn实现lda模型_LDA模型实战常用知识点

2019 Stata & Python 实证计量与爬虫分析暑期工作坊还有几天就要开始了。之前在公众号里分享过好几次LDA话题模型的，但考虑的问题都比较简单。这次我将分享在这个notebook中，将会对以下问题进行实战：

提取话题的关键词

gridsearch寻找最佳模型参数

可视化话题模型

预测新输入的文本的话题

如何查看话题的特征词组

如何获得每个话题的最重要的n个特征词

1.导入数据

这里我们使用的20newsgroups数据集

import

pandas

read_json

(

'newsgroups.json'

)

head

()

查看target_names有哪些类别

target_names

unique

()

Run

array

([

'rec.autos'

'comp.sys.mac.hardware'

'rec.motorcycles'

'misc.forsale'

'comp.os.ms-windows.misc'

'alt.atheism'

'comp.graphics'

'rec.sport.baseball'

'rec.sport.hockey'

'sci.electronics'

'sci.space'

'talk.politics.misc'

'sci.med'

'talk.politics.mideast'

'soc.religion.christian'

'comp.windows.x'

'comp.sys.ibm.pc.hardware'

'talk.politics.guns'

'talk.religion.misc'

'sci.crypt'

dtype

object

)

2.英文清洗数据

使用正则表达式去除邮件和换行等多余空白字符

使用gensim库的simple_preprocess分词，得到词语列表

注意：

nltk和spacy安装配置比较麻烦，可以看这篇文章。

自然语言处理库nltk、spacy安装及配置方法其中nltk语料库和spacy的英文模型均已放置在教程文件夹内~

import

nltk

import

gensim

from

nltk

import

pos_tag

import

from

nltk

corpus

import

stopwords

#导入spacy的模型

nlp

spacy

load

(

'en_core_web_sm'

disable

'parser'

'ner'

])

def

clean_text

(

text

allowed_postags

'NOUN'

'ADJ'

'VERB'

'ADV'

]):

text

sub

(

'\S*@\S*\s?'

text

)

#去除邮件

text

sub

(

'\s+'

' '

text

)

#将连续空格、换行、制表符替换为空格

#deacc=True可以将某些非英文字母转化为英文字母，例如

#"Šéf chomutovských komunistů dostal poštou bílý prášek"转化为

#u'Sef chomutovskych komunistu dostal postou bily prasek'

words

gensim

utils

simple_preprocess

(

text

deacc

True

)

#可以在此处加入去停词操作

stpwords

stopwords

words

(

'english'

)

#保留词性为'NOUN', 'ADJ', 'VERB', 'ADV'词语

doc

nlp

(

' '

join

(

words

))

text

" "

join

([

token

lemma_

token

lemma_

not

[

'-PRON-'

]

else

for

token

doc

token

pos_

allowed_postags

])

return

text

test

"From: [email protected] (where's my thing)\nSubject: WHAT car is this!?\nNntp-Posting-Host: rac3.wam.umd.edu\nOrganization: University of Maryland, College Park\nLines: 15\n\n I was wondering if anyone out there could enlighten me on this car I saw\nthe other day. It was a 2-door sports car, looked to be from the late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. In addition,\nthe front bumper was separate from the rest of the body. This is \nall I know. If anyone can tellme a model name, engine specs, years\nof production, where this car is made, history, or whatever info you\nhave on this funky looking car, please e-mail.\n\nThanks,\n- IL\n ---- brought to you by your neighborhood Lerxst ----\n\n\n\n\n"

clean_text

(

test

)

Run

'where thing subject car be nntp post host rac wam umd edu organization university maryland college park line be wonder anyone out there could enlighten car see other day be door sport car look be late early be call bricklin door be really small addition front bumper be separate rest body be know anyone can tellme model name engine spec year production where car be make history info have funky look car mail thank bring neighborhood lerxst'

将将数据content列进行批处理(数据清洗clean_text)

content

apply

(

clean_text

)

head

()

3. 构建文档词频矩阵 document-word matrix

from

sklearn

feature_extraction

text

import

TfidfVectorizer

CountVectorizer

#vectorizer = TfidfVectorizer(min_df=10)#单词至少出现在10个文档中

vectorizer

CountVectorizer

(

analyzer

'word'

min_df

# minimum reqd occurences of a word

lowercase

True

# convert all words to lowercase

token_pattern

'[a-zA-Z0-9]{3,}'

# num chars > 3

# max_features=50000, # max number of uniq words

)

data_vectorized

vectorizer

fit_transform

(

content

)

检查数据的稀疏性,

data_dense

data_vectorized

todense

()

# Compute Sparsicity = Percentage of Non-Zero cells

(

"Sparsicity: "

((

data_dense

sum

()/

data_dense

size

100

'%'

)

Run

Sparsicity

0.9138563473570427

4.构建LDA模型

使用sklearn库的LatentDirichletAllocation

from

sklearn

decomposition

import

LatentDirichletAllocation

# 构建LDA话题模型

lda_model

LatentDirichletAllocation

(

n_components

)

# 话题数

lda_output

lda_model

fit_transform

(

data_vectorized

)

模型表现

# 越高越好

(

lda_model

score

(

data_vectorized

))

#训练好的模型的参数

(

lda_model

get_params

())

Run

11868684.751381714

{

'batch_size'

128

'doc_topic_prior'

None

'evaluate_every'

'learning_decay'

0.7

'learning_method'

'batch'

'learning_offset'

10.0

'max_doc_update_iter'

100

'max_iter'

'mean_change_tol'

0.001

'n_components'

'n_jobs'

None

'perp_tol'

0.1

'random_state'

None

'topic_word_prior'

None

'total_samples'

1000000.0

'verbose'

}

5. 如何找到最佳的话题数

LatentDirichletAllocation中有很多参数，调整参数会使得结果发生变化。为了训练出更好的模型，这里我们使用ncomponents和learningdecay这两个参数作为示范，设置这两个参数可能的取值范围。

运行时间半个小时~

from

sklearn

model_selection

import

GridSearchCV

设置参数搜寻的范围

search_params

{

'n_components'

[

'learning_decay'

]}

初始化LDA模型

lda

LatentDirichletAllocation

()

初始化GridSearchCV

model

GridSearchCV

(

lda

param_grid

search_params

)

训练LDA模型

model

fit

(

data_vectorized

)

查看模型参数

model

cvresults

Run

{

'mean_fit_time'

array

([

76.23844155

78.47619971

75.65877469

92.04278994

92.47375035

70.50102162

77.17208759

77.42245611

78.51173854

80.36060111

64.35273759

80.74369526

78.33191927

97.60522366

91.52556197

]),

'std_fit_time'

array

([

1.90773724

6.00546298

2.90480388

10.82104708

2.15837996

0.91492716

1.78299082

0.99124146

0.88202007

2.52887488

1.42895102

3.4966494

4.10921772

8.57965772

2.97772162

]),

'mean_score_time'

array

([

3.03948617

3.12327973

3.17385236

4.1181256

4.14796472

2.80464379

3.00497603

3.18396346

3.29176935

3.34573205

2.60685007

3.05136299

3.39874609

3.77345729

4.19327569

]),

'std_score_time'

array

([

0.29957093

0.0616576

0.13170509

0.4152717

0.58759639

0.05777709

0.17347846

0.06664403

0.13021069

0.12982755

0.06256295

0.13255927

0.43057235

0.29978059

0.44248399

]),

'param_learning_decay'

masked_array

(

data

0.5

0.7

0.9

mask

False

fill_value

'?'

dtype

object

'param_n_components'

masked_array

(

data

mask

False

fill_value

'?'

dtype

object

'params'

[{

'learning_decay'

0.5

'n_components'

{

'learning_decay'

0.5

'n_components'

{

'learning_decay'

0.5

'n_components'

{

'learning_decay'

0.5

'n_components'

{

'learning_decay'

0.5

'n_components'

{

'learning_decay'

0.7

'n_components'

{

'learning_decay'

0.7

'n_components'

{

'learning_decay'

0.7

'n_components'

{

'learning_decay'

0.7

'n_components'

{

'learning_decay'

0.7

'n_components'

{

'learning_decay'

0.9

'n_components'

{

'learning_decay'

0.9

'n_components'

{

'learning_decay'

0.9

'n_components'

{

'learning_decay'

0.9

'n_components'

{

'learning_decay'

0.9

'n_components'

}],

'split0_test_score'

array

([-

3874856.42190824

3881092.28265286

3905854.25463761

3933237.60526826

3945083.8541135

3873412.75021688

3873882.90565526

3911751.31895979

3921171.68942096

3949413.2598192

3876577.95159756

3886340.65539402

3896362.39547871

3926181.21965185

3950533.84046263

]),

'split1_test_score'

array

([-

4272638.34477011

4294980.87988645

4310841.4440567

4336244.55854965

4341014.91687451

4279229.66282939

4302326.23456232

4317599.83998105

4325020.1483235

4338663.90026249

4284095.2173055

4294941.56802545

4299746.08581904

4331262.03558289

4338027.82208097

]),

'split2_test_score'

array

([-

4200870.80494405

4219318.82663835

4222122.82436968

4237003.85511169

4258352.71194228

4192824.54480934

4200329.40329793

4231613.93138699

4258255.99302186

4270014.58888107

4199499.64459735

4209918.86599275

4230265.99859102

4247913.06952193

4256046.3237088

]),

'mean_test_score'

array

([-

4116100.53270373

4131775.17089196

4146251.59136724

4168807.85000785

4181462.93317874

4115134.28591336

4125490.60725673

4153633.64919084

4168127.44754368

4186009.66931221

4120036.0842904

4130378.79165891

4142103.10465406

4168430.69488042

4181515.57804474

]),

'std_test_score'

array

([

173105.26046897

179953.68165447

173824.10245002

171450.68036995

170539.38663682

174546.8275931

182743.94823856

174623.71594324

176761.14575071

169651.81366214

175603.01769822

176039.50084949

176087.37700361

174665.17839821

166743.56843518

]),

'rank_test_score'

array

([

dtype

int32

)}

输出参数搜寻出模型的效果并将其可视化

import

matplotlib

pyplot

plt

# Get Log Likelyhoods from Grid Search Output

n_topics

[

]

log_likelyhoods_5

model

cv_results_

[

'mean_test_score'

][

model

cv_results_

[

'param_learning_decay'

]==

0.5

]

log_likelyhoods_7

model

cv_results_

[

'mean_test_score'

][

model

cv_results_

[

'param_learning_decay'

]==

0.7

]

log_likelyhoods_9

model

cv_results_

[

'mean_test_score'

][

model

cv_results_

[

'param_learning_decay'

]==

0.9

]

# Show graph

plt

figure

(

figsize

))

plt

plot

(

n_topics

log_likelyhoods_5

label

'0.5'

)

plt

plot

(

n_topics

log_likelyhoods_7

label

'0.7'

)

plt

plot

(

n_topics

log_likelyhoods_9

label

'0.9'

)

plt

title

(

"Choosing Optimal LDA Model"

)

plt

xlabel

(

"Num Topics"

)

plt

ylabel

(

"Log Likelyhood Scores"

)

plt

legend

(

title

'Learning decay'

loc

'best'

)

plt

show

()

#最佳话题模型

best_lda_model

model

best_estimator_

(

"Best Model's Params: "

model

best_params_

)

(

"Best Log Likelihood Score: "

model

best_score_

)

Run

Best

Model

's Params: {'

learning_decay

': 0.7, '

n_components

': 10}

Best Log Likelihood Score: -4115134.285913357

6. 如何查看每个文档的话题信息

LDA会给每个文档分配一个话题分布，其中概率最大的话题最能代表该文档

import

numpy

# 构建文档-词频矩阵

lda_output

best_lda_model

transform

(

data_vectorized

)

# 列名

topicnames

[

"Topic"

str

(

)

for

range

(

best_lda_model

n_components

)]

# 行索引名

docnames

[

"Doc"

str

(

)

for

range

(

len

(

content

))]

# 转化为pd.DataFrame

df_document_topic

DataFrame

(

round

(

lda_output

columns

topicnames

index

docnames

)

# Get dominant topic for each document

dominant_topic

argmax

(

df_document_topic

values

axis

)

df_document_topic

[

'dominant_topic'

]

dominant_topic

# Styling

def

color_green

(

val

color

'green'

val

else

'black'

return

'color: {col}'

format

(

col

color

)

def

make_bold

(

val

weight

700

val

else

400

return

'font-weight: {weight}'

format

(

weight

)

# Apply Style

df_document_topics

df_document_topic

sample

(

style

applymap

(

color_green

applymap

(

make_bold

)

df_document_topics

查看话题分布情况

df_topic_distribution

df_document_topic

[

'dominant_topic'

value_counts

().

reset_index

(

name

"Num Documents"

)

df_topic_distribution

columns

[

'Topic Num'

'Num Documents'

]

df_topic_distribution

7.如何可视化LDA

pyLDAvis可视化话题

import

pyLDAvis

import

pyLDAvis

sklearn

#在notebook中显示

pyLDAvis

enable_notebook

()

panel

pyLDAvis

sklearn

prepare

(

best_lda_model

#训练好的lda模型

data_vectorized

,#训练库语料的词语特征空间(即

Tfidfvecterizer

或者

CounterVecterizer

)

vectorizer

)

panel

由于网络问题，这里插不了gif动图，我放之前的文章链接，大家可以看看可视化效果。手把手教你学会LDA话题模型可视化pyLDAvis库

8. 如何查看话题的特征词组

每个话题都是由带有权重的词组进行表征，是一个二维空间

# 话题-关键词矩阵(Topic-Keyword Matrix)

df_topic_keywords

DataFrame

(

best_lda_model

components_

)

# 重新分配dataframe中的列名和行索引名

df_topic_keywords

columns

vectorizer

get_feature_names

()

#训练集的词语空间的词表

df_topic_keywords

index

topicnames

df_topic_keywords

9.如何获得每个话题的最重要的n个特征词

# 显示每个话题最重要的n个词语

def

show_topics

(

vectorizer

lda_model

top_n

keywords

array

(

vectorizer

get_feature_names

())

topic_keywords

[]

#话题-词语权重矩阵

for

topic_weights

lda_model

components_

#获得权重最大的top_n词语的权重向量

top_keyword_locs

topic_weights

argsort

()[:

top_n

]

#在keywords中找到对于的关键词

topic_keywords

append

(

keywords

take

(

top_keyword_locs

))

return

topic_keywords

show_topics

(

vectorizer

lda_model

best_lda_model

top_n

)

#最重要的10个词语

df_topic_keywords

DataFrame

(

topic_keywords

)

df_topic_keywords

columns

[

'Word '

str

(

)

for

range

(

df_topic_keywords

shape

[

])]

df_topic_keywords

index

[

'Topic '

str

(

)

for

range

(

df_topic_keywords

shape

[

])]

df_topic_keywords

10. 如何对新文本进行话题预测

给训练好的模型输入新文本，预测该文本的话题

Define function to predict topic for a given text document.

#nlp = spacy.load('en', disable=['parser', 'ner'])

def

predict_topic

(

texts

nlp

#清洗数据，如提出空格、邮箱、剔除无意义的词语、保留信息量比较大的词性

cleaned_texts

[]

for

text

texts

cleaned_texts

append

(

clean_text

(

text

))

doc_term_matrix

vectorizer

transform

(

cleaned_texts

)

#LDA transform

topic_term_prob_matrix

best_lda_model

transform

(

doc_term_matrix

)

#话题

topic_index

argmax

(

topic_term_prob_matrix

)

topic_word

df_topic_keywords

iloc

[

topic_index

:].

values

tolist

()

return

topic_index

topic_word

topic_term_prob_matrix

#预测

mytext

[

"Some text about christianity and bible"

]

topic_index

topic_word

topic_term_prob_matrix

predict_topic

(

mytext

)

(

"该文本的所属的话题是Topic"

topic_index

)

(

"该话题的特征词 "

topic_word

)

(

"特征词的权重分布情况 "

topic_term_prob_matrix

)

Run

该文本的所属的话题是

Topic

该话题的特征词

[

'not'

'have'

'max'

'god'

'say'

'can'

'there'

'write'

'christian'

'would'

]

特征词的权重分布情况

[[

0.02500225

0.025

0.02500547

0.02500543

0.02500001

0.7749855

0.02500082

0.02500052

0.025

]]

你可能感兴趣的:(sklearn实现lda模型)

Aop和Ioc有什么关系？（面试简洁版）乞讨不是罪过面试 java 职场和发展
AOP（面向切面编程）和IoC（控制反转）是Spring框架的两大核心，它们既独立又协作，共同实现松耦合、可扩展的架构设计。以下是它们的核心关系基础关系1.IoC是基石：Spring通过IoC容器（如ApplicationContext）统一管理所有Bean（包括普通业务Bean和AOP代理对象）。没有IoC，AOP无法自动生效。2.AOP是增强：AOP基于IoC管理的Bean，通过动态代理（JD
电赛DEEPSEEK 马职音人嵌入式硬件 stm32 学习单片机 HAL库
以下是针对竞赛题目的深度优化方案，重点解决频率接近时的滤波难题和相位测量精度问题：以下是使用NIMultisim14.3实现本项目的详细解决方案：一、基础要求实现方案（模块化设计）1.双频信号发生电路电路结构：[信号源1]XFG1（1kHz）->[电压跟随器U1A]->[加法器U2A][信号源2]XFG2（10kHz）->[电压跟随器U1B]->[加法器U2A]关键参数设置：元件清单：-运算放大器
基于 Kintex UltraScale 系列 2 路 QSFP+40G 光纤 PCIe 数据传输卡 / 光纤适配器（5GByte/s 带宽KU060光纤 PCIe 数据传输卡） F_white 数据中心视频与图像采集处理机器视觉
PCIE732是一款基于PCIE总线架构的高性能数据传输卡，板卡具有1个PCIex8主机接口、2个QSFP+40G光纤接口，可以实现2路QSFP+40G光纤的数据实时采集、传输。板卡采用Xilinx的高性能KintexUltraScale系列FPGA作为实时处理器，板载2组独立的72位DDR4SDRAM大容量缓存。板卡具有1个RJ45千兆以太网口以及若干IO信号。一般应用于基于服务器的雷
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
WPF中获取主窗体周杰伦fans ai学习参考 WPF笔记学习C#的笔记 wpf
在WPF的MVVM模式中，通常不直接引用主窗体（MainWindow），而是通过依赖注入、事件聚合器或命令参数传递等方式实现逻辑解耦。以下是几种推荐方法：方法1：依赖注入（推荐）在ViewModel中定义一个接口，通过构造函数注入主窗体服务。步骤：定义接口（可选）：publicinterfaceIMainWindowService{voidShowMessage(stringmessage);}在
钉钉小程序框架引入 Pinia 状态管理
上一篇文章描述了如何使用其他手段实现路由守卫文章地址：钉钉小程序开发中实现路由守卫拦截-CSDN博客本文将深入探讨如何在基于这些技术栈的小程序项目中引入状态管理插件一、了解PiniaPinia是一个全新的Vue状态管理库，旨在替代Vuex成为Vue3应用程序中的首选状态管理解决方案。它提供了更加简洁的API和更好的TypeScript支持。通过结合使用UniApp、Vue3、TypeScript和
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
vue-28（服务器端渲染（SSR）简介及其优势）清幽竹客 VUE vue.js javascript
服务器端渲染（SSR）简介及其优势服务器端渲染（SSR）是现代网络应用的关键技术，特别是使用Vue.js等框架构建的应用。它通过在服务器上渲染初始应用状态来弥补传统单页应用（SPA）的局限性，从而提升性能、SEO和用户体验。本课程将全面介绍SSR，包括其优势以及与客户端渲染的对比。我们将为后续课程中使用Nuxt.js奠定基础，这是一个强大的框架，简化了Vue.js的SSR实现。理解服务器端渲染（S
微信支付回调验证实战：构建防伪造请求的3道防火墙 IT莫染工具及插件 #配置 Spring Boot Demo 微信 Spring Boot 3.2 微信支付V3 API 数据签名防重放攻击
⚡痛点场景当你的电商系统遭遇：黑客伪造支付成功回调→0元订单自动发货重放攻击→单笔交易多次发货中间人篡改金额→1999元订单变成1.99元微信官方数据：未验签的回调接口被攻击概率高达73%安全架构三重防护️核心代码实现（SpringBoot≥3.1,JDK17+）防火墙1：签名验证（关键防伪造）@RestController@RequestMapping("/payment")publicclas
基于springboot的社会志愿者管理系统 QQ242219979 spring boot 后端 java
目录部分效果实现截图本系统介绍关于我开发技术详细介绍开发思路核心代码参考示例基于springboot的社会志愿者管理系统论文提纲参考系统测试源码获取详细视频演示或者查看其他版本：文章底部获取博主联系方式！部分效果实现截图本系统介绍基于springboot的社会志愿者管理系统采用的开发工具：IntelliJIDEA，VScode；数据库管理软件：Navicat；服务器运行平台：Tomcat；开发技术
SD-WAN在智慧工厂中的实践：云平台与边缘计算高效协作解析北极光SD-WAN组网边缘计算人工智能
随着工业4.0与智能制造的深入推进，智慧工厂成为现代制造业的重要发展方向。智慧工厂依托云计算与边缘计算协同处理海量数据，以实现生产过程的智能化。然而，云平台和边缘计算之间的数据传输对网络的可靠性、灵活性和实时性提出了更高要求。在此背景下，SD-WAN（软件定义广域网）技术成为解决这一问题的重要工具。本文将探讨SD-WAN技术在制造业中如何优化云平台与边缘计算的协作应用，分析其在智慧工厂场景下的具体
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
Python实例题：基于遗传算法的旅行商问题求解狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于遗传算法的旅行商问题求解要求：使用遗传算法解决旅行商问题（TSP）。支持以下功能：随机生成城市坐标或导入预定义城市实现遗传算法的基本操作（选择、交叉、变异）可视化进化过程和最终路径统计进化过程中的适应度变化允许用户调整遗传算法参数（种群大小、迭代次数、交叉率、变异率等）。解题思路：用列表表示城市访问顺序作为染色体。使用欧
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
QT-登录界面的实现是桃萌萌鸭~ ui qt c++物联网数据库开发
QT-登录界面的实现一、登录界面设计要求创建一个窗体，设计用户登录的界面（含有用户名、密码），并实现用户登录的功能，要求用户提交的登录按钮时能获取界面中的用户名、密码数据并与数据库中的数据进行匹配，若用户名，密码正确则登录成功，否则登录失败。二、具体实现过程1、图片演示2、详细代码实现(1)dialog.cpp：（登录界面.cpp文件）#include"dialog.h"#include"ui_d
Leetcode 3600. Maximize Spanning Tree Stability with Upgrades Espresso Macchiato leetcode笔记 leetcode 3600 leetcode hard leetcode周赛456 二分法 DSU UF 并查集
Leetcode3600.MaximizeSpanningTreeStabilitywithUpgrades1.解题思路2.代码实现题目链接:3600.MaximizeSpanningTreeStabilitywithUpgrades1.解题思路这一题核心思路就是一个二分法的思路。我们定义函数is_possible(x)，表示是否存在一个树的构造，使得任意一条边的长度均不少于xxx。显然，这里有两
Leetcode 3599. Partition Array to Minimize XOR Espresso Macchiato leetcode笔记 leetcode 3599 leetcode medium leetcode周赛456 动态规划
Leetcode3599.PartitionArraytoMinimizeXOR1.解题思路2.代码实现题目链接：3599.PartitionArraytoMinimizeXOR1.解题思路这一题就是一个动态规划的思路。我们定义动态规划的状态函数dp(idx,k)将数组arr[idx:]切分为kkk个子串之后能够获得的最大XOR的最小值。此时，我们就能有状态转移函数：dp(i,k)=minj=i+
什么是Seata 肘击鸣的百k路 spring cloud
Seata的实现原理主要围绕其核心架构（TC/TM/RM）和事务模式（如AT、TCC等）展开，通过协调全局事务与分支事务的协作保证数据一致性。以下是核心实现原理的详细解析：⚙️一、核心架构协作机制Seata通过TC（事务协调器）、TM（事务管理器）、RM（资源管理器）三组件协同工作：全局事务启动（TM主导）TM通过@GlobalTransactional注解标记事务起点，向TC申请开启全局事务，生
企业级 Java 应用灰度发布设计方案与实践全解析大手你不懂 Java Java项目实战微服务-云原生 java 后端云原生微服务 kubernetes istio
引言在当今互联网产品快速迭代的背景下，如何在保证服务稳定性的同时，快速验证新功能的有效性，成为了技术团队面临的重要挑战。灰度发布（CanaryRelease）作为一种重要的发布策略，能够将新版本逐步推向部分用户，在控制风险的同时收集真实用户反馈，已成为企业级Java应用的标配能力。本文将深入探讨灰度发布的核心概念、主流设计方案，并结合行业最佳实践给出具体实现建议。一、灰度发布核心概念1.1灰度发布
Spring Cache+Redis缓存方案详解：从代码到实践大手你不懂 Java Java项目实战 Redis spring 缓存 redis
描述：在现代Java开发中，缓存是提升系统性能的核心手段之一。本文通过实际代码案例，深入解析SpringCache与Redis的集成原理，结合项目中的ModuleDatabaseInfoService接口和RedisConfig配置，探讨如何通过声明式缓存实现高效的数据库访问优化。一、核心代码解析1.服务接口设计（拿查询数据源配置信息举例）publicinterfaceModuleDatabase
Club_IntelliMatch_Development_Guide Joseit python python pygame django flask
ClubIntelliMatch系统-全栈开发流程文档概述ClubIntelliMatch系统是一个现代化的社团活动智能匹配平台，采用前后端分离架构。系统基于PythonFlask构建RESTfulAPI后端，Vue.js3+Vite构建现代化前端，MySQL作为持久化数据存储。本文档深入分析了整个开发流程的技术架构、设计原则和实现细节。系统架构流程图后端API架构前端组件架构app.pyFlas
Python实例题：基于 Flask 的博客系统狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：1.base.html2.index.html3.post.html4.create_post.html5.login.html6.register.htmlPython实例题题目基于Flask的博客系统要求：使用Flask框架构建一个简单的博客系统。实现用户认证（注册、登录、注销）。支持博客文章的创建、编辑、删除和查看。使用SQLite数据库存
云原生灰度方案对比：服务网格灰度（Istio ）与 K8s Ingress 灰度（Nginx Ingress ）大手你不懂微服务-云原生 Java Java项目实战云原生 istio kubernetes 微服务
服务网格灰度与KubernetesIngress灰度是云原生环境下两种主流的灰度发布方案，它们在架构定位、实现方式和适用场景上存在显著差异。以下从多个维度对比分析，并给出选型建议：一、核心区别对比维度服务网格灰度（以Istio为例）K8sIngress灰度（以NginxIngress为例）架构层级网络层（L7），工作在服务间通信层面边缘网关层，工作在集群入口处流量控制范围服务间的全链路流量集群外部
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
推荐算法特征工程实战：用户与物料动态画像构建指南 Jay Kay 推荐算法推荐算法算法机器学习
在推荐系统的特征工程中，动态画像是提升推荐精准性的核心武器。通过捕捉用户行为偏好和物料热度变化，算法能实现千人千面的精准推荐。本文结合两张关键图表，深入解析动态画像的构建方法与工程实践。一、用户动态画像：六大维度精准刻画兴趣偏好用户动态画像基于六个关键维度构建（如表2-1所示），形成"6W"行为模型：用户粒度物料属性时间粒度动作类型统计对象统计方法1.核心维度解析（附典型场景）维度可选值应用场景用
Ansible部署MySQL实操码农运维知识运维 mysql ansible mysql
一、Ansible概述Ansible是一款开源的自动化运维工具，由MichaelDeHaan于2012年创建，2015年被红帽（RedHat）收购（收购金额超1亿美元）。它基于Python开发，通过SSH协议实现远程节点管理，无需在被控端安装任何客户端代理（Agentless）。这种设计使其成为轻量级、易部署的自动化解决方案，特别适合批量系统配置、应用程序部署和任务编排等场景。核心特点无代理架构：
Java实现简易即时通讯系统程序员皮皮林 Java java
我们想要实现一个类似QQ的即时通讯程序。由于这是一个复杂的项目，我们将分步骤进行，并只实现核心功能。核心功能包括：1.用户注册与登录2.添加好友3.发送消息（点对点）4.接收消息我们将使用Socket编程来实现。为了简化，我们不使用数据库，而是使用文件存储用户信息和好友关系。我们将创建两个主要部分：服务器和客户端。服务器端：-处理用户注册、登录请求-管理用户连接（在线状态）-转发消息客户端：-提供
AI日报-20250627：谷歌Gemma 3n发布，百亿参数只需2G内存！荣耀启动IPO冲刺2000亿估值！大数据AI-ZRL AI日报人工智能业界资讯自然语言处理
1、黑马FLUX.1-Kontext开源！文本一键PS超越GPT-image-1，AI修图新标杆2、谷歌Gemma3n震撼发布：2G内存跑100亿参数多模态模型，端侧AI迎来革命！3、90后清华博士打造AI厨师！获数千万融资，拿下全国首张机器人食品经营证4、蚂蚁CGM代码图模型震撼开源：44%修复率登顶SWE-Bench，碾压所有开源模型5、快手Keye-VL大模型震撼开源！视频理解能力秒杀人类，
C++ —— 内存管理啥也不懂！！！ C++c++开发语言
文章目录1.回顾C语言内存管理2.C++的动态内存管理方式2.1new/delete操作内置类型2.2new和delete操作自定义类型3.operatornew和operatordelete函数3.1operatornew与operatordelete函数4.new和delete的实现原理4.1内置类型4.2自定义类型5.new和delete操作不匹配（了解）6.定位new表达式（了解）7.常见
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$