住在天上的云

【机器学习】AAAI 会议论文聚类分析

实验五：AAAI 会议论文聚类分析

本次实验以AAAI 2014会议论文数据为基础，要求实现或调用无监督聚类算法，了解聚类方法。

1 任务介绍

每年国际上召开的大大小小学术会议不计其数，发表了非常多的论文。在计算机领域的一些大型学术会议上，一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类，有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章，由UCI公开提供，提供包括标题、作者、关键词、摘要在内的信息，希望大家能根据这些信息，合理地构造特征向量来表示这些论文，并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察，看每一类都是什么样的论文，是否有一些主题。

1.1 基本要求：

将文本转化为向量，实现或调用无监督聚类算法，对论文聚类，例如10类（可使用已有工具包例如sklearn）；
观察每一类中的论文，调整算法使结果较为合理；
无监督聚类没有标签，效果较难评价，因此没有硬性指标，跑通即可，主要让大家了解和感受聚类算法，比较简单。

1.2 扩展要求：

对文本向量进行降维，并将聚类结果可视化成散点图。

注：group和topic也不能完全算是标签，因为

有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关；
一篇文章可能有多个group和topic，作为标签会出现有的文章同属多个类别，这里暂不考虑这样的聚类；
group和topic的取值很多，但聚类常常希望指定聚合成出例如5/10/20类；
感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果，不作要求。

1.3 提示：

高维向量的降维旨在去除一些高相关性的特征维度，保留最有用的信息，用更低维的向量表示高维数据，常用的方法有PCA和t-SNE等；
降维与聚类是两件不同的事情，聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行，结果也可能截然不同；
高维向量做聚类，降维可视化后若有同一类的点不在一起，是正常的。在高维空间中它们可能是在一起的，降维后损失了一些信息。

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import re
import nltk
import sklearn
import seaborn as sns # 作图
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy import sparse # 稀疏矩阵

RANDOM_STATE = 2023

2 导入数据

data_df = pd.read_csv('./data/[UCI] AAAI-14 Accepted Papers - Papers.csv') # 读入 csv 文件为 pandas 的 DataFrame
data_df.head(5)

	title	authors	groups	keywords	topics	abstract
0	Kernelized Bayesian Transfer Learning	Mehmet Gönen and Adam A. Margolin	Novel Machine Learning Algorithms (NMLA)	cross-domain learning\ndomain adaptation\nkern...	APP: Biomedical / Bioinformatics\nNMLA: Bayesi...	Transfer learning considers related but distin...
1	"Source Free" Transfer Learning for Text Class...	Zhongqi Lu, Yin Zhu, Sinno Pan, Evan Xiang, Yu...	AI and the Web (AIW)\nNovel Machine Learning A...	Transfer Learning\nAuxiliary Data Retrieval\nT...	AIW: Knowledge acquisition from the web\nAIW: ...	Transfer learning uses relevant auxiliary data...
2	A Generalization of Probabilistic Serial to Ra...	Haris Aziz and Paul Stursberg	Game Theory and Economic Paradigms (GTEP)	social choice theory\nvoting\nfair division\ns...	GTEP: Game Theory\nGTEP: Social Choice / Voting	The probabilistic serial (PS) rule is one of t...
3	Lifetime Lexical Variation in Social Media	Liao Lizi, Jing Jiang, Ying Ding, Heyan Huang ...	NLP and Text Mining (NLPTM)	Generative model\nSocial Networks\nAge Prediction	AIW: Web personalization and user modeling\nNL...	As the rapid growth of online social media att...
4	Hybrid Singular Value Thresholding for Tensor ...	Xiaoqin Zhang, Zhengyuan Zhou, Di Wang and Yi Ma	Knowledge Representation and Reasoning (KRR)\n...	tensor completion\nlow-rank recovery\nhybrid s...	KRR: Knowledge Representation (General/Other)\...	In this paper, we study the low-rank tensor co...

查看dataframe数据信息：

data_df.info()


RangeIndex: 398 entries, 0 to 397
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     398 non-null    object
 1   authors   398 non-null    object
 2   groups    396 non-null    object
 3   keywords  398 non-null    object
 4   topics    394 non-null    object
 5   abstract  398 non-null    object
dtypes: object(6)
memory usage: 18.8+ KB

从以上信息可以看出，data_df存在空数据，应对其作处理

# stack()将df转换为series对象; [lambda x:x]只保留True元素
data_df.isnull().stack()[lambda x: x]

211  groups    True
340  groups    True
344  topics    True
364  topics    True
365  topics    True
388  topics    True
dtype: bool

对空数据进行填充为空字符处理

data_df = data_df.fillna('') # 填充空值为空字符串

3 文本想量化

3.1 简单文本向量化

将同一篇文章的不同类型数据结合，选择使用TF-IDF模型，对文本进行向量化

paper_df = data_df['title']+' '+data_df['authors']+' '+data_df['groups']+' '\
+data_df['keywords']+' '+data_df['topics']+' '+data_df['abstract']

paper_df

结果：

0      Kernelized Bayesian Transfer Learning Mehmet G...
1      "Source Free" Transfer Learning for Text Class...
2      A Generalization of Probabilistic Serial to Ra...
3      Lifetime Lexical Variation in Social Media Lia...
4      Hybrid Singular Value Thresholding for Tensor ...
                             ...                        
393    Mapping Users Across Networks by Manifold Alig...
394    Compact Aspect Embedding For Diversified Query...
395    Contraction and Revision over DL-Lite TBoxes Z...
396    Zero Pronoun Resolution as Ranking Chen Chen a...
397    Supervised Transfer Sparse Coding Maruan Al-Sh...
Length: 398, dtype: object

vectorizer = TfidfVectorizer(max_df=0.9, min_df=10)
X_simple = vectorizer.fit_transform(paper_df)

3.2 复杂文本向量化

将作者名字分割合适

def author_tokenizer(text): 
    authors = re.split("\s+and\s+|\s*,\s*", text) # 根据逗号或者and进行分词
    return authors

authors = data_df['authors'][1]
author_split = author_tokenizer(authors)
print(authors,'\n',author_split)

结果：

Zhongqi Lu, Yin Zhu, Sinno Pan, Evan Xiang, Yujing Wang and Qiang Yang 
 ['Zhongqi Lu', 'Yin Zhu', 'Sinno Pan', 'Evan Xiang', 'Yujing Wang', 'Qiang Yang']

将其他文本进行分词、去除停用词、词干化处理

def text_tokenizer(text):
    # 分词
    words = nltk.tokenize.word_tokenize(text)
    # 去除停用词
    stop_words = set(nltk.corpus.stopwords.words('english'))
    words = [word for word in words if word.lower() not in stop_words]
    # 词干化
    stemmer = nltk.stem.PorterStemmer()
    words = [stemmer.stem(word) for word in words]
    return words

abstracts=data_df['abstract'][1]
abstracts_split = text_tokenizer(abstracts)
print(abstracts,'\n',abstracts_split)

结果：

Transfer learning uses relevant auxiliary data to help the learning task in a target domain where labeled data are usually insufficient to train an accurate model. Given appropriate auxiliary data, researchers have proposed many transfer learning models. How to find such auxiliary data, however, is of little research in the past. In this paper, we focus on this auxiliary data retrieval problem, and propose a transfer learning framework that effectively selects helpful auxiliary data from an open knowledge space (e.g. the World Wide Web). Because there is no need of manually selecting auxiliary data for different target domain tasks, we call our framework Source Free Transfer Learning (SFTL). For each target domain task, SFTL framework iteratively queries for the helpful auxiliary data based on the learned model and then updates the model using the retrieved auxiliary data. We highlight the automatic constructions of queries and the robustness of the SFTL framework. Our experiments on the 20 NewsGroup dataset and the Google search snippets dataset suggest that the new framework is capable to have the comparable performance to those state-of-the-art methods with dedicated selections of auxiliary data. 
 ['transfer', 'learn', 'use', 'relev', 'auxiliari', 'data', 'help', 'learn', 'task', 'target', 'domain', 'label', 'data', 'usual', 'insuffici', 'train', 'accur', 'model', '.', 'given', 'appropri', 'auxiliari', 'data', ',', 'research', 'propos', 'mani', 'transfer', 'learn', 'model', '.', 'find', 'auxiliari', 'data', ',', 'howev', ',', 'littl', 'research', 'past', '.', 'paper', ',', 'focu', 'auxiliari', 'data', 'retriev', 'problem', ',', 'propos', 'transfer', 'learn', 'framework', 'effect', 'select', 'help', 'auxiliari', 'data', 'open', 'knowledg', 'space', '(', 'e.g', '.', 'world', 'wide', 'web', ')', '.', 'need', 'manual', 'select', 'auxiliari', 'data', 'differ', 'target', 'domain', 'task', ',', 'call', 'framework', 'sourc', 'free', 'transfer', 'learn', '(', 'sftl', ')', '.', 'target', 'domain', 'task', ',', 'sftl', 'framework', 'iter', 'queri', 'help', 'auxiliari', 'data', 'base', 'learn', 'model', 'updat', 'model', 'use', 'retriev', 'auxiliari', 'data', '.', 'highlight', 'automat', 'construct', 'queri', 'robust', 'sftl', 'framework', '.', 'experi', '20', 'newsgroup', 'dataset', 'googl', 'search', 'snippet', 'dataset', 'suggest', 'new', 'framework', 'capabl', 'compar', 'perform', 'state-of-the-art', 'method', 'dedic', 'select', 'auxiliari', 'data', '.']

查看每列名称：

data_df.columns

结果：

Index(['title', 'authors', 'groups', 'keywords', 'topics', 'abstract'], dtype='object')

创建 TF-IDF 矩阵：

vectorizer_authour = TfidfVectorizer(tokenizer = author_tokenizer)
vectorizer_text = TfidfVectorizer(tokenizer = text_tokenizer)
X_authours = vectorizer_authour.fit_transform(data_df['authors'].tolist()) 
X_title = vectorizer_text.fit_transform(data_df['title'].tolist()) 
X_groups = vectorizer_text.fit_transform(data_df['groups'].tolist()) 
X_keywords = vectorizer_text.fit_transform(data_df['keywords'].tolist()) 
X_topics = vectorizer_text.fit_transform(data_df['topics'].tolist()) 

vectorizer_texts = TfidfVectorizer(max_df=0.9, min_df=5, tokenizer = text_tokenizer)
X_abstract = vectorizer_texts.fit_transform(data_df['abstract'].tolist()) 

print(f'X_title:{X_title.shape}')
print(f'X_authours:{X_authours.shape}')
print(f'X_groups:{X_groups.shape}')
print(f'X_keywords:{X_keywords.shape}')
print(f'X_topics:{X_topics.shape}')
print(f'X_abstract:{X_abstract.shape}')

结果：

X_title:(398, 1124)
X_authours:(398, 1105)
X_groups:(398, 64)
X_keywords:(398, 1051)
X_topics:(398, 305)
X_abstract:(398, 1042)

将稀疏矩阵拼接

X_passage = sparse.hstack([X_title, X_authours, X_groups, X_keywords, X_topics, X_abstract]) # 稀疏向量拼接
print(X_passage.shape)

(398, 4691)

4 聚类算法

4.1 简单聚类

直接采用KMeans简单聚类

k = 5 #假设有5个类别
model = KMeans(n_clusters=k, init='k-means++', max_iter=100, n_init=1)
model.fit(X_simple)
labels = model.labels_
data_df['label'] = labels
labels

结果：

array([1, 1, 4, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 0, 1, 4, 1, 1, 1, 1, 3,
       2, 1, 0, 1, 1, 2, 1, 1, 4, 0, 1, 1, 4, 3, 1, 4, 1, 4, 1, 3, 1, 0,
       4, 3, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 3, 4, 1, 1, 4, 1, 3, 1, 1, 4,
       3, 4, 1, 3, 4, 2, 1, 1, 1, 1, 3, 4, 1, 4, 1, 1, 1, 1, 1, 1, 1, 4,
       1, 1, 1, 1, 0, 1, 1, 2, 1, 4, 1, 1, 3, 1, 1, 1, 3, 2, 4, 0, 1, 3,
       4, 2, 1, 3, 1, 2, 1, 4, 1, 1, 1, 1, 1, 0, 4, 1, 1, 0, 1, 0, 1, 3,
       1, 1, 4, 4, 1, 1, 0, 1, 3, 1, 1, 1, 1, 1, 0, 1, 0, 4, 1, 1, 0, 2,
       1, 2, 1, 0, 1, 1, 1, 4, 3, 1, 2, 1, 4, 3, 0, 2, 3, 4, 0, 3, 3, 1,
       1, 2, 4, 3, 3, 4, 1, 1, 3, 2, 1, 0, 4, 4, 4, 4, 2, 1, 1, 3, 0, 4,
       2, 1, 2, 0, 1, 1, 3, 3, 0, 1, 1, 1, 1, 1, 3, 1, 1, 1, 0, 1, 0, 1,
       1, 1, 1, 1, 4, 1, 3, 1, 1, 1, 3, 1, 1, 4, 1, 2, 3, 0, 2, 3, 1, 1,
       1, 1, 1, 4, 1, 0, 1, 1, 2, 1, 4, 1, 1, 1, 0, 1, 1, 1, 1, 4, 1, 1,
       1, 4, 0, 1, 1, 1, 4, 1, 4, 2, 1, 1, 1, 2, 1, 3, 1, 0, 1, 2, 2, 1,
       1, 3, 1, 1, 1, 3, 2, 1, 3, 4, 1, 1, 1, 1, 1, 1, 1, 4, 4, 1, 1, 4,
       0, 1, 1, 3, 0, 4, 2, 0, 1, 4, 1, 2, 4, 3, 1, 1, 3, 3, 3, 1, 1, 1,
       4, 1, 1, 2, 2, 1, 4, 4, 2, 1, 3, 0, 4, 4, 1, 0, 0, 4, 3, 1, 1, 1,
       3, 1, 3, 1, 3, 0, 1, 4, 1, 1, 1, 1, 1, 1, 4, 1, 1, 1, 4, 2, 1, 1,
       3, 1, 3, 0, 1, 1, 0, 1, 1, 3, 1, 1, 2, 2, 1, 2, 4, 0, 1, 1, 1, 3,
       1, 1])

总结分类规律

data_df[data_df['label']==4][['title', 'groups', 'topics']]

	title	groups	topics
2	A Generalization of Probabilistic Serial to Ra...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Social Choice / Voting
16	Multi-Organ Exchange: The Whole is Greater tha...	Applications (APP)\nGame Theory and Economic P...	APP: Biomedical / Bioinformatics\nGTEP: Auctio...
30	The Computational Rise and Fall of Fairness	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
34	Lazy Defenders Are Almost Optimal Against Dili...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Imperfect Information
37	Game-theoretic Resource Allocation for Protect...	Applications (APP)\nGame Theory and Economic P...	APP: Security and Privacy\nGTEP: Game Theory\n...
39	A Strategy-Proof Online Auction with Time Disc...	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems
44	Simultaneous Cake Cutting	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
57	Solving Imperfect Information Games Using Deco...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
60	Online (Budgeted) Social Choice	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Social Choice / Votin...
65	Fixing a Balanced Knockout Tournament	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Social Choice / Voting
67	Incomplete Preferences in Single-Peaked Electo...	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting\nGTEP: Imperfect ...
70	A Control Dichotomy for Pure Scoring Rules	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
77	Biased Games	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium
79	Preference Elicitation and Interview Minimizat...	Game Theory and Economic Paradigms (GTEP)\nMul...	APP: Computational Social Science\nGTEP: Socia...
87	Minimising Undesired Task Costs in Multi-robot...	Multiagent Systems (MAS)\nRobotics (ROB)	GTEP: Auctions and Market-Based Systems\nMAS: ...
97	Congestion Games for V2G-Enabled EV Charging	Computational Sustainability and AI (CSAI)\nGa...	CSAI: Modeling the interactions of agents with...
106	Evolutionary dynamics of learning algorithms o...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Adversarial Learning\nGTEP: Equilibrium\...
110	A Game-theoretic Analysis of Catalog Optimization	Game Theory and Economic Paradigms (GTEP)\nKno...	GTEP: Auctions and Market-Based Systems\nGTEP:...
117	Automatic Game Design via Mechanic Generation	Game Playing and Interactive Entertainment (GPIE)	GPIE: AI in Game Design\nGPIE: Procedural Cont...
124	False-Name Bidding and Economic Efficiency in ...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Auctions and Market-Based Systems\nGTEP:...
134	Mechanism Design for Scheduling with Uncertain...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Auctions and Market-Based Systems\nGTEP:...
135	Robust Winners and Winner Determination Polici...	Game Theory and Economic Paradigms (GTEP)\nMul...	APP: Computational Social Science\nGTEP: Socia...
149	Regret Transfer and Parameter Optimization	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
161	Trading Multiple Indivisible Goods with Indiff...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Social Choice / Votin...
166	Item Bidding for Combinatorial Public Projects	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Coordination and Coll...
171	Increasing VCG revenue by decreasing the quali...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Auctions and Market-Based Systems\nMAS: ...
178	Theory of Cooperation in Complex Social Networks	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Coordination and Coll...
181	Prices Matter for the Parameterized Complexity...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Social Choice / Votin...
188	Incentives for Truthful Information Elicitatio...	Game Theory and Economic Paradigms (GTEP)\nHum...	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
189	Equilibria in Epidemic Containment Games	Applications (APP)\nComputational Sustainabili...	APP: Security and Privacy\nCSAI: Modeling the ...
190	Beat the Cheater: Computing Game-Theoretic Str...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
191	A Characterization of the Single-Peaked Single...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Social Choice / Votin...
197	Efficient buyer groups for prediction-of-use e...	Computational Sustainability and AI (CSAI)\nGa...	CSAI: Modeling the interactions of agents with...
224	On Detecting Nearly Structured Preference Prof...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Social Choice / Voting
233	Betting Strategies, Market Selection, and the ...	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems
245	Leveraging Fee-Based, Imperfect Advisors in Hu...	Humans and AI (HAI)	HAI: Human-Computer Interaction
252	On the Structure of Synergies in Cooperative G...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory
261	On the Incompatibility of Efficiency and Strat...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Social Choice / Voting
265	Regret-based Optimization and Preference Elici...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory
270	Modal Ranking: A Uniquely Robust Voting Rule	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
272	Extending Tournament Solutions	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
295	On Computing Optimal Strategies in Open List P...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Social Choice / Votin...
303	Envy-Free Division of Sellable Goods	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems\nGTEP:...
304	Potential-Aware Imperfect-Recall Abstraction w...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Imperfect Information
307	Voting with Rank Dependent Scoring Rules	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems\nGTEP:...
313	Incentivizing High-quality Content from Hetero...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
317	New Models for Competitive Contagion	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium
320	Approximate Equilibrium and Incentivizing Soci...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Coordination and Coll...
330	Internally Stable Kidney Exchange	Multiagent Systems (MAS)	GTEP: Auctions and Market-Based Systems\nMAS: ...
336	Strategyproof exchange with multiple private e...	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems\nGTEP:...
337	Mechanism design for mobile geo-location adver...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Auctions and Market-Based Systems\nGTEP:...
342	A Multiarmed Bandit Incentive Mechanism for Cr...	Computational Sustainability and AI (CSAI)\nGa...	CSAI: Modeling the interactions of agents with...
343	Binary Aggregation by Selection of the Most Re...	Game Theory and Economic Paradigms (GTEP)\nKno...	GTEP: Social Choice / Voting\nKRR: Preferences...
347	Bounding the Support Size in Extensive Form Ga...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...
359	The Fisher Market Game: Equilibrium and Welfare	Game Theory and Economic Paradigms (GTEP)	GTEP: Auctions and Market-Based Systems\nGTEP:...
366	On the Axiomatic Characterization of Runoff Vo...	Game Theory and Economic Paradigms (GTEP)	GTEP: Social Choice / Voting
370	Solving Zero-Sum Security Games in Discretized...	Game Theory and Economic Paradigms (GTEP)\nMul...	GTEP: Game Theory\nGTEP: Equilibrium\nMAS: Mul...
390	Using Response Functions to Measure Strategy S...	Game Theory and Economic Paradigms (GTEP)	GTEP: Game Theory\nGTEP: Equilibrium\nGTEP: Im...

通过查看每组聚类结果得知:

0：该类主要包含 VIS 计算机视觉等文章
1：该类主要包含 AIW 及网络类文章
2：该类主要包含 NMLA 及算法类文章
3：该类主要包含 GTEP 等游戏类文章
4：该类主要包含 AIW 及NLP等文章

通过上述结果可知，简单聚类可以将文章分为几类，但是相互有所粘连

# 创建一个TSNE对象，指定要降维到的维数为2，随机数种子为RANDOM_STATE
tsne = sklearn.manifold.TSNE(n_components=2, random_state=RANDOM_STATE, init="random")

# 调用TSNE对象的fit_transform方法，传入X_simple数据集，返回一个降维后的数据数组，赋值给X_tsne
X_tsne = tsne.fit_transform(X_simple)

sns.scatterplot(x=X_tsne[:,0], y=X_tsne[:,1], hue=labels, palette="deep") # 散点图

通过上图显示，简单聚类可以成功聚类，但是结果有所粘连

4.2 复杂聚类

通过使用3.2中得到的X_pasage进行聚类，并聚集10类

model = KMeans(n_clusters=10,  init='k-means++', max_iter=100, n_init=1, random_state=RANDOM_STATE) # KMean聚类
model.fit(X_passage)
labels = model.labels_
data_df['label'] = labels
labels

array([2, 4, 3, 4, 0, 0, 8, 2, 4, 0, 5, 6, 2, 4, 6, 8, 3, 4, 4, 0, 1, 9,
       3, 2, 2, 8, 4, 5, 4, 8, 3, 5, 2, 2, 7, 9, 2, 7, 8, 7, 2, 1, 2, 6,
       3, 9, 2, 4, 4, 5, 4, 4, 4, 4, 2, 1, 9, 7, 1, 2, 3, 2, 4, 8, 4, 3,
       9, 3, 8, 9, 3, 9, 2, 2, 8, 8, 9, 7, 8, 3, 1, 4, 4, 0, 8, 1, 2, 3,
       8, 2, 2, 4, 6, 1, 2, 5, 0, 7, 8, 4, 9, 4, 2, 4, 6, 5, 7, 6, 8, 9,
       7, 5, 0, 9, 3, 5, 4, 7, 2, 0, 4, 2, 6, 6, 3, 8, 2, 6, 2, 9, 2, 1,
       6, 2, 3, 3, 8, 0, 6, 4, 9, 2, 6, 4, 2, 8, 5, 2, 6, 7, 2, 0, 6, 3,
       2, 5, 4, 6, 2, 4, 2, 3, 9, 2, 5, 8, 3, 1, 9, 3, 9, 3, 6, 9, 9, 2,
       8, 5, 3, 9, 9, 3, 8, 0, 1, 5, 4, 5, 3, 7, 7, 3, 5, 2, 2, 6, 6, 3,
       5, 2, 5, 6, 8, 4, 4, 9, 6, 8, 0, 1, 2, 2, 6, 4, 8, 4, 6, 2, 6, 0,
       4, 2, 8, 1, 3, 2, 4, 4, 4, 8, 6, 8, 2, 7, 4, 5, 3, 6, 5, 8, 2, 4,
       2, 2, 4, 4, 8, 5, 2, 2, 5, 0, 7, 2, 2, 4, 5, 0, 2, 2, 2, 3, 4, 0,
       2, 7, 5, 4, 1, 4, 3, 2, 3, 5, 2, 2, 8, 5, 2, 9, 4, 6, 2, 5, 5, 0,
       2, 9, 2, 4, 1, 9, 5, 2, 9, 3, 9, 4, 2, 2, 2, 8, 2, 3, 7, 8, 4, 3,
       9, 8, 5, 1, 6, 7, 5, 6, 2, 7, 2, 5, 7, 9, 8, 6, 9, 1, 9, 2, 2, 2,
       3, 2, 8, 5, 5, 8, 7, 3, 5, 8, 1, 6, 7, 3, 8, 6, 6, 7, 9, 0, 0, 4,
       9, 2, 1, 2, 9, 6, 2, 7, 8, 4, 6, 8, 2, 2, 3, 4, 1, 0, 7, 5, 2, 8,
       9, 4, 1, 6, 2, 8, 6, 0, 9, 9, 6, 4, 5, 5, 2, 5, 7, 6, 2, 1, 4, 9,
       4, 2])

data_df[data_df['label']==9][['title', 'groups', 'topics']]

	title	groups	topics
21	The Complexity of Reasoning with FODD and GFODD	Knowledge Representation and Reasoning (KRR)	KRR: Automated Reasoning and Theorem Proving\n...
35	PREGO: An Action Language for Belief-Based Cog...	Knowledge Representation and Reasoning (KRR)	KRR: Action, Change, and Causality\nKRR: Knowl...
45	Recovering from Selection Bias in Causal and S...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Action, Change, and Causality\nRU: Bayesi...
56	A Parameterized Complexity Analysis of General...	Game Playing and Interactive Entertainment (GP...	GTEP: Social Choice / Voting\nKRR: Computation...
66	Querying Inconsistent Description Logic Knowle...	Knowledge Representation and Reasoning (KRR)	KRR: Ontologies\nKRR: Computational Complexity...
69	Knowledge Graph Embedding by Translating on Hy...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Knowledge Representation (General/Other)\...
71	Fast consistency checking of very large real-w...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Geometric, Spatial, and Temporal Reasonin...
76	The Computational Complexity of Structure-Base...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Action, Change, and Causality\nKRR: Compu...
100	A Tractable Approach to ABox Abduction over De...	Knowledge Representation and Reasoning (KRR)	KRR: Description Logics\nKRR: Diagnosis and Ab...
109	Reasoning on LTL on Finite Traces: Insensitivi...	Knowledge Representation and Reasoning (KRR)	AIW: AI for web services: semantic description...
113	Programming by Example using Least General Gen...	Applications (APP)\nHeuristic Search and Optim...	APP: Intelligent User Interfaces\nAPP: Other A...
129	Using Model-Based Diagnosis to Improve Softwar...	Applications (APP)\nKnowledge Representation a...	APP: Other Applications\nKRR: Automated Reason...
140	Confident Reasoning on Raven’s Progressive Mat...	Knowledge Representation and Reasoning (KRR)	KRR: Geometric, Spatial, and Temporal Reasonin...
162	SenticNet 3: A Common and Common-Sense Knowled...	Cognitive Systems (CS)\nKnowledge Representati...	CS: Conceptual inference and reasoning\nKRR: C...
168	Backdoors to Planning	Knowledge Representation and Reasoning (KRR)\n...	KRR: Computational Complexity of Reasoning\nPS...
170	Datalog Rewritability of Disjunctive Datalog P...	Knowledge Representation and Reasoning (KRR)	KRR: Ontologies\nKRR: Automated Reasoning and ...
173	The Most Uncreative Examinee: A First Step tow...	Knowledge Representation and Reasoning (KRR)	KRR: Automated Reasoning and Theorem Proving
174	Acquiring Commonsense Knowledge for Sentiment ...	Human-Computation and Crowd Sourcing (HCC)\nKn...	HCC: Domain-specific implementation challenges...
179	Explanation-Based Approximate Weighted Model C...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Logic Programming\nRU: Probabilistic Infe...
180	A Knowledge Compilation Map for Ordered Real-V...	Knowledge Representation and Reasoning (KRR)	KRR: Computational Complexity of Reasoning\nKR...
205	A reasoner for the RCC-5 and RCC-8 calculi ext...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Computational Complexity of Reasoning\nKR...
279	Computing General First-order Parallel and Pri...	Knowledge Representation and Reasoning (KRR)	KRR: Common-Sense Reasoning\nKRR: Nonmonotonic...
287	Data Quality in Ontology-based Data Access: Th...	Knowledge Representation and Reasoning (KRR)	APP: Other Applications\nKRR: Ontologies\nKRR:...
291	Diagnosing Analogue Linear Systems Using Dynam...	Knowledge Representation and Reasoning (KRR)	KRR: Diagnosis and Abductive Reasoning
294	Elementary Loops Revisited	Knowledge Representation and Reasoning (KRR)	KRR: Logic Programming
296	Joint Morphological Generation and Syntactic L...	NLP and Knowledge Representation (NLPKR)	NLPKR: Natural Language Processing (General/Ot...
308	Implementing GOLOG in Answer Set Programming	Knowledge Representation and Reasoning (KRR)\n...	KRR: Action, Change, and Causality\nKRR: Logic...
321	Qualitative Reasoning with Modelica Models	Applications (APP)\nKnowledge Representation a...	APP: Other Applications\nKRR: Knowledge Repres...
324	Pathway Specification and Comparative Queries:...	Knowledge Representation and Reasoning (KRR)	APP: Biomedical / Bioinformatics\nKRR: Knowled...
326	Testable Implications of Linear Structural Equ...	Knowledge Representation and Reasoning (KRR)\n...	KRR: Action, Change, and Causality\nRU: Graphi...
348	Exploiting Support Sets for Answer Set Program...	Knowledge Representation and Reasoning (KRR)	KRR: Ontologies\nKRR: Description Logics\nKRR:...
352	Local-To-Global Consistency Implies Tractabili...	Knowledge Representation and Reasoning (KRR)	KRR: Computational Complexity of Reasoning\nKR...
356	Exploring the Boundaries of Decidable Verifica...	Knowledge Representation and Reasoning (KRR)	KRR: Action, Change, and Causality\nKRR: Geome...
374	Managing Change in Graph-structured Data Using...	Knowledge Representation and Reasoning (KRR)	KRR: Computational Complexity of Reasoning\nKR...
382	Coactive Learning for Locally Optimal Problem ...	Humans and AI (HAI)\nKnowledge Representation ...	HCC: Active learning from imperfect human labe...
383	Large Scale Analogical Reasoning	Cognitive Systems (CS)\nKnowledge Representati...	CS: Conceptual inference and reasoning\nCS: St...
395	Contraction and Revision over DL-Lite TBoxes	Knowledge Representation and Reasoning (KRR)	KRR: Belief Change\nKRR: Description Logics\nK...

通过查看每组聚类结果可知，每类结果有较为清晰的特征：

0：该类主要包含 VIS 等视觉相关文章
1：该类主要包含 AIW 及 ROB 等文章
2：该类主要包含 NMLA 机器学习等文章
3：该类主要包含 GTEP 游戏类文章
4：该类主要包含 AIW 及社交网络等文章
5：该类主要包含 SCS 和 HSO等搜索类文章
6：该类主要包含 PS 及 CS 策略计划类文章
7：该类主要包含 GTEP 等文章
8：该类主要保护 APP 及 MLA等文章
9：该类主要包含 KRR 知识表示与推理等文章

# 创建一个TSNE对象，指定要降维到的维数为2，随机数种子为RANDOM_STATE
tsne = sklearn.manifold.TSNE(n_components=2, random_state=RANDOM_STATE, init="random")

# 调用TSNE对象的fit_transform方法，传入X_passage数据集，返回一个降维后的数据数组，赋值给X_tsne
X_tsne = tsne.fit_transform(X_passage)

sns.scatterplot(x=X_tsne[:,0], y=X_tsne[:,1], hue=labels, palette="deep") # 散点图

从上图可知，通过作者、词干等分词后，聚类效果更好

5 聚类效果分析

本章分析不同k值对聚类效果的影响，以及该数据集中k取什么效果最好

k_range = range(5,15)
label_dict = {}
for k in k_range:
    model = KMeans(n_clusters=k,  init='k-means++', max_iter=100, n_init=1, random_state=RANDOM_STATE)
    model.fit(X_passage)
    labels = model.labels_
    label_dict[k]=labels
label_dict[7]

array([0, 0, 5, 6, 3, 3, 3, 0, 6, 3, 4, 0, 0, 6, 2, 3, 5, 6, 6, 3, 3, 1,
       5, 0, 0, 3, 6, 4, 6, 6, 5, 4, 0, 0, 5, 1, 0, 5, 6, 5, 0, 1, 0, 3,
       5, 1, 0, 3, 3, 4, 6, 6, 6, 3, 0, 6, 1, 5, 3, 0, 5, 0, 6, 3, 6, 5,
       1, 5, 3, 1, 5, 1, 0, 0, 6, 3, 1, 5, 3, 5, 6, 3, 6, 3, 3, 6, 0, 5,
       3, 0, 0, 6, 2, 3, 0, 4, 3, 5, 3, 3, 1, 6, 0, 6, 1, 4, 5, 2, 3, 1,
       5, 4, 3, 1, 5, 4, 6, 3, 0, 3, 3, 0, 3, 2, 5, 3, 0, 2, 0, 1, 0, 1,
       1, 0, 5, 5, 3, 3, 2, 3, 1, 0, 3, 6, 0, 3, 4, 0, 2, 5, 0, 3, 3, 5,
       0, 4, 6, 2, 0, 6, 0, 5, 1, 0, 4, 3, 5, 6, 2, 5, 1, 5, 2, 1, 1, 0,
       3, 4, 5, 1, 1, 5, 3, 3, 1, 4, 3, 6, 5, 5, 5, 5, 4, 0, 0, 1, 2, 5,
       4, 0, 4, 2, 3, 3, 6, 1, 2, 3, 3, 6, 0, 3, 1, 3, 3, 6, 2, 0, 2, 3,
       6, 3, 3, 3, 5, 0, 3, 6, 3, 3, 1, 3, 0, 5, 6, 4, 5, 2, 4, 3, 0, 3,
       0, 0, 6, 6, 3, 4, 0, 0, 4, 3, 5, 0, 0, 6, 2, 3, 0, 0, 0, 5, 6, 3,
       0, 5, 4, 0, 6, 6, 5, 0, 5, 4, 0, 0, 3, 4, 0, 1, 3, 2, 0, 4, 4, 3,
       0, 1, 0, 6, 6, 1, 4, 0, 1, 5, 3, 6, 0, 0, 0, 3, 0, 5, 5, 0, 6, 5,
       1, 3, 4, 1, 2, 5, 4, 2, 0, 5, 0, 4, 5, 1, 3, 1, 1, 1, 1, 0, 0, 0,
       5, 0, 3, 4, 4, 3, 5, 5, 4, 3, 1, 2, 5, 5, 3, 2, 2, 5, 1, 3, 3, 6,
       1, 0, 1, 0, 1, 2, 0, 5, 3, 3, 1, 3, 0, 0, 5, 6, 6, 3, 5, 4, 0, 3,
       1, 3, 6, 2, 3, 3, 2, 3, 1, 1, 3, 3, 4, 4, 0, 4, 5, 2, 0, 6, 6, 1,
       3, 0])

# 创建2行5列的子图布局
fig, axes = plt.subplots(2, 5, figsize=(25, 10))

# 将10个子图填充到子图布局中
for k, label in label_dict.items():
    row, col = divmod(k-5, 5)  # 根据k计算在子图布局中的行和列位置
    ax = axes[row, col]
    
    sns.scatterplot(x=X_tsne[:, 0], y=X_tsne[:, 1], hue=label, palette="deep", ax=ax)
    ax.set_title("cluster = %d" % k)

# 调整子图布局
plt.tight_layout()
plt.show()

# 创建一个TSNE对象，指定要降维到的维数为3，随机数种子为RANDOM_STATE
tsne = sklearn.manifold.TSNE(n_components=3, random_state=RANDOM_STATE, init="random")

# 调用TSNE对象的fit_transform方法，传入X_passage数据集，返回一个降维后的数据数组，赋值给X_tsne
X_tsne = tsne.fit_transform(X_passage)

# 创建一个大画布，包含10个子图
fig, axes = plt.subplots(2, 5, figsize=(25, 10), subplot_kw={'projection': '3d'})

# 将10个子图填充到大画布中
for k, ax in zip(label_dict.keys(), axes.flatten()):
    # 绘制散点图，指定散点的大小
    ax.scatter(X_tsne[:, 0], X_tsne[:, 1], X_tsne[:, 2], c=label_dict[k], cmap='Dark2')
    # 设置标题，指定标题的字体大小
    ax.set_title("cluster = %d" % k, fontsize=16)

# 调整子图布局
plt.tight_layout()
plt.show()

以上可见，用2d和3d图展示聚类效果，在5到14的Kmeans中没有聚类效果特别好的，但是感觉取7时聚类效果更好一点

你可能感兴趣的:(机器学习,机器学习,人工智能)

深入剖析ipywidgets-7.0.0b1：Python交互式前端库的新进展多行不易
本文还有配套的精品资源，点击获取简介：ipywidgets是一个用于创建交互式用户界面的Python库，广泛应用于数据可视化和科学计算。最新版本7.0.0b1带来了新特性、性能优化、API改进和兼容性增强。本详细解析包括ipywidgets的核心概述、主要功能、版本新特性以及其在教育、数据探索和应用原型开发等场景中的应用。1.ipywidgets核心概念介绍在当今数据科学和机器学习领域，交互式可视
机器学习Day01 酒脑猫机器学习人工智能
人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径，深度学习是机器学习的一种更加深入的方法。机器学习学习方法基于规则的学习：程序员根据自己经验定义规则基于模型的学习：由于某些事物，问题无法可以定义明确的规则，如：图片，语音
机器学习Day1 一飞学编程机器学习机器学习人工智能
1.背景以周志华教授的《机器学习》为核心学习AI知识2.绪论中的重要概念整理机器学习的目的：利用经验（数据）来改善系统性能记录：(key1:value1,key2:value2…)数据集：记录的集合示例（样本）：对一个事件或对象的描述属性（特征）：key1,key2…属性值：value1,value2…属性空间（样本空间、输入空间）：key1,key2等组成的多维空间特征向量：形如（value1,
机器学习建模流程 day02 扫把星133 机器学习人工智能 python
机器学习建模流程通常可以分为以下几个主要步骤：问题定义与数据收集：确定问题的类型（分类、回归、聚类等可见上篇所讲内容）和目标。收集相关数据，可以是从数据库、API、文件或其他来源获取。注释：数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。API（ApplicationProgrammingInterface，应用程序
2024年AIGC技术未来发展趋势与挑战：从应用创新到伦理监管小宝哥Code ChatGPT与AIGC AIGC
生成式人工智能（AIGC，ArtificialIntelligenceGeneratedContent）作为人工智能领域的一个重要分支，正在快速发展并改变着多个行业的格局。2024年，AIGC技术持续取得突破，并进入更多实际应用场景。本文将详细介绍AIGC的基本概念、原理、最新前沿技术及发展趋势。1.生成式人工智能（AIGC）基本概念与原理生成式人工智能（AIGC）是指通过人工智能技术，尤其是深度
【DL】神经网络与机器学习基础知识介绍（一） MengWoods 深度学习机器学习神经网络人工智能
原博客：https://mengwoods.github.io/post/dl/009-dl-fundamental/文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型：监督学习（SupervisedLearning）：分类，回归无监督学习（UnsupervisedLearning）：聚类，降维强化学习（ReinforcementLearn
AI 集群：Exo 项目详解 ivwdcwso 运维人工智能 AI Exo
引言随着人工智能技术的迅猛发展，越来越多的人希望在家中运行自己的AI集群。传统的AI集群通常需要昂贵的硬件和复杂的配置，但Exo项目正是为了解决这个问题而诞生的。Exo项目旨在让你利用日常电子设备，轻松搭建一个高效的AI集群。本文将详细介绍Exo项目的特点、安装步骤和实战示例。©ivwdcwso(ID:u012172506)Exo项目特点1.广泛的模型支持Exo支持多种流行的AI模型，包括但不限于
使用seaborn绘制相关性热力图 CodeWG python
使用seaborn绘制相关性热力图在数据分析和机器学习中，热力图是一种常见的可视化方法，用于显示不同变量之间的相关性。在Python中，我们可以使用seaborn库绘制相关性热力图。本文将介绍如何使用seaborn中的heatmap函数来绘制相关性热力图，并为读者提供示例代码。首先，我们需要导入必要的库：pandas、numpy和seaborn。我们还使用了matplotlib库以便于展示结果。i
python 监控键盘输入_python 监控键盘输入 weixin_39717121 python 监控键盘输入
软件测试精品文章汇总测试基础python测试开发库及项目谷歌如何测试软件python工具书籍下载-持续更新2018软件测试标准汇总下载python测试开发自学每周一练python测试工具开发自学每周一练-2018-06软件测试工具书籍与面试题汇总下载(持续更新)python测试开发自动化测试数据分析...文章python人工智能命理2019-05-131907浏览量Shell历史记录异地留痕审计与
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-LangGraph-链式处理（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型 langchain
一、前言在当今人工智能快速发展的时代，大语言模型不断迭代升级，为各种复杂任务的处理提供了强大的支持。LangGraph作为一种创新的架构，其链式处理机制为充分发挥LLMs的潜力提供了新的途径。Qwen2.5模型是一款备受瞩目的大语言模型，它具备出色的语言理解和生成能力，在广泛的自然语言处理任务中都展现出了卓越的性能。其在语言的准确性、逻辑性以及对复杂语义的把握上都有着突出的表现，为基于它进行的各类
一文搞懂python的face_recognition人脸识别库码上飞扬 python 开发语言人脸识别
随着人工智能和机器学习的快速发展，人脸识别技术在安全监控、身份验证、智能相册等领域的应用越来越广泛。Python作为一门简洁高效的编程语言，其丰富的库支持使得人脸识别的实现变得更加容易。本文将介绍如何使用Python的face_recognition库来实现基本的人脸识别功能。一、face_recognition库简介1.1什么是face_recognition库？face_recognition
AIGC常见基础概念 GISer_Jinger 人工智能 AIGC 机器学习 ai
AIGC（AIGeneratedContent，人工智能生成内容）是近年来快速发展的领域，涉及文本生成、图像生成、音频生成、视频生成等。以下是AIGC常见的面试题目及其详解：1.AIGC基础概念什么是AIGC？它的主要应用场景有哪些？定义：AIGC是指利用人工智能技术自动生成内容，包括文本、图像、音频、视频等。应用场景：文本生成：新闻写作、广告文案、代码生成（如GitHubCopilot）。图像生
AI时代的人类增强：道德考虑与身体增强的未来发展策略分析预测 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人类增强、AI、道德、身体增强、未来发展策略、预测1.背景介绍人类文明自诞生以来，就一直在探索如何超越自身的局限性。从使用工具到发明火，从农业文明到工业革命，每一次进步都代表着人类对自身能力的提升。如今，人工智能（AI）的快速发展，为人类提供了前所未有的机会，让我们迈向一个全新的时代——AI时代的人类增强时代。AI时代的人类增强，是指通过人工智能技术，提升人类的认知能力、身体能力和生活质量。这不仅
智联未来——打造基于机器学习的MySQL智能运维助手，开启协作新时代墨夶数据库学习资料2 机器学习 mysql 运维
在当今快速发展的信息技术领域，数据库作为信息系统的核心组件，其稳定性和效率直接关系到业务的成功与否。面对日益增长的数据管理和处理需求，传统的运维方式已经难以满足现代企业对高效、稳定服务的要求。为此，越来越多的企业开始探索如何通过智能化手段提升数据库运维水平，特别是利用最新的AI技术和自动化工具来构建一个功能强大的智能运维助手。今天，我们将深入了解如何训练这样一个基于机器学习的MySQL智能运维助手
Janus Pro：DeepSeek 开源革新，多模态 AI 的未来后端
JanusPro是DeepSeek开发的一个开源多模态人工智能框架，它通过集成视觉和语言处理能力，提供了高性能的多模态任务处理能力。在线体验：https://deepseek-januspro.com/背景JanusPro于2025年1月发布，是一个开源的多模态AI框架，能够同时处理视觉和语言信息。它采用了独特的多模态架构，包括解耦的视觉编码框架和统一的Transformer架构，以及SigLIP
《深度剖析Q-learning中的Q值：解锁智能决策的密码》人工智能深度学习
在人工智能的飞速发展进程中，强化学习作为一个关键领域，为智能体与环境交互并学习最优行为策略提供了有效框架。其中，Q-learning算法凭借其独特的魅力，在机器人控制、自动驾驶、游戏AI等众多领域大放异彩。而Q-learning中的Q值，更是理解这一算法的核心关键，它如同智能体的“智慧密码”，指导着智能体在复杂环境中做出最优决策。Q值的直观定义：行为价值的“预言家”从直观层面理解，Q值代表着智能体
江大白 | 斯坦福大学教授李飞飞团队：关于 2024年人工智能发展报告总结！双木的木深度学习拓展阅读人工智能
本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。原文链接：斯坦福大学教授李飞飞团队：关于2024年人工智能发展报告总结！导读斯坦福大学教授李飞飞团队总结、解析了2024年人工智能发展报告，涵盖AI研究进展、技术性能提升、经济影响及医疗教育突破，重点分析大型模型成本、多模态模型崛起、AI可靠性挑战和生成式AI影响，是了解AI现状与未来的必读内容！斯坦福大学教授李飞飞团队关于2024年人工
DeepSeek：通用人工智能的技术前沿与创新突破热爱分享的博士僧人工智能
一、DeepSeek的定位与背景DeepSeek（深度求索）是一家聚焦**通用人工智能（AGI）**研发的中国科技公司，成立于2023年，核心团队由全球顶尖AI科学家、工程师组成。公司以“探索智能本质，实现AGI造福人类”为使命，致力于突破大模型技术的边界，推动AI从专用向通用演进。其研发方向覆盖自然语言处理、多模态交互、强化学习等领域，并在模型架构、训练效率及实际应用场景中取得显著成果。二、核心
AiLab: 探索人工智能的前沿实验室 m0_75126181 人工智能
AiLab:引领人工智能创新的实验平台在人工智能快速发展的今天,如何让更多人了解并参与到AI技术的创新中来,成为一个重要的课题。AiLab(人工智能实验室)应运而生,作为一个面向全球开发者和组织的开放平台,AiLab致力于推动AI技术的普及与创新。AiLab的使命与愿景AiLab的核心使命是帮助开发者和组织快速上手AI技术,体验最新的AI创新成果。通过提供丰富的实验项目、教育资源和研究成果,AiL
如何用Python训练一个AI模型（超详细教程）非常详细收藏我这一篇就够了！程序员二飞人工智能架构算法制造自然语言处理
引言人工智能（AI）——一个熟悉又神秘的词汇。我们常听说它可以生成诗歌、编写代码、创作艺术，甚至回答各种问题。然而，当你想亲手实现一个“AI模型”时，却可能感到无从下手。这篇教程正是为你准备的，将带你从零开始，逐步掌握从“AI新手”到“能够搭建AI模型”的核心技能。前排提示，文末有大模型AGI-CSDN独家资料包哦！一、AI的基本概念1.什么是AI模型？AI模型是通过训练得到的一种程序，能够利用海
Python生态系统中拥有丰富的第三方库 ___Y1 python python
Python生态系统中拥有丰富的第三方库，这些库覆盖了几乎所有领域，包括科学计算、数据分析、机器学习、人工智能、Web开发等。这些库的存在极大地丰富了Python的功能，使其成为一门强大而灵活的编程语言。以下是一些常用的Python第三方库：1.**科学计算与数据处理：**-**NumPy：**提供高性能的多维数组对象，以及相关工具，用于处理这些数组。-**Pandas：**提供数据结构和数据分析
人工智能 Python ZSup{A} 人工智能 java 前端服务器
人工智能Python（一）一．基本语法1.在python中严格区分大小写2.Python中的每一行就是一条语句，每条语句以换行结束3.Python每一行语句不要过长（规范中建议每行不要超过80个字符）“rulers”:[80]4.一条语句可以分多行编写，语句后面以\结尾5.Python是缩进严格的语言，所以在Python中不要随便写缩进6.在Python使用#表示注释，#后面的内容都属于注释，注释
【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
【人工智能】Python常用库-Matplotlib常用方法教程 IT古董人工智能机器学习 Python 人工智能 python matplotlib
Matplotlib是一个强大的Python数据可视化库，用于绘制各种图形。以下是Matplotlib常用方法的详细说明及示例，帮助你快速上手。1.安装和导入Matplotlib安装Matplotlib：pipinstallmatplotlib导入Matplotlib：importmatplotlib.pyplotasplt2.基本绘图绘制简单折线图importmatplotlib.pyplota
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
【小白学AI系列】NLP 核心知识点（六）Softmax函数介绍 Blankspace空白人工智能自然语言处理 transformer
Softmax函数Softmax函数是一种常用的数学函数，广泛应用于机器学习中的分类问题，尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布，使得所有输出的值在0到1之间，并且总和为1。换句话说，Softmax将模型的原始输出（logits）转化为概率，帮助我们做分类决策。定义与公式假设我们有一个向量z=[z1,z2,…,zn]\mathbf{z}=[z_1,z_2,\d
android前台服务 Android西红柿 Android基础 android
关于作者：CSDN内容合伙人、技术专家，从零开始做日活千万级APP。专注于分享各领域原创系列文章，擅长java后端、移动开发、商业变现、人工智能等，希望大家多多支持。未经允许不得转载目录一、导读二、使用2.1添加权限2.2新建一个服务2.3构建通知消息2.4启动与停止服务三、推荐阅读一、导读我们继续总结学习基础知识，温故知新。今天记录下android前台服务（ForegroundService），
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p