数学是算法的灵魂

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码

目前新浪微博平台，已经存在热点话题的发现和推荐功能，但这些功能对校园微博热点发现与舆情监控方面存在不足之处。

校园微博有针对性的舆情监控目的，而微博平台没有提供针对校园微博的热点发现，因此校园微博热点话题发现系统对于高校舆情监控有着关键的意义。本文基于 K-means 聚类算法实现一套校园微博热点话题发现系统，通过改进相关算法等步骤提高了获取热点话题的准确性，并实现可视化界面操作获取微博数据和热点话题等操作，方便舆情人员快速获取舆情热点。

2 相关技术介绍

2.1 网络爬虫技术

网络爬虫 (web crawler)，也叫网络蜘蛛（ spider)，是一种按照特定规则，用来自动浏览并获取万维网上资源的程序或脚本。网络爬虫程序也是搜索引擎中的重要组成部分。目前网络爬虫主要分为几种类型：通用网络爬虫、主题网络爬虫、增量式网络爬虫、深层网络爬虫。

2.2 中文分词技术

中文分词，即是 Chinese Word Segmentation，指的是将汉字序列切分成一个个单独的词。由于计算机无法直接处理自然语言文本，因此需要对微博文本进行分词并构建数据模型，这也是文本挖掘的基础。

中文分词技术属于自然语言处理技术的范畴。目前现有的分词算法有：基于字符串匹配的分词、基于理解的分词和基于统计的分词三大类。

表 2-1 分词优劣对比

分词方法	字符串匹配分词	理解分词	统计分词
歧义识别	差	强	强
新词识别	差	强	强
需要词典	需要	不需要	不需要
需要词典	否	否	是
需要语料库	否	是	否
需要规则库	容易	难	一般
算法复杂性	成熟	不成熟	成熟
技术成熟度	容易	难	一般
实施难度	一般	准确	较难
分词准确性	快	慢	一般
分词速度	差	强	强

在实际使用上中文分词技术仍然存在着问题，中文文本不同于英文文本，英文文本单词之间有空格作为分隔符，而中文只有句子，段落有分隔符，因此文本分词要复杂很多。对于微博文本而言，由于存在大量的网络新词，例如围脖、豆你玩、高富帅等新词。这些网络新词、缩略语、谐音词给分词处理带来了新的挑战。

目前中文分词技术已经取得很大的进展，典型的中文分词工具有中科院的汉语词法分析系统 ICTCLAS、SCWS、IKAnalyer、NLPIR、jieba 等。本文的校园微博热点话题发现系统使用的是 jieba 中文分词工具。

2.3 特征选择及权重计算

特征选择

特征选择是为了构建模型而选择相关特征子集的过程。特征选择指的是从原始多维数据集合中选取 K 个最有效的特征使系统达到最优化。使用特征选择可以剔除不相关或亢余特征，降低数据集合的维度，提高模型准确性，使得分析特征、训练模型的时间更短。微博文本特征选择也是构建向量空间模型的前提条件。特征选择的原理图如图 2-3 所示，其具体步骤如下：

产生过程，选取特征子集。

评价函数，评价特征子集好坏。

停止准则，当评价函数值达到一个阈值后停止搜索。

验证过程，验证特征子集的有效性。

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第1张图片

图 2-3 特征选择过程

常见的特征选择方法有文档频率、互信息、信息增益法、期望交叉熵等。

特征权重计算

特征权重计算指的是为特征空间中文本向量的每一维确定合适的数值，该数值体现了对应特征在文本中的重要程度，通常用于评估某一特征词对于文本主题的重要性。常见的做法就是统计文本的词频，根据算法计算出每一个特征合适的权重值。常见的特征权重计算方法有：布尔权重、频度权重、 TF-IDF 权重等。

布尔权重

布尔权重也叫二值权重，是比较简单的权重计算方法。特征 ti 在文本 dj 中的权重为：

= { 0 ，1 } （ 2-1）

其中 wij 表示特征 t i 的权重值，如果特征 ti 在文本 di 中出现过，则值为 1，否则为 0。布尔权重比较简单，容易失去特征在文本中代表的意义。

频度权重

频度权重即是以特征词频作为权重，特征频度的定义：特征项 ti 在文本 dj 出现的次数，则特征频度权重公式如下所示 :

= = ( , ) （2-2）

该方法的思想是：特征在文本出现次数越多，该特征就越重要，因此在该文本中权重越大。

TF-IDF 权重计算

TF-IDF（ Term Frequency–Inverse Document Frequency）方法是文本分类中应用最多的权重计算方法，是一种用于信息检索与文本挖掘的常用加权技术，用来评估一字词对一个文件集或者一个语料库中一个文件的重要程度。 TF 指的是词频，即是某一个给定词语在该文本中出现的频率。 TF 公式如下：

词频 (TF)= (某个词在文章中出现次数文章的总词数)/(文章的总词数) （ 2-3）

IDF 指的是逆文档词频，即是语料库中所有文档总数与语料库所包含该词的文档数量的比值。 IDF 公式如下所：

逆文档频率 (IDF) = log ( (语料库文档总数)/(包含该词的文档数 +1)) （2-4）

TF-IDF 就是 TF 和 IDF 的乘积， TF-IDF 公式如下：

TF IDF = 词频 (TF) × 逆文档频率 (IDF) （ 2-5）

该算法的基本思想是：如果某个词语在一篇文档中出现次数比较多，并且该词语在整个语料库中的其它文档中出现次数比较少，那么该词语对于该篇文章的主题相关性比较大，即是可以通过该词来对文档进行文本分类等操作。本文使用张静 [12]改进的算法来进行特征提取，该方法是将语料库所有微博文本分词后集合在一起，然后计算每个关键词出现的次数作为词频，总词数即是语料库所有文本分词后的关键词总数。改进后的算法公式如下：

TF = （词频）/（总词数）（2-6）

其中词频为每个词出现的次数，总词数为所有分词后的关键词总数。

IDF = log ( (总词数)/(该词频数 +1)) （2-7）

最终根据每个关键词的 TF 和 IDF 值计算出权重值来指导特征的选择。

2.4 文本表示

文本表示指的是将文本数据进行处理后成为程序可以处理的数据形式。目前文本表示模型有布尔模型、向量空间模型（ VSM）及概率模型等。

布尔模型

布尔模型是基于特征性的严格匹配模型，根据特征是否存在文档，特征项的属性为 true 或者 false，若待建模文本出现相应特征项，则特征属性为 true,否则为 false。该模型简单实用，速度快，但文本表示很不精确，不能反映特征项对于文本的重要性。

概率模型

概率检索模型基于概率排序原理，以词与词和词与文档间的概率关系为内容进行检索。基本思想是：给定一个用户查询，若搜索系统能在搜索结果排序时按照文档和用户查询的相关性由高到低排序，那么这个搜索系统的准确性是最优的。

向量空间模型

向量空间模型（ Vector Space Model）把文本内容的处理简化成向量空间的向量计算，并以空间上的相似度表达语义上的相似度。该模型已经成为文本挖掘技术使用最多的文本表示模型之一。

向量空间模型将每个文本表示成一个 n 维的向量，每个特征都会计算相应的权重，这些 n 维特征权重构成一个文本，表示该文本的主题内容。该模型通过向量表示文本内容，设语料库中 M={d1, d2, d3, ..., dn}，每个文档的特征项表示如下

= (1, 2, ⋯ , ) （ 2-8）

其中 di 为第 i 个文本的特征权重向量， wij 表示在文档 i 中，第 j 个词的权重值。

2.5 文本聚类算法

聚类是一种数学统计分析方法，指的是按照某个特定标准把一个数据集分割成不同的类或簇，使得一个簇内的数据相似度达到最优，不同簇间的差异性达到最大，是一种无监督学习的机器学习算法。

传统的聚类算法有很多种方法，图 2-5 是各种聚类算法的类别：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第2张图片

图 2-5 主要的聚类算法

各种聚类算法都有其特定的应用场景，本文使用的是基于划分的聚类算法 K-means，因此只介绍 K-means 算法以及二分 K-means 算法的相关原理。

距离算法

在介绍 K-means 聚类算法之前，先说明 K-means 算法中使用到的相关距离算法，距离算法目的是为了度量不同样本数据之间的相似度。目前常用的机器学习距离算法主要有：余弦距离、欧氏距离、曼哈顿距离等。下面介绍两种常见的距离算法的相关定义：

余弦距离

余弦距离，即是余弦相似度，是通过两个向量的夹角余弦值来度量它们之间的相似度。夹角余弦取值范围为 [-1, 1]之间，两个向量的夹角越小，说明两个向量之间越靠近，也就是它们之间相似度越高。

欧式距离

欧式距离，即是欧几里得距离，指的是欧几里得空间中两点间的直线距离。在欧几里得空间里，点 x=(x 1,...,xn)和点 y=(y1,...,yn )之间的欧式距离为：

d(x, y) = √(1 − 1 ) 2 + ⋯ + ( − ) 2 （ 2-9）

K-means 聚类算法

K-means 聚类算法是一种典型的划分聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。K-means 算法目的是：把 n 个点划分到 k 个聚类中，使得每个点都离它最近的簇心对应的聚类。

K-means 聚类算法的关键在于设置 k 个聚类中心。算法过程如下：

从 N 条数据文档中随机选取 k 个数据文档作为簇心。

对剩余的每个数据文档通过距离计算算法计算该文档到每一个簇心的距离，并将该文档归类到距离最近的簇心类中。

根据簇内数据，重新计算 k 个聚类簇心。

迭代（ 2）～（ 3）步骤，直到新的簇心与原来的簇心相等或者小于指定阀值，算法才结束。

K-means 聚类算法是以簇为中心的，能够很好代表聚类中心的对象，

而且时间复杂度比较低，在处理数据量大时效果好。但是，K-means 聚类算法也有缺点，就是需要人为指定 k 值，不同的 k 值聚类出来结果容易出现很大的区别。并且 K-means 算法对噪点比较敏感，容易进入局部最优解，导致聚类效果不明显。

二分 K-means 聚类算法

传统的 K-means 聚类算法结果容易受到初始簇心的影响，簇心选取不好很容易得到的是局部最小值。介绍二分 K-means 算法前介绍一个误差平方和（ SSE）的定义：是用来度量聚类效果的一个指标， SSE 计算的就是一个簇中每个点到簇心的、平方差。SSE 越小，聚类效果越好。

二分 K-means 聚类算法的主要思想是：首先把所有点当成一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（误差平方和）的簇划分为两个簇。以此下去，直到簇的数目等于用户指定的 k 为止。算法过程如下：

将所有数据点当成一个簇。

当簇数量小于 k 值时，对每一个簇计算误差平方和。

在给定的簇上进行 K-means 聚类算法（ k=2)。

选择使得误差最小的簇进行划分操作。

3 校园微博热点话题发现系统设计与实现

3.1 系统设计目标及要求

系统设计目标

本文以高校学生微博用户为研究对象，实现对高校学生微博热点话

题进行及时获取、分析和监控，并根据热点话题类别进行图表方式展示。系统可视化界面可以实现操作一套热点话题发现的流程，并且实时对校园微博热点话题进行监控，从而提供微博舆情的预警。

由于高校微博用户群体用户量大，产生的数据量也随之增大，因此需要一个实时并发的系统不断获取微博数据并分析数据。

功能性目标 :

微博数据获取模块

系统获取的文本来源于新浪微博，用户可以根据自己需求，通过用户可视化界面操作配置需要监控的微博号，并获取该校园微博号的文本数据，支持设置爬取数据页数，一页有十条微博内容，后续可实现支持配置不同微博号内容存入不同表设置。

微博文本预处理模块

获取数据是通过网页爬虫直接获取 HTML 文本，因此需要对文本进行提取，提取微博发布内容、发布时间、评论数、点赞数等。进一步对提取结果进行清洗，去除无效或无意义的微博内容及没有评论的微博，对文本进行分词处理及特征选择及提取等操作后构建向量空间模型。

微博热点话题发现

短文本聚类是微博热点话题发现系统最重要的模块，聚类结果对于热点话题发现的准确性有很大影响。该模块只需在可视化界面上操作获取热点话题步骤就可以获取热点话题。

热点话题可视化界面

在上面（ 3）步骤执行获取热点话题步骤后，可在界面上以图表形式展示热点话题信息及相关热点关键词，并实现敏感词展示。

系统设计要求

校园微博热点话题发现系统是集数据获取、文本处理、文本挖掘等模块，网页爬虫、中文分词等多种技术在一起的系统，所以对各功能模块的可用性要求比较高。为了实现对校园微博的热点话题发现，系统应该具备以下特性：

实用性和稳定性。系统应该以实用为目的，选取合适的软硬件环境搭建系统，并保证系统长时间正常运行，而且需在发生故障发生后，能快速恢复系统。

精准性。数据的来源和提取应该保证准确性，保证获取热点话题和舆情监控的准确性。

可维护性和可扩展性。微博数据的不断增长，导致系统各模块不可避免出现问题。当出现问题时，就需要系统具备可维护性，快速定位问题并修复。考虑到系统用户的增加，系统流量大而导致系统无法可用，就需要系统具备可扩展性，可迁移到更高配置的软硬件环境下。

由于校园微博用户群体大，微博数据增长量也随之剧增，所以应该合理设计系统各个功能模块，保证每个功能模块的可用性，并能保证系统的抗压能力。

系统详细架构设计

根据设计目标与系统设计，本文研究的校园微博舆情监控系统有四大模块，分别是校园微博文本获取模块、微博文本预处理模块、校园微博热点话题发现模块、校园微博热点话题展示模块。系统整体功能架构图如图 3-1 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第3张图片

图 3-1 校园微博舆情监控系统架构图

校园微博热点话题发现系统主要分为四大模块。微博文本获取模块

主要负责使用 Python 爬虫技术获取微博 HTML 文本并进行提取过滤后，存储文本到 MySQL 数据库中。微博文本预处理模块主要负责将文本分词并进行特征权重计算和特征选择后，进行构建向量空间模型等预处理操作。微博热点发现模块主要负责使用 K-means 聚类算法对文本进行聚类等操作，并计算相应的热度值。热度话题展示模块主要负责展示热点话题相关信息，并提供一个可视化界面供用户操作。

3.3 系统功能模块设计与实现

微博数据获取模块

对校园微博进行舆情监控，首先应该设计一个微博数据获取模块，用于校园微博数据获取，并对获取数据进行提取微博内容。获取微博数据有两种方式，一种是使用网页爬虫，另外一种就是调用官方微博提供的 API 接口。

使用网页爬虫的优势在于爬取数据不受限制，并且获取数据比较全面，缺点是获取到的都是 HTML 文本，需要进一步对文本进行提取内容并处理等操作，提取数据处理步骤繁琐且花费时间长。而调用官方 API 接口的优势在于，获取数据比较方便，并且不用进行提取或处理等操作，速度较快，而缺点是爬取数据频率有限制，无法短时间内获取大量微博内容。本文使用的是网页爬虫获取微博数据方式，所以需要以下几个步骤：

模拟登录微博 :

由于微博对爬虫比较敏感，所以需要模拟登录微博，并获取账号 Cookie，使用该 Cookie 对后续微博内容进行爬取。本文采用的是微博网页版进行数据爬取，因此模拟登录流程不是特别复杂，无需验证码之类。

模拟登录的流程如下所示：

用户输入用户名、密码，构建请求 Headers。

发起 POST 登录请求。

若请求返回状态为 200，则将该次请求的 Cookie 存入 Redis 内存数据库，后续获取微博文本只需从 Redis 中取出 Cookie，在请求中带上 Cookie 即可。

存入缓存的 Cookie 会在定时任务里判断 Cookie 是否失效，若失效则重新模拟登录微博，并再次刷新 Cache 中的 Cookie。

获取微博文本内容 :

网页爬虫获取下来的文本是 HTML 文本，存在着各种不相关的信息，本文使用 Python 的 BeautifulSoup 库从 HTML 文件中提取指定文本内容。可以使用 BeautifulSoup 直接定位到 DOM 树的节点，将每条微博文本的文本内容、发布时间、评论个数、点赞个数等信息提取出来，并将这些数据存入 MySQL 数据库。数据表字段如图 3-2 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第4张图片

图 3-2 数据表字段

微博文本获取模块主要流程如下：

使用 Python 爬虫技术。

主要是使用 Python HTTP 库 Requests 带上 Cookie 获取 HTML 文本。为了避免频繁爬取微博，触发微博的反爬虫机制。这里简单实现一个避免触发反爬虫的策略：在获取微博内容时随机更换请求头的 UserAgent，爬取指定页数后随机睡眠 1~2 秒，使用多个账号 Cookie 随机选择使用，这几个步骤基本可以保证不会触发到微博的反爬虫机制。触发了微博的反爬虫机制后会被封 IP，为了避免该情况，后期需要加入代理 IP 模块，通过不断切换 IP 爬取，这个策略是十分有效的，缺点在于免费代理 IP 的可用性低。

使用多进程 + 协程并发模式。

多进程加协程策略并发获取微博文本，缩短文本获取时间。使用Python 内置库 multiprocessing 来实现多进程并发，协程使用 grequests 库，该库与 Requests 是同一种库，只是使用 Gevent 对 Requests 进行封装。Gevent 是基于 greenlet 的异步并发网络库，该库大大加快了微博数据获取的速度，并且比线程更轻量级、而且在一个协程挂掉之后对进程没有其它影响。爬虫模块相关代码如下：

表 3-1 爬虫并发模块代码

frommultprocessingimportPooldefrun_crawl_multiprocess(start_page,end_page,pool=4):=Pool(pool)page_num=end_page-start_page+1interval=page_num// pool
forpageinrange(1,page_num+1,interval):apply_async(run_async_crawl,args=(page,page+pool))close()join()分析:通过上面代码，引入了Python的multiprocessing进程池，通过设置进程池个数来实现控制并发个数，这部分代码实现了多进程并发获取微博文本。创建进程池，并分配爬取任务给pool数的进程。apply_async函数作用就是分配任务给进程池中进程，每个进程处理interval页数爬取任务。第8行p.close()关闭进程池，使其不能接受新任务。最后p.join()作用是主进程阻塞等待子进程退出

微博文本判重策略。

使用布隆过滤器实现过滤重复微博文本，防止重复存入数据库。提取每条微博文本的 URL 并使用正则表达式提取文本标识，布隆过滤器使用 Redis 缓存布隆信息，使用 Redis 的 bit 类型存储文本的布隆值。在存入数据库前进行布隆判断是否已经存在，若存在则跳过保存，否则存入数据库。

微博文本获取并存储数据库流程如图 3-3 所示：

图 3-2 校园微博文本获取模块流程图

微博文本预处理模块

在获取到微博文本后，需要对微博文本进行预处理。该模块主要负责微博文本的分词处理和过滤、特征项选择、向量空间模型（ VSM）的构建这几步操作。该模块的流程图如图 3-3 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第5张图片

图 3-3 微博文本预处理模块流程图

微博文本过滤。由于微博文本经常附带着很多表情符号、超链接之类，这些信息对于话题的发现和提取是没有意义的。其次，微博文本具有随意性，经常出现微博文本字数少，经常出现只是发几个字，包含主题信息比较少的微博。本文使用的过滤策略：过滤掉微博长度为 10 的微博文本，该类文本长度过短，分词后包含文本信息过少；过滤掉微博评论数为零的微博文本，该类文本由于没有评论内容，因此文本信息相对过少。

分词处理与过滤。该模块使用 jieba 分词系统，该分词工具有分词精度好、分词速度快和支持处理字符等功能。 jieba 分词的相关特点：

支持三种分词模式，分别是精确模式、全模式、搜索引擎模式。

支持自定义词典，自行添加新词。例如一些校园内特定的简称，可以加入自定义词典，保证更高的准确性。

支持自定义停用词表，过滤掉一些对微博热点话题发现无意义的词。

在分词后进一步过滤掉文本分词后词语数量少于 5 的文本，该文本分词后信息过少。

表 3-2 加载 jieba 词典并过滤

importjiebajieba.load_userdict(get_jieba_dict_path("user_dict.txt"))defparticiple_text(text):seg_list=jieba.cut(text,cut_all=False)filter_content=set(seg_list)-stop_words6.defload_stop_words():"""加载停用词表
                                """stop_words=set()stop_words_path=get_jieba_dict_path("stop_dict.txt")12.withopen(stop_words_path,'rb')asfp:forlineinfp.readlines():stop_words.add(line.decode('utf-8').strip('\n'))returnstop_words分析:通过上面代码，引入jieba分词库，并加载自定义词典和停用词表对微博文本进行分词过滤处理。jieba.load_userdict作用是加载用户自定义词典，提高分词准确性。然后使用jieba.cut对文本进行分词，cut_all=False是指定以精确模式进行分词。接下来就是停用词过滤，先从load_stop_words函数获取自定义的停用词表，并把所有停用词放入set集合中。过滤文本分词中的停用词，只需要让文本分词和停用词进行集合差相减，得到的结果就是过滤掉停用词后的文本分词。

特征提取及权重计算

特征项是微博文本分词后的某个词，是能够体现文本主题的词。对微博文本分词后进行提取，提取目的是为了降低数据的改维度并提取出能够反映微博文本主题的特征项。这里使用张静研究并进的特征提取方法，该方法是把所有微博文本分词后的关键词集合在一起，并把关键词出现的次数作为词频，根据改进的 TF-IDF 公式计算各特征权重，根据权重指导特征项的选择。特征提取及权重计算处理流程如下：

将语料库所有的分词后的词集合在一起。

迭代分词集合，取出一个词，进行统计词频。

若该词没有出现过，则将词频为 1，否则为原词频 +1。

全部迭代完成后，计算所有特征项的 TF-IDF 值。

根据特征项的 TF-IDF 值指导特征项的选择。

表 3-4 TF-IDF 权重计算代码

deftf_idf(self):""" TF * IDF
计算所有关键词的 tf-idf 权重值
"""self.tf()words_num=len(self.tf_dict)forword,valueinself.tf_dict.items():self.tf_idf_dict[word]=float(value*float(math.log(words_num/value+1)))returnself.tf_idf_dict分析:通过上面代码，计算微博文本每个特征项TF-IDF的权重。self.tf()函数获取每个特征项的TF值。迭代tf_dict集合，计算每个特征的TF-IDF权重值。

向量空间模型表示

向量空间模型（ VSM）的表示，是基于 TF-IDF 计算得到的特征项权重来实现的。本模块使用特征权重排序后的结果，根据情况选取前几十特征项作为向量空间模型的基础。向量空间模型表示的就是每条微博文本的信息，基于该模型可以通过欧式距离算法计算文本之间的相似度。

向量空间模型结构如下：

s=（ w1， w2,， w3... wn-1， wn）

w1= (0， 0.1， 0.12 ...0.34， 0.84)

其中 s 为整个语料库， w1、 w2、 wn 等都是每条微博文本分词后对应的特征权重向量。

校园微博热点话题发现模块

校园微博热点话题发现模块是该系统的核心模块，该模块发现热点话题的准确性直接影响到舆情监控的效果，是热点话题计算热度的前提条件。该模块主要包括：校园微博分类模块、 K-means 聚类算法模块、热度计算模块。

校园微博分类模块

由于校园微博主要用户群体为大学生，通常都是发布关于学校、校园生活、买卖交易、情感之类的话题。本文通过对校园微博的研究，决定在使用聚类算法之前先对整个微博文本语料库进行分类处理，然后再对每个分类分别进行聚类算法，这样可以大大增加热点话题的准确性。

分类流程如下：

维护一份分类训练集，用于训练分类。

使用 Scikit-learn 机器学习库中的 TF-IDF 算法构建向量空间模型，并将文本向量模型对象化，方便后续生成向量空间模型。

构建测试集的向量空间模型，执行多项式贝叶斯算法进行文本分类，并把不属于该类的文本正确分类。

微博短文本聚类

本文使用的是 K-means 聚类算法对前面构建向量空间模型进行聚类分析。第 2 章已经介绍过 K-means 聚类算法的原理和优缺点。由于 K-means 聚类算法关键在于初始簇心的选择和 k 值的选择，这些都会影响 K-means 聚类的效果。下面是微博文本中 K-means 聚类算法的流程：

加载之前步骤处理得到向量空间模型。

随机或者人工设置初始簇心。

调用 K-means 算法并指定距离算法，一般使用欧式距离算法。

遍历向量空间模型，使用距离算法计算文本间的相似度。

把文本归类到距离最近的簇心类别中，并更新 k 个簇心。

迭代直到簇心没有变化，退出算法。

通过 K-means 聚类后，获取文本的标签后把文本归于对应的话题中。

微博热点话题热度计算

经过上面步骤聚类算法，初步得到了话题类，但这些类中话题还不能直接代表热度话题，还需要对每一个类进行热度计算，得出最大热度的话题类，该类才能作为校园微博热点话题。

判断一个话题类是否是热点话题，应该根据特定的热度公式计算该类别的热度。热度计算不能单独以该话题类中微博文本数量决定，因为微博还有评论功能。通常情况下越受关注的话题评论越多，点赞数越多，由于校园微博的特点，一般情况下微博转发情况比较少。所以应该根据每条微博的评论数和点赞数等数据根据公式计算出热度计算。热度计算的公式如下：

ℎ = log( + 1) + （３ -1）

经过热度计算后选取最大热度的话题类即是该段时间内的热度话题。

微博热点话题展示。

得到微博热点话题后，系统提供一个展示热点话题的界面。校园舆情监控人员可以通过可视化界面快速获取舆情热点话题信息，还可以通过图表形式获取当段时间的热点话题的主题关键词等，同时还提供一个敏感词界面，让舆情人员快速获取一些紧急的事件，例如抑郁、自杀之类的敏感词，方便舆情人员快速发现校园热点事件和掌握舆情动态。可视化界面使用的技术及功能如下：

爬取微博文本界面。可由舆情人员自动配置爬取微博号，配置爬取页面等操作。

微博热点话题发现界面。系统的聚类分析、热度发现模块在界面上不可见，直接通过界面提示配置即可生产热点话题相关信息。

敏感词展示界面。提供敏感词识别并以图表形式展示敏感词相关信息。

4 系统功能测试

4.1 系统运行环境和参数

本系统在开发过程需要相应的软硬件环境，开发测试使用的是本机环境，不同的软硬件环境对系统的稳定性以及流畅性都有很大影响。开发环境配置如下：

硬件环境：内存 12G、硬盘容量： 100G、 CPU: 4 核系统环境： 64 位 Ubuntu16.04 系统数据库： MySQL、 Redis

开发语言与工具： Python、 VIM、 Pycharm

框架与相关库：Scikit-Learn、Flask、Numpy、Requets、BeautifulSoup、Celery、 Gunicorn

生产环境与开发环境配置只是在硬件和系统上有区别，其它区别不大。生产环境使用的是阿里云服务器，系统及相关模块全部部署在阿里云服务器，生产环境配置如下：

硬件环境：内存 1G、硬盘容量： 100G、 CPU: 2 核

系统环境： 64 位 Ubuntu14.04 系统

数据库： MySQL、 Redis

其它数据：同生产环境

4.2 实验数据及处理

本系统以广州中医药大学的一个生活类微博号——广中医 I 栋作为数据来源，获取了一个月内的微博内容作为实验数据。实验过程中，过滤掉一部分不符合要求的微博文本，例如将微博文本长度小于 10，评论个数小于 2 全部过滤掉，因为文本太短或者评论太少本身就对热点话题的发现模型产生噪点影响。

根据第三章的微博文本分类模块，先使用维护的分类词表对微博文本进行分类，然后维护一个已经训练好的训练集并对归类错误的文本正确归类，归类成功后的文本可用于后面步骤的文本预处理。

根据第三章的微博文本预处理步骤对文本进行分词及停用词过滤等操作，并维护一份分词表和停用词表，用来提高分词的准确率。图 4-

是分词后的微博文本：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第6张图片

图 4-1 分词后文本

然后对分词后的文本进行 TF-IDF 权重计算。本文使用的是改进的 TF-IDF 算法，把语料库所有关键词集合在一起，然后计算每个关键词的权重值，并根据 TF-IDF 权重值指导特征的选择，特征选择后构建向量空间模型，对于微博短文本而言，一般选择 TF-IDF 权重值前五十的特征作为向量空间模型的维度。如下图 4-2 所示，由于维度过大，图中向量空间模型的列有所减少。矩阵中每一行代表着一条微博文本的对应的特征向量值：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第7张图片

图 4-2 向量空间模型（ VSM）

接下来使用聚类算法对文本进行聚类分析，使用 K-means 算法对文本空间向量进行相似度计算并归于对应的类别。

4.3 系统可视化界面

系统可视化界面主要分为几大功能展示，用户登录界面，爬取微博数据界面、热点话题分析发现界面、各分类热度展示界面、敏感词展示模块等。由于该系统主要功能在于热点话题发现方面，对相关的登录等界面其它功能不做解释。

数据获取界面

通过输入要获取数据的微博号的微博链接，并设置爬取相关页数，系统在后台自动执行爬取微博的操作，期间不需要任何的配置。如下图4-1 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第8张图片

图 4-1 微博数据获取界面

热点话题排行榜

系统主页面包括当前时间段的热点话题排行榜、热点话题内容等模块。如下图 4-2 所示，展示的是热点话题排行榜的前八位热点话题事件，并且展示热点话题的前七位关键词与热度值：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第9张图片

图 4-2 热点话题排行榜

1.4.3 热点话题热度直方图

其中图表展示模块展示了各类别中聚类后的最大热度直方图，并展示最大热度类别的微博内容，如下图 4-3 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第10张图片

图 4-3 热度直方图

1.4.3 敏感词展示

后台维护一份敏感词表，用来匹配微博文本中存在的敏感词，一般校园微博存在心理健康、校园突发事件、校园安全等需要舆情人员监控的敏感类别。本系统实现后台定时任务来监控相关敏感词并实时更新在系统敏感词展示页面，如下图 4-4 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第11张图片

图 4-4 敏感词饼形图

敏感词类型下的微博文本如图 4-5 所示：

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统附代码_第12张图片

图 4-5 敏感词类型下文本

5 总结

本文以校园微博作为研究主体，结合微博的特点，通过研究热点话题相关技术，实现了一套校园微博热点话题发现系统。该系统主要由数据获取、微博数据预处理、K-means 聚类分析等模块组成。该系统为校园舆情人员及时发现热点话题带来了很大的帮助。本文主要实现内容如下：

使用 Python 爬虫技术并发获取微博页面，并使用 Python 相关库快速提取微博文本内容。

观察校园微博的特点和传统文本的区别，根据校园微博短文本的特点进行数据预处理操作。

针对于向量空间模型的高维度以及微博文本表示的稀疏性，

通过改进的 TF-IDF 算法实现有效的降维和特征选择，解决了 VSM 特征向量的稀疏性问题。

针对于传统 K-means 算法存在的局部最优解问题，改进了 Kmeans 算法初始簇心选择，提高了 K-means 聚类的准确性。

根据校园微博的特点，改进了热度计算的算法，提高了获取热点话题的准确性。

实现热点话题发现系统可通过可视化界面进行操作，方便舆情管理人员从界面上获取热点话题信息。

本文基于聚类算法实现校园微博热点话题发现系统还是有一些不足之处，以下几项需要完善：

数据预处理模块的特征选择后文本表示稀疏性还是有点高，需要改进特征提取相关方法。

K-means 聚类算法对微博短文本的聚类效果不是很理想，需要换用其它聚类算法，例如 Single-pass 等算法。或者通过两种聚类算法结合方法对文本进行聚类，这是本系统下一步需要研究的方向。

可视化界面还需要不断改进，目前只是提供一个界面供舆情人员操作并查看相关热点话题信息，但不提供修改相关参数的界面。下一步应该完善相关参数配置界面，使得舆情人员可根据需要配置相关参数达到对某些话题的舆情监控目的。

完整代码：https://download.csdn.net/download/qq_38735017/87426632

你可能感兴趣的:(tf-idf,kmeans,算法,微博热点话题发现系统)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

基于 python TF-IDF K-means 算法的校园微博热点话题发现系统 附代码