JinyuZ1996

【学习实践】尝试使用LDA方法与传统LSA方法对比实现文本主题进行挖掘

尝试使用LDA方法与传统LSA方法对比实现文本主题进行挖掘

实验简介

　　本实验或者说案例，是使用Pycharm编写代码，对同一组新闻数据集进行新闻主题挖掘，来训练两个不同的NLP模型，并提供训练集对训练结果进行测试，并量化。随后通过可视化方法对比两组实验结果。（为了保留实验过程以及实现结果的可视化，保留了实验生成的日志文档和某次实验结果的参考图）

　　首先，该实验数据集为爬取到的新闻主题的数据集，大约包含22000条content信息可以供模型训练使用，但由于数据集来自爬虫爬取的含html标签形式的txt文件，需要进行数据清洗来提取新闻内容。简略的实验流程描述如下：在清洗过数据集之后，对数据集进行分词和词性标注（该过程的耗时较长）。随后通过分词后的数据构建词袋模型（也就是语料库，包含词典，TF-IDF矩阵等信息）。构建完毕后，人为给定一个挖掘的主题个数后，分别使用刚才构建好的语料库去训练LSA模型和LDA模型。训练完毕后，保存两种模型并准备带入到测试集中查看预测效果。随后，用同样的预处理方法提取测试集的语料，并将测试集语料带入到两种不同的模型中查看结果，通过可视化方法进行对比，得到比较明显的实验结果。

　　实验全程的每一个子过程均记录了起止时间，并打印到了日志文档log.txt中用于对比和检验试验过程的耗时情况。

实验环境

软件环境

　　Windows 10操作系统，Pycharm IDE环境。

硬件环境

　　12线程CPU，16G内存，6G显存

第三方库的使用

Jieba函数库（用于分词和词性标注与过滤）
Bs4函数库（用于清洗’lxml’标签）
Gensim函数库（用于词袋语料库预处理以及模型的训练）
Tarfile函数库（用于解压数据集文件）
Os函数库（用于路径分析和文件操作以及日志操作）
Matplotlib函数库（用于数据可视化过程便于对比实验结果）
Time函数库（用于记录每一步子过程的时间节点）

实验目标

　　对比LSA模型和LDA模型挖掘新闻主题的效果，评价两种模型的优势与缺点。效果评价主要从以下几个方面进行：模型训练时间，模型预测准确度，模型主题之间的相关度等。将两个模型的训练结果和预测结果都表示出来，并进行对比，并记录分析，是该实验的主要目标。

实验过程

　　实验的数据集的原始形式是.tar.gz格式的压缩文件，包含多个被切割的txt文档。首先需要对其进行解压缩。记录压缩所消耗的时间。然后将解压之后的所有content综合起来准备进行清洗。记录数据合并的时间消耗。而这个数据集的数据主要来自网络爬虫的爬取结果，所以txt中包含大量的冗余信息，在解压和合并之后，首先使用bs4.BeautifulSoup函数库将html标签和无关数据过滤掉，仅提取出我们想要使用的content标签当中的新闻内容，同时记录下数据清洗所消耗的时间。

　　数据清洗过后，要开始构建单词文本矩阵了，首先需要把大段的文本信息进行分词，并对词性进行标注，为的是过滤掉无关的连接词和空白content中的无关信息。该过程使用到了Jieba函数库的posseg子库，记录下分词和词性标注开始的时间和结束时间。

　　标注结束后使用词袋模型预处理函数，对分好词的数据集进行处理，首先构建词典，记录下这一过程起止时间。再紧接着构建语料库，这是为了训练模型是能够参照着无权的语料数据（LDA随机抽样目标），同样记录下起止时间来计算消耗。然后为了综合权重信息，我们使用TF-IDF来表示综合重要程度（同时体现一个文本中某单词出现次数的占比和含有某单词的语料占全部文本的比例），也记录下这个过程的时间消耗。

　　首先，我人为的（主观可变参数 - num_topics = 10）指定了10个主题个数进行挖掘。将预处理的结果，应用于模型的训练当中，分别训练LSA和LDA模型，并打印出训练的结果，结果呈现为主题序号和主题关键字的键值对形式。可以通过观察这个过程结果。来观察有没有很好的避免一词多义和多词一义。在这个过程中记录下来两个模型的训练消耗时长，作为其中一个关键参数进行对比。

　　最后通过一组测试及样本进行测试，首先也是对测试机进行语料的预处理，然后作为预测样本带入到两个模型中去，分别得到两个模型，对该样本的预测结果。表示为10个主题的相似度键值对结果。将预测结果进行归一化和标准化后，用matplotlib可视化的方法将数据呈现出来进行比较分析。

实验代码

函数库引用部分：

# Author:JinyuZ1996
# Creation date:2020/7/25 20:03
# -*- coding: utf-8 -*-
import os
import tarfile
import matplotlib.pyplot as plt
import jieba.posseg as pseg
import time as t
# 使用jieba第三方类库对文本进行切割（中文分词类库），但是我们接下来要使用的是posseg的cut方法（大坑）
from bs4 import BeautifulSoup
from gensim import corpora, models
#踩坑，在使用LSA的时候必须指明包内调用的是lsimodel，而网上大多数博主没说或者说之前的写法可以用
import gensim.models.lsimodel as lsi

函数定义部分：（注释详细）

# 函数定义部分

# 数据集分词方法：将输入的文本句子根据词性标注做分词
# （参数是：从数据集或者测试集中提取的文本句子，为标准字符串类型）
def cut_word(text):
    word_type = ['z', 'vn', 'v', 't', 'nz', 'nr', 'ns', 'n', 'l', 'i', 'j', 'an', 'a']      # 定义各种不同的词性规则
    words = pseg.cut(text)                                                                  # 在这里踩了个大坑
    # 使用jieba中定义的cut方法来进行中文分词，这里cut方法通过查库，得知是精准模式，它会把文本精确的切分开，不存在冗余单词
    cut_result = [word_cut.word for word_cut in words if word_cut.flag in word_type]        # 这是一个地道的写法，可以避免主观上知道被分成了多少词项
    return cut_result                                                                       # 返回符合规则的分词结果

# 文本预处理方法：如果是训练阶段，返回词典、TF-IDF对象和TF-IDF向量空间数据；如果是预测阶段，返回TF-IDF向量空间数据
# （参数是：词项表——列表型数据;TF_IDF模型对象——默认值是None;标志位，标志现在是什么过程，训练还是测试）
def text_pre(words_list, tfidf_object=None, training=True):
    # 分词列表转字典
    t_dic_start = t.time()
    dic = corpora.Dictionary(words_list)                                # 将分好词的词项表转换为字典形式
    t_dic_end = t.time()
    if training:
        print('训练集词典构建完毕.用了' + str(format(t_dic_end-t_dic_start,'.2f')) + '秒,构建模型语料库开始......')
        # 下面这三行曾经是为了展示一下词典模型的样式
        # print('{:-^50}'.format('测试展示词典索引值与分词表:'))
        # for i, w in list(dic.items())[:20]:                             # 循环读出字典前20条的每个key和value，对应的是索引值和分词
        #     print('索引值:%s -- 分词:%s' % (i, w))                       # 因为数据量比较大这里只是做个展示，让大家看一下数据处理的步骤
    else:
        print('测试集字典构建完毕.')
    # 构建完了词典再来构建语料库corpus，这里的doc2bow方法是构建bow模型的内置方法
    # 该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的（也就是构成了原始的语料）
    t_corpus_start = t.time()
    corpus = [dic.doc2bow(words) for words in words_list]                   # 用于存储语料库的列表
    t_corpus_end = t.time()
    if training:
        print('训练集语料库构建完毕.用了' + str(format(t_corpus_end-t_corpus_start,'.2f')) + '秒,构建模型TF—IDF开始......')
        # 下面这两局曾经用于测试查看词袋模型语料库形式
        # print('{:-^50}'.format('语料库一维样本展示:'))
        # print(corpus[0])                                                  # 展示语料库的第一维
    else:
        print('测试集语料集合分析完毕.')
    # TF-IDF转换（首先判定是否为训练过程，如果是的话则使用语料库进行权值矩阵的构建）
    if training:
        t_TFIDF_start = t.time()
        tfidf = models.TfidfModel(corpus)                           # 建立TF-IDF模型对象，TF_IDF也是定义在gensim上的既有方法
        corpus_tfidf = tfidf[corpus]                                # 得到TF-IDF向量稀疏矩阵
        # 下面这两句曾经用于测试查看词袋模型的样子
        # print('{:-^50}'.format('TF-IDF 模型一维展示:'))
        # print(list(corpus_tfidf)[0])                              # 展示第一维
        t_TFIDF_end = t.time()
        print('构建TF-IDF过程结束，用了'+str(format(t_TFIDF_end-t_TFIDF_start,'.2f'))+'秒.')
        return dic, corpus_tfidf, tfidf
    else:
        return tfidf_object[corpus]                             # 如果试运行测试集的话不做处理tfidf_object=None

# 全角转半角方法：用于数据及预处理环节，数据清洗使用
# （参数是：content标签里的原始文本）
def str_convert(content):
    strs = []
    for each_char in content:  # 循环读取每个字符
        code_num = ord(each_char)  # 读取字符的ASCII值或Unicode值
        if code_num == 12288:  # 全角空格直接转换
            code_num = 32
        elif 65281 <= code_num <= 65374:  # 全角字符（除空格）根据关系转化
            code_num -= 65248
        strs.append(chr(code_num))
    return ''.join(strs)

# 解析文件内容数据预处理之前的简单清洗
# （参数是：数据集文件读取过来的文本格式包含大量标签格式和脏数据）
def data_parse(data):
    #BeautifulSoup库的作用就是帮助我们去提取网页格式标签内的信息
    raw_code = BeautifulSoup(data, 'lxml')          # 建立BeautifulSoup对象
    content_code = raw_code.find_all('content')     # 从包含文本的代码块中找到content标签，将新闻信息过滤出来
    # 将每个content标签中的文本提取出来之后，转成半角str字符串格式对象存储返回一个字符串list（过程中还进行了判空，清洗掉了数据库脏数据）
    content_list = [str_convert(each_content.text) for each_content in content_code if len(each_content) > 0]
    return content_list

案例实现过程部分：（注释详细）

# 案例实现过程部分

# 创建日志文件用于记录运行过程及结果
doc = open('log.txt','w')

# 解压缩文件过程（找了一个比较完整的读取tar.gz格式压缩文件的步骤（之前找的全炸），建议收着）
print('解压过程开始......')
print('解压过程开始......',file=doc)
t_unzip_start = t.time()
if not os.path.exists('./news_data'):                       # 如果不存在数据目录，则先解压数据文件（就是有没有解压的文件夹在）
    with tarfile.open('news_data.tar.gz') as tar:           # 打开tar.gz压缩包对象（有时包内部嵌套多层）
        names = tar.getnames()                              # 获得压缩包内的每个文件对象的名称
        for name in names:                                  # 循环读出每个文件
            tar.extract(name, path='./')                    # 将文件解压到指定目录

# 汇总所有内容（因为通过观察数据集在压缩目录中被分为多个子文件，个人粗略估计大概有22000+个content）
t_unzip_end = t.time()
print('解压过程结束,用了'+str(format(t_unzip_end-t_unzip_start,'.2f'))+'秒,数据合并过程开始......')
print('解压过程结束,用了'+str(format(t_unzip_end-t_unzip_start,'.2f'))+'秒,数据合并过程开始......',file=doc)
t_datamerg_start = t.time()
all_content = []                                            # 构建总列表，待会儿用于存储所有文件的文本内容
for root, dirs, files in os.walk('./news_data'):            # os.walk()游走方法，分别读取遍历目录下的根目录、子目录和文件列表
    for file in files:                                      # 循环读取每个文件
        file_name = os.path.join(root, file)                # 将目录路径与文件名合并为带有完整路径的文件名
        with open(file_name, encoding='utf-8') as f:        # 以只读方式打开文件（默认就是只读）
            data = f.read()                                 # 读取文件内容
        all_content.extend(data_parse(data))                # 从文件内容中获取文本，清洗数据并将结果追加到总列表

# 数据集分词过程开始
t_datamerg_end = t.time()
print('数据合并过程结束,用了'+str(format(t_datamerg_end-t_datamerg_start,'.2f'))+'秒,分词过程开始......')
print('数据合并过程结束,用了'+str(format(t_datamerg_end-t_datamerg_start,'.2f'))+'秒,分词过程开始......',file=doc)

# 获取分词列表，用于存储所有文件的分词结果（在all_content中获得）
t_cutWord_start = t.time()
print("开始对数据集进行分词和词性标注（该过程比较耗时）......")
print("开始对数据集进行分词和词性标注（该过程比较耗时）......",file=doc)
words_list = [list(cut_word(each_content)) for each_content in all_content]
t_cutWord_end = t.time()
print("分词过程完成,用了"+str(format(t_cutWord_end-t_cutWord_start,'.2f'))+'秒,开始构建词典模型......')
t_wordwash_start = t.time()
dic, corpus_tfidf, tfidf = text_pre(words_list)                                 # 有了数据，我们先对训练集的文本进行预处理
num_topics = 10                                                                 # 主观的设置主题个数（先设置10个测试）
t_wordWash_end = t.time()
print('词袋预处理过程结束,'+str(format(t_wordWash_end-t_wordwash_start,'.2f'))+'秒,开始构建LDA主题模型......')
print('词袋预处理过程结束,'+str(format(t_wordWash_end-t_wordwash_start,'.2f'))+'秒,开始构建LDA主题模型......',file=doc)

# 使用数据集分别训练LDA和LSA两种模型（分别记录训练时间用于结果比较）

t_lda_start = t.time()
lda = models.LdaModel(corpus_tfidf, id2word=dic, num_topics=num_topics)         #通过LDA进行主题建模
t_lda_end = t.time()
print('LDA模型构建完毕,用了'+str(format(t_lda_end-t_lda_start,'.2f'))+'秒,开始构建LSA主题模型......')
print('LDA模型构建完毕,用了'+str(format(t_lda_end-t_lda_start,'.2f'))+'秒,开始构建LSA主题模型......',file=doc)
print('{:-^50}'.format('构建好的主题LDA:'))
print('{:-^50}'.format('构建好的主题LDA:'),file=doc)
print(lda.print_topics())                                                       #打印所有LDA的主题
print(lda.print_topics(),file=doc)
t_lsa_start = t.time()
lsa = lsi.LsiModel(corpus_tfidf, id2word=dic, num_topics=num_topics)            #通过LSA进行主题建模
t_lsa_end = t.time()
print('LSA模型构建完毕,用了'+str(format(t_lsa_end-t_lsa_start,'.2f'))+'秒.')
print('LSA模型构建完毕,用了'+str(format(t_lsa_end-t_lsa_start,'.2f'))+'秒.',file=doc)
print('{:-^50}'.format('构建好的主题LSA:'))
print('{:-^50}'.format('构建好的主题LSA:'),file=doc)
print(lsa.print_topics())                                                       #打印所有LSA的主题
print(lsa.print_topics(),file=doc)

# 新数据集的主题模型预测
print('开始测试集过程,测试集文件打开......')
print('开始测试集过程,测试集文件打开......',file=doc)
with open('article.txt', encoding='utf-8') as f:                                # 打开测试集的文本
    text_new = f.read()  # 读取文本数据
text_content = data_parse(data)                                                 # 解析新的文本
words_list_new = cut_word(text_new)                                             # 将文本分词为下一步预处理做准备
corpus_tfidf_new = text_pre([words_list_new], tfidf_object=tfidf, training=False)  # 新文本数据集的预处理（注意把标志位置false）

# LDA预测部分（使用训练好的LDA模型去预测新闻主题）

# t_testLda_start = t.time()
corpus_lda_new = lda[corpus_tfidf_new]                                          # 用训练好的lda去获取新的分词词袋列表（文档）的主题概率分布
# t_testLda_end = t.time()
print('{:-^50}'.format('测试样本LDA主题预测:'))
print('{:-^50}'.format('测试样本LDA主题预测:'),file=doc)
pre_list = list(corpus_lda_new)
trans_list = sorted(pre_list[0],key = (lambda x:[x[1],x[0]]),reverse=True)       #2020-08-05改进代码通过排序方式将最大概率的预测结果显示在第一位
print(trans_list)                   #打印出排序好的话题序列预测结果
print(trans_list,file=doc)
# print('LDA模型对测试集数据预测完毕,用了'+str(format(t_testLda_end-t_testLda_start,'.2f'))+'秒.')     #为什么不写了呢，因为我发现真的这个过程是很快的，快到.2f不是很好展示
print('LDA模型对测试集数据预测完毕.')
print('LDA模型对测试集数据预测完毕.',file=doc)

# LSA预测部分(使用训练好的LSA模型去预测新闻主题)

# t_testLsa_start = t.time()                                #记录LSA预测测实际的开始时间
corpus_lsa_new = lsa[corpus_tfidf_new]                      #用构建好的lsa去处理测试集语料库
# t_testLsa_end = t.time()                                  #记录LSA预测结束的时间
print('{:-^50}'.format('测试样本LSA主题预测:'))
print('{:-^50}'.format('测试样本LSA主题预测:'),file=doc)
pre_list_lsa = list(corpus_lsa_new)                     #将训练好的结果转成List对象
trans_list_lsa = sorted(pre_list_lsa[0],key = (lambda x:[abs(x[1]),x[0]]),reverse=False)            #对值得部分进行排序（排序的时候要使用绝对值形式排序）
print(trans_list_lsa)                                   #打印出排序好的话题序列预测结果
print(trans_list_lsa,file=doc)
# print('LSA模型对测试集数据预测完毕,用了'+str(format(t_testLsa_end-t_testLsa_start,'.2f'))+'秒.')     #为什么不写了呢，因为我发现真的这个过程是很快的，快到.2f不是很好展示
print('LSA模型对测试集数据预测完毕.')
print('LSA模型对测试集数据预测完毕.',file=doc)

# 图形化展LSA的测试结果（柱状图）

id_lsa = []             #话题编号list（注意要与值一一对应）
val_lsa = []            #权重值的list
lsa_Outlist = trans_list_lsa                                                    #个人习惯再赋个新名字
for i in range(0,len(lsa_Outlist)):                                             #该循环用于将上方矩阵中的值转移到两个新的list当中用于结果的展示
    id_lsa.append("tp-"+str(lsa_Outlist[i][0]))                                 #将编号放入新的list中准备打印
    val_lsa.append(float(format((1-10*abs(lsa_Outlist[i][1]))*10,'.3f')))       #将权重放入新的list，注意取绝对值并同时对数据进行归一化方便展示
print(id_lsa)           #测试打印序号序列
print(val_lsa)          #测试打印权重序列

fig = plt.figure(figsize=(10, 5))                                   #设置窗体大小
fig.canvas.set_window_title('Using LSA to predict Testing Set')     #设置窗体title
plt.title('Using LSA to predict Testing Set')                       #设置图表的title
plt.xlabel('Predicted subject sequence number')                     #被预测的话题序号
plt.ylabel('Weight of prediction possibility')                      #被预测的话题可能性权重
# 我这里只设置了九种颜色，要是后期同学们再增加新的话题个数的话就需要再增加颜色种类
plt.bar(range(len(val_lsa)),val_lsa,width=0.5,tick_label=id_lsa,color =['grey','gold','darkviolet','turquoise','red','green','blue','pink','tan'])
plt.show()

# 图形化展示LDA测试结果（柱状图）

id_lda = []                 #话题编号list（注意要与值一一对应）
val_lda = []                #权重值的list
lda_Outlist = trans_list
for i in range(0,len(lda_Outlist)):                                  #该循环用于将上方矩阵中的值转移到两个新的list当中用于结果的展示
    id_lda.append("tp-"+str(trans_list[i][0]))                       #将编号放入新的list中准备打印
    val_lda.append(float(format((trans_list[i][1])*10,'.3f')))       #将权重放入新的list，lda的数据好处理一些
print(id_lda)           #测试打印序号序列
print(val_lda)          #测试打印权重序列

#  曾经对lda尝试过绘制饼图，但是效果不是很好，但是保留这种写法以后参考用。参数（值，标志，颜色分类，自动转化为百分比形式，还可以设置阴影shadow=，或者设置凸显某一部分explode=）
# plt.pie(x=value,labels=id_lda,colors=['C0', 'C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9'],autopct='%1.1f%%')
# plt.axis('equal')       #用'正'圆饼图来可视化预测结果

fig = plt.figure(figsize=(10, 5))                                   #设置窗体大小
fig.canvas.set_window_title('Using LDA to predict Testing Set')     #设置窗体title
plt.title('Using LDA to predict Testing Set')                       #设置图表的title
plt.xlabel('Predicted subject sequence number')                     #被预测的话题序号
plt.ylabel('Weight of prediction possibility')                      #被预测的话题可能性权重
# 我这里只设置了九种颜色，要是后期同学们再增加新的话题个数的话就需要再增加颜色种类
plt.bar(range(len(val_lda)),val_lda,width=0.5,tick_label=id_lda,color =['grey','gold','darkviolet','turquoise','red','green','blue','pink','tan'])
plt.show()

#再比较一下二者花费时间的差距

lda_cost = t_lda_end-t_lda_start
lsa_cost = t_lsa_end-t_lsa_start
if lda_cost>lsa_cost:
    print("LDA模型花费" + str(format(lda_cost, '.2f')) + '秒.\nLSA模型花费' + str(format(lsa_cost, '.2f')) + '秒.')
    print("LDA模型花费" + str(format(lda_cost, '.2f')) + '秒.\nLSA模型花费' + str(format(lsa_cost, '.2f')) + '秒.', file=doc)
    print("LDA模型比LSA模型要多花费" + str(format(lda_cost - lsa_cost, '.2f')) + '秒.')
    print("LDA模型比LSA模型要多花费" + str(format(lda_cost - lsa_cost, '.2f')) + '秒.',file=doc)
else:
    print("LDA模型花费" + str(format(lda_cost,'.2f')) + '秒.\nLSA模型花费' + str(format(lsa_cost,'.2f')) + '秒.')
    print("LDA模型花费" + str(format(lda_cost, '.2f')) + '秒.\nLSA模型花费' + str(format(lsa_cost, '.2f')) + '秒.', file=doc)
    print("LSA模型比LDA模型要多花费" + str(format(lsa_cost - lda_cost,'.2f')) + '秒.')
    print("LSA模型比LDA模型要多花费" + str(format(lsa_cost - lda_cost, '.2f')) + '秒.',file=doc)

实验结果分析

　　首先，根据某次实验log.txt给出的结果和可视化数据结果来进行观察（事先已经进行了超过20次实验，这里取其中一次比较有代表性的试验结果来分析）：

从训练结果来看，根据对log.txt当中LSA和LDA主题训练结果的内容观察分析可以得知，LSA明显的在多个主题中都有着部分与体育相关的单词，我们可以理解这种情况产生的原因，之前我在视频中提到过关于新闻主题个数的问题，大约在22-30个左右的时候可以实现最佳粒度，但目前为了尽快得到实验结果和放大实验效果，我们主观的取num_topics = 10，来进行试验。但事实上你可以清楚地发现，在LDA训练结果中就有很高的区分度，即便目前仅仅只有10个话题，每个话题之间的关联度也都很小，只是偶尔会出现个别相关联单词被分配到其他主题的情况，占的权重也很小。所以当我们只观测到训练结果的时候，初步推测，LSA将会出现预测不准，或预测模糊的状况，而相对的LDA应该能够避免这种情况。

　　然后，从训练时间来看，在我们目前规定的数据及规模和话题量为10的实验条件下，LSA在多次重复试验过程中基本上都会比LDA慢2s左右。

　　最后让我们看一看二者对测试集的预测结果，测试集是一则体育新闻，LDA精准的将其预测为话题9，带有比较高的权值，且所有话题集的相似度均以正数排列，几乎不需要筛选返回值和归一化，当然后期为了在图像中方便展示进行了format，而LSA模型返回值键值对之间差距较大，相似度表达为与主题偏离的程度，需要先取绝对值，在进行从小到大排序，并且由于我们先前分析的结果，多个话题之间保有较小的差距，所以可以看到多个话题（abs后）都有着比较小的偏差，预测结果相对LDA来说比较模糊，且后期数据处理较为复杂。

　　只看log.txt已经不太直观了，当我们对两者返回值list进行归一化展示后，我们会清楚地得到两张图表。

【学习实践】尝试使用LDA方法与传统LSA方法对比实现文本主题进行挖掘_第1张图片

Chart1：LSA模型预测的结果

【学习实践】尝试使用LDA方法与传统LSA方法对比实现文本主题进行挖掘_第2张图片

Chart2：LDA模型预测的结果

　　通过观察，我们可以明显的看到，LDA拥有更加清晰地预测反馈，不同的话题相似度之间有着明显的差距，据此可以明确的定义其中某一话题（topic3）为所预测话题的目标话题。而LSA的结果就比较模糊，话题9,8,1,5都有着比较高的相似度，虽然仍可以比较出9是最为相似的话题，但是效果显然不如LDA明显。

　　事实上，还有一处区别是在实验过程中发现的，那就是LDA每次实验所生成的话题顺序是不同的，有的时候话题3代表着体育，有的时候话题6代表着体育，但是都具有相同的预测精度。而LSA每次的预测结果几乎都是相似的，图像也基本一致。这是因为，LSA使用SVD奇异值分解，而LDA使用的是随机抽样的方法，由于随机抽样，所以每次产生的话题序列生成结果也不尽相同，这是非常正常的现象。

得出结论

　　通过实验和多组信息的对比，LDA与LSA相比在规定了话题个数的前提下，LDA的挖掘效果要更加突出和明显，预测的精度相对更高，且LDA也抱有更小的时间消耗，LSA的预测结果就相对模糊。分析原因的话，我们也可以得知，在之前的学习过程中，我们知道LSA是通过SVD降维手段将原始相似度不高的高维矩阵映射到新的低维语义空间中来实现的，所以其每次的分解结果都是相近的，而且我们知道它可以解决多词一义的问题，而解决不了一词多义的问题，这也就是它在多个话题中包含多个相似单词的重要原因之一。相对的来说LDA，使用MCMC中的Gibbs抽样算法实现随机抽样,于是它每次产生的训练序列会有所不同，但是却能保持相对较高的预测效果，同时也避免了一词多义与多词一义的问题，使得话题预测结果没有歧义，单个话题预测相似度能够明显地优于其他多个话题。

实验的不足

　　事实上能够提出来的不足也马上就能够解决，只是写报告的时候，完善实验在时间上有些不太够了。第一个可以改进的点，应该在log中打印多次重复试验的所有日志信息，而不是仅保留最近一次试验的日志结果。第二个可以改进的点，该专门写一个类或者函数，把训练和测试LDA和LSA的步骤分别封装起来，代码可读性会相对更高。第三个可以改进的点，根据最近查资料和对库的进一步学习才得知，语料库是可以实现暂存的。而该实验没有很好地对分词结果进行保存，导致每次实验都要重新进行分词和词性标注，导致实验的时间成本变高。

实验所使用的数据集

　　LFM_Comparation.rar_LSA和LDA是文本挖掘技术吗-机器学习文档类资源-CSDN下载

你可能感兴趣的:(学习实践,机器学习,python,数据挖掘)

用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
如何使用Flask或Django框架构建一个简单的Web应用？清水白石008 Python题库 python flask django 前端
如何使用Flask或Django框架构建一个简单的Web应用？Flask和Django是两个流行的PythonWeb框架，用于构建Web应用。Flask是一个轻量级、易于扩展的框架，而Django则是一个功能全面的框架，包含了更多开箱即用的工具和功能。下面将分别介绍如何使用Flask和Django构建一个简单的Web应用。使用Flask构建简单Web应用1.安装Flask首先，确保安装了Flask
Flask 高并发部署方案详细教程！爬遍天下无敌手
前言虽然标题写的是Flask，但是下面这个教程不仅仅只适用于Flask,还适用于其他Pythonweb框架，记得帮忙点赞！众所周知Flask是一个同步的框架，处理请求的时候是以单进程的方式，当同时访问的人数过多时，Flask服务就会出现阻塞的情况。就像我们买火车票一样，当买火车票的人多的时候，排队的人就会很多，队伍就会很长，相应的等待的时间会变得很长！因此Flask,Django，webpy等框架
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
【python】setuptools Eternal-Student Python python 开发语言
setuptools是Python的一个核心工具包，用于构建、打包和分发Python项目。它是Python生态系统中最重要的工具之一，主要用于定义项目的元数据（如名称、版本、依赖等）以及构建和安装过程。以下是关于setuptools的详细介绍：1.setuptools的主要功能setuptools提供了以下核心功能：项目元数据管理：定义项目的名称、版本、作者、描述、依赖等信息。通过setup()函
【Visual Studio 2019 C++ 编译器的路径添加到系统 PATH 环境变量】 Eternal-Student Windows visual studio c++java
对于某些Python包，特别是那些涉及本地扩展或需要编译C/C++代码的包，需要一个支持C++开发的环境。VisualStudio是一个全面的开发环境，它提供了编译器、调试器以及其他许多工具，这些工具对于开发和编译C++代码非常有用。下载网址：ThankYouforDownloadingVisualStudioCommunityEdition(microsoft.com)以下是安装VisualSt
元组（tuple）转换为列表（list） Eternal-Student Python list windows 数据结构
在编程中，特别是在Python中，经常需要将元组（tuple）转换为列表（list）。元组通常使用圆括号()表示，如(x,y)，而列表使用方括号[]表示，如[x,y]。以下是如何将(x,y)转换为[x,y]的详细方法和示例。一、单个元组转换为列表方法1：使用list()函数Python提供了内置的list()函数，可以将元组直接转换为列表。示例代码：#定义一个元组tuple_point=(3,5)
【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
flask--基础知识点--6--flask高并发处理 Raging__Fire #flask python flask
Flask是一个轻量级的PythonWeb框架，适合构建中小型应用。但是，对于高并发场景，Flask本身可能需要一些辅助工具和配置来提升性能。以下是一些优化Flask应用以处理高并发的方法：1.使用WSGI服务器Flask自带的开发服务器性能和稳定性不足以应对生产环境中的高并发请求，可以考虑使用更强大的WSGI服务器，如：Gunicorn:一个基于Python的WSGIHTTP服务器。uWSGI:
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj