LJBlog2014

LDA主题模型试验

前段时间研究了一下爬虫，正好用它从csdn主页“大数据”、“移动开发”、“软件开发”三个栏目下爬取了一些技术资讯文章，从每个栏目下各取20片文档，看看能否用用LDA主题模型从中提取一些有意义的关键词，三个栏目下的文章都放在文本文件里，部分内容如下图所示

参考《LDA漫游指南》以及论文《Parameter estimation for text analysis》，自己尝试实现了LDA模型参数估计的Gibbs抽样算法，代码如下：

lda.py

#coding=utf-8
from __future__ import division
import random
import copy

class ldaModel:
    def __init__(self, documents = None, V = 0):
        self.documents = documents
        self.V = V # 词的总数
        self.K = 0 # 主题总数
        self.iterations = 10000 # Gibbs抽样迭代次数
        self.burnIn = 2000
        self.interval = 100 # Gibbs抽样的预烧期
        self.theta = None # 文档-主题分布律矩阵
        self.phi = None # 主题-词分布律矩阵
        self.Z = [] # 文档中词的主题

    # 配置参数
    def configure(self, iterations, burnIn, interval):
        self.iterations = iterations
        self.burnIn = burnIn
        self.interval = interval
        
    # Gibbs抽样
    def gibbsSampling(self, K, alpha, beta):
        self.K = K
        M = len(self.documents)
        numStats = 0
        nw = [[0 for col in range(self.V)] for row in range(self.K)]
        nwSum = [0 for row in range(self.K)]
        nd = [[0 for col in range(self.K)] for row in range(M)]
        ndSum = [0 for row in range(M)]
        thetaSum = [[0 for col in range(self.K)] for row in range(M)]
        phiSum = [[0 for col in range(self.V)] for row in range(self.K)]
        self.initialState(nw, nwSum, nd, ndSum)
        for i in range(self.iterations):
            for m in range(M):
                for n in range(len(self.documents[m])):
                    k = self.Z[m][n]
                    t = self.documents[m][n]
                    nw[k][t] = nw[k][t] - 1
                    nwSum[k] = nwSum[k] -1
                    nd[m][k] = nd[m][k] - 1
                    ndSum[m] = ndSum[m] -1
                    k1 = self.reSampling(m, t, alpha, beta, nw, nwSum, nd, ndSum)
                    self.Z[m][n] = k1
                    nw[k1][t] = nw[k1][t] + 1
                    nwSum[k1] = nwSum[k1] + 1
                    nd[m][k1] = nd[m][k1] + 1
                    ndSum[m] = ndSum[m] + 1
            if ((i > self.burnIn) and ((i - self.burnIn) % self.interval == 0)):
                for m in range(len(self.documents)):
                    for k in range(self.K):
                        # thetaSum[m][k] += (nd[m][k] + alpha) / (ndSum[m] + alpha * self.K)
                        thetaSum[m][k] = (nd[m][k] + alpha) / (ndSum[m] + alpha * self.K)
                for k in range(self.K):
                    for t in range(self.V):
                        # phiSum[k][t] += (nw[k][t] + beta) / (nwSum[k] + beta * self.V)
                        phiSum[k][t] = (nw[k][t] + beta) / (nwSum[k] + beta * self.V)
                # numStats = numStats + 1
        numStats = numStats + 1
        self.updatePara(thetaSum, phiSum, numStats)
        return nw, nwSum # 返回值,在预测新文档的主题分布时需要用到这两个量
        
    def initialState(self, nw, nwSum, nd, ndSum):
        M = len(self.documents)
        self.theta = [[0 for col in range(self.K)] for row in range(M)]
        self.phi = [[0 for col in range(self.V)] for row in range(self.K)]
        for m in range(M):
            N = len(self.documents[m])
            self.Z.append([])
            for n in range(N):
                k = random.choice(range(self.K)) # 随机生成第m篇文档中第n个词的主题编号
                self.Z[m].append(k)
                t = self.documents[m][n]
                nw[k][t] = nw[k][t] + 1
                nwSum[k] = nwSum[k] + 1
                nd[m][k] = nd[m][k] + 1
                ndSum[m] = ndSum[m] + 1
                
    def reSampling(self, m, t, alpha, beta, nw, nwSum, nd, ndSum):
        p = [0 for i in range(self.K)]
        for k in range(self.K):
            p[k] = (nw[k][t] + beta) * (nd[m][k] + alpha) / ((nwSum[k] + beta*self.V) * (ndSum[m] + alpha*self.K))
        for i in range(1, self.K):
            p[i] = p[i] + p[i-1]
        u = random.random() * p[self.K - 1]
        k1 = 0
        for i in range(self.K):
            if (u <= p[i]):
                k1 = i
                break
        return k1
    
    def updatePara(self, thetaSum, phiSum, numStats):
        for m in range(len(self.documents)):
            for k in range(self.K):
                self.theta[m][k] = thetaSum[m][k] / numStats
        for k in range(self.K):
            for t in range(self.V):
                self.phi[k][t] = phiSum[k][t] / numStats

    def get_top_words(self, vocabulary, N):
        topics_dic = {}
        k = -1
        for topic_words in self.phi:
            k += 1
            dic = {}
            for i in range(len(topic_words)):
                dic[i] = topic_words[i]
            word_prob_list = sorted(dic.iteritems(), key = lambda d:d[1], reverse = True)
            topics_dic["topic" + str(k)] = word_prob_list
            print "topic"+str(k),
            for word_prob in word_prob_list[0:N]:
                print vocabulary[word_prob[0]],
            print "\n"
        return topics_dic

    def get_top_topics(self, corpus):
        docs_dic = {}
        m = -1
        for doc_topics in self.theta:
            m += 1
            dic = {}
            for k in range(len(doc_topics)):
                dic[k] = doc_topics[k]
            topic_prob_list = sorted(dic.iteritems(), key = lambda d:d[1], reverse = True)
            docs_dic[(corpus.keys())[m]] = topic_prob_list
            for topic_prob in topic_prob_list[0:10]:
                print "topic" + topic_prob[0],
            print "\n"
        return docs_dic

    def predict(self, new_document, nw, nwSum, alpha, beta):
        # 预测新文档的主题分布
        # new_document是由词在总词表中的编号构成的列表,按出现顺序排列
        new_theta = [0 for col in range(self.K)]
        # new_phi = [0 for col in range(self.V)]
        new_nd = [0 for col in range(self.K)]
        new_ndSum = 0
        new_nw = copy.deepcopy(nw)
        new_nwSum = copy.deepcopy(nwSum)
        N = len(new_document)
        new_z = []
        for n in range(N):
            k = random.choice(range(self.K))
            new_z.append(k)
            t = new_document[n]
            new_nw[k][t] = new_nw[k][t] + 1
            new_nwSum[k] = new_nwSum[k] + 1
            new_nd[k] = new_nd[k] + 1
            new_ndSum = new_ndSum + 1
        for i in range(self.iterations):
            for n in range(N):
                k = new_z[n]
                t = new_document[n]
                new_nw[k][t] = new_nw[k][t] - 1
                new_nwSum[k] = new_nwSum[k] - 1
                new_nd[k] = new_nd[k] - 1
                new_ndSum = new_ndSum - 1
                p = [0 for i in range(self.K)]
                for j in range(self.K):
                    p[j] = (new_nw[j][t] + beta) * (new_nd[j] + alpha) / ((new_nwSum[j] + beta*self.V) * (new_ndSum + alpha*self.K))
                for j in range(1, self.K):
                    p[j] = p[j] + p[j-1]
                u = random.random() * p[self.K - 1]
                k1 = 0
                for j in range(self.K):
                    if (u <= p[j]):
                        k1 = j
                        break
                new_z[n] = k1
                new_nw[k1][t] = new_nw[k1][t] + 1
                new_nwSum[k1] = new_nwSum[k1] + 1
                new_nd[k1] = new_nd[k1] + 1
                new_ndSum = new_ndSum + 1
        for k in range(self.K):
            new_theta[k] += (new_nd[k] + alpha) / (new_ndSum + alpha * self.K)
        # for t in range(self.V):
        #     new_phi[t] += (new_nw[k][t] + beta) / (new_nwSum[k] + beta * self.V)
        return new_theta, new_z

下面的代码用来生成语料库，

tetx_clean.py

#coding=utf-8
from __future__ import division
import jieba

def extract_structed_data(corpus, documents_tf, doc_name, doc_content, stop_words):
    # corpus是个字典,key是文档名,value是该文档中所有词(允许重复)构成的列表
    # documents_tf是个字典,key是文档名,value是以词为key,以tf值为key的字典
    # doc_name是文档名
    # doc_content是文档的内容(可能需要作编码转换,以及删除一些非文字符号)
    words_list = jieba.cut(doc_content) # 可能需要事先添加一些符合业务场景的专有词,不然结巴分词无法识别
    corpus[doc_name] = []
    documents_tf[doc_name] = {}
    for word in words_list:
        if not(word.strip() in stop_words) and len(word.strip()) > 1:
            corpus[doc_name].append(word)
            documents_tf[doc_name].setdefault(word, 0)
            documents_tf[doc_name][word] += 1

def clean_words(corpus, documents_tf, tf_min):
    # documents是LDA模型的输入参数之一
    # vocabulary是清理文档中的低频词之后得到的词语列表
    # m是文档在corpus.keys()中的索引
    # documents[m][n]的值是第m个文档中第n个词在vocabulary中的索引
    # tf_min是词在文档中出现次数的临界值
    # 在文档中出现次数太少的词对于阐述文档的主题没有意义,将这些词剔除
    new_documents_tf = dict(documents_tf)
    for doc_name in documents_tf.keys():
        for word in documents_tf[doc_name].keys():
            if documents_tf[doc_name][word] < tf_min:
                new_documents_tf[doc_name].pop(word)
    # 剔除掉低频词之后,将所有的词整合进总词表vocabulary中
    vocabulary = []
    for doc_name in new_documents_tf.keys():
        for word in new_documents_tf[doc_name].keys():
            if not (word in vocabulary):
                vocabulary.append(word)
    # 构建documents矩阵
    documents = []
    m = -1
    for doc_name in new_documents_tf.keys():
        documents.append([])
        m += 1
        for word in corpus[doc_name]:
            if word in vocabulary:
                documents[m].append(vocabulary.index(word))
    return vocabulary, documents

下面的代码对文本文件进行处理并调用text_clean模块中的方法生成语料库

corpus = {}
documents_tf = {}
# 提取article_crawler_result_1.txt中存储的前20篇文档,大数据相关文章
file_bigdata = open("D:/article_crawler_result_1.txt", "r")
k = 0
for line in file_bigdata:
    k += 1
    if k > 20:
        break
    line_elements = line.split("\t")
    doc_name = line_elements[1]
    doc_content = line_elements[7]
    text_clean.extract_structed_data(corpus, documents_tf, doc_name, doc_content, stop_list)
# 提取article_crawler_result_2.txt中存储的前20篇文档,移动开发相关文章
file_mobile = open("D:/article_crawler_result_2.txt", "r")
k = 0
for line in file_mobile:
    k += 1
    if k > 20:
        break
    line_elements = line.split("\t")
    doc_name = line_elements[1]
    doc_content = line_elements[7]
    text_clean.extract_structed_data(corpus, documents_tf, doc_name, doc_content, stop_list)    
# 提取article_crawler_result_3.txt中存储的前20篇文档,软件开发相关文章
file_sd = open("D:/article_crawler_result_3.txt", "r")
k = 0
for line in file_sd:
    k += 1
    if k > 20:
        break
    line_elements = line.split("\t")
    doc_name = line_elements[1]
    doc_content = line_elements[7]
    text_clean.extract_structed_data(corpus, documents_tf, doc_name, doc_content, stop_list)    
file_bigdata.close()
file_mobile.close()
file_sd.close()
# 将每篇文章中出现次数低于5的词全部剔除
vocabulary, documents = text_clean.clean_words(corpus, documents_tf, 5)

有了所有词语构成的列表vocabulary以及文档矩阵documents，可以开始训练LDA主题模型了,

alpha = 0.5
beta = 0.1
new_lda = lda.ldaModel(documents = documents, V = len(vocabulary))
new_lda.configure(300, 100, 5)
nw, nwSum = new_lda.gibbsSampling(30, alpha, beta) #  取30个主题

LDA主题模型的Gibbs抽样算法的训练相当耗时，经过将近5分钟的运行之后，可以得到训练好的模型，

首先查看主题-词语矩阵，每个主题按照概率降序显示前20个关键词，

topics_dic = new_lda.get_top_words(vocabulary, 20)

topic0 VR HTC Vive 游戏 开发者 虚拟现实 制作 内容 体验 用户 场景 交互 demo 12 Valve 眩晕 平台 设计 王雪红 游戏设计 
topic1 软件 ca 研发 设计 推荐系统 核心 实践 My 海量 商品 借助 应对 简单 流量 京东 案例 JavaScript 分享 架构 成员 
topic2 编程语言 排行榜 榜单 Java TIOBE Objective 2015 专访 借助 推出 简单 Swift 形态 发布 Facebook 编程 定时 数量 年度 BDTC 
topic3 CSDN 移动开发 平台 开发工具及服务 评选 年度 大奖 机器 形态 订阅 产品 策略 2015 技术架构 企业 近匠 生态 参与 信息 解读 
topic4 架构 业务 数据 架构师 模块 广告 工作 服务 系统 设计 技术 研发 公司 广告平台 负责 媒体 挑战 思路 算法 提升 
topic5 自动化 选择 运维 查询 AWS 方案 时间 日志 更新 管理 服务器 master 产品 python puppet 证书 架构 工作 国内 监控 
topic6 HTML5 App 流应用 原生 产业 JS 手机 Facebook 体验 OS 微信 强化 Native 360 React 推出 下载 优势 助手 公司 
topic7 超图软件 企业 Confluence 员工 企业级应用 图表 工作效率 发布 企业级 FishEye 数量 移动应用 来源 提高 内部网 GIS 原因 提升 信息 程序 
topic8 团队 工具 工作 产品 效率 成员 沟通 解决 功能 代码 设计 项目 情况 管理 在线 最终 包括 文档 需求 未来 
topic9 算法 搜索 用户 查询 介绍 推荐 系统 2015 主题 一种 大规模 思路 实践 计算 提升 典型 画像 专场 优化 实时 
topic10 大数据 数据 发展 互联网 系统 企业 能力 潘柱廷 领域 云计算 工业 技术 支持 调研 决策 老百姓 可视化 生态 产业 推动 
topic11 视频 机构 流程 活动 大规模 策略 Docker 容器 特性 ca 响应 CEO 监控 辨识 搜索 编写 列表 创建 需求 多个 
topic12 方案 日志 数据 高可用 同步 HDR 节点 逻辑 SDS GBase 数据库 8t 提供 故障 业务 多个 RSS 容灾 集群 连接 
topic13 VR Nibiru 交互 领域 虚拟现实 SDK 近匠 曹峻 开发者 硬件 负责 一体机 ROM 未来 发布 推动 世界 优化 企业 联合 
topic14 企业 微信 需求 互联网 生态 连接 行业 企业号 时间 IBOS 公众号 定制 场景 产品 营销 机会 数量 分享 媒体 电商 
topic15 系统 数据 存储 服务 商业 查询 分布式 内存 搜狗 缓存 平台 数据库 体系 架构 功能 计算 访问 业务 延迟 服务化 
topic16 project property 仓库 gradle ca 插件 properties li task 工程 Maven 构建 Gradle java android 构件 发布 plugin SDK sdk 
topic17 游戏 任天堂 Ouya 游戏产业 收购 YouTube 岩田 主机 公司 主播 动视暴雪 承诺 雷蛇 视频 移动市场 总裁 Razer 全球 厂商 FTC 
topic18 深度学习 神经网络 模型 学习 系统 方法 ca 工作 简单 计算机 提出 对话 记忆 自然语言处理 准确率 人脑 研究 数据 Neural 参数 
topic19 识别 文字 自动 语音识别 深度 特征 客服 2015 深度学习 哈希 依赖 检测 介绍 场景 模型 Learning 压缩 计算 BDTC 两个 
topic20 数据 大数据 实时 平台 分析 信息 分享 挖掘 领域 互联网 技术 获取 模型 出行 融合 决策 包括 机器翻译 引擎 政府 
topic21 Android Studio 项目 依赖 gradle ADT build 文件 介绍 project 迁移 版本 tags 功能 模块 代码 IDE jar compile bug 
topic22 图标 设计 尝试 图标设计 用户 视频 标的 可扩展性 App 确保 案例 文字 相关 东西 想到 背景 包含 尺寸 核心 简单 
topic23 作业 job 服务器 系统 分片 代码 elastic 功能 框架 开源 分布式 中心 张亮 模式 ddframe 注册 定时 分配 Zookeeper 运行 
topic24 文件 oat 运行 dex 文件夹 ART 反编译 framework 虚拟机 Android Dalvik arm 过程 翻译 boot 5.0 机器码 Google 生成 核心 
topic25 大数据 2015 题目 分享 教育 百度 教师 学习 12 BDTC 关注 语音 跟谁学 英语流利说 关系 云计算 识别 光量子 拓维信息 论坛 
topic26 流程 工具 创建 一种 发送 消息 模型 策略 全球 内容 互联网 对话 监督 更好 思路 释放 个性化 在线 游戏 社区 
topic27 大数据 广告 机器学习 数据 算法 推荐 微博 演讲 模型 百度 论坛 分享 预测 测量 PPT 包括 特征 2015 信息 BDTC 
topic28 采用 这方面 实践 国内 Hadoop VR Facebook 建立 世界 交互 关系 信息 特征 购买 未来 节点 知识 构建 开发 列表 
topic29 京东 技术 推荐 模型 美团 专家 推荐系统 数据 排序 学习 演讲 在线 场景 联盟 存储 采用 学院 中国互联网技术联盟 商品 企业 
topic30 App 开发者 Store 搜索 描述 ASO100 下载 关键字 优化 用户 应用商店 下载量 Play 选择 名称 数据 iOS ASO Google Apple 
topic31 Docker 云计算 容器 延迟 甲骨文 StackEngine 配置 网络 购买 虚拟化 部署 内存 Linux 管理 宿主机 提升 选择 网卡 员工 控制 
topic32 数据 星图 崔仑 双十一 采集 主持人 数据处理 提升 资料 直播 渠道 搜索 Kafka 淘宝 搜索引擎 互联网 Spark 阿里 CEO CTO讲堂 
topic33 CSDN Atlassian JIRA 产品 中国 公司 开发者 Paul Conroy 敏捷 销售 2015 论坛 董家昌 国内 Avangate 亚太区 Confluence 软件开发 专访 
topic34 验证 极验验证 网站 验证码 张振宇 用户 开发者 行为式验证 技术 框架 传统 用户体验 近匠 特征 服务 互联网 识别 安全性 基础 痛点 
topic35 性能 方法 安装 产品 大数据 信息 Java 越来越 社交 调度 架构 数字 企业 推出 集群 项目 IT 利用 解决 配置 
topic36 分布式 SQL HBase 数据库 事务 TiDB 选择 KV Google MySQL 优化 协议 过程 F1 拥有 Spanner 内部 Percolator 迁移 业务 
topic37 CSDN 相关 技术 推荐 2015 文章 数据库 书籍 下载 架构 方式 最新 程序员 Android 关注 订阅 HTML5 CTO Swift iOS 
topic38 技术 产品 发展 公司 提供 系统 CTO 创始人 行业 团队 时间 联合 企业 介绍 方向 业务 云计算 发现 研究 10 
topic39 主题 信息 GC 订阅 消息 用户 更新 世界 服务 设备 API NPR 数量 开发者 功能 个性化 定制 半年 通知 发送 
topic40 游戏 API 视频 开发者 文档 Games 数据 公司 Google Guild 内容 Online 论坛 网页 玩家 盘点 网站 在线 Facebook Twitch 
topic41 迁移 订阅 启动 标准 计算 新浪微博 数据库 功能 指标 MySQL Hadoop 自动 腾讯 OpenStack 架构设计 思路 一种 阿里 规模 探索 
topic42 内存 Node.js 程序 LLVM Swift 代码 V8 函数 垃圾回收 运行 类型 内存泄漏 执行 导致 文件 JavaScript ca 创建 机制 释放 
topic43 EC2 VPC AWS 实例 迁移 CloudEndure 复制 Classic 创建 安装 过程 Amazon 代理 服务器 时间 选择 负荷 云计算 最新 账户 
topic44 OpenStack 服务 节点 网络 高可用 HA 云计算 架构 存储 方案 核心 设计 Cinder 接入 Rabbitmq Router Nova 基础 DHCP Neutron 
topic45 AWS 亚马逊 服务 云计算 数据库 中国 数据分析 快速 公有云 提供 未来 数据 威格尔 开发者 永康 沃纳 企业 Amazon 大会 无处不在 
topic46 Oracle 数据库 技术 RAC 工作 高斌 特性 Exadata ca 切换 提供 节点 功能 故障 SQL 实例 专访 版本 存储 语句 
topic47 数据 分析 大数据 ODPS 客户 明略数据 日志 墨迹 任鑫琦 优化 DB 墨迹天气 Mongo SCOPA 12 专访 Fluentd 统计 导入 2015 
topic48 云智慧 APM 请求 监控 高驰涛 架构 用户 分析 管理 数据 服务 主持人 IT 领域 事务 客户 准确 互联网 关注 App 
topic49 Maps GIS Polymaps 数据挖掘 高可用 系统 管理 开发者 技术支持 底层 监控 深度 下载 创建 保证 多个 涉及 cto tion 海量 
topic50 Worktile 产品 王涛 服务 文件 实时 团队协作 选择 Web 消息 协议 变化 时代 客户端 协作 数据 创业 近匠 页面 AngularJS 
topic51 机器学习 算法 Java 大数据 用于 框架 Apache 面向 数据挖掘 Spark 25 编写 工具 知识 ML 研究 提供 API 分布式 分类 
topic52 公司 产品 特性 解读 账号 对话 微博 优秀 App 发布 协议 配置 包含 两个 工具 插件 总监 能力 思路 1.2 
topic53 密码 洋葱 企业 吴洪声 身份验证 验证 解决 口令 创始人 生物识别 环节 管理 主持人 创业 方式 员工 DNSPod 账号 泄露 登陆 
topic54 网络 数据中心 微软 虚拟 SDN 硬件 技术 企业 物理 方式 连接 Greenberg Albert 设备 控制器 运行 客户 改变 部署 Azure 
topic55 Anypoint 功能 消息传递 异步 发布 MuleSoft MQ 包含 企业 解决方案 事件 语言 趋势 包括 微博 管理 iOS 推出 方案 主题 
topic56 SQL Hadoop 孙元浩 技术 星环 OS 关系 市场 科技 取代 性能 TDH 部署 BDTC 架构 Spark 数据仓库 基础 数据分析 定位 
topic57 大数据 优化 推出 知识 环节 操作 成本 变化 提高 服务端 开源 最新 实时 联合 公司 案例 自动 方法 需求 提出 
topic58 企业 大数据 数据 行业 发展 互联网 传统 云计算 普元 焦烈焱 数字化 公司 业务 时代 提供 核心 一篇 模式 变化 利用 
topic59 语言 Rust Go C++ github https 项目 http 社区 rs 取代 代码 一点 挑战 一种 优势 编程 语法 工程 org

观察上方的主题-词矩阵，发现有些主题的含义还是很明显的，比如说：topic56代表数据仓库，topic51代表机器学习，topic30代表移动开发，topic27代表算法，topic18代表深度学习，topic0代表虚拟现实。当然有些主题还是很难概括的，这应该和训练数据的质量有关。

利用文档-主题矩阵可以查看与每篇文档关联度最大的主题，代码如下：

document_id = 11
print unicode(documents_tf.keys()[document_id], "utf-8")
dic = {}
for k in range(len(new_lda.theta[document_id])):
    dic[k] = new_lda.theta[document_id][k]
topic_prob_list = sorted(dic.items(), key = lambda d:d[1], reverse = True)
for topic_prob in topic_prob_list[0:1]:
    topic_id = topic_prob[0]
    print "topic" + str(topic_id),
    topic_words = new_lda.phi[topic_id]
    dic = {}
    for i in range(len(topic_words)):
        dic[i] = topic_words[i]
    word_prob_list = sorted(dic.iteritems(), key = lambda d:d[1], reverse = True)
    for word_prob in word_prob_list[0:20]:
        print vocabulary[word_prob[0]],
    print "\n"

运行结果如下

【BDTC 2015】深度学习分论坛：DL的图像识别、语音识别应用进展及MxNet开源框架...
topic19 识别 文字 自动 语音识别 深度 特征 客服 2015 深度学习 哈希 依赖 检测 介绍 场景 模型 Learning 压缩 计算 BDTC 两个

可以看出，训练出来的模型比较准确地概括出了一片与深度学习应用有关的文档的主题，

再换一篇文档试一下，

document_id = 22
OpenStack高可用核心架构分析
topic44 OpenStack 服务 节点 网络 高可用 HA 云计算 架构 存储 方案 核心 设计 Cinder 接入 Rabbitmq Router Nova 基础 DHCP Neutron

发现训练好的模型对这两篇文档的主题的概括还是比较准确的，但也有例外

document_id = 29

【BDTC专访间】星环科技创始人兼CTO孙元浩：分布式必将替代关系型数据库topic9 算法搜索用户查询介绍推荐系统 2015 主题一种大规模思路实践计算提升典型画像专场优化实时

文章的主题应该是与数据仓库有关的，但是模型得到的主题却无法反映这篇文档的内容，

可以看一下这篇文档的高频词，

29 【BDTC专访间】星环科技创始人兼CTO孙元浩：分布式必将替代关系型数据库
技术:20 大数据:14 SQL:13 Hadoop:11 数据库:10 孙元浩:10 星环:9 CSDN:8 发展:7 Spark:7 架构:7 市场:7 产品:6 未来:6 OS:6 云计算:5 实时:5 取代:5 TDH:5 数据仓库:5

感觉这篇文章的很多高频词与数据仓库的关联度并不大，这应该是模型得到的主题却无法反映这篇文档的内容的原因，

再看一下刚才被准确预测主题的那篇文章

11 【BDTC 2015】深度学习分论坛：DL的图像识别、语音识别应用进展及MxNet开源框架...
文字:21 识别:19 深度学习:17 哈希:15 客服:13 2015:13 数据:13 特征:13 分享:12 模型:12 语音识别:11 场景:11 深度:10 压缩:10 自动:9 依赖:9 BDTC:9 视觉:9 检测:9 两个:9

应该可以得到一个结论：主题模型应用在主题比较集中的文档上才会取得较好的预测结果。

下面利用lda模块中的方法predict来预测新文档的主体分布

# 预测新文档的主体分布
document_id = 21
new_document = new_lda.documents[document_id]
print unicode(documents_tf.keys()[document_id], "utf-8")
new_theta, new_z = new_lda.predict(new_document, nw, nwSum, alpha, beta)
# 显示新文档的主题分布
dic = {}
for k in range(len(new_theta)):
    dic[k] = new_theta[k]
topic_prob_list = sorted(dic.items(), key = lambda d:d[1], reverse = True)
for topic_prob in topic_prob_list[0:1]:
    topic_id = topic_prob[0]
    print "topic" + str(topic_id),
    topic_words = new_lda.phi[topic_id]
    dic = {}
    for i in range(len(topic_words)):
        dic[i] = topic_words[i]
    word_prob_list = sorted(dic.iteritems(), key = lambda d:d[1], reverse = True)
    for word_prob in word_prob_list[0:20]:
        print vocabulary[word_prob[0]],
    print "\n"

深度学习的最新进展及诺亚方舟实验室的研究
topic18 深度学习 神经网络 模型 学习 系统 方法 ca 工作 简单 计算机 提出 对话 记忆 自然语言处理 准确率 人脑 研究 数据 Neural 参数

document_id = 48
谷歌云推送服务（GCM）半年内增一倍，日处理1500亿条消息
topic39 主题 信息 GC 订阅 消息 用户 更新 世界 服务 设备 API NPR 数量 开发者 功能 个性化 定制 半年 通知 发送

发现预测结果在部分文档上还是比较准确的。

通过这次实践，发现要想LDA模型取得较好的结果，最好满足以下条件：1.清理一些无法反映文档主题的词；2.文档的主题比较集中；3.设置较大的迭代次数，

由于LDA Gibbs抽样算法的复杂度较高，每次训练都要运行很长时间，导致没有时间去尝试其它的参数组合，也许尝试一些其它的参数组合会得到比本文更好的结果。

python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
大数据之Spark 进击的-小胖子大数据 spark big data scala 大数据实时大数据
Spark介绍什么是Spark专为大规模数据处理而设计的快速通用的计算引擎类HadoopMapReduce的通用并行计算框架拥有HadoopMapReduce所具有的优点但不同于MapReduce的是Job中间输出结果可以缓存在内存中，从而不再需要读写HDFS，减少磁盘数据交互因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法Spark是Scala编写，方便快速编程Spark与MR的区
高可用分布式部署Spark、完整详细部署教程一座野山 spark bigdata hadoop 分布式 spark 大数据 linux
前言Spark是UCBerkeleyAMPLab开源的通用分布式并行计算框架。Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。spark是基于内存计算框架，计算速度非常
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。为各领域人员量身定制课程内容，让你畅学Python编程及机器学习理论与代码实现方法，从“
Spark相关知识点（期末复习集锦）夜をむかえる spark 大数据分布式
嗨喽，最近小伙伴们快要期末考试了吧，下面是我对《Spark零基础实战》的总结，希望能帮助到你们。一、Spark简介Spark，拥有hadoopMR所具有的优点，但不同于MR的是job中监测结果可以保存在内存中，从而不再需要读写HDFS，因此spark能够更好的适用于数据挖掘与机器学习等需要迭代的mr的算法。1.Spark，使用scala语言实现，这是一种面向对象函数式编程语言，能够像操作本地集合对
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
Python数据挖掘与机器学习实践技术应用思考的小猴子机器学习遥感 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。掌握Python编程的基础知识与技巧、特征工程（数据清洗、变量降维、特征选择、群优化算法
学习笔记：数据挖掘与机器学习 howard2005 数据挖掘基础学习笔记数据挖掘
文章目录一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘（二）机器学习（三）深度学习（四）总结二、数据挖掘体系三、数据挖掘的流程四、典型的数据挖掘系统一、数据挖掘、机器学习、深度学习的区别（一）数据挖掘数据挖掘，或者说DataMining，是一个涵盖广泛且充满活力的学术领域，其核心目标在于揭示隐藏在海量数据背后的有价值信息和知识。这一过程涵盖了多种方法和技术，包括但不限于商业智能（BI）、统计
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术 AI实战大数据AI人工智能 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍大数据概述2006年，Google推出了GoogleMap，2009年推出了Google搜索引擎，2012年发布的谷歌雅虎成为了互联网公司里面的霸主。到今日，谷歌已经成为最大的搜索引擎网站，其搜索结果量也超过一千亿。在这个过程中产生的数据也越来越多，这些数据的价值正在被更多的人所认识、重视和关注。如今，信息爆炸的时代已经过去，收集、处理、分析海量数据已成为人
Spark是什么？以及它有哪些应用场景呢？陈影鸿在进步大数据处理 WhatsApp技术容器
首先说说Spark的起源：Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapredu
数据挖掘与机器学习——weka应用技术与实践 maggie_J 机器学习数据挖掘机器学习
第一章weka介绍1.1weka简介weka是怀卡托智分析环境（WaikatoEnvironmentforKnowledgeAnalysis）的英文缩写，官方网址为：，在该网站可以免费下载可运行软件和代码，还可以获得说明文档、常见问题解答、数据集和其他文献等资源。1.1.1Weka的历史团队宣称：我们的目标是要建立最先进的软件开发机器学习技术，并将其应用于解决现实世界的数据挖掘问题。目标：是机器学
Python 数据挖掘与机器学习技术应用 Yolo566Q python python 机器学习深度学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。采用“理论讲解+案例实战+动手实操+讨论互动”相结合的方式，抽丝剥茧、深入浅出分析机器学
Python 数据挖掘与机器学习实践技术应用天青色等烟雨.. Python 机器学习机器学习 python 人工智能
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。采用“理论讲解+案例实战+动手实操+讨论互动”相结合的方式，抽丝剥茧、深入浅出分析机器学
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术禅与计算机程序设计艺术大数据AI人工智能大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍随着互联网、移动互联网和物联网等新一代信息技术的飞速发展，以及人工智能、大数据分析、云计算、云存储、人工智能（AI）模型等的迅猛发展，使得数据的获取、存储、处理、分析等环节变得越来越复杂、越来越高效。如今，越来越多的企业和个人都开始把注意力转移到数据采集、处理、分析、挖掘等领域。这是一个“数据驱动时代”，数据科学正在成为一个全新的核心技术。同时，也出现了数据
大数据和智能数据应用架构系列教程之：大数据挖掘与机器学习禅与计算机程序设计艺术禅与计算机程序设计艺术大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1论文背景随着互联网的普及、移动互联网的爆炸性增长以及电子商务的兴起，传统的基于数据库的数据分析已不能满足当前信息社会对海量数据的处理需求。如何有效地进行大数据分析已经成为众多行业面临的共同难题。而数据挖掘和机器学习（MachineLearning）技术在处理海量数据方面的作用也越来越重要。近年来，随着云计算、大数据技术的迅速发展，大数据研究的热潮逐渐升温。
数据挖掘与机器学习：机器学习 --- 决策树 Shining0596 机器学习学习数据挖掘决策树数据挖掘学习其他
目录第一关：什么是决策树任务描述：相关知识：一、引例二、决策树的相关资源编程要求：测试说明：第二关：信息熵与信息增益任务描述：相关知识：一、信息熵二、条件熵三、信息增益编程要求：测试说明：第3关：使用ID3算法构建决策树任务描述：相关知识：一、ID3算法二、使用决策树进行预测编程要求：测试说明：第四关：信息增益率任务描述：相关知识：信息增益率：编程要求：测试说明：第五关：基尼系数任务描述：相关知识
Python 数据分析学习路线以山河作礼。活动文章 python 数据分析学习
Python数据分析学习路线第一阶段：Python语言基础第二阶段：数据采集和持久化第三阶段：数据分析第四阶段：数据挖掘与机器学习书籍介绍参与方式第一阶段：Python语言基础在学习数据分析之前，首先需要掌握Python语言的基础知识，包括语法、常用数据结构、函数以及面向对象编程等。同时，还需要熟悉Python的标准库，如math、random、datetime等。此外，文件操作和异常处理也是必不
Python数据挖掘与机器学习科研小白新人上路 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。因此，中科资环推出全新的Python数据挖掘与机器学习课程，为各领域人员量身定制课程内容
Python 数据挖掘与机器学习教程夏日恋雨人工智能生态学遥感 python 数据挖掘机器学习人工智能开发语言
详情点击链接：Python数据挖掘与机器学习教程模块一：Python编程Python编程入门1、Python环境搭建（下载、安装与版本选择）。2、如何选择Python编辑器？（IDLE、Notepad++、PyCharm、Jupyter…）3、Python基础（数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等）4、常见的错误与程序调试5、第三方模块的安装与使用
python文本数据挖掘_Python数据挖掘与机器学习实战__前言 weixin_39606118 python文本数据挖掘
Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。作为一门编程语言，其魅力远超C#、Java、C和C++等编程语言，被昵称为“胶水语言”，更被热爱它的程序员誉为“最美丽的”编程语言。从云端和客户端，再到物联网终端，Python应用无处不在，同时它还是人工智能（AI）首选的编程语言。近年来，人工智能在全世界掀起了新的科技浪潮，各行各业都在努力涉足人工智能技术。而机器学习是人
Python 数据挖掘与机器学习 xiao5kou4chang6kai4 农业生态气象 python 数据挖掘机器学习
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。畅学Python编程及机器学习理论与代码实现方法，从“基础编程→机器学习→代码实现”逐步
Python 数据挖掘与机器学习教程夏日恋雨人工智能 python 数据挖掘机器学习开发语言人工智能
详情点击链接：Python数据挖掘与机器学习一：Python编程Python编程入门1、Python环境搭建（下载、安装与版本选择）。2、如何选择Python编辑器？（IDLE、Notepad++、PyCharm、Jupyter…）3、Python基础（数据类型和变量、字符串和编码、list和tuple、条件判断、循环、函数的定义与调用等）4、常见的错误与程序调试5、第三方模块的安装与使用6、文件
（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章 --- 假设空间与版本空间等 JingYuJingYuJingYu 学习笔记机器学习
（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章—假设空间与版本空间等文章目录（西瓜书）《机器学习-周志华》-学习笔记：（1）第一章---假设空间与版本空间等简述1.2基本术语独立同分布理解**示例——抛骰子****为什么需要满足i.i.d.假设？****扩展**1.3假设空间版本空间1.4归纳偏好NFL定理数据挖掘与机器学习关系机器学习领域期刊简述开始一种新的学习方式，顺便帮助总结，方便之
python数据挖掘与机器学习实践技术科研小白新人上路机器学习 python 数据挖掘
分析机器学习在应用时需要掌握的经验及编程技巧。通过实际案例的形式，介绍如何提炼创新点，以及如何发表高水平论文等相关经验。旨在掌握Python编程的基础知识与技巧、特征工程（数据清洗、变量降维、特征选择、群优化算法）、回归拟合（线性回归、BP神经网络、极限学习机）、分类识别（KNN、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost与LightGBM等）、聚类分析（K均值、D
如何快速掌握Python 数据挖掘与机器学习 zmjia111 python 机器学习深度学习 python 数据挖掘机器学习线性回归模型 Numpy模块
PythonPython由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计，作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。Python在各个编程语言中比较适合新
面向非平衡数据的过采样方法研究紫钺-高山仰止论文机器学习数据挖掘人工智能
文章目录1.绪论1.1研究背景及意义1.2非平衡数据分类问题的难点1.2.1样本稀少1.2.2样本边界重叠1.2.3类内不平衡1.2.4噪音数据2SMOTE算法及其评价指标2.1SMOTE算法2.3评价指标1.绪论1.1研究背景及意义随着科学技术的发展，数据量呈爆炸性增长。为了使这些数据更好地服务于各行各业，数据挖掘与机器学习应运而生。顾名思义，数据挖掘就是要从海量数据中发现有用的信息，从而指
数据挖掘与机器学习：NumPy基础及取值操作 Shining0596 机器学习学习数据挖掘数据挖掘其他学习
目录第一关：ndarray对象任务描述：相关知识：一、如何安装NumPy：二、什么是ndarray对象：三、如何实例化ndarray对象：编程要求：测试说明：第二关：形状操作任务描述：相关知识：怎样改变ndarray对象的形状：编程要求：测试说明：第三关：基础操作任务描述：相关知识：一、算术运算：二、矩阵运算：三、简单统计：编程要求：测试说明：第四关：随机数生成任务描述：相关知识：简单随机数生成：
大数据开发-分布式文件系统HDFS jason_syf
HDFS,全称HadoopDistributedFileSystem,意思是分布式文件系统。Hadoop分布式文件系统是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、SparkSQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以
【GNN报告】北邮石川组静静喜欢大白随记北邮 GNN
石川：GAMMALab介绍简介实验室简介北邮图数据挖掘与机器学习实验室（GAMMALab,GraphdAtaMiningandMAchinelearningLaboratory）长期从事人工智能和数据科学的核心方向：数据挖掘和机器学习的研究，特别专注于图数据的挖掘与学习，在异质图分析和图表示学习等方向处于国内领先水平，相关成果应用于华为、阿里、腾讯等企业。培养了北邮第一个“阿里星”和“腾讯犀牛鸟精
数据挖掘与机器学习好用的网站照希
数据源下载网站http://archive.ics.uci.edu/ml最有名的机器学习数据资源，来自美国加州大学欧文分校。该数据库提供了200多个可用的数据集，其中很多数据常被用来比较算法的性能，基于这些资源，研究人员可以得到相对客观的性能比较结果。https://registry.opendata.aws/这是Amazon的开放数据，包括美国人口普查数据、人类基因组注释数据......http
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

LDA主题模型试验

你可能感兴趣的:(数据挖掘与机器学习)