Eastmount

[python] 使用Jieba工具中文分词及文本聚类概念

前面讲述了很多关于Python爬取本体Ontology、消息盒InfoBox、虎扑图片等例子，同时讲述了VSM向量空间模型的应用。但是由于InfoBox没有前后文和语义概念，所以效果不是很好，这篇文章主要是爬取百度5A景区摘要信息，再利用Jieba分词工具进行中文分词，最后提出文本聚类算法的一些概念知识。
相关文章：
  [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
  [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
  Python简单实现基于VSM的余弦相似度计算
  基于VSM的命名实体识别、歧义消解和指代消解
  [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

一. Selenium爬取百度百科摘要

简单给出Selenium爬取百度百科5A级景区的代码：

# coding=utf-8  
""" 
Created on 2015-12-10 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys      
import selenium.webdriver.support.ui as ui      
from selenium.webdriver.common.action_chains import ActionChains  
  
#Open PhantomJS  
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
#driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots  
def getInfobox(entityName, fileName):  
    try:  
        #create paths and txt files
        print u'文件名称: ', fileName
        info = codecs.open(fileName, 'w', 'utf-8')  

        #locate input  notice: 1.visit url by unicode 2.write files
        #Error: Message: Element not found in the cache -
        #       Perhaps the page has changed since it was looked up
        #解决方法: 使用Selenium和Phantomjs
        print u'实体名称: ', entityName.rstrip('\n') 
        driver.get("http://baike.baidu.com/")  
        elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")  
        elem_inp.send_keys(entityName)  
        elem_inp.send_keys(Keys.RETURN)  
        info.write(entityName.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行  
  
        #load content 摘要
        elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
        for value in elem_value:
            print value.text
            info.writelines(value.text + '\r\n')

        #爬取文本信息
        #爬取所有段落<div class='para'>的内容 class='para-title'为标题 [省略]
        time.sleep(2)  
          
    except Exception,e:    #'utf8' codec can't decode byte  
        print "Error: ",e  
    finally:  
        print '\n'  
        info.close() 
  
#Main function  
def main():
    #By function get information
    path = "BaiduSpider\\"
    if os.path.isdir(path):
        shutil.rmtree(path, True)
    os.makedirs(path)
    source = open("Tourist_spots_5A_BD.txt", 'r')
    num = 1
    for entityName in source:  
        entityName = unicode(entityName, "utf-8")  
        if u'故宫' in entityName:   #else add a '?'  
            entityName = u'北京故宫'
        name = "%04d" % num
        fileName = path + str(name) + ".txt"
        getInfobox(entityName, fileName)
        num = num + 1
    print 'End Read Files!'  
    source.close()  
    driver.close()
    
if __name__ == '__main__':
    main()

内容如下图所示，共204个国家5A级景点的摘要信息。这里就不再叙述：

二. Jieba中文分词

Python中分分词工具很多，包括盘古分词、Yaha分词、Jieba分词等。
中文分词库：http://www.oschina.net/project/tag/264/segment
其中它们的基本用法都相差不大，但是Yaha分词不能处理如“黄琉璃瓦顶”或“圜丘坛”等词，所以使用了结巴分词。

1.安装及入门介绍
参考地址：http://www.oschina.net/p/jieba
下载地址：https://pypi.python.org/pypi/jieba/
Python 2.0我推荐使用"pip install jieba"或"easy_install jieba"全自动安装，再通过import jieba来引用（第一次import时需要构建Trie树，需要等待几秒时间）。
安装时如果出现错误"unknown encoding: cp65001"，输入"chcp 936"将编码方式由utf-8变为简体中文gbk。

结巴中文分词涉及到的算法包括：
(1) 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)；
(2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；
(3) 对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

结巴中文分词支持的三种分词模式包括：
(1) 精确模式：试图将句子最精确地切开，适合文本分析；
(2) 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义问题；
(3) 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
同时结巴分词支持繁体分词和自定义字典方法。

#encoding=utf-8
import jieba

#全模式
text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=True)
print u"[全模式]: ", "/ ".join(seg_list) 

#精确模式
seg_list = jieba.cut(text, cut_all=False)
print u"[精确模式]: ", "/ ".join(seg_list)

#默认是精确模式
seg_list = jieba.cut(text)
print u"[默认模式]: ", "/ ".join(seg_list) 

#新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦") 
print u"[新词识别]: ", "/ ".join(seg_list)

#搜索引擎模式
seg_list = jieba.cut_for_search(text) 
print u"[搜索引擎模式]: ", "/ ".join(seg_list)

输出如下图所示：

代码中函数简单介绍如下：
jieba.cut()：第一个参数为需要分词的字符串，第二个cut_all控制是否为全模式。
jieba.cut_for_search()：仅一个参数，为分词的字符串，该方法适合用于搜索引擎构造倒排索引的分词，粒度比较细。
其中待分词的字符串支持gbk\utf-8\unicode格式。返回的结果是一个可迭代的generator，可使用for循环来获取分词后的每个词语，更推荐使用转换为list列表。

2.添加自定义词典
由于"国家5A级景区"存在很多旅游相关的专有名词，举个例子：
[输入文本] 故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等
[精确模式] 故宫/的/著名景点/包括/乾/清宫/、/太和殿/和/黄/琉璃瓦/等
[全模式] 故宫/的/著名/著名景点/景点/包括/乾/清宫/太和/太和殿/和/黄/琉璃/琉璃瓦/等
显然，专有名词"乾清宫"、"太和殿"、"黄琉璃瓦"(假设为一个文物)可能因分词而分开，这也是很多分词工具的又一个缺陷。但是Jieba分词支持开发者使用自定定义的词典，以便包含jieba词库里没有的词语。虽然结巴有新词识别能力，但自行添加新词可以保证更高的正确率，尤其是专有名词。
基本用法：jieba.load_userdict(file_name) #file_name为自定义词典的路径
词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略，ns为地点名词），用空格隔开。
强烈推荐一篇词性标注文章，链接如下：
http://www.hankcs.com/nlp/part-of-speech-tagging.html

#encoding=utf-8
import jieba

#导入自定义词典
jieba.load_userdict("dict.txt")

#全模式
text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"
seg_list = jieba.cut(text, cut_all=True)
print u"[全模式]: ", "/ ".join(seg_list) 

#精确模式
seg_list = jieba.cut(text, cut_all=False)
print u"[精确模式]: ", "/ ".join(seg_list)

#搜索引擎模式
seg_list = jieba.cut_for_search(text) 
print u"[搜索引擎模式]: ", "/ ".join(seg_list)

输出结果如下所示，其中专有名词连在一起，即"乾清宫"和"黄琉璃瓦"。

3.关键词提取
在构建VSM向量空间模型过程或者把文本转换成数学形式计算中，你需要运用到关键词提取的技术，这里就再补充该内容，而其他的如词性标注、并行分词、获取词位置和搜索引擎就不再叙述了。
基本方法：jieba.analyse.extract_tags(sentence, topK)
需要先import jieba.analyse，其中sentence为待提取的文本，topK为返回几个TF/IDF权重最大的关键词，默认值为20。

#encoding=utf-8
import jieba
import jieba.analyse

#导入自定义词典
jieba.load_userdict("dict.txt")

#精确模式
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门，午门居中向阳。"
seg_list = jieba.cut(text, cut_all=False)
print u"分词结果:"
print "/".join(seg_list)

#获取关键词
tags = jieba.analyse.extract_tags(text, topK=3)
print u"关键词:"
print " ".join(tags)

输出结果如下，其中"午门"出现3次、"乾清宫"出现2次、"著名景点"出现1次，按照顺序输出提取的关键词。如果topK=5，则输出："午门乾清宫著名景点太和殿向阳"。

>>> 
分词结果:
故宫/的/著名景点/包括/乾清宫/、/太和殿/和/午门/等/。/其中/乾清宫/非常/精美/，/午门/是/紫禁城/的/正门/，/午门/居中/向阳/。
关键词:
午门 乾清宫 著名景点
>>>

4.对百度百科获取摘要分词
从BaiduSpider文件中读取0001.txt~0204.txt文件，分别进行分词处理再保存。

#encoding=utf-8
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse

#导入自定义词典
jieba.load_userdict("dict_baidu.txt")

#Read file and cut
def read_file_cut():
    #create path
    path = "BaiduSpider\\"
    respath = "BaiduSpider_Result\\"
    if os.path.isdir(respath):
        shutil.rmtree(respath, True)
    os.makedirs(respath)

    num = 1
    while num<=204:
        name = "%04d" % num 
        fileName = path + str(name) + ".txt"
        resName = respath + str(name) + ".txt"
        source = open(fileName, 'r')
        if os.path.exists(resName):
            os.remove(resName)
        result = codecs.open(resName, 'w', 'utf-8')
        line = source.readline()
        line = line.rstrip('\n')
        
        while line!="":
            line = unicode(line, "utf-8")
            seglist = jieba.cut(line,cut_all=False)  #精确模式
            output = ' '.join(list(seglist))         #空格拼接
            print output
            result.write(output + '\r\n')
            line = source.readline()
        else:
            print 'End file: ' + str(num)
            source.close()
            result.close()
        num = num + 1
    else:
        print 'End All'

#Run function
if __name__ == '__main__':
    read_file_cut()

运行结果如下图所示：

5.去除停用词
在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。[参考百度百科]

#encoding=utf-8
import jieba

#去除停用词
stopwords = {}.fromkeys(['的', '包括', '等', '是'])
text = "故宫的著名景点包括乾清宫、太和殿和午门等。其中乾清宫非常精美，午门是紫禁城的正门。"
segs = jieba.cut(text, cut_all=False)
final = ''
for seg in segs:
    seg = seg.encode('utf-8')
    if seg not in stopwords:
            final += seg
print final
#输出:故宫著名景点乾清宫、太和殿和午门。其中乾清宫非常精美，午门紫禁城正门。

seg_list = jieba.cut(final, cut_all=False)
print "/ ".join(seg_list)
#输出:故宫/ 著名景点/ 乾清宫/ 、/ 太和殿/ 和/ 午门/ 。/ 其中/ 乾清宫/ 非常/ 精美/ ，/ 午门/ 紫禁城/ 正门/ 。

三. 基于VSM的文本聚类算法

这部分主要参考2008年上海交通大学姚清坛等《基于向量空间模型的文本聚类算法》的论文，因为我的实体对齐使用InfoBox存在很多问题，发现对齐中会用到文本内容及聚类算法，所以简单讲述下文章一些知识。

文本聚类的主要依据聚类假设是：同类的文档相似度较大，而非同类文档相似度较小。同时使用无监督学习方法，聚类不需要训练过程以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力。主要分为以下部分：
(1) 预处理常用方法
文本信息预处理（词性标注、语义标注），构建统计词典，对文本进行词条切分，完成文本信息的分词过程。
(2) 文本信息的特征表示
采用方法包括布尔逻辑型、概率型、混合型和向量空间模型。其中向量空间模型VSM（Vector Space Model）是将文档映射成向量的形式，(T1, T2, ..., Tn)表示文档词条，(W1, W2, ..., Wn)文档词条对应权重。建立文本特征主要用特征项或词条来表示目标文本信息，构造评价函数来表示词条权重，尽最大限度区别不同的文档。
(3) 文本信息特征缩减
VSM文档特征向量维数众多。因此，在文本进行聚类之前，应用文本信息特征集进行缩减，针对每个特征词的权重排序，选取最佳特征，包括TF-IDF。推荐向量稀疏表示方法，提升聚类的效果，其中(D1, D2, ..., Dn)表示权重不为0的特征词条。
(4) 文本聚类
文本内容表示成数学课分析形势后，接下来就是在此数学基础上进行文本聚类。包括基于概率方法和基于距离方法。其中基于概率是利用贝叶斯概率理论，概率分布方式；基于聚类是特征向量表示文档（文档看成一个点），通过计算点之间的距离，包括层次聚类法和平面划分法。

后面我可能也会写具体的Python聚类算法，VSM计算相似度我前面已经讲过。同时，他的实验数据是搜狐中心的10个大类，包括汽车、财经、IT、体育等，而我的数据都是旅游，如何进一步聚类划分，如山川、河流、博物馆等等，这是另一个难点。
最后还是那句话：不论如何，希望文章对你有所帮助，如果文章中有错误或不足之处，还请海涵~写文不易，且看且分析。加油！！！
（By:Eastmount 2015-12-11 深夜3点 http://blog.csdn.net/eastmount/）

python3中的uuid模块 xiaoyurainzi python
一、uuid简介UUID:通用唯一标识符(UniversallyUniqueIdentifier),对于所有的UUID它可以保证在空间和时间上的唯一性.它是通过MAC地址,时间戳,命名空间,随机数,伪随机数来保证生成ID的唯一性,有着固定的大小(128bit).它的唯一性和一致性特点使得可以无需注册过程就能够产生一个新的UUID.UUID可以被用作多种用途,既可以用来短时间内标记一个对象,也可以可
使用Python Turtle绘制圣诞树和装饰 0dayNu1L 机器学习项目实战 python 开发语言
简介(❤ω❤)在这篇文章中，我们将探索如何使用Python的Turtle模块来绘制一个充满节日气氛的圣诞树，以及一些可爱的装饰品。Turtle是一个受Logo语言启发的图形库，非常适合初学者学习编程和创建图形。码农不是吗喽（大学生版）-CSDN博客一、正文($_$)1.1准备工作首先，确保你的环境中已经安装了Python。接着，我们需要导入Turtle模块，并设置画布大小和初始参数。fromtur
python模拟手写笔迹_原笔迹手写实现平滑和笔锋效果之:笔迹的平滑(一) weixin_39570530 python模拟手写笔迹
之前研究过一种用于模拟真实手写笔迹签名的算法,要求能够保持原笔迹平滑,并有笔锋的效果.在网上看了一些资料,资料很多,能够达到用于正式产品中的效果的一个都没有找到.但是即使按照这篇文章讲的方法去实现手写笔迹,表现的效果也非常的不理想.而且,这篇文章还只是涉及到了笔迹平滑的问题,没有涉及到如何解决笔锋的问题经过我一段时间的研究,终于在上厕所的时候(有没有被duang了一下的感觉,哈哈~O(∩_∩)O)
windows 10 32bit 配置Python编程环境 wangbingfeng0 tools maintenance
确认系统架构点击桌面左下角的搜索按钮，输入cmd运行命令行界面（CommandPrompt）；在命令行界面输入wmicCPUgetDataWidth↩︎，返回的是CPU的架构，64或32位；在命令行界面输入wmicOSgetOSArchitecture↩︎，返回的是Windows操作系统架构，64或32位。确认PowerShell版本PowerShell是Windows下的增强命令行环境，也是我们
用Python实现办公自动化 shengyin714959 笔记最高笔记 python 开发语言
Python作为一种简单而强大的编程语言，不仅在数据科学和软件开发领域广受欢迎，还在办公自动化方面发挥了巨大作用。通过Python，我们可以编写脚本来自动执行各种重复性任务，从而提高工作效率并减少错误。在本文中，我们将探讨如何利用Python来实现办公自动化，并提供一些示例代码来帮助你入门。自动化处理电子表格数据在许多办公场景中，我们经常需要处理电子表格数据，例如Excel文件。使用Python的
Python内置模块-Math -MaoKe- Python模块 python 前端
文章目录Python内置模块-Math一、模块介绍二、数值运算1.math.ceil()2.math.floor()3.math.fabs()4.math.modf()5.math.trunc()6.math.factorial()7.math.fmod()8.math.fsum()9.math.gcd()10.math.frexp()11.math.ldexp()12.math.copysign
探索 Python 中的 uuid 模块：生成唯一标识符程序媛幂幂 python 数据库服务器
前言UUID，全称为UniversallyUniqueIdentifier，是一种128位的全局唯一标识符。这个标识符通过一定的算法计算出来，可以保证在一定的空间和时间上的唯一性。在Python中，UUID通常用于生成唯一的标识符，例如数据库表的ID字段、用户账号、订单等。UUID的生成通常基于MAC地址、时间戳、命名空间、随机数或伪随机数等元素，以保证生成ID的唯一性。在Python中，UUID
NumPy学习第十课：一文通俗了解NumPy中的数学函数 HappyAcmen Numpy基础知识学习 numpy 学习 python pycharm 开发语言
前言导读在前面NumPy的学习过程当中，我们知道NumPy库是一个特别擅长处理大型矩阵或者说存储大型数据的这么一个库，与Python自身相比较在处理数据的时候更加的高效，所以我们在数学中常见到的计算函数，NumPy库中基本上也都已经涵盖了。而且已经封装好了很多的函数，我们在实际的使用过程当中，只需要引入NumPy库，并调用相应的函数方法就可以了，非常的便捷。这一节我们就先来了解了解NumPy中的数
使用 Python3 生成通用唯一标识符（UUID）的方法美丽风景-c python 开发语言 Python
使用Python3生成通用唯一标识符（UUID）的方法UUID（通用唯一标识符）是一种用于在计算机系统中唯一标识实体的标准化方法。在Python中，可以使用uuid模块来生成UUID。本文将介绍如何使用Python3中的uuid模块生成UUID，并提供相应的源代码示例。首先，我们需要导入uuid模块：importuuid生成UUID的最常用方法是使用uuid.uuid4()函数。该函数会生成一个随
Python实现：两个朋友的最大共同行走距离从以前 python 算法 java 数据结构
问题背景Alan和Bob是住在城市中的两个邻居，他们的城市里只有三栋建筑：电影院、商店和他们的家。一天，他们一起去看电影，看完后他们决定继续讨论电影，但由于各自有不同的任务，他们的路径有所不同。Bob打算直接回家，而Alan则需要先去商店，再回家。在离开电影院后，他们决定一起走一段路，讨论电影。然后他们在某个点分开，Alan继续去商店，而Bob直接回家。我们的任务是计算他们两人能一起走的最大距离，
Python 爱心代码实现动态爱心图案展示从以前 python python
引言在Python中，我们可以利用tkinter库来创建有趣的图形界面，本文将为大家分享一段使用tkinter库绘制动态爱心图案的代码，并详细介绍其实现逻辑与运行方法。一、代码功能概述这段Python代码借助tkinter库创建了一个窗口，在该窗口中能够绘制出一个动态的爱心图案，效果十分美观，接下来我们一起看看代码的具体内容。二、代码详解（一）导入必要的库和模块importrandomfromma
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
使用 Python 实现自动化办公（邮件、Excel）王子良. python 经验分享 python 自动化 excel
目录一、Python自动化办公的准备工作1.1安装必要的库1.2设置邮件服务二、邮件自动化处理2.1发送邮件示例代码注意事项2.2接收和读取邮件示例代码三、Excel自动化处理3.1读取和写入Excel文件示例代码3.2数据处理和分析示例代码四、综合实例：从邮件中读取Excel附件并分析示例代码随着技术的进步，Python的高效性和易用性使其成为办公自动化的强大工具。通过Python，我们可以自动
Windows下建立Jupyter-lab 编程环境 skywalk8163 编程语言 windows jupyter ide python
Windows下建立Jupyter-lab编程环境方法1在python虚拟环境下启动（失败）首先激活环境进入python的scripts目录，执行激活文件：cdpy311\Scriptsactivate.bat安装jupyterpipinstalljupyter-U启动jupyter-lab进入工作目录，比如e:盘根目录，执行jupyter-lab但是用这种方法报错kernel没有找到，后面有详细
用 Python Turtle 库绘制精美圣诞树教程从以前 python python 信息可视化 github
摘要：本文将详细介绍如何使用Python的Turtle库来绘制一棵充满节日氛围的圣诞树，从代码的各个部分解读到最终呈现出完整的图形效果，带你一步步领略用代码创造节日美景的乐趣。文中包含完整代码及详细注释，帮助读者轻松理解并复现这个有趣的绘图项目。一、引言在圣诞节来临之际，我们可以通过编程的方式来增添节日的氛围，使用Python的Turtle库就能绘制出一棵漂亮的圣诞树哦！Turtle库提供了简单又
100天精通Python（基础篇）——第19天：异常类型大全、异常处理介绍袁袁袁袁满 100天精通Python python 开发语言后端 mce异常
目录1.异常的概念2.异常类型1）Python内置异常2）requests爬虫模块内置异常类3）自定义异常2.捕获异常1）简单的捕获异常语法2）错误类型捕获3）异常捕获完整语法3.异常的传递4.抛出raise异常1）应用场景2）抛出异常1.异常的概念程序在运行时，如果Python解释器遇到到一个错误，会停止程序的执行，并且提示一些错误信息，这就是异常程序停止执行并且提示错误信息这个动作，我们通常称
Python私房菜——筑基篇（已完结）陪我一起学编程 python 青少年编程自动化开发语言 pycharm django
1Python私房菜【一】——（前置基础）大白可直接跳转到：Python私房菜——高级篇1.1编码就是把人类语言（文字）通过编码的形式一一映射成计算机认识的语言（二进制：0101…），即将人类语言通过某种形式转换成计算机认识的二进制数。这种编码形式是人为定义的，因此就有多种不同的编码方式。在不同编码表中，规定了每个字符在表中的唯一位置，这个位置称之为码点，如“A”在ASCII表中的位置【码点】是6
python创建按钮command怎么用_python图形界面tk 1.4 按钮（Button） weixin_39955825
创建按钮和设置它们的文本属性#!/usr/bin/envpython#-*-coding:utf-8-*-importtkinterastkfromtkinterimportttkwin=tk.Tk()win.title("PythonGUI")#添加标题aLabel=ttk.Label(win,text="ALabel")#创建一个标签,text：显示标签的内容aLabel.grid(colum
python中graphviz 参数_python graphviz的使用(画图工具) weixin_39900608 python中graphviz 参数
一、graphviz安装及配置graphviz实际上是一个绘图工具，可以根据dot脚本画出树形图等。1、windows安装配置环境变量：把bin文件夹的路径加入到环境变量path里安装python的graphviz模块：pipinstallgraphviz2、linuxcentos7安装yum下载graphviz软件：yum-yinstallgraphviz安装python的graphviz模块：
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解） IT大头 NLP实战 python 人工智能语言模型 nlp chatgpt
前言本篇文章是针对星火大模型api接口使用的新篇章，本次主要是介绍对于pythonSDK使用，以及图片理解等新功能。相对于上篇博客中的使用方法，本次的教程相对来说更简单方便。话不多说，直接享用。1、获取api接口的ID和key参考上篇文章：https://blog.csdn.net/qq_45156060/article/details/134072123?spm=1001.2014.3001.5
python glob模块蘑菇棒棒哒 python
0.摘要：glob是实用的文件名匹配库，glob.glob()函数将会匹配给定路径下的所有pattern，并以列表形式返回。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符：””,匹配0个或多个字符；“?”,”?”匹配单个字符；“[]”：”[]”匹配指定范围内的字符，如：[0-9]匹配数字；注意：如果文件名以“点”开头，无法被'’和'?'匹配，如：".card.gif"glob方法：
【Python】已解决ERROR: Could not find a version that satisfies the requirement 云天徽上 python运行报错解决记录 python 开发语言 tensorflow 人工智能 numpy
成功解决“ERROR:Couldnotfindaversionthatsatisfiestherequirement”错误的全面指南一、引言在Python开发中，经常需要通过pip工具来安装各种依赖包。然而，有时在尝试安装某个包时，可能会遇到“ERROR:Couldnotfindaversionthatsatisfiestherequirement”的错误。这个错误表明pip无法找到与你的请求匹配
球球大作战Python单机版本酷码编程接单空间 pygame python oracle django tornado fastapi
球球大作战是一个多人在线游戏，玩家需要控制一个小球，通过吞食地图上的小点来增加自己的体积，同时避免被其他更大的球体吞噬。下面是一个简化版的球球大作战游戏，使用Python语言和pygame库来实现。在这个简化版中，我们将只使用控制台输入输出来模拟游戏。首先，你需要安装pygame库，可以使用以下命令安装：pipinstallpygame然后，你可以使用以下代码来创建一个简化版的球球大作战游戏：im
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
Python读取通达信日线数据（.day文件）逝去的紫枫 Python python
Python读取通达信日线数据（.day文件）1.day文件位置2.day文件内容的构成3.Python代码识别day文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如日线数据文件.day）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.day文件位置通达信日线数
以Python构建ONE FACE管理界面：从基础至进阶的实战探索 Allen_LVyingbo python python pyqt
一、引言1.1研究背景与意义在人工智能技术蓬勃发展的当下，面部识别技术凭借其独特优势，于安防、金融、智能终端等众多领域广泛应用。在安防领域，可助力监控系统精准识别潜在威胁人员，提升公共安全保障水平；金融行业中，实现刷脸支付、远程开户等便捷服务，优化用户体验并强化交易安全。智能终端方面，为设备解锁、身份验证等功能提供支持，提升设备使用的便捷性与安全性。然而，现有面部识别系统在数据安全、检索效率及用户
Python模块学习：glob 文件路径查找 semiler python python glob
文章转载自《伯乐在线》原文出处：DarkbullPython模块学习：glob文件路径查找glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：”*”,“?”,“[]“。”*”匹配0个或多个字符；”?”匹配单个字符；”[]“匹配指定范围内的字符，如：[0-9]匹配数字。glob.glob返回所有匹配的文件
Android 内核开发之—— repo 使用教程 ByteSaid Android 开发 android git
前言repo是一个用于管理多个Git仓库的工具，特别适用于管理大型项目如Android的源码。它是由Google开发的，用于解决多个Git仓库的同步、管理和代码审查等问题。因此，做Android内核开发，首先要了解repo是什么，它是如何使用的？1repo的概念repo是一种代码版本管理工具，它是由一系列的Python脚本组成，封装了一系列的Git命令，用来统一管理多个Git仓库。2repo的作用
Python: 修改源知多少技术探索者 #python python 开发语言
一.Windows源在Windows中使用Python修改源,需要通过修改pip配置文件或者使用pip命令直接指定源来实现。1.修改pip配置文件Windows用户通常在以下路径中找到pip配置文件%APPDATA%\pip\pip.ini注意:如果不存在的话，可以手动创建这个文件夹和文件。然后在pip.ini文件中添加以下内容，将源修改为你想要的源：[global]index-url=https
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

[python] 使用Jieba工具中文分词及文本聚类概念

一. Selenium爬取百度百科摘要

二. Jieba中文分词

三. 基于VSM的文本聚类算法

你可能感兴趣的:(python,中文分词,结巴分词,文本聚类,特征提取)