Eastmount

[python] 基于k-means和tfidf的文本聚类代码简单实现

俗话说“外行看热闹，内行看门道“，作为一个机器学习的门外汉，刚研究python机器学习scikit-learn两周时间，虽然下面这段程序可能对于那些专研算法或机器学习的人来说非常简单，但对于一些入门的同学和我自己还是非常有帮助的。如果文章中有错误或不足之处，还请你微微一笑，原谅之；当然也非常欢迎你提出建议或指正~

基本步骤包括：
1.使用python+selenium分析dom结构爬取百度|互动百科文本摘要信息；
2.使用jieba结巴分词对文本进行中文分词，同时插入字典关于关键词；
3.scikit-learn对文本内容进行tfidf计算并构造N*M矩阵(N个文档 M个特征词)；
4.再使用K-means进行文本聚类(省略特征词过来降维过程);
5.最后对聚类的结果进行简单的文本处理，按类簇归类，也可以计算P/R/F特征值；
6.总结这篇论文及K-means的缺点及知识图谱的一些内容。

当然这只是一篇最最基础的文章，更高深的分类、聚类、LDA、SVM、随机森林等内容，自己以后慢慢学习吧！这篇作为在线笔记，路漫漫其修远兮，fighting~

一. 爬虫实现

爬虫主要通过Python+Selenium+Phantomjs实现，爬取百度百科和互动百科旅游景点信息，其中爬取百度百科代码如下。
参考前文：[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

实现原理：
首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问百度百科链接"http://baike.baidu.com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该百科页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：
driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。

# coding=utf-8  
""" 
Created on 2015-09-04 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys      
import selenium.webdriver.support.ui as ui      
from selenium.webdriver.common.action_chains import ActionChains  
  
#Open PhantomJS  
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
#driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots  
def getInfobox(entityName, fileName):  
    try:  
        #create paths and txt files
        print u'文件名称: ', fileName
        info = codecs.open(fileName, 'w', 'utf-8')  

        #locate input  notice: 1.visit url by unicode 2.write files
        #Error: Message: Element not found in the cache -
        #       Perhaps the page has changed since it was looked up
        #解决方法: 使用Selenium和Phantomjs
        print u'实体名称: ', entityName.rstrip('\n') 
        driver.get("http://baike.baidu.com/")  
        elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")  
        elem_inp.send_keys(entityName)  
        elem_inp.send_keys(Keys.RETURN)  
        info.write(entityName.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行
        time.sleep(2)  
  
        #load content 摘要
        elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")
        for value in elem_value:
            print value.text
            info.writelines(value.text + '\r\n')
        time.sleep(2)  
          
    except Exception,e:    #'utf8' codec can't decode byte  
        print "Error: ",e  
    finally:  
        print '\n'  
        info.close() 
  
#Main function  
def main():
    #By function get information
    path = "BaiduSpider\\"
    if os.path.isdir(path):
        shutil.rmtree(path, True)
    os.makedirs(path)
    source = open("Tourist_spots_5A_BD.txt", 'r')
    num = 1
    for entityName in source:  
        entityName = unicode(entityName, "utf-8")  
        if u'故宫' in entityName:   #else add a '?'  
            entityName = u'北京故宫'
        name = "%04d" % num
        fileName = path + str(name) + ".txt"
        getInfobox(entityName, fileName)
        num = num + 1
    print 'End Read Files!'  
    source.close()  
    driver.close()
    
if __name__ == '__main__':
    main()

运行结果如下图所示：

二. 中文分词

中文分词主要使用的是Python+Jieba分词工具，同时导入自定义词典dict_baidu.txt，里面主要是一些专业景点名词，如"黔清宫"分词"黔/清宫"，如果词典中存在专有名词"乾清宫"就会先查找词典。
参考前文：[python] 使用Jieba工具中文分词及文本聚类概念

#encoding=utf-8
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse

#导入自定义词典
jieba.load_userdict("dict_baidu.txt")

#Read file and cut
def read_file_cut():
    #create path
    path = "BaiduSpider\\"
    respath = "BaiduSpider_Result\\"
    if os.path.isdir(respath):
        shutil.rmtree(respath, True)
    os.makedirs(respath)

    num = 1
    while num<=204:
        name = "%04d" % num 
        fileName = path + str(name) + ".txt"
        resName = respath + str(name) + ".txt"
        source = open(fileName, 'r')
        if os.path.exists(resName):
            os.remove(resName)
        result = codecs.open(resName, 'w', 'utf-8')
        line = source.readline()
        line = line.rstrip('\n')
        
        while line!="":
            line = unicode(line, "utf-8")
            seglist = jieba.cut(line,cut_all=False)  #精确模式
            output = ' '.join(list(seglist))         #空格拼接
            print output
            result.write(output + '\r\n')
            line = source.readline()
        else:
            print 'End file: ' + str(num)
            source.close()
            result.close()
        num = num + 1
    else:
        print 'End All'

#Run function
if __name__ == '__main__':
    read_file_cut()

按照Jieba精确模式分词且空格拼接，"0003.txt 颐和园"分词结果如下图所示：

[python] 基于k-means和tfidf的文本聚类代码简单实现_第2张图片

为方便后面的计算或对接一些sklearn或w2v等工具，下面这段代码将结果存储在同一个txt中，每行表示一个景点的分词结果。

# coding=utf-8            
import re          
import os  
import sys
import codecs
import shutil

def merge_file():
    path = "BaiduSpider_Result\\"
    resName = "BaiduSpider_Result.txt"
    if os.path.exists(resName):
        os.remove(resName)
    result = codecs.open(resName, 'w', 'utf-8')

    num = 1
    while num <= 204:
        name = "%04d" % num 
        fileName = path + str(name) + ".txt"
        source = open(fileName, 'r')
        line = source.readline()
        line = line.strip('\n')
        line = line.strip('\r')

        while line!="":
            line = unicode(line, "utf-8")
            line = line.replace('\n',' ')
            line = line.replace('\r',' ')
            result.write(line+ ' ')
            line = source.readline()
        else:
            print 'End file: ' + str(num)
            result.write('\r\n')
            source.close()
        num = num + 1
        
    else:
        print 'End All'
        result.close()    

if __name__ == '__main__':
    merge_file()

每行一个景点的分词结果，运行结果如下图所示：

[python] 基于k-means和tfidf的文本聚类代码简单实现_第3张图片

三. 计算TF-IDF

此时，需要将文档相似度问题转换为数学向量矩阵问题，可以通过VSM向量空间模型来存储每个文档的词频和权重，特征抽取完后，因为每个词语对实体的贡献度不同，所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。

相关介绍：
它表示TF（词频）和IDF（倒文档频率）的乘积：

其中TF表示某个关键词出现的频率，IDF为所有文档的数目除以包含该词语的文档数目的对数值。

|D|表示所有文档的数目，|w∈d|表示包含词语w的文档数目。
最后TF-IDF计算权重越大表示该词条对这个文本的重要性越大，它的目的是去除一些"的、了、等"出现频率较高的常用词。

参考前文：Python简单实现基于VSM的余弦相似度计算
基于VSM的命名实体识别、歧义消解和指代消解

下面是使用scikit-learn工具调用CountVectorizer()和TfidfTransformer()函数计算TF-IDF值，同时后面"四.K-means聚类"代码也包含了这部分，该部分代码先提出来介绍。

# coding=utf-8  
""" 
Created on 2015-12-30 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer

'''
sklearn里面的TF-IDF主要用到了两个函数：CountVectorizer()和TfidfTransformer()。
    CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵。
    矩阵元素weight[i][j] 表示j词在第i个文本下的词频，即各个词语出现的次数。
    通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。
    TfidfTransformer也有个fit_transform函数，它的作用是计算tf-idf值。
'''

if __name__ == "__main__":
    corpus = [] #文档预料 空格连接

    #读取预料 一行预料为一个文档
    for line in open('BaiduSpider_Result.txt', 'r').readlines():
        print line
        corpus.append(line.strip())
    #print corpus
    time.sleep(5)
    
    #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
    vectorizer = CountVectorizer()

    #该类会统计每个词语的tf-idf权值
    transformer = TfidfTransformer()

    #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    #获取词袋模型中的所有词语  
    word = vectorizer.get_feature_names()

    #将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重
    weight = tfidf.toarray()

    resName = "BaiduTfidf_Result.txt"
    result = codecs.open(resName, 'w', 'utf-8')
    for j in range(len(word)):
        result.write(word[j] + ' ')
    result.write('\r\n\r\n')

    #打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重  
    for i in range(len(weight)):
        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"  
        for j in range(len(word)):
            result.write(str(weight[i][j]) + ' ')
        result.write('\r\n\r\n')

    result.close()

其中输出如下所示，由于文本摘要不多，总共8368维特征，其中共400个景点（百度百科200 互动百科200）文本摘要，故构建的矩阵就是[400][8368]，其中每个景点都有对应的矩阵存储TF-IDF值。

缺点：可以尝试出去一些停用词、数字等，同时可以如果文档维数过多，可以设置固定的维度，同时进行一些降维操作或构建稀疏矩阵，大家可以自己去研究下。
推荐一些优秀的关于Sklearn工具TF-IDF的文章：
python scikit-learn计算tf-idf词语权重 - liuxuejiang158
用Python开始机器学习（5：文本特征抽取与向量化） - lsldd大神
官方scikit-learn文档 4.3. Preprocessing data

四. K-means聚类

其中K-means聚类算法代码如下所示，主要是调用sklearn.cluster实现。
强推一些机器学习大神关于Scikit-learn工具的分类聚类文章，非常优秀：
  用Python开始机器学习（10：聚类算法之K均值） -lsldd大神
应用scikit-learn做文本分类（特征提取 KNN SVM 聚类） - Rachel-Zhang大神
  Scikit Learn: 在python中机器学习(KNN SVMs K均) - yyliu大神开源中国
【机器学习实验】scikit-learn的主要模块和基本使用 - JasonDing大神
  Scikit-learn学习笔记中文简介(P30-Cluster) - 百度文库
  使用sklearn做kmeans聚类分析 - xiaolitnt
  使用sklearn + jieba中文分词构建文本分类器 - MANYU GOU大神
sklearn学习(1) 数据集（官方数据集使用） - yuanyu5237大神
  scikit-learn使用笔记与sign prediction简单小结 - xupeizhi
  http://scikit-learn.org/stable/modules/clustering.html#clustering

代码如下：

# coding=utf-8  
""" 
Created on 2016-01-06 @author: Eastmount  
"""  
  
import time          
import re          
import os  
import sys
import codecs
import shutil
import numpy as np
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  

if __name__ == "__main__":
    
    #########################################################################
    #                           第一步 计算TFIDF
    
    #文档预料 空格连接
    corpus = []
    
    #读取预料 一行预料为一个文档
    for line in open('BHSpider_Result.txt', 'r').readlines():
        print line
        corpus.append(line.strip())
    #print corpus
    #time.sleep(1)
    
    #将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
    vectorizer = CountVectorizer()

    #该类会统计每个词语的tf-idf权值
    transformer = TfidfTransformer()

    #第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    #获取词袋模型中的所有词语  
    word = vectorizer.get_feature_names()

    #将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重
    weight = tfidf.toarray()

    #打印特征向量文本内容
    print 'Features length: ' + str(len(word))
    resName = "BHTfidf_Result.txt"
    result = codecs.open(resName, 'w', 'utf-8')
    for j in range(len(word)):
        result.write(word[j] + ' ')
    result.write('\r\n\r\n')

    #打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重  
    for i in range(len(weight)):
        print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"  
        for j in range(len(word)):
            #print weight[i][j],
            result.write(str(weight[i][j]) + ' ')
        result.write('\r\n\r\n')

    result.close()


    ########################################################################
    #                               第二步 聚类Kmeans

    print 'Start Kmeans:'
    from sklearn.cluster import KMeans
    clf = KMeans(n_clusters=20)
    s = clf.fit(weight)
    print s

    #20个中心点
    print(clf.cluster_centers_)
    
    #每个样本所属的簇
    print(clf.labels_)
    i = 1
    while i <= len(clf.labels_):
        print i, clf.labels_[i-1]
        i = i + 1

    #用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数
    print(clf.inertia_)

输出如下图所示，20个类簇中心点和408个簇，对应408个景点，每个文档对应聚在相应的类0~19。

五. 结果处理

为了更直观的显示结果，通过下面的程序对景点进行简单结果处理。

# coding=utf-8  
import os  
import sys
import codecs

'''
@2016-01-07 By Eastmount
功能:合并实体名称和聚类结果 共类簇20类
输入:BH_EntityName.txt Cluster_Result.txt
输出:ZBH_Cluster_Merge.txt ZBH_Cluster_Result.txt
'''

source1 = open("BH_EntityName.txt",'r')
source2 = open("Cluster_Result.txt",'r')
result1 = codecs.open("ZBH_Cluster_Result.txt", 'w', 'utf-8')

#########################################################################
#                        第一部分 合并实体名称和类簇

lable = []       #存储408个类标 20个类
content = []     #存储408个实体名称
name = source1.readline()
#总是多输出空格 故设置0 1使其输出一致
num = 1
while name!="":
    name = unicode(name.strip('\r\n'), "utf-8")
    if num == 1:
        res = source2.readline()
        res = res.strip('\r\n')
        
        value = res.split(' ')
        no = int(value[0]) - 1   #行号
        va = int(value[1])       #值
        lable.append(va)
        content.append(name)
        
        print name, res
        result1.write(name + ' ' + res + '\r\n')
        num = 0
    elif num == 0:
        num = 1
    name = source1.readline()
    
else:
    print 'OK'
    source1.close()
    source2.close()
    result1.close()

#测试输出 其中实体名称和类标一一对应
i = 0
while i < len(lable):
    print content[i], (i+1), lable[i]
    i = i + 1

#########################################################################
#                      第二部分 合并类簇 类1 ..... 类2 .....

#定义定长20字符串数组 对应20个类簇
output = ['']*20
result2 = codecs.open("ZBH_Cluster_Merge.txt", 'w', 'utf-8')

#统计类标对应的实体名称
i = 0
while i < len(lable):
    output[lable[i]] += content[i] + ' ' 
    i = i + 1

#输出
i = 0
while i < 20:
    print '#######'
    result2.write('#######\r\n')
    print 'Label: ' + str(i)
    result2.write('Label: ' + str(i) + '\r\n')
    print output[i]
    result2.write(output[i] + '\r\n')
    i = i + 1

result2.close()

输出结果如下图所示，其中label19可以发现百度百科和互动百科的"大昭寺、法门寺"文本内容都划分为一类，同时也会存在一些错误的类别，如Label15中的"橘子洲"。

[python] 基于k-means和tfidf的文本聚类代码简单实现_第6张图片

PS：如果你想进行准确率、回归率、F特征值比较，可以进一步去学习sklearn官方文档。通常的文本数据集的类标如"教育、体育、娱乐"，把不同内容的新闻聚在一类，而这个略有区别，它主要是应用于我实际的毕设。

六. 总结与不足

这篇文章更多的是一些基础内容的代码实现，可能对一些初学者有用，同时也是我的在线笔记吧！主要内容包括：
1.python+selenium爬取
2.jieba中文分词
3.sklearn+tfidf矩阵权重计算
4.kmeans简单实现及结果对比

Kmeans聚类是一种自下而上的聚类方法，它的优点是简单、速度快；缺点是聚类结果与初始中心的选择有关系，且必须提供聚类的数目。
Kmeans的第二个缺点是致命的，因为在有些时候，我们不知道样本集将要聚成多少个类别，这种时候kmeans是不适合的，推荐使用hierarchical 或meanshift来聚类。第一个缺点可以通过多次聚类取最佳结果来解决。

推荐一些关于Kmeans及实验评估的文章：
  浅谈Kmeans聚类 - easymind223
  基于K－Means的文本聚类（强推基础介绍） - freesum
  基于向量空间模型的文本聚类算法 - helld123
  KMeans文档聚类python实现（代码详解） - skineffect
  Kmeans文本聚类系列之全部C++代码 - finallyliuyu
  文本聚类—kmeans - zengkui111

不论如何，最后还是希望文章对你有所帮助！深夜写文不易，且看且珍惜吧~
(By:Eastmount 2016-01-08 深夜3点   http://blog.csdn.net//eastmount/ )

vue-cropper实现图片裁剪鸡吃丸子 vue.js 前端 javascript
一、什么是vue-cropper？Vue-Cropper是一个基于Vue.js的图片裁剪组件库，专为Web应用设计。当你在网上搜索的时候发现还有一个叫cropper的库，下面是他们的区别：特性cropper.jsvue-cropper框架依赖纯JavaScript，无框架依赖专为Vue.js设计包体积~200KB(含样式)~45KB(压缩后)API调用方式原生DOM操作Vue组件式API响应式支持
Qt构建静态库后，丢失背景图片 haiyuanjie Qt开发总结开发语言 c++qt
问题现象：静态库项目UI属性设置qrc资源图片，显示成功，同一项目调用测试显示成功。主程序调用静态库，无法显示背景图片。原因及解决：UsingResourcesinaLibraryIfyouhaveresourcesinalibrary,youneedtoforceinitializationofyourresourcesbycallingQ_INIT_RESOURCE()withthebasen
GaussDB 权限管理：从 RBAC 到精细化控制的技术实践如清风一般 gaussdb
GaussDB权限管理：从RBAC到精细化控制的技术实践一、引言在分布式数据库环境中，权限管理是保障数据安全和合规性的核心环节。GaussDB（开源版及云服务版）提供了一套完整的权限管理体系，支持基于角色的访问控制（RBAC）、细粒度权限分配和动态审计等功能。本文将深入解析GaussDB的权限管理模型、操作方法及实战技巧。二、GaussDB权限管理模型核心对象与层级GaussDB的权限管理围绕以下
前端常见 HTTP 状态码鸡吃丸子前端 http 网络协议
作为前端开发者，与后端API交互时，HTTP状态码是判断请求成败的关键信号。理解常见状态码的含义、责任归属及应对策略，能极大提升调试效率和团队协作。以下是关键状态码的详细解析：首先说一下如何查看状态码：如上图项目运行之后，打开浏览器开发者工具（F12），查看Network面板查看状态码一、常见状态码分类状态码含义主要责任方常见触发场景200OK后端请求成功，返回预期数据304NotModified
计算机网络（24）网际控制报文协议ICMP
前言计算机网络中的网际控制报文协议（ICMP，InternetControlMessageProtocol）是TCP/IP协议簇的一个子协议，它在网络层中扮演着重要的角色。一、ICMP的定义与功能侦测远端主机是否存在：通过发送ICMPEcho请求报文（ping命令）并等待Echo应答报文，可以确定远端主机的网络连通性。建立及维护路由资料：ICMP重定向报文可以通知主机更改路由路径，以便数据包能够更
原生cesium 实现多图例展示+点聚合(base64图标)
个人简介：某大型测绘遥感企业资深Webgis开发工程师，软件设计师(中级)、CSDN优质创作者作者：柳晓黑胡椒❣️专栏：cesium实践(原生)若有帮助，还请关注➕点赞➕收藏，不行的话我再努努力需求背景解决思路解决效果index.vue需求背景1.需要展示多个站点图例的图表及闪烁效果2.需要考虑层级高时，多图例的点聚合效果，且点聚合显示需要采用设计的圆形图标解决思路闪烁效果：采用css3的anim
家装宝典《水路通·水管工智能宝典》—— 零基础到大师的全流程水管工程解决方案
《水路通·水管工智能宝典》是一款为水管工及家居维修爱好者打造的零门槛专业工具，堪称行业从业者的"掌上工艺图书馆"。软件构建了覆盖水管工程全生命周期的知识体系分享了「水管工手册」链接：https://pan.quark.cn/s/1cd0bf17b7b8
React 组件间传值的问题及解决方案 JJCTO袁龙 react.js 前端前端框架
React组件间传值的问题及解决方案在React开发中，组件间传值是构建复杂用户界面的基础。然而，开发者在实现组件间传值时可能会遇到各种问题，如数据传递不正确、状态更新延迟或嵌套组件传值复杂等。本文将探讨React组件间传值的常见问题，并提供解决方案。一、React组件间传值的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。错误示例：//
React.js 组件间数据传递的常见问题及解决方案 JJCTO袁龙 react react.js 前端前端框架
React.js组件间数据传递的常见问题及解决方案在React.js开发中，组件间的数据传递是构建复杂用户界面的基础。然而，开发者在实现组件间数据传递时可能会遇到各种问题，导致数据无法正确传递或更新。本文将探讨这些问题的常见原因，并提供相应的解决方案。一、React.js组件间数据传递的常见问题（一）数据传递不正确父组件传递给子组件的props可能未正确接收或使用，导致子组件无法正确显示数据。（二
React-Ts项目中配置路径别名@ wisuky 前端项目相关配置 react.js 前端前端框架
方案一：配置webpack.config.js在react脚手架搭建的项目中，webpack.config.js配置文件是隐藏的，需要通过npmruneject打开，并且该操作是不可逆的，所以不建议使用该方案。方案二：使用craco库1.安装cracoyarnadd-D@craco/cracoORnpmi-D@craco/craco2.在项目根目录中创建craco.config.js配置文件，并添
一文吃透DApp生命周期代码羊羊区块链 web3 web3 区块链
一、引言在Web3的宏大版图中，去中心化应用（DApp）无疑占据着核心地位，是推动Web3发展的重要力量。DApp基于区块链技术构建，与传统应用相比，它具有去中心化、开源、自治、数据加密存储等特性，这些特性赋予了DApp更高的安全性、透明度以及用户自主性，也因此，DApp在金融、游戏、社交、供应链等众多领域展现出巨大的应用潜力，成为了众多开发者和企业探索Web3世界的重要方向。要开发出一个成功的D
图像哈希：DCT篇怪味＆先森科研篇：图像哈希哈希算法 opencv 计算机视觉
RobustimagehashingwithdominantDCTcoefficients文章信息作者：唐振军期刊：Optic（Q2/3区）题目：RobustimagehashingwithdominantDCTcoefficients目的、实验步骤及结论目的：使用传统的DCT对图像进行压缩，由于压缩后的信息主要集中在左上角，因此使用左上角的数据进行比较生成图像的哈希值。实验步骤数据预处理：双线性
牛市来临之际，如何用期权抢占反弹先机？期权汇小韩金融
牛市来临之际，如何实现用更低的资金成本抢占反弹先机？期权就是一种花小钱办大事的强大工具！尐程序：期权汇1、策略详解若投资者认为短期行情有可能会爆发，相较于追涨个股，买入相关的认购期权是一种更为高效的看涨方式。以银行股为例，考虑到大盘代表指数上证50ETF中银行股权重占比超35%，买入上证50ETF期权能有效捕捉银行板块及指数权重股走强的红利，该策略只需投入小额权利金成本，即可博弈指数权重走强带来的
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
mediamtx v1.13.0版本深度解读：全面升级RTSP加密支持及多项关键改进解析
一、引言在现代视频流和实时传输技术迅速发展的背景下，开源流媒体服务器mediamtx的更新备受关注。2025年7月7日，mediamtx发布了v1.13.0版本，此版本带来了大量重要的功能增强和漏洞修复，尤其是在RTSP协议支持、加密传输、KLV元数据路由等方面做出了卓越提升。本文将从新特性、修复与提升、安全机制、依赖库升级等多个角度，详细解读mediamtxv1.13.0版本，助力开发者和运维人
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
PHP 命令行工具的常用选项详解半桶水专家 php php 开发语言
PHPCLI常用选项详解-f：运行脚本文件php-fscript.php等同于：phpscript.php执行指定的PHP文件。-r：运行一段PHP代码php-r'echo"HelloWorld\n";'可快速运行一小段代码，不需要加:：启动内建Web服务器php-S127.0.0.1:8000用于开发环境调试，默认当前目录为文档根目录（可配合-t使用）。-t：指定Web根目录php-Slocal
【Go语言-Day 7】循环控制全解析：从 for 基础到 for-range 遍历与高级控制
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【Go语言-Day 5】掌握Go的运算脉络：算术、逻辑到位的全方位指南吴师兄大模型 Go 语言从入门到精通 golang 开发语言后端人工智能 python go语言 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
Visual Studio Code 中统一配置文件在团队协作中的应用织_网 vscode ide 编辑器
在团队协作开发中，保持一致的开发环境是提升效率、减少环境差异导致问题的关键。VisualStudioCode（VSCode）的配置文件功能为此提供了便捷的解决方案，通过统一配置文件，团队可实现开发环境的标准化与快速同步。以下从核心功能、操作流程、优势及实践建议展开说明：一、统一配置文件的核心价值团队协作中，统一配置文件可实现以下目标：环境标准化：确保所有成员使用相同的编辑器设置（如格式化规则、快捷
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
基于FCGI的web后端服务程序设计 aiprtem web 嵌入式Linux 前端
基于FCGI的web后端服务程序设计1.概述FastCGI（FCGI）是一种让交互程序与Web服务器通信的协议，是CGI（CommonGatewayInterface）的增强版本。FCGI进程可以常驻内存，处理多个请求，避免了CGI每次请求都需要创建新进程的开销。本文将详细介绍一个FCGI常驻服务程序的设计与实现，包括FCGI初始化、守护进程模式、服务启动和停止等关键环节。项目源码：https:/
PC端基于SpringBoot架构控制无人机(三):系统架构设计 kangkang- 架构无人机 java
1.引言从大疆到自研飞控的转型，在无人机业务开发过程中，大部分工作都是基于大疆无人机的上云SDK来完成的。通过该SDK，可以轻松实现航线飞行、指点飞行、实时操控、一键起飞、云台拍照等多种功能然而，随着业务的逐步发展，公司逐渐将重点从大疆无人机转向了自研无人机系统。为了更好地满足客户需求，尤其是在PC端通过Web浏览器进行实时操作的需求，我们的软件团队面临着巨大的挑战。在此背景下，我们需要开发一个与
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Vue.js 中跨域请求未配置 CORS 的问题及解决方案 JJCTO袁龙 Vue vue.js 前端 javascript
Vue.js中跨域请求未配置CORS的问题及解决方案在Vue.js开发中，跨域请求（CORS）是一个常见的问题。当你的前端应用尝试从不同的源访问后端API时，浏览器会出于安全考虑阻止这些请求，除非后端服务器明确允许。本文将探讨这些问题的常见原因，并提供相应的解决方案。一、Vue.js中跨域请求未配置CORS的常见原因（一）浏览器的同源策略限制浏览器的同源策略限制了从一个源加载的文档或脚本与来自另一
进程控制中URL攻击与修复方法 zqmattack 网络
在进程控制中，涉及URL处理的环节容易遭受攻击（如通过参数注入恶意指令或路径）。以下是常见攻击类型及修复方法：常见URL攻击类型命令注入(CommandInjection)场景：进程通过URL参数构造系统命令（如调用curl、wget）。攻击示例：bashhttp://example.com/download?url=http://legit.com/file;rm-rf/若后端直接拼接命令：wg
serviceMesh 学习一切顺势而行 service_mesh 学习 java
根据您已掌握的Docker、Kubernetes及灰度发布等技能，以下是ServiceMesh需要重点掌握的知识体系，分为核心概念、关键技术、实践场景和进阶能力四部分，助您系统化掌握服务网格：一、ServiceMesh核心概念概念说明与K8s的关联数据平面Sidecar代理（如Envoy），拦截服务间流量通过sidecar-injector自动注入到Pod中控制平面管理Sidecar的组件（如Is
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l