@张小凡

复现实验：文本数据的分类与分析

声明：实验来源全部参照https://github.com/hycsy2019/TextClassification

实验操作-->实验目的：

对训练集数据进行预处理-->掌握数据预处理的方法。

对语料库的文档进行建模-->掌握文本建模的方法。

基于有监督的机器学习方法训练文本分类器-->掌握分类算法原理。

利用学习的文本分类器对未知文本进行分类判别，掌握评价分类器性能的评估方法。

实验内容：

通过分类算法对文本进行数据挖掘。

1、收集web文档进行语料库的构建。

2、对语料库进行数据的预处理，预处理包含（文档建模、去噪、分词、简历数据字典、使用词袋模型、主题模型表示文档等）。

3、选择分类算法，训练文本分类器，理解所选分类算法的建模原理，实现过程和相关参数的含义。

4、对测试集的文本进行分类，计算每类正确率、召回率、计算总体的正确率和召回率。

实验数据：

数据来源：github 上的“大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP”项目https://github.com/brightmart/nlp_chinese_corpus使用了其中的“百科类问答json版”语料库。

数据处理：

1、json文件转成txt文件。

JsonTotxt.py

import json
import os

'''''返回类别修正后的类别名'''


def rename(s):
    '''''对类别名进行切片，将多个大类拆分为小类，或将多个小类合并为大类'''
    type0 = s[0:2]
    type1 = s[5:7]
    type2 = s[3:5]
    type3 = s[8:10]
    type4 = s[6:8]
    type5 = s[11:13]
    type6 = s[10:12]
    if type5 in {'生物', '数学', '工程'}:
        s = type5
    elif type6 == '上网':
        s = type6
    elif type3 == '诛仙':
        s = type3
    elif type4 in {'财务', '股票', '基金', '文学', '外语'}:
        s = type4
    elif type1 == '手机':  # {'军事','法律'}:  
        s = type1
    elif type2 in {'精神', '恋爱', '夫妻', '财务', '宝宝'}:  # {'博彩','度假','星座','音乐','购物','交通','美食'} :  
        s = type2
    elif type0 == '体育':  # {'电脑','电子','烦恼','汽车','商业','文化','游戏','教育','健康'}:  
        s = type0
    else:
        return ""
    return s

fr = open("baike_qa_train.json", "r", encoding='utf-8')
data = []
typenum = {'体育': 0, '精神': 0, '恋爱': 0, '夫妻': 0, '财务': 0, '宝宝': 0, '手机': 0, '财务': 0, '股票': 0, '基金': 0, '文学': 0, '外语': 0,
           '诛仙': 0, '上网': 0, '生物': 0, '数学': 0, '工程': 0}  # 设置词典标识每个类的文本数量  
# {'娱乐':0,'健康':0,'美食':0,'教育':0,'军事':0,'法律':0,'博彩':0,'度假':0,'星座':0,'音乐':0,'购物':0,'交通':0,'电脑':0,'电子':0,'烦恼':0,'汽车':0,'商业':0,'文化':0,'游戏':0}  
'''''将json文件转化成不同类别文件夹下的txt'''
for line in fr.readlines():
    '''''以字典形式读取json文件'''
    ls = json.loads(line)
    data.append(ls["title"])
    data.append(ls["desc"])
    data.append(ls["answer"])
    s = ""
    '''''转化为字符串'''
    for each in data:
        s = s + each + '\n'
    '''''过滤长度小于60字的文本'''
    if s.__len__() > 60:
        '''''转化为对应的类别'''
        type = rename(ls["category"])
        '''''是所选择的类别，并且文档数未达到10000篇'''
        if type != "" and typenum[type] <= 9999:
            typenum[type] += 1
            '''''新建文件夹'''
            if not os.path.exists('QAsamples2/' + type):
                os.makedirs('QAsamples2/' + type)
            '''''写txt'''
            file = 'QAsamples2/' + type + '/' + str(typenum[type]) + '.txt'
            fw = open(file, 'w', encoding='utf-8')
            print(type + '/' + str(typenum[type]))
            fw.write(s)
            fw.close()
    data.clear()

代码执行后的生成的示例文档：

2、分词并利用stop_words.txt去停用词。

stop_word.txt文档已上传至百度网盘链接：

https://pan.baidu.com/s/1SPsxZop-kHWFRI3z5zfJzw
提取码：1111

stopword.py

import os
import jieba.posseg as pseg

path = r'C:\Users\17974\Desktop\restart\graduate\Code\TextClassification-main\result7'
'''''读取停用词文件'''
f_stop = open('stop_words.txt', 'rb')
stopwords = f_stop.readlines()

'''''判断是否为中文'''


def is_Chinese(word):
    for ch in word:
        if '\u4e00' <= ch <= '\u9fff':
            return True
    return False


def wordSplit(path):
    '''''生成指定文件夹下文件列表'''


for file in os.listdir(path):
    type = file
    file_path = os.path.join(path, file)
    if os.path.isdir(file_path):
        for each_file in os.listdir(file_path):
            f = open(file_path + '/' + each_file, 'rb')
            p = f.read().decode('utf-8')
            '''''去空格'''
            p = p.replace(" ", "")
            print(type + '\t' + each_file)
            '''''分词'''
            words = pseg.cut(p)
            '''''创建结果目录文件夹与txt'''
            if not os.path.exists('result7/' + type):
                os.makedirs('result7/' + type)
            r = open('result7/' + type + '/' + each_file, 'w', encoding='utf-8')

            '''''过滤停用词与非中文词，取名词和惯用语'''
            for w in words:
                if ('n' or 'l') in w.flag and not w.word in stopwords and is_Chinese(w.word):
                    r.write(w.word + '\n')
            r.close()

'''''获取所有文件夹名称'''
wordSplit(path)

处理过的示例文本如图：

3、划分测试集和训练集（前5000分为test，后5000分为train）。

import os
import shutil

path = 'C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7'


#生成每个类的文件目录
for file in os.listdir(path):
    type = file
    file_path = os.path.join(path, file)
    if os.path.isdir(file_path):
        i = 1

    #创建train、test文件夹
        if not os.path.exists(file_path + '/train'):
            os.makedirs(file_path + '/train')
        if not os.path.exists(file_path + '/test'):
            os.makedirs(file_path + '/test')
      #将txt前5000移动到train文件夹中，后50000移动到test文件夹中
        for each_file in os.listdir(file_path):
            ori_path = file_path + '/' + each_file
            des_path = ''
            if not os.path.isdir(ori_path):
                if i <= 5000:
                    des_path = file_path + '/train/' + str(i) + '.txt'
                else:
                    des_path = file_path + '/test/' + str(i - 5000) + '.txt'
                print(type + '\t' + each_file)
                shutil.move(ori_path, des_path)
                i += 1

4、计算idf（逆向文件频率）。

|D|：语料库中的文件总数。
j：包含词语t的文件数目。

idfcount.py

import os
import re
import operator
import math

'''''path这里改成clean_data文件夹的位置'''
path = 'C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7'
tf = {}
idf = {}
'''''索引每一类路径'''
for file in os.listdir(path):
    type = file
    file_path = path + '/' + file
    tf_sum = 0
    tf = {}
    if os.path.isdir(file_path):
        i = 1
        sp = []
        file_path += '/train'
        '''''进入每一类的train文件夹'''
        for each_file in os.listdir(file_path):
            each_path = file_path + '/' + each_file
            f = open(each_path, 'r', encoding='utf-8')
            print(type + '\t' + each_file)
            rf = f.readlines()
            '''''将所有词加入列表sp中'''
            for each in rf:
                sp += each.split()
            f.close()
            for each in set(sp):
                if each in idf.keys():
                    idf[each] += 1
                else:
                    idf[each] = 1
'''''输出'''
f = open('idf.txt', 'w')
for (word, count) in idf.items():
    s = '%s %7lf' % (word, math.log(50001 / count, 10))  # 50000为总文档数，+1防止log1导致idf=0
    f.write(s + '\n')
f.close()

5、生成词袋

计算TF(词频)，然后将词和其对应的词频整合到dict.txt。之后合并成总词典total_dict.txt。

Grdict.py

import os

'''''此处改成clean_data的位置'''
path = 'C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7'
idf = {}
'''''读取idf值'''
f = open('idf.txt', 'r')
p = f.readlines()
for each in p:
    idf[each.split()[0]] = float(each.split()[1])
f.close()
'''''索引每一类路径'''
for file in os.listdir(path):
    type = file
    file_path = path + '/' + file
    tf = {}
    if os.path.isdir(file_path):
        i = 1
        sp = []
        f_dict = open(file_path + '/dict.txt', 'w')
        file_path += '/train'
        '''''进入每一类的train文件夹'''
        for each_file in os.listdir(file_path):
            each_path = file_path + '/' + each_file
            f = open(each_path, 'r', encoding='utf-8')
            print(type + '\t' + each_file)
            rf = f.read()
            '''''将所有词加入列表sp中'''
            sp = [one for one in rf.split()]
            f.close()
            for each in sp:
                if each in tf.keys():
                    tf[each] += 1
                else:
                    tf[each] = 1
        '''''找出前2000,根据tfidf降维'''
        tf = dict((sorted(tf.items(), key=lambda kv: ((kv[1] * idf[kv[0]]), kv[0]), reverse=True))[0:1999])
        '''''写单类dict，输出单词 词频'''
        for (word, fre) in tf.items():
            s = '%s %7d' % (word, fre)
            f_dict.write(s + '\n')
        f_dict.close()

生成的词袋如图：

TogetherDict.py

import os

'''''path这里改成data文件夹的位置'''
path = 'C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7'
total_dict = set()
'''''索引每一类路径'''
for file in os.listdir(path):
    type = file
    file_path = path + '/' + file
    if os.path.isdir(file_path):
        i = 1
        sp = []
        f = open(file_path + '/dict.txt', 'r')
        print(type + '\tdict.txt')
        p = f.readlines()
        for each in p:
            total_dict.add(each.split()[0])
        f.close()
'''''将每一类的dict合并为total_dict'''
f = open(path + '/total_dict.txt', 'w')
for word in total_dict:
    f.write(word + '\n')
f.close()

数据处理完成后进行两种分类器的实现：

朴素贝叶斯分类器：

代码报错未实现，报错原因猜测是处理的数据源导致的，具体为在取对数时出现负值，错误提示如附件1。

beiyesi.py

import os
import math
import time

import numpy as np

ROOTPATH = 'C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7'
global categories  # =  ['健康', '商业', '娱乐', '教育', '文化', '游戏', '烦恼', '生活', '电脑', '社会']#注意不可改变顺序！！！！
global cateCount
global CATENUM  # 类别总数
global VOCABULARYNUM
global bigDic
global gmatrix
global idfBook;


def form_big_dic():
    # 构造所有类别的词典
    global bigDic, categories
    bigDic = dict()
    contents = os.listdir(ROOTPATH)  # 电脑、烦恼、健康。。。。
    categories = []
    for each in contents:  # each是电脑、烦恼、健康等某一类
        if os.path.isdir(ROOTPATH + '\\' + each):  # 判断是文件夹，打开
            categories.append(each)
            bigDic[each] = read_file(ROOTPATH + '\\' + each + '\\' + 'dict.txt')
             #print(bigDic)
    # print(len(bigDic['电脑']))


# #读一个字典向量文件，返回一个字典
def read_file(filepath):
    with open(filepath) as fp:
        content = fp.read();
        book = content.split('\n')
        d = dict();
        for each in book:
            if each:  # each不为空
                temp = each.split()
                # print(temp)
                if len(temp) == 2:
                    d[temp[0]] = float(temp[1])
                else:
                    d[temp[0]] = 0
    return d


def P(word, vj):
    # P(wk|vj)=(nk+1) / (n+|Vocabulary|)
    nk = bigDic[vj].get(word, 0)  # 单词wk出现在Textj中的次数，若没有出现，则为0
    n = cateCount[vj]
    ans = (nk + 1) / (n + VOCABULARYNUM)
    # if(ans == 0):
    #     print("Im 0000000000000000000000")
    #     exit()
    return ans


# V为所有类的向量，text为待分类文本string，返回值为分类结果
def Vnb(text, V):
    max = -9999999999999999999999999999999999999
    tans = 0
    retu = ''
    l = text.split()
    for j in V:  # 对于每一类
        for word in l:  # 对弈一篇文本中的每一个单词
            idf = idfBook.get(word, math.log(50000, 10))
            time.sleep(0.001)
            # print("idf:", idf)
            # print(math.log(P(word, j) * idf, 10))
            # exit()
            tans = tans + math.log(P(word, j) * idf, 10)
            # print("tans=", tans)
            # exit()
        if tans > max:
            max = tans
            retu = j
        tans = 0
        # print("j=",retu,"max=",max)
    return retu



def cal_cateCount(categories):
    n = 0
    for vj in categories:  # each为健康等类别
        for key in bigDic[vj]:
            # print("key=",key)
            n = n + bigDic[vj][key]
        cateCount[vj] = n
        n = 0
    # 打印混淆矩阵


def print_matrix(matrix):
    print('{:>8}'.format(''), end='')
    for label in range(len(categories)):
        print('{:>7}'.format(categories[label]), end='')
    print('\n')
    for row in range(len(categories)):
        print('{:>8}'.format(categories[row]), end='')
        for col in range(len(categories)):
            print('{:>8}'.format(matrix[row][col][0]), end='')
        print('\n')
    # def print_matrix(matrix):


#     print(categories)
#     for i in range(len(categories)):
#         print(categories[i],matrix[i])
def classify_all_texts(rootpath, matrix):
    contents = os.listdir(rootpath)  # 电脑、烦恼、健康。。。。
    print(contents)  # 注意顺序！！！
    for each in contents:  # each是电脑、烦恼、健康等某一类
        if os.path.isdir(rootpath + '\\' + each):  # 判断是文件夹，打开
            texts = os.listdir(rootpath + '\\' + each + '\\' + 'test')
            for text in texts:
                with open(rootpath + '\\' + each + '\\' + 'test' + '\\' + text, encoding='utf-8') as fp:
                    string = fp.read()
                    vj = Vnb(string, categories)
                    i = categories.index(each)  # 实际值
                    j = categories.index(vj)  # 预测值
                    matrix[i][j][0] += 1
                    # print(matrix)
    print_matrix(matrix)


def cal_precision_and_recall(matrix):
    precisionList = []
    recallList = []
    for j in range(CATENUM):  # 先对列进行遍历
        sum = 0
        for i in range(CATENUM):
            sum = sum + matrix[i][j][0]
        a = matrix[j][j][0]
        recall = a / 5000
        precision = a / sum
        precisionList.append(precision)
        recallList.append(recall)
        print("类别：", categories[j])
        print("a:", a)
        print("sum:", sum)
        print("precision={} , recall={}".format(precision, recall))
    total_precision = np.mean(precisionList)
    total_recall = np.mean(recallList)
    print("total_precision={} , total_recall={}".format(total_precision, total_recall))


if __name__ == '__main__':
    # 计算十万篇文本的单词总数
    book = read_file(ROOTPATH + '\\' + "total_dict.txt")
    VOCABULARYNUM = len(book)
    #print(book)
    print("VOCABULARY=", VOCABULARYNUM)
    idfBook = read_file(ROOTPATH + '\\' + "idf.txt")
    # 构造所有类别的词典
    form_big_dic()
    # 计算每一类的位置总数
    cateCount = dict()
    cal_cateCount(categories)
    CATENUM = len(cateCount)
    print(cateCount)
    # 测试一篇文章
    # with open("C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/result7/诛仙/test/20.txt", encoding='utf-8') as fp:
    #     string = fp.read()
    #     vj=Vnb(string,categories)
    # 对所有文章进行分类
    gmatrix = [[[0] for j in range(CATENUM)] for i in range(CATENUM)]
    classify_all_texts(ROOTPATH, gmatrix)
    # 计算准确率和召回率
    cal_precision_and_recall(gmatrix)

SVM(支持向量机)分类器：

操作过程利用了libsvm工具包。

实验步骤：

首先利用create_train_test_File.py将训练集和测试集转换成libsvm支持的数据类型,产生train_tfidf_File.txt和test_tfidf_File.txt。

其次运行train.py调用libsvm库进行模型的训练，然后test.py对训练好的模型进行测试，输出测试结果，包括混淆矩阵和每一类的准确率、召回率、F测度，以及总的准确率、召回率、F测度。

实验结果：

SVM分类器结果:

混淆矩阵

准确率、召回率、F测度

实验总结：

通过复现实验，了解到了文本分类的整体流程。从实验数据的搜集、文本格式的转换处理，到分词并去除停用词，生成词典汇总。这些文本分析的前期工作，以及SVM分类器的实现。对于各个流程的实现有了初步的认识。在实验的过程中，我了解到了一些数据预处理的方法，对于分类算法的原理也有了认识与了解，接触了机器学习中的SVM分类器，同时还按照输出混淆矩阵来观察分类器的分类结果和通过计算准确率和召回率来对分类器性能进行评估。

附件1

Traceback (most recent call last):

File "", line 1, in

File "D:\Python\PyCharm\PyCharm 2020.1\plugins\python\helpers\pydev\_pydev_bundle\pydev_umd.py", line 197, in runfile

pydev_imports.execfile(filename, global_vars, local_vars) # execute the script

File "D:\Python\PyCharm\PyCharm 2020.1\plugins\python\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile

exec(compile(contents+"\n", file, 'exec'), glob, loc)

File "C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/beiyesi.py", line 169, in

classify_all_texts(ROOTPATH, gmatrix)

File "C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/beiyesi.py", line 120, in classify_all_texts

vj = Vnb(string, categories)

File "C:/Users/17974/Desktop/restart/graduate/Code/TextClassification-main/beiyesi.py", line 72, in Vnb

tans = tans + math.log(P(word, j) * idf, 10)

ValueError: math domain error

线程安全之乐观锁和悲观锁
锁可以从不同的⻆度分类。其中，乐观锁和悲观锁是⼀种分类⽅式。悲观锁：悲观锁就是我们常说的锁。对于悲观锁来说，它总是认为每次访问共享资源时会发⽣冲突，所以必须对每次数据操作加上锁，以保证临界区的程序同⼀时间只能有⼀个线程在执⾏。乐观锁：乐观锁⼜称为“⽆锁”，顾名思义，它是乐观派。乐观锁总是假设对共享资源的访问没有冲突，线程可以不停地执⾏，⽆需加锁也⽆需等待。⽽⼀旦多个线程发⽣冲突，乐观锁通常是使⽤⼀
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
OSPF知识之凹の鸥网络智能路由器
在网络工程师、系统工程师等岗位的面试中，OSPF（OpenShortestPathFirst，开放最短路径优先）是高频考点，尤其是对中高级网络岗位（如网络架构师、运维工程师）。以下是OSPF的核心考点和必须掌握的知识点，按优先级分类整理，帮助你高效备考：一、基础概念与核心机制OSPF的定义与特点定义：OSPF是一种基于链路状态（Link-State）的内部网关协议（IGP），用于在自治系统（AS）
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
macOS 上安装 Kubernetes（k8s）老兵发新帖 macos kubernetes 容器
在macOS上安装Kubernetes（k8s）主要有三种主流方案，以下根据安装复杂度、资源占用和适用场景分类说明，并附详细步骤：⚙️一、推荐方案：Minikube（单节点本地集群）适用场景：学习、开发测试、资源有限（需2-4GB内存）。安装步骤：安装依赖工具安装DockerDesktop（推荐）或VirtualBox：brewinstall--caskdocker或brewinstallvirt
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
草莓叶片病害识别与分类数据集 qq_38220914 分类数据挖掘人工智能
草莓作为一种重要的经济作物，在全球范围内广泛种植。然而，草莓生产过程中常常受到各种病害的困扰，其中叶片病害尤为严重。为了有效识别、检测和分类草莓叶片病害，构建一个高质量的数据集是至关重要的。本文介绍了一个针对草莓叶片病害识别检测与分类的数据集，该数据集涵盖了多种草莓叶片病害类型，包括白粉病、灰霉病、炭疽病、蛇眼病、叶斑病、黄萎病和根腐病。数据集构建过程中，采用了严格的图像采集、标注和预处理流程，确
植物病害识别：YOLO甘蔗叶片病害识别分类数据集
YOLO甘蔗叶片病害识别数据集,包含尾孢菌叶斑病，眼斑病，健康，红腐病，锈病，黄叶病6个常见病类别，3300多张图像，yolo标注完整，全部原始图像，应用数据增强。适用于CV项目，毕设，科研，实验等需要此数据集或其他任何数据集请私信
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
基于小样本学习的图像分类综述 cdyyyyyyy 学习分类机器学习
目录引言基本概念小样本学习方法分类1、数据增强2、迁移学习3、元学习小样本学习主流方法1、基于度量的小样本学习2、基于Pretraining+FineTuning的方法3、基于元学习的小样本学习总结引言因为课程设计要求，所以进行了关于小样本学习的调研。目前小样本学习还是一个比较热门的研究，很多关于小样本学习的论文也陆续发表。本文只是一个概述，具体方法研究还有待深入。基本概念小样本学习（FSL：Fe
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
【软件测试】从软件测试到Bug评审：生命周期与管理技巧卜及中软件工程(测试)bug 测试工具软件工程
文章目录一、软件测试的生命周期软件生命周期软件测试生命周期各阶段内容二、Bugbug的概念bug要素bug级别1.按严重程度（Severity）分类2.按优先级（Priority）分类示例冲突场景bug的生命周期三、测试时与开发人员意见不统一Bug是否描述清楚？站在用户角度重新思考问题Bug定级要有依据Bug评审一、软件测试的生命周期软件生命周期我们知道：软件生命周期（SoftwareDevelo
【C++】深入理解C++迭代器：概念、分类与自定义实现
文章目录前言1.迭代器的概念2.迭代器的作用3.迭代器的分类3.1按功能分类3.2按能否修改数据分类4.迭代器的本质迭代器的内部实现5.如何为自定义容器编写迭代器5.1定义迭代器5.2使用自定义迭代器前言1.迭代器的概念在C++中，迭代器（iterator）可以看作是一种指向容器元素的对象，它提供了类似指针的接口来访问容器中的元素。通过迭代器，程序员能够在不关心容器内部实现的情况下，安全地遍历容器
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
iOS 抓包工具有哪些？2025实用指南与场景推荐
在iOS平台调试网络请求，你可能会遇到无法代理、HTTPS加密、Pin验证、双向认证等诸多拦截。本文将围绕当下实用的iOS抓包工具进行全面介绍，从功能对比到典型场景帮助你找到最佳调试方案。工具分类及主要功能一览我们先从功能维度来看这些工具：工具名称HTTPS解密绕过Pin/双向认证App指定抓包拦截&修改网络层分析Charles✅❌❌✅❌Sniffmaster✅✅✅✅✅✅✅✅✅mitmproxy✅
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
Java IO流
目录一、IO流的分类（一）字节流1、InputStreamInputStream类中的成员方法FileInputStream的构造方法read()和read(byte[]b)代码示例：2、利用Scanner进行字符读取代码示例：3、OutputStreamOutputStream中的成员方法FileOutputStream代码示例示例一：示例二：示例三：示例四：示例五：追加写：（二）字符流1、Re
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

复现实验：文本数据的分类与分析

你可能感兴趣的:(分类,人工智能,nlp)