liu_endong

cnn文本分类——运行代码text-classification-cnn-rnn-master路上遇到的坑——自定义数据集

本文章主要是把自己的数据整理成和大神代码相符的数据，然后再使用大神的代码。

运行过程可能有些许地方没写清楚，可参考另一个博主文章 https://blog.csdn.net/weixin_40931845/article/details/83865877#

该博主参考本文章之后写的教程，可能比较清晰。

这几天在做综合实训（如果你看到这个文档，我猜你多半是hzau的学弟或者学妹，当然，假如带队老师还有这个项目。。像我一样，像我一样的看到这个压缩包的代码，遇到同样的问题，orz，），研究内容是文本分类。我选了实训要求的最后一步cnn做分类，其中遇到好多问题，首先参考大神的代码：

网上流传最多的是这个文件：text-classification-cnn-rnn-master，用了cnn和rnn，我只取了cnn，如果时间允许我也会做一下rnn的。

点击下载大神代码

环境：python3.6 tensorflow1.9.0 cuda9 windows10专业版

首先大神的代码运行就出了问题，我一直以为python文件要全部运行才可以，结果仔细看了大神的介绍，需要通过命令行运行的。附运行代码示例（注意更改程序中的文件路径，注：所有截图只是运行结果的部分图）：

运行这个开始训练

python run_cnn.py train

运行这个开始测试

python run_cnn.py test

接下来就是使用自己的语料，这里我们自己用的是复旦的语料，因为小组其他两个成员用的是这个语料做了朴素贝叶斯分类，然后我需要用同样的语料进行验证，更整理自己的语料时候花了很多时间。

生成语料步骤介绍如下：

.sh脚本我这儿运行不了，改了路径之后运行会直接删除文件夹下所有文件，一怒之下自学了脚本语言，改了他的脚本，代码如下，只不过是个拷贝各个分类文件下所有文件到同一个文件夹：

#!/bin/bash

# copy MAXCOUNT files from each directory

MAXCOUNT=6500

for category in $( ls D:/python/text-cnn/helper/txt/train); do
  echo item: $category

  dir=D:/python/text-cnn/helper/txt/train/$category
  newdir=D:/python/text-cnn/helper/txt/2
    
  

  COUNTER=1
  for i in $(ls $dir); do
    cp $dir/$i $newdir
    if [ $COUNTER -ge $MAXCOUNT ]
    then
      echo finished
      break
    fi
    let COUNTER=COUNTER+1
  done

done

这里我把所有子文件夹文件全部拷贝到2文件夹效果如图：

拷贝前：

拷贝后：

拷贝前各个文件夹文件数目不定，拷贝后到2文件夹，共计9804个文件。震惊！！我好像没用到这个啥6500。。

第二步是改py脚本把各个文件内容合并到一个文件里面，这里我会详细注释，代码如下：

#!D:/python/text-classification-cnn-rnn-master/helper/txt/1
# -*- coding: utf-8 -*-
"""
将文本整合到 train、test、val 三个文件中
"""
import os


def _read_file(filename):
    """读取一个文件并转换为一行"""
    with open(filename, 'r',encoding = 'utf-8',errors= 'ignore') as f:
        return f.read().replace('\n', '').replace('\t', '').replace('\u3000', '')


def file(dirname):
    """
        将多个文件整合并存到3个文件中
        d: 原数据目录
        文件内容格式:  类别\t内容
    """
    f_train = open('D:/python/text-cnn/helper/txt/1/s.train.txt', 'w',encoding = 'utf-8',errors= 'ignore')
    f_test = open('D:/python/text-cnn/helper/txt/1/s.test.txt', 'w',encoding = 'utf-8',errors= 'ignore')
    f_val = open('D:/python/text-cnn/helper/txt/1/s.val.txt', 'w',encoding = 'utf-8',errors= 'ignore')
    for category in os.listdir(dirname):   # 分类目录
        #cat_dir = os.path.join(dirname,category) #我发现这个得到的路径有问题：D:/python/text-cnn/helper/txt/2\C7-History932.txt有个反斜杠
        #cat_dir = os.path.abspath(category)  #然后换了这个之后很完美：D:\python\text-cnn\helper\C7-History932.txt都是反斜杠了啊啊啊啊！！但是目录不对！！
        #print(dirname)  #看一下dirname里面是啥 D:/python/text-cnn/helper/txt/2
        #print(category)  #看一下category里面是啥 C11-Space0001.txt
        cat_dir = dirname + '/'+  category  #目录名称无效。: 'D:/python/text-cnn/helper/txt/2/C11-Space0001.txt'  这个怎么不对了哦
        #print(cat_dir)  #看一下cat_dir里面是啥
        #if not os.path.isdir(cat_dir):
        #    continue
        files = os.listdir('D:/python/text-cnn/helper/txt/2') #我要cat_dir有何用，自己写一个路径哦...
        #print(files) #让我们来看看这里面到底有什么 ：是2文件夹下的所有文件名
        count = 0
        for cur_file in files:
            filename = os.path.join(dirname, cur_file)
            content = _read_file(filename)
            if count < 5000:
                f_train.write(category + '\t' + content + '\n')
            elif count < 6500:
                f_test.write(category + '\t' + content + '\n')
            else:
                f_val.write(category + '\t' + content + '\n')
            count += 1

        print('Finished:', category)

    f_train.close()
    f_test.close()
    f_val.close()


if __name__ == '__main__':
    file('D:/python/text-cnn/helper/txt/2')
    print(len(open('D:/python/text-cnn/helper/txt/1/s.train.txt', 'r',encoding = 'utf-8',errors= 'ignore').readlines()))   #'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte一怒之下删了所有utf-8
    print(len(open('D:/python/text-cnn/helper/txt/1/s.test.txt', 'r',encoding = 'utf-8',errors= 'ignore').readlines()))  # 'gbk' codec can't decode byte 0xaa in position 134: illegal multibyte sequence删了之后..我也是醉了哦
    print(len(open('D:/python/text-cnn/helper/txt/1/s.val.txt', 'r',encoding = 'utf-8',errors= 'ignore').readlines()))

看到这个界面真舒服：

过了几分钟，突然感觉不对劲，计算了一下，9800多个文件，平均一个文件5s，这要运行13个小时啊啊啊啊啊啊啊！！！

那我少选点把。。于是删除了同类里面的文件，这里删除同类文件，我是打算直接删了所有文件，然后在各个分类文件夹下删除文件，重新运行.sh脚本，这个拷贝运行很快的，当然，前提是你的笔记本也是4G运存+16G内存+1050ti，好了不说了，京东白条刚还完，吃了好几个月的土。。算一下大概半小时的量30*60/5=360，大概需要360个文件。这时候超算的作用就出来了，超级计算机并行运算，还是很快的，可能半个小时就能解决这9800个文件，而我需要12个小时甚至更多。

在这里还发现了一个问题，我看到大概只写了几十个文件，然后结果里面是几个G的信息。。有毒啊啊啊啊啊！！！

然后手动复制了9个文件试一下大概5秒钟不到运行完：啥玩意儿？？黑人问号脸....：

看来是字符问题，于是乎更改了一下代码，都改成gbk，然后还去掉了erros，出来的没有乱码，不知道之前为什么不能用gbk：

既然运行速度这么快。。那是不是因为之前有乱码，我有个大胆的想法。。咱们再来一次，艾玛我删了所有文件，那再来运行下我的.sh小脚本把，这次咱先不改文件数量。

来看看我们的.sh小可爱运行界面：

昨天改.sh时候没有写文档啊啊啊啊，其实昨天的更改之路还更有意思，差点给格盘了哦。。。因为.sh是脚本文件，运行之后如果有错误会一闪而过，然后我下载了git用bash命令行来查看错误信息，补一个bash界面：

咦，脚本运行好了，咱们的9804个项目又双叒叕回来了！！！那再来一遍：

看来是某个小文件偷偷在阻止我们运行，之前9个文件能运行时因为里面没有gbk解决不了的，那我们再加上errors：

运行了不到30个文件，又出现问题，已经1个G了！！！！！：

删了刚才的文件，重新运行，只读了一个文件，然而80多M的文件似乎在说我是傻逼：

于是乎，重新运行程序，不到1s中马上停止运行，还是出来了17m，看了下内容。。这，我好像就是傻逼，复制了几十遍吧：

为什么9个文件运行很快呢？我又重新复制了5个文件放进去，看了下运行结果，大概是5*5=25个文件，也就是循环了5次复制同一个文件内容，而9800个文件会循环9800次9800*9800个文件我滴妈呀，难怪会那么慢。。。也就是说我其实9800个文件只需要5秒钟吧。。好了，时间还行，这就来改改代码，改来改去终于成功了，然而得到的是顺序文档，也就是三个最终文档的数据可能完全不一样：

#!D:/python/text-classification-cnn-rnn-master/helper/txt/1
# -*- coding: utf-8 -*-
"""
将文本整合到 train、test、val 三个文件中
"""
import os


def _read_file(filename):
    """读取一个文件并转换为一行"""
    with open(filename, 'r',encoding = 'gbk',errors='ignore') as f:
        return f.read().replace('\n', '').replace('\t', '').replace('\u3000', '')


def file(dirname):
    """
        将多个文件整合并存到3个文件中
        d: 原数据目录
        文件内容格式:  类别\t内容
    """
    f_train = open('D:/python/text-cnn/helper/txt/1/s.train.txt', 'w',encoding = 'gbk')
    f_test = open('D:/python/text-cnn/helper/txt/1/s.test.txt', 'w',encoding = 'gbk')
    f_val = open('D:/python/text-cnn/helper/txt/1/s.val.txt', 'w',encoding = 'gbk')
    #for category in os.listdir(dirname):   # 分类目录
    #    cat_dir = os.path.join(dirname, category) #我发现这个得到的路径有问题：D:/python/text-cnn/helper/txt/2\C7-History932.txt有个反斜杠
        #cat_dir = os.path.abspath(category)  #然后换了这个之后很完美：D:\python\text-cnn\helper\C7-History932.txt都是反斜杠了啊啊啊啊！！但是目录不对！！
        #print(dirname)  #看一下dirname里面是啥 D:/python/text-cnn/helper/txt/2
        #print(category)  #看一下category里面是啥 C11-Space0001.txt
        #cat_dir = dirname + '/'+  category  #目录名称无效。: 'D:/python/text-cnn/helper/txt/2/C11-Space0001.txt'  这个怎么不对了哦
        #print(cat_dir)  #看一下cat_dir里面是啥
        #if not os.path.isdir(cat_dir):
        #  continue
        #cat_dir.replace('\\','/')
    files = os.listdir(dirname)
    #    print(cat_dir) #让我们来看看这里面到底有什么
    count = 0
    for cur_file in files:
        filename = os.path.join(dirname, cur_file)
        #print(filename)
        print(cur_file)
        content = _read_file(filename)
        if count < 5000:
                f_train.write(cur_file + '\t' + content + '\n')
        elif count < 7600:
                f_test.write(cur_file + '\t' + content + '\n')
        else:
                f_val.write(cur_file + '\t' + content + '\n')
        count += 1

        print('Finished:', cur_file)

    f_train.close()
    f_test.close()
    f_val.close()


if __name__ == '__main__':
    file('D:/python/text-cnn/helper/txt/2')
    print(len(open('D:/python/text-cnn/helper/txt/1/s.train.txt', 'r',encoding = 'gbk').readlines()))   #'utf-8' codec can't decode byte 0xd3 in position 0: invalid continuation byte一怒之下删了所有utf-8
    print(len(open('D:/python/text-cnn/helper/txt/1/s.test.txt', 'r',encoding = 'gbk').readlines()))  # 'gbk' codec can't decode byte 0xaa in position 134: illegal multibyte sequence删了之后..我也是醉了哦
    print(len(open('D:/python/text-cnn/helper/txt/1/s.val.txt', 'r',encoding = 'gbk').readlines()))

骚操作来了，取个count+1，然后给他取模，把9804个文件平均分到三个文件里，果然成功了：

至此，子集文件搞定，庆祝一下吧，比如出去上个厕所。。看看隔壁的漂亮小姐姐。

上了个厕所回来发现，问题来了，怎么人家的男孩子都有漂亮小姐姐，我怎么没有呢。。。咳咳，错了错了。怎么人家有四个文件，而我只有三个文件怎么办，于是打开他的第四个文件看了看，好家伙，这不正是停用词么，之前还在奇怪问什么这个cnn就不用停用词了，没想到在这里。ok，开始改路径（因为早上嫌文件名太长改了下，这下..emm.....）

改完文件名，先看这个

这个文件没有改文件名的，只有类别需要更改，于是乎，我的20个类别上场了，建议你做的时候先用10个，和源程序的个数一样，否则中间出了问题就不好办了。（尽量选择文件多的文件类别），结果如下，我猜测这是初始化向量表吧。。看不懂：

然后就是

这个。。。好像也不用改路径名，不知道这两个文件到底用来干啥的，结果：

在后面重点来了

然后看了run_cnn.py，好像真的没有用上前面两个的结果..

我怎么感觉多做了两步....

这里需要更改的路径也只有两个，算了不管了，直接运行吧.

有种不祥的预感：

想了想和原数据的区别，原数据按分类名保存文件，而我的是按各个文件名保存，所以是名字错了，那.......改吧。。从头再来。

我查到了剪切字符串代码，把文件名前三个字符减下来，因为前面的文件路径什么的实在是太烦了，用文件夹名字挺好，但是又得去搞定这该死的文件路径啥的。

结果如下，出现了C3-但是这个应该不影响吧：

文件搞定，跳转到上面步骤，这次让我来看看自己的教程吧....

loader再改一次以示敬意：

假如这玩意儿存在我的内存里面那他还是有用的，如果不存在，emm.....那我回去再想想...

同样，cnn_module再改以示敬意。

再删一次那个tensorboard/textcnn...

终于回到上一步了：

这有是啥啊啊啊啊啊啊啊啊啊啊啊啊啊！！！！

好吧，终于到了改矩阵代码了，这我根本就不会好吧...喵了个咪啊。。。

实在不想改矩阵代码，这玩意儿我暂时没学，还是乖乖回去把个分类改成10个吧，结果这...怎么还有8000多个文件哦。。

重复之前步骤，把train文件里的20个分类删10个，正好把那几个只有两个字符带“-”的删了，重复上面步骤：

成功了：

中间的2 4 6 8 9为嘛没有？？？

先不管了，再试试测试,运行成功？？？？

ok就这样，回头再看看rnn的吧，现在有事先不继续做下去了。

7.17补充：

1. 仔细看了代码，cnn_module.py cnn_loader.py 这两个代码是有用的，在run_cnn中调用。

2. 关于类别数目，除了修改cnn_loader里面的矩阵数目，还要修改cnn_module里面的类别数，通过修改这个，完成了2的分类，也就是说，可以完成任意数目的分类了：

机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

cnn文本分类——运行代码text-classification-cnn-rnn-master路上遇到的坑——自定义数据集

你可能感兴趣的:(机器学习)