唯余木叶下弦声

基于tensorflow2+textCNN的中文垃圾邮件分类

一、邮件数据集

二、文本分类

三、Text-CNN

四、搭建Text-CNN模型

五、实验结果

一、邮件数据集

本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库，点我下载。分为英文数据集（trec06p）和中文数据集（trec06c），其中所含的邮件均来源于真实邮件，并且还保留了邮件的原有格式（包括发送方、接收方、时间日期等等）和邮件中文内容。第二个链接即是中文文本的邮件数据集，点击链接即可下载。下载的压缩文件夹中，一个文件代表一封邮件，通过标签“spam”、“ham”进行区别是否垃圾邮件。“spam”表示是垃圾邮件，有4万多条。“ham”表示是正常邮件，有2万多条。

垃圾邮件示例

正常邮件示例

可以看到，垃圾邮件的内容一般是广告、推销类的有害信息，那么如何从这一大堆邮件中自动识别出垃圾邮件呢？

这实际上是一个文本分类任务，即将邮件文本分为垃圾邮件和正常邮件，简单地二分类。

二、文本分类

在互联网时代下，网络上积累了各式各样海量的数据及信息，不仅包括文本，还有声音、图像等等。文本的种类也是各式各样，可以是新闻、报告、邮件、电子书、网页内容等等，关于如何有效管理这些信息并快速实现情感分析或是文本分类等技术，这些年来出现了很多算法模型，实现效果也越来越佳。文本分类技术一直是自然语言处理领域中研究的热点之一，其应用领域非常广泛，例如本文要做的对垃圾邮件的判定，可以自动将邮件进行二分类，识别出垃圾营销的邮件。

文本自动分类技术相关的研究始于上世纪50年代末，那时候的文本分类主要是基于知识工程，用人工定义相应规则的方法来对文本进行分类，举个简单的例子：从一本笔记上分类出语数英各科的笔记内容，基于生活经验可以试着这样判断：带有公式的内容是数学知识，而用带有字母书写的是英语的内容，其余的就是语文知识了。

显然这种方法十分耗费时间和精力，并且需要对文本涉及领域有一定的了解，可迁移性较差，准确率也很低。分类的质量严重依赖于人工所制定的规则的好与坏，而知识工程最大的缺陷之处在于：不能简单移植到其他领域，所以完全没有推广价值。例如，一个针对教育领域构建的分类系统，如果要将它移植用在银行、保险等领域，其中对教育领域制定的规则就完全不能适应新的领域，需要推翻并重新制定规则。

到了上世纪90年代，当统计学习、机器学习方法不断发展，文本分类问题有了新的解决思路，即人工特征工程与浅层分类相结合，所以此问题就拆分为特征工程和分类器两个部分。首先通过在已经分类好的数据集上进行训练，从而建立判别规则或是分类器，即可对计算机没有“见过”的文本内容也就是测试集自动分类，最终得到输入样本的类别。其分类准确度比得上专家手工分类，且其学习不需要人工干预，有很好的可迁移性和稳定性，在这之后被广泛应用。但是这些方法仍然有着不可忽视的缺陷：需要人工进行功能设计，十分耗时。

对于较为传统的文本分类方法，其文本表示通常采用词袋模型或是向量空间模型。词袋模型是指，使每个词独立存在，没有与其他词之间的联系，所以会丢失部分语义信息。而且一旦词库量庞大，很可能会导致维度爆炸。向量空间模型利用特征项来降维，使词向量变得稠密，词与词之间联系相对紧密。

而自2010年以来，文本分类模型已逐渐从浅层学习模型变为深层学习模型，CNN、RNN、注意力机制被应用在文本分类中。与上世纪普遍流行的浅层学习模型相比，这些深层学习模型要更加便捷，无需人工设定规则和功能。

文本分类一般流程

与英文相比，中文的文本分类存在不同之处：

(1)、由于语言的差异，分词的思路不一样。中文文本分类需要从文本中切分出词汇，而英文通过空格和标点即可区分词汇。中文文本分类一般使用分词工具jieba，而英文分词常用NTLK，即Natural Language Toolkit，是自然语言处理工具包。

(2)、停用词不一样。停用词是文本中一些普遍使用的词语，对文档分析作用不大，在文档分析之前需要将这些词去掉。对中文文本来说，类似“他”、“是”、“之一”、“的”这样的词汇都会被去除，而英文需要消除“an”、“in”、“the”等。可以用分词工具提供的停用词，也可以自己构建一个停用词库并导入到程序中。

(3)、对于英文文本还需要多一步词根还原的操作。如writed和writing都应该还原成write。而中文词汇不需要进行此类操作。

不过中英文文本分类任务大致上的流程是一样的，一般是文本预处理、特征提取、构建分类模型并训练、评估模型等步骤。

文本预处理：大多数情况下，在文本内容中存在很多对分类任务无用甚至会妨碍的东西，例如特殊字符、停用词等。就要依次来对文本内容进行清洗，刨除不需要的部分。

特征提取：在分好词之后，不同的词汇对分类任务的贡献也不一样，例如，一看到“发票”、“五折”、“借贷”就能够判断大概率是垃圾营销内容，而看到“联系”、“发布”等词汇则无法做出判断。那么如何衡量不同词汇对分类任务的贡献程度呢？比如可以通过单词出现的次数，次数越多就表示越重要，但对于“你好”、“回信”这类常用词依然无法做出判断。所以合适的方法是计算词语的TF-IDF 值，词语的TF-IDF值可以描述一个词语对文档的重要性，TF-IDF值越大，则表示该词汇越重要。

建模：在提取特征之后，就可以按一定比例将数据划分为训练集、测试集，并使用训练集来对分类器进行训练。

评估：可以利用准确率、召回率等一些指标来衡量分类器的好坏与否。

三、Text-CNN

目前基于深度学习的文本分类模型已经成为了主流，例如CNN、RNN等深度学习网络以及它们的变体。从2014年Kim提出了Text-CNN模型起，深度学习在文本分类任务之中得到了广泛的关注和应用。CNN在这之前较多被用于图像处理领域，并取得了很好的效果。因为CNN能够很好地捕捉局部相关性，并且使用相同的滤波器，权值共享使CNN较于全连接神经网络很大程度地减少了参数。Text-CNN与传统的CNN网络相比较，在网络结构上没有任何变化，并且由于使用一维卷积即可，较于CNN网络甚至更简单了。

下图展现了2个Channel的Text-CNN文本分类过程：

以一个实例句子为例的两通道模型结构

从图中可以看出，Text-CNN分为四层：input layer输入层，convolutional layer卷积层，max-pooling layer池化层和最后输出的softmax layer。

与传统CNN相比，该模型做了一些小改变。由于Text-CNN处理的是文本数据而非图像数据，所以输入层使用word embedding来做文本表示，生成的是二维矩阵，第一个维度是句子的分词数量，第二个维度是词的向量表征即Word Embedding维数。在图像处理中，CNN使用的卷积核是二维的，但是Text-CNN的输入是词矩阵，比如说5000个词，每个词用64维的词向量表示，那么就得到5000×64的矩阵。而卷积核只在一个维度上滑动，而另一个维度与词向量的维度一致，即都是64，可以这样理解：每一次卷积核进行卷积的区域都是一个完整的词，令得词作为文本的最小粒度来进行分类工作，不会将词的一部分来进行卷积。

词嵌入（One-hot方式）

在卷积层对输入层的文本数据进行“提取特征”，可以自主选择卷积核的尺寸和数量。卷积核可以视作滑动的窗口，其尺寸大小就是每次卷积处理的词的数量，通常选择3、4、5，步长通常为1。在语言模型上可以理解为N-gram，即语义正常或者说像我们人说的话的n个词相互之间依赖出现的条件概率就越大。

池化层是对卷积层中提取的特征数据进行过滤，一般在卷积层之后都会接一个池化层。它主要有两个作用：一个是降维，例如池化区域尺寸为4，则特征向量的维数经过池化后会缩小4倍。另一个是可以将任意长度的输入数据和任意尺寸的卷积核映射成同一个维度的输出，就可以便于softmax层对其进行分类。而池化方式有max-pooling和average-pooling，大多数分类算法模型都是使用max-pooling比较多，虽然二者都对数据作下采样，但是max-pooling能够更好地选取突出特征，提供非线性。而average-pooling更注重于对整体的特征信息进行一层下采样，在降低纬度的同时，使信息完整地传递到下一层。

虽然Pooling层对整体的精度提升的效果帮助并不大，但是可以有效地减少整个网络的参数的数量，因为池化层不需要参数。其次，可以控制过拟合、提高网络模型的性能，所以池化层通常被连接在卷积层之后，尤为重要。

最后的softmax层将经过若干层卷积、池化处理的特征数据进行分类，其输出表示着各个类别的概率分布。

四、搭建Text-CNN模型

搭建模型

上图是Text-CNN模型结构。该模型先将文本数据输入到Embedding层，提取特征，降维映射成词向量。随后，经过一维卷积和最大池化操作，再将其输出结果“压平”，即把多维的输入一维化。随后输出到全连接层，并经过Dropout层，防止模型过拟合，最后通过softmax层进行分类输出标签值。

解压数据集压缩包：

!tar xvf ../input/hamspam/trec06c.tgz

代码：

#导入程序运行必需的库
from sklearn.model_selection import train_test_split
import pickle
from collections import Counter
import tensorflow as tf
import tensorflow.keras as keras
from tensorflow.keras import layers,optimizers
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
import numpy as np
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support
import time
import matplotlib.pyplot as plt
import re
import os


#-------------------数据预处理----------------------

# 根据路径打开文件 并提取每个邮件中的文本
def getMailTest(mailPath):
    mail = open(mailPath, "r", encoding="gb2312", errors='ignore')
    mailTextList = [text for text in mail]
    # 去除邮件头
    XindexList = [mailTextList.index(i) for i in mailTextList if re.match("[a-zA-Z0-9]", i)]
    textBegin = max(XindexList) + 1
    text = ''.join(mailTextList[textBegin:])
    # 去空格分隔符及一些特殊字符
    text = re.sub('\s+','',re.sub("\u3000","", re.sub("\n", "",text)))
    return text

# 通过index文件获取所有文件路径及标签值
def getPaths_Labels():
    targets = open("./trec06c/full/index", "r", encoding="gb2312", errors='ignore')
    targetList = [t for t in targets]
    newTargetList = [target.split() for target in targetList if len(target.split()) == 2]  
    pathList = [path[1].replace('..', './trec06c') for path in newTargetList]
    label_list = [label[0] for label in newTargetList]
    return pathList, label_list

# 获取所有文本
def getAllText(pathList):
    content_list = [getMailTest(filePath) for filePath in pathList]
    return content_list

# 0 为垃圾邮件 1 为正常邮件
def transform_label(label_list):
    i = 0
    list = []
    for x in label_list:
        f=(lambda x:0 if x == "spam" else 1)
        list.append(f(x))
        i=i+1
    return list

#-------------------文本分类----------------------
class TextClassification():
    #为超参数赋值
    def config(self):
        self.vocab_size = 5000   #词库大小
        self.seq_length = 600    #允许句子最大长度
        self.embedding_dim = 64  #词向量维度
        self.num_filters = 32  #卷积核数目
        self.kernel_size = 5  #卷积核尺寸
        self.hidden_dim = 32  #全连接层神经元
        self.dropout_keep_prob = 0.5  #dropout保留比例
        self.learning_rate = 1e-3  #学习率
        self.batch_size = 128   # 每批训练大小
        self.num_iteration = 5000 #迭代次数
        self.print_per_batch = self.num_iteration / 100 #每迭代5000/100=50次打印一次
    
    def __init__(self,content_list,label_list):
        self.config()
        train_X, test_X, train_y, test_y = train_test_split(content_list, label_list)
        self.train_content_list = train_X
        self.train_label_list = train_y
        self.test_content_list = test_X
        self.test_label_list = test_y
        self.content_list = self.train_content_list + self.test_content_list
        self.autoGetNumClasses()
    
    def autoGetNumClasses(self):
        label_list = self.train_label_list + self.test_label_list
        self.num_classes = np.unique(label_list).shape[0]
    

    #对字符串中的字符做统计计数，返回出现次数排名前vocabulary_size，即前5000
    def getVocabularyList(self, content_list, vocabulary_size):
        allContent_str = ''.join(content_list)
        counter = Counter(allContent_str)
        vocabulary_list = [k[0] for k in counter.most_common(vocabulary_size)]
        return ['PAD'] + vocabulary_list

    def prepareData(self):
        vocabulary_list = self.getVocabularyList(self.content_list, self.vocab_size-1)
        if len(vocabulary_list) < self.vocab_size:
            self.vocab_size = len(vocabulary_list)
        contentLength_list = [len(k) for k in self.train_content_list]
        if max(contentLength_list) < self.seq_length:
            self.seq_length = max(contentLength_list)
        self.word2id_dict = dict([(b, a) for a, b in enumerate(vocabulary_list)]) 
        self.labelEncoder = LabelEncoder()
        self.labelEncoder.fit(self.train_label_list)

    #文本内容转换为id
    def content2idList(self, content):
        return [self.word2id_dict[word] for word in content if word in self.word2id_dict]

    #文本内容列表content_list转换为特征矩阵X
    def content2X(self, content_list):
        idlist_list = [self.content2idList(content) for content in content_list]
        X = keras.preprocessing.sequence.pad_sequences(idlist_list, self.seq_length)
        return X

    #文本标签列表label_list转换为预测目标值Y，
    def label2Y(self, label_list):
        y = self.labelEncoder.transform(label_list)
        Y = keras.utils.to_categorical(y, self.num_classes)
        return Y
    
    #搭建卷积神经网络模型
    def buildModel(self):
        self.model = tf.keras.Sequential([
            layers.Embedding(input_dim=self.vocab_size,output_dim=self.embedding_dim,input_length=self.seq_length),  
            layers.Conv1D(self.num_filters,self.kernel_size, padding='same', activation=tf.nn.relu, name="a2"),
            layers.MaxPool1D(4, padding='same',name="a3"),
            layers.Flatten(name="a4"),
            layers.Dense(self.hidden_dim,name="a5",activation=tf.nn.relu),
            layers.Dropout(rate=self.dropout_keep_prob,name="Dense_Dropout"),
            layers.Dense(self.num_classes,activation=tf.nn.selu)])
    
    #训练模型；模型总共迭代训练num_iteration次，即5000次
    def trainModel(self):
        self.prepareData()
        self.buildModel()
        trainloss_list = []
        trainaccuracy_list = []
        optimizer = optimizers.Adam(learning_rate=0.01)
    
        train_X = self.content2X(self.train_content_list)
        train_Y = self.label2Y(self.train_label_list)
        startTime = time.time()
        len_Y=len(train_Y)
        
        for i in range(self.num_iteration):
            selected_index = np.random.randint(0, len_Y, size=self.batch_size)
            batch_X = tf.cast(train_X[selected_index],dtype=tf.float32)
            batch_Y = tf.cast(train_Y[selected_index],dtype=tf.float32)
            
            with tf.GradientTape() as gdt:
                pred_proba =  self.model(batch_X, training=True)
                predictions = tf.argmax(pred_proba, axis=1)
                y_true=tf.argmax(batch_Y, axis=1)
                tloss_ = self.loss_function(batch_Y, pred_proba)
                taccu_ = accuracy_score(y_true, predictions)
                trainloss_list.append(tloss_)
                trainaccuracy_list.append(taccu_)
            
            #计算梯度值
            grads = gdt.gradient(tloss_, self.model.trainable_variables)
            #更新权值
            optimizer.apply_gradients(zip(grads, self.model.trainable_variables))
            if i % self.print_per_batch == 0:
                used_time = time.time() - startTime
                print('epochs %d ==>loss is : %.5f, accuracy is : %.4f, time: %.2f'%(i,tloss_, taccu_,used_time))
                if tloss_ < self.learning_rate :
                    break
        if i == self.num_iteration -1 :
            used_time = time.time() - startTime
            print('epochs %d ==>loss is : %.5f, accuracy is : %.4f, time: %.2f'%(i,tloss_, taccu_,used_time))

        plt.figure(figsize=(26, 6))
        plt.subplot(1,2,1)
        plt.plot(trainloss_list)
        plt.subplot(1,2,2)
        plt.plot(trainaccuracy_list)

        
    #定义损失函数
    def loss_function(self,labels, pred_proba):
        loss = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=pred_proba)
        return tf.reduce_mean(loss)
    
    #定义准确率函数
    def compute_accuracy(self,labels, pred_proba):
        predictions = tf.argmax(pred_proba, axis=1)
        return accuracy_score(labels, predictions)
    
    
    #定义预测函数
    def predict(self, content_list):
        if type(content_list) == str:
            content_list = [content_list]
        batch_X = self.content2X(content_list)
        predict_y = tf.nn.softmax(self.model(tf.cast(batch_X,dtype=tf.float32)))
        predict_y=tf.argmax(predict_y, 1)
        predict_label_list = self.labelEncoder.inverse_transform(predict_y)
        return predict_label_list

    #定义predictAll，分批预测
    def predictAll(self):
        predict_label_list = []
        batch_size = 100
        for i in range(0, len(self.test_content_list), batch_size):
            content_list = self.test_content_list[i: i + batch_size]
            predict_label = self.predict(content_list)
            predict_label_list.extend(predict_label)
        return predict_label_list

    #打印混淆矩阵
    def printConfusionMatrix(self):
        predict_label_list = self.predictAll()
        df = pd.DataFrame(confusion_matrix(self.test_label_list, predict_label_list),
                     columns=self.labelEncoder.classes_,
                     index=self.labelEncoder.classes_)
        print('\n Confusion Matrix:')
        print(df)

    #打印评价指标
    def printReportTable(self):
        predict_label_list = self.predictAll()
        reportTable = self.eval_model(self.test_label_list,
                                 predict_label_list,
                                 self.labelEncoder.classes_)
        print('\n Report Table:')
        print(reportTable)
        
    def eval_model(self, y_true, y_pred, labels):
        p, r, f1, s = precision_recall_fscore_support(y_true, y_pred)
        tot_p = np.average(p, weights=s)
        tot_r = np.average(r, weights=s)
        tot_f1 = np.average(f1, weights=s)
        tot_s = np.sum(s)
        res1 = pd.DataFrame({
            u'Label': labels,
            u'Precision': p,
            u'Recall': r,
            u'F1-score': f1,
            u'Support': s
        })
        res2 = pd.DataFrame({
            u'Label': ['总体'],
            u'Precision': [tot_p],
            u'Recall': [tot_r],
            u'F1-score': [tot_f1],
            u'Support': [tot_s]
        })
        res2.index = [999]
        res = pd.concat([res1, res2])
        return res[['Label', 'Precision', 'Recall', 'F1-score', 'Support']]
    
#run
pathList, label_list = getPaths_Labels()
content_list = getAllText(pathList)
label_list = transform_label(label_list)

model = TextClassification(content_list, label_list)
model.trainModel()   #训练模型
model.printConfusionMatrix()  #打印混淆矩阵
model.printReportTable()  #打印评价指标

五、实验结果

使用GPU运行

混淆矩阵
	ham	spam
ham	5074	296
spam	51	10734

评价指标
Label	Precision	Recall	F1-score	Support
spam	0.973164	0.995271	0.984094	10785
ham	0.990049	0.944879	0.966937	5370
all	0.978777	0.978521	0.978390	16155

loss

本次使用Text-CNN模型进行垃圾邮件分类，评估指标F1score为0.978左右，总体来说这个分类模型很优秀，分类准确率也在0.978左右。而且模型不算复杂，可以在很短的时间内完成训练，用CPU整个跑一遍差不多10分钟。我是在kaggle notebook用GPU跑的，总用时75s。

参考：

基于tensorflow+CNN的垃圾邮件文本分类 - 简书

Python实例题：基于 Flask 的博客系统狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：1.base.html2.index.html3.post.html4.create_post.html5.login.html6.register.htmlPython实例题题目基于Flask的博客系统要求：使用Flask框架构建一个简单的博客系统。实现用户认证（注册、登录、注销）。支持博客文章的创建、编辑、删除和查看。使用SQLite数据库存
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
Ansible部署MySQL实操码农运维知识运维 mysql ansible mysql
一、Ansible概述Ansible是一款开源的自动化运维工具，由MichaelDeHaan于2012年创建，2015年被红帽（RedHat）收购（收购金额超1亿美元）。它基于Python开发，通过SSH协议实现远程节点管理，无需在被控端安装任何客户端代理（Agentless）。这种设计使其成为轻量级、易部署的自动化解决方案，特别适合批量系统配置、应用程序部署和任务编排等场景。核心特点无代理架构：
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
AI绘画背后的技术：Stable Diffusion原理详解与实战 AI学长带你学AI ai
AI绘画背后的技术：StableDiffusion原理详解与实战关键词：StableDiffusion、扩散模型、AI绘画、潜在空间、文本生成图像摘要：本文将带你揭开AI绘画“魔法”背后的核心技术——StableDiffusion的神秘面纱。我们会用“给小学生讲故事”的方式，从生活中的例子出发，逐步解释扩散模型的底层逻辑、StableDiffusion的关键创新，并用Python代码实战演示如何生
matplotlib 绘制热力图扶子 python matplotlib绘图代码 matplotlib python 经验分享热力图
1、功能介绍：使用了matplotlib和seaborn两个python库来创建并显示一个热力图。热力图是一种通过颜色变化来表示二维表格数据集中值分布的图形，适合用于展示矩阵数据或数据分析结果中的模式和趋势。2、代码部分：importmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnp#设置中文字体plt.rcParams['font.sa
open3d 使用 RANSAC 算法拟合平面扶子 python 点云处理平面 python open3d 经验分享点云拟合平面
1、功能介绍：一个python代码演示了如何使用open3d和numpy来完成一个完整的点云平面拟合任务。它包括以下几个主要部分：生成符合某一平面方程的随机点云数据、使用RANSAC算法对这些点云进行平面拟合、可视化原始点云和平面拟合结果2、代码部分：importnumpyasnpimportopen3daso3d#生成随机点云np.random.seed(42)n_points=100#假设这些
pycharm——djiango之数据迁移，终端操作 Pop– python
首先在pycharm中找到terminal(终端)，输入指令：pythonmanage.pymakemigrations之后你会看到如下图：这表示创建成功。接着输入指令：pythonmanage.pymigrate就能看到好多ok，你在数据库中也能看到很多表你可以在终端打开数据库查看表，也可以使用客户端的可视化界面查看，还可以在pycharm中右边的database里边打开查看，如下图：之后你就可
python 百度云api_Python使用百度API上传文件到百度网盘代码分享 weixin_39775577 python 百度云api
#coding:UTF-8importurllibimporturllib2__author__='Administrator'fromposter.encodeimportmultipart_encodefromposter.streaminghttpimportregister_openersregister_openers()defupload(fileName):"""通过百度开发者API
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
Flask入门基础1 浅清陌 Flask flask python 后端
1Flask简介Flask诞生于2010年，是Arminronacher（阿明·罗纳彻）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用Flask扩展加入ORM、窗体验证工
C++封装python调用库技术大白 c++开发语言
传结构体中间用空字符串问题使用callback传输结构体，中间出现\0字符，使用std::vector类型voidPyProcessInterface::ProcessContent(constchar*buff,UINT32size,boolfromSelf){if(callback){std::vectordataVec(buff,buff+size);callback(std::move(d
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
量化价值投资入门：Fama-French三因子模型详解与实战应用量化价值投资入门到精通 ai
量化价值投资入门：Fama-French三因子模型详解与实战应用关键词：量化投资、Fama-French三因子模型、价值投资、因子投资、资产定价、Python实现、投资组合管理摘要：本文深入解析Fama-French三因子模型的理论基础、数学原理和实际应用。作为现代金融学最重要的资产定价模型之一，三因子模型通过市场因子、规模因子和价值因子解释股票收益差异。我们将从模型起源开始，详细讲解其数学表达和
Python操作百度网盘指南 weixin_47233946 编程 python 开发语言
##介绍百度网盘是中国流行的云存储服务，通过API可以实现自动化操作。本指南介绍如何使用Python操作百度网盘，包括上传、下载、管理文件等功能。##准备工作###1.获取百度网盘开发者权限1.访问[百度开发者中心](https://pan.baidu.com/union/home)2.注册开发者账号并创建应用3.获取API密钥（AppKey和SecretKey）###2.安装必要的Python库
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
Python基础（吃洋葱小游戏） aaiier python pygame 开发语言
下面我将为你设计一个"吃洋葱小游戏"的Python实现方案，使用Pygame库开发。这个游戏模拟吃洋葱的过程，玩家需要收集不同种类的洋葱以获得高分，同时避免吃到辣椒。吃洋葱小游戏-Python实现方案1.游戏设计概念游戏目标：玩家控制角色吃掉尽可能多的洋葱获得高分核心机制：洋葱从屏幕上方随机下落玩家左右移动角色接住洋葱不同洋葱有不同分值（普通洋葱+10，红洋葱+20，紫洋葱+50）辣椒会扣减生命值
模拟工作队列 - 华为OD机试真题(JavaScript卷) 什码情况算法面试 javascript 数据结构华为od
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述让我们来模拟一个工作队列的运作，有一个任务提交者和若干任务执行者，执行者从1开始编号。提交者会在给定的时
数据分类 - 华为OD机试真题(JavaScript 题解) 什码情况华为od javascript 开发语言数据结构算法机试
华为OD机试题库《C++》限时优惠9.9华为OD机试题库《Python》限时优惠9.9华为OD机试题库《JavaScript》限时优惠9.9针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。看不懂有疑问需要答疑辅导欢迎私VX：code5bug题目描述对一个数据a进行分类，分类方法为：此数据a（四个字节大小）的四个字节相加对一个给定的值b取模，如果得到的
odrive软件的版本 m0_55305757 stm32 电机嵌入式硬件 odrive
odrive软件的版本0.4.0通信方面引入一个fibre变复杂了（节点还是手工生成的），cpp程序开始变多了。（sensorless我看到变成独立文件了）pythontool开始使用pip安装形式。0.5.0开始支持spi的encoder，as5047之类0.5.1据说之后的版本controlloop开始变化0.5.2开始应该是大修改了//RequiredtouseOC4forADCtrigge
构建智能对话式BI的关键：ChatBI场景下的Agent框架选型深
写在前面在数据驱动决策的时代，商业智能（BI）工具扮演着至关重要的角色。然而，传统BI工具往往需要用户具备一定的SQL知识或熟悉复杂的操作界面。对话式BI（ChatBI）的出现，旨在通过自然语言交互，让任何人都能轻松获取数据洞察，极大降低了数据分析的门槛。构建一个强大、灵活且可扩展的ChatBI应用，其核心离不开一个合适的Agent框架。Agent框架如同应用的“龙骨”，为LLM赋予了感知、思考、
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
DeepSeek在性能测试中的应用：AI驱动的性能优化之旅程序员小雷性能优化功能测试测试工具单元测试测试用例 postman selenium
上次我们讨论了DeepSeek在自动化测试中的应用，今天我们继续深入探讨如何使用DeepSeek来进行性能测试。性能测试往往涉及大量数据分析和性能瓶颈诊断，这正是AI的强项。让我们看看如何借助DeepSeek的强大能力，让性能测试变得更智能、更高效。1.性能测试场景生成器首先，我们需要一个智能的性能测试场景生成器：classPerformanceScenarioGenerator:def__ini
ROS学习笔记5：常用API和模块导入
前言本人ROS小白，利用寒假时间学习ROS，在此以笔记的方式记录自己每天的学习过程。争取写满15篇(5/15)。环境：Ubuntu20.04、ROS1：noetic环境配置：严格按照下方学习链接的教程配置，基本一次成功。学习链接：【Autolabor初级教程】ROS机器人入门对应链接文档：ROS机器人入门课程《ROS理论与实践》笔记绝大部分代码使用Python语言编写。本期关键词：初始化，话题服务
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
对话式数据分析与Text2SQL Agent产品可行性分析思考
Text2SQLAgent产品可行性分析报告版本BG：基于一些手撸Text2SQL的产品MVP，进一步进行商业化思考。目标输出包含市场、技术、开发、商业模式及护城河策略的完整可行性分析报告，支撑产品决策。✅市场调研与竞品分析研究内容：市场现状与趋势全球Text2SQL技术应用场景（金融、零售、医疗等）2023-2028年复合增长率（CAGR）及驱动因素（如低代码、AI民主化）竞品分析矩阵竞品类型代
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

基于tensorflow2+textCNN的中文垃圾邮件分类

一、邮件数据集

二、文本分类

三、Text-CNN

四、搭建Text-CNN模型

五、实验结果

你可能感兴趣的:(深度学习,python,数据分析,tensorflow,深度学习,cnn)