威少的书童

企业实践课——基于自然语言处理的期刊文本分类

基于多种机器学习算法的期刊文摘文本分类

摘要： 本文主要通过机器学习的常规算法模型来对期刊文摘数据进行分析预测，期刊文摘的每一条数据都是一个文本数据，可以当作特征值，文摘类别就是数据的标签。通过已有数据进行文本分析，形成一个有效的训练模型来预测期刊文摘的类别。再结合词频统计绘制词云来找出不同期刊文摘类别的特征文字。
首先本文对期刊文摘数据进行了初步的探索，统计了每一种类别期刊的数据条数，经济类期刊的数据数量最多，达到了1601条，通信类的期刊数据条数最少，仅有27条。接着我们对期刊文摘的文本数据进行jieba中文分词。将文本数据的特征提取出来转换成用数字表示的词频矩阵，然后再用TF-IDF算法计算每个词在文章中的重要程度。把处理好的数据放入不同的模型中进行训练，然后根据预测准确率来判断模型的好坏。我们依次使用了，Naive Bayesian Model、KNN、Logistic Regression、SVM、XGBoost算法模型。其中XGBoost的预测准确率高达为96.43%，是本文中使用的所有机器学习模型中预测准确率最高的，SVM模型的预测准确率有91.68%，Logistic Regression模型的预测准确率有90.92%，Naive Bayesian Model模型的预测准确率有，KNN的准确率有87.89%。
在完成了基本要求的几种算法模型之后，我们又探索了一些要求中未提到的机器学习算法，例如Decision Tree、Random Forest、Etra Trees、AdaBoost、LightGBM、GDBT,这些模型的准确率在17%~97%之间波动，其中效果最好的是LightGBM模型，其准确率为96%，逼近XGBoost模型的训练效果，其他的算法准确率基本都在85%，但AdaBoost模型的准确率却出奇的低，初步分析可能是受到样本数据分布不均衡影响。
因为期刊文摘的不同类别数据分布很不均衡，导致了所有训练出来的分类器在预测经济、计算机等数据样本较多的期刊文摘类别时，预测准确率较高，普遍超过了90%，且有个别类别甚至接近100%，但是在预测交通、通信等样本数据偏少的类别时，预测的准确率十分低，严重的影响了整体的预测准确率。也正是如此我训练的所有模型的天花板就是在97%，只有在以后使用SMOTE过采样等解决数据样本不均衡的方法才有可能突破瓶颈，将整体的预测效果提高。
最后按照不同期刊文摘类别绘制出每个类别期刊的词云
关键词：中文分词，XGBoost，KNN，Logistic Regression，机器学习

图目录
图 1 原始数据集结构示意图
图 2 不同类别的期刊文摘数目统计图
图 3全概率公式示意图
图 4随机森林示意图
图5逻辑回归分布函数
图6 Level-Wise生长策略示意图
图7 Leaf-Wise生长策略演示
图8 AdaBoost算法演示步骤一
图9 AdaBoost算法演示步骤二
图 10 SVM分类示意图
图 11支持向量机模型评估
图 12支持向量机主要分类指标
图 13 支持向量机准确率5折交叉验证
图 14 XGboost 模型评估
图 15 XGBoost主要分类指标
图 16 XGBoost 准确率5折交叉验证
图 17 KNN模型评估
图 18 KNN主要分类指标
图 19 KNN 准确率5折交叉验证
图 20 Logistic Regression 模型评估
图 21 Logistic Regression 主要分类指标
图 22 逻辑回归准确率5折交叉验证
图 23 朴素贝叶斯模型评估
图 24 朴素贝叶斯主要分类指标
图 25 朴素贝叶斯准确率5折交叉验证
图 26 Decision Tree模型评估
图 27 Decision Tree 主要分类指标
图 28 决策树准确率5折交叉验证
图 29 Random Forest模型评估
图 30 Random Forest 主要分类指标
图 31 随机森林准确率5折交叉验证
图 32 ETrees 模型评估
图 33 ETrees 主要分类指标
图 34 Etra Trees 准确率5折交叉验证
图 35 AdaBoost模型评估
图 36 AdaBoost 主要分类指标
图 37 AdaBoost 准确率5折交叉验证
图 38 LightGBM模型评估
图 39 LightGBM主要分类指标
图 40 LightGBM 准确率5折交叉验证
图 41 GDBT模型评估
图 42 GDBT主要分类指标
图 43 经济类期刊文摘词云
图 44 计算机类期刊文摘词云
图 45 法律类期刊文摘词云
图 46 环境类期刊文摘词云
图 47 交通类期刊文摘词云
图 48 教育类期刊文摘词云
图 49 空间类期刊文摘词云
图 50 矿藏类期刊文摘词云
图 51 历史类期刊文摘词云
图 52 能源类期刊文摘词云
图 53 农业类期刊文摘词云
图 54 时政类期刊文摘词云
图 55 体育类期刊文摘词云
图 56通信类期刊文摘词云
图 57 文学类期刊文摘词云
图 58 医疗类期刊文摘词云
图 59 艺术类期刊文摘词云
图 60 哲学类期刊文摘词云

问题介绍

二、小组成员分工

思路分析

四、方法概述

4.3 Decision Tree

4.4 Random Forest

4.5 Extra Trees

4.6 XGBoost

4.7 KNN

4.8 Logistic Regression

4.9 LightGBM

5. 3结果分析

5.4 不同模型训练评估结果截图

5. 5 不同期刊文摘类别的词云图

六、总结

总结
本次项目是一个文本分类型数据分析项目，因为之前有做过类似的项目所以一上来真个流程都比较熟悉。
处理数据，分词这些环节都很顺畅，没有遇到什么问题，但是在去除停用词的时候却出现了问题。一开始是读取停用词的词库文件报错，当时我在停用词库文件里面大致浏览了一下，以为是个别符号的问题，就在百度里面找了一些其他来源的中文停用词库，比如百度的停用词库、哈工大的停用词库等，但是依然没能解决报错。后来在CSDN里面查到确实是因为停用词库里面的数据有个别的错误，需要在读取数据的时候设定相应的参数，让程序忽略读取文件时出现的个别错误。
解决了停用词库的问题以后，又接着卡在了去除停用词这个地方，换行符和空格无法完全去除干净。一直没有找到原因所在，后来进行特征提取的时候也并没有受到影响。
在特征提取环节我们试了两种不同的方法，第一种是TF-IDF算法，可以对全部数据使用，最后得到的模型训练效果较好。第二种方法词袋模型，如果使用全部数据就会出现内存溢出，即便是进行SVD降维也会出现内存溢出问题。而且词袋矩阵中有太多的无意义值，也就是0值，属于稀疏矩阵，有效存储并不大。所以后面的新算法探索阶段我们就直接放弃了词袋模型，直接使用TF-IDF算法进行特征提取。
在数据降维的时候一直出现报错，后来查了不少资料才得以解决。主要是因为调用降维函数的时候没有设定维度参数，所以引起了后面模型训练的错误。
在训练模型的时候，明显感觉到支持向量机的计算过程十分漫长，计算出来的准确率在91%上下波动，谈不上很好，但是也不算差。表现最好的就是XGBoost模型的训练效果，准确率巅峰值可以达到97%左右，而且计算的时间远少于支持向量机。
在项目要求的几种算法训练测试完成以后，我们还探索了一些新的算法。LightGBM、AdaBoost、GDBT、Extra Trees、Decision Tree、Random Forest等。这些算法模型基本都是基于树模型而建立的，除了Decision Tree，其他几种新的模型都算是树模型的集成学习模型。尽管他们的底层基础十分类似，中间的训练过程还是有较大的不同，分类的方法也不尽相同。最后训练出来的结果更是相差甚远。训练效果最好的是LightGBM模型，准确率最好情况下达到了96.32%，而效果最差的是AdaBoost模型，准确率仅有17%，这是一个十分差的结果。
不足
这次企业实践项目整体上完成度高，尝试了多种不同的算法，但是在前期的数据探索和处理环节还不够深入，有点浅尝辄止。一方面是后面是时间相对有点紧迫，另一方面是本次的重点在于模型建立和训练分类器。所以就没有花太多的时间去进行数据探索，相关的数据描述性统计和分析也比较匮乏。
其次是在特征提取环节，仅调用了sklearn中TF-IDF算法模型和词袋模型，没有再去尝试其他第三方库提供的特征提取模型，即便是相同的TF-IDF算法在不同的第三方库中，内部的实现机制也是有千差万别的。所以特征提取的方法难免显得单调。
在数据的分布处理上没有去解决样本分布不均衡问题，经济类，计算机等类别的期刊文摘数据条数较多，都有1500条以上，但是交通、通信等类别的期刊文摘仅有几十条数据，样本分布yanzho能够不均衡，这也导致训练出来的所有模型都只对经济、计算机等拥有样本数量偏多的类别预测精准，而对交通、通信等拥有样本较少的类别预测十分不准。
改进
虽然这次课程时间比较紧迫，内容丰富，部分算法很具有挑战性。但是未来我还有很多时间去深入探究这次课程的内容。
首先就是要把本次所有使用到的算法原理和过程弄明白，然后自己实现这些算法，而不仅仅是局限于调用已经封装好的第三方库。
然后就是在特征提取上，要尝试其他库中的特征提取方法。
最后就是在数据分布上尝试欠采样或者SMOTE过采样来平衡样本数据分布，让训练器对每一个类别的训练效果都可以得到显著的提升和综合性能均衡。
这次实践课程收获很多，接触了很多原来不熟悉的机器学习算法，对于自然语言处理的整个项目流程也有了更加深入的了解和认识，当然这个过程也充满了挑战和困难，但是老师的耐心指导和讲解帮我解决了实践过程中的困难。

附录

完整代码

'''
python3.7
-*- coding: UTF-8 -*-
@Project -> File   ：Code -> NLP
@IDE    ：PyCharm
@Author ：YangShouWei
@USER: 296714435
@Date   ：2021/4/26 14:34:37
@LastEditor:
'''
import pandas as pd
import jieba
import csv


from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text  import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, classification_report,  accuracy_score, recall_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
import SVD
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
import warnings
from sklearn.ensemble import AdaBoostClassifier
from sklearn import decomposition
from sklearn.ensemble import ExtraTreesClassifier
from lightgbm import LGBMClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import metrics
warnings.filterwarnings('ignore')

from sklearn.model_selection import cross_val_score

def description(s, y_predict, y_test):
    print(s+"模型评估：")
    # print("精确率：",precision_score(y_test, y_predict, average=None))  # 精确率
    print("精确率：", precision_score(y_test, y_predict, average='micro'))   # 微平均，精确率
    print("准确率", accuracy_score(y_test, y_predict))  # 准确率
    print("召回率：", recall_score(y_test, y_predict, average='micro'))
    print("f1-Score", metrics.f1_score(y_test, y_predict, average="weighted"))
    # print("roc：", metrics.roc_auc_score(y_test, y_predict,  multi_class='ovo'))
    # print(confusion_matrix(y_test, y_predict))
    print("主要分类指标的文本报告：")
    print(classification_report(y_test, y_predict))


def Logitic(x_train, y_train, x_test, y_test):
    """
    逻辑回归模型
    :param x_train:训练集特征值
    :param y_train:训练集标签
    :param x_test: 测试集特征值
    :param y_test: 测试集标签
    :return:None
    """
    print("逻辑回归模型开始计算...")

    # 用逻辑回归进行预测
    lg = LogisticRegression(solver="sag")
    #将数据集放入模型进行训练
    lg.fit(x_train,y_train)

    # print("逻辑回归的预测准确率：",lg.score(x_test,y_test))
    # 模型评估
    description("逻辑回归", lg.predict(x_test), y_test)
    Cross_valid(lg, x_train, y_train, 5)


def naviebayes(x_train, y_train, x_test, y_test):
    """
    朴素贝叶斯
    :param x_train:训练集特征值
    :param y_train:训练集
    :param x_test:
    :param y_test:
    :return:
    """

    print("朴素贝叶斯开始计算...")

    # 进行朴素贝叶斯算法的预测
    mlt = MultinomialNB(alpha=0.4)

    #将训练集放入模型中开始训练
    mlt.fit(x_train, y_train)

    # 模型评估
    description("朴素贝叶斯", mlt.predict(x_test), y_test)
    Cross_valid(mlt, x_train, y_train, 5)


def svm_model(x_train, y_train, x_test, y_test):
    """
    支持向量机
    :param x_train:训练集特征值
    :param y_train:训练集标签
    :param x_test: 测试集特征值
    :param y_test: 测试集标签
    :return:None
    """
    print("支持向量机开始计算...")
    # 用支持向量机模型进行预测
    svm_clf = SVC(kernel="linear", verbose=False)
    # 将训练集数据放入模型进行训练
    svm_clf.fit(x_train, y_train)

    # 预测结果
    # print("支持向量机的预测准确率：",svm_clf.score(x_test, y_test))
    #模型评估
    description("支持向量机",svm_clf.predict(x_test), y_test)
    Cross_valid(svm_clf, x_train, y_train, 5)


def DecisionTree(x_train, y_train, x_test, y_test):
    """
    决策树模型
    :param x_train:训练集特征值
    :param y_train:训练集标签
    :param x_test: 测试集特征值
    :param y_test: 测试集标签
    :return:None
    """
    print("决策树开始计算...")

    # 用决策树进行预测
    dec = DecisionTreeClassifier(max_depth=8) # 传入最大深度值
    #将训练集放入模型开始训练
    dec.fit(x_train, y_train)

    print("决策树模型预测率：",dec.score(x_test,y_test))
    # 模型评估
    description("决策树", dec.predict(x_test), y_test)
    Cross_valid(dec, x_train, y_train, 5)


def RandomForest(x_train, y_train,x_test,y_test):
    """
    随机森林
    :param x_train:训练集特征值
    :param y_train:训练集标签
    :param x_test: 测试集特征值
    :param y_test: 测试集标签
    :return:None
    """
    print("随机森林算法模型开始计算...")

    #用随机森林模型进行预测
    rfc = RandomForestClassifier()
    #将训练集放入模型进行训练
    rfc.fit(x_train, y_train)

    print("随机森林模型准确率：",rfc.score(x_test, y_test))
    # 模型评估
    description("随机森林", rfc.predict(x_test), y_test)
    Cross_valid(rfc, x_train, y_train, 5)

def KNeighbors(x_train, y_train, x_test, y_test):
    """
    K近邻算法
    :param x_train:训练集特征值
    :param y_train:训练集标签
    :param x_test: 测试集特征值
    :param y_test: 测试集标签
    :return:None
    """
    print("K近邻算法开始计算...")

    #进行K近邻算法的预测
    knn = KNeighborsClassifier()
    #将训练集放入模型中开始训练
    knn.fit(x_train,y_train)

    print("K近邻的预测准确率：",knn.score(x_test,y_test))
    # 模型评估
    description("K近邻", knn.predict(x_test), y_test)
    Cross_valid(knn, x_train, y_train, 5)

import numpy as np
def XGBoost(x_train, y_train,x_test,y_test):
    """
    XGBoost模型
    :param x_train:
    :param y_train:
    :param x_test:
    :param y_test:
    :return:
    """
    # print('XGBoost')
    xgb = XGBClassifier(random_state=0)
    xgb.fit(x_train, y_train)



    print("XGB模型准确率：", xgb.score(x_test, y_test))

    # 模型评估
    description("XGBoost:", xgb.predict(x_test), y_test)
    Cross_valid(xgb, x_train, y_train, 5)



def AdaBoost(x_train, y_train,x_test,y_test):
    """
    AdaBoost算法
    :param x_train:
    :param y_train:
    :param x_test:
    :param y_test:
    :return:
    """
    ada = AdaBoostClassifier(random_state=0)
    ada.fit(x_train,y_train)
    description("AdaBoost", ada.predict(x_test), y_test)
    Cross_valid(ada, x_train, y_train, 5)


def GDBT(x_train, y_train,x_test,y_test):
    """
    GDBT算法
    :param x_train:
    :param y_train:
    :param x_test:
    :param y_test:
    :return:
    """
    gdbt = GradientBoostingClassifier(random_state=0)
    gdbt.fit(x_train,y_train)
    description("GDBT", gdbt.predict(x_test), y_test)
    Cross_valid(gdbt, x_train, y_train, 5)


def LGBM(x_train, y_train,x_test,y_test):
    """
    LightGBM算法
    :param x_train:
    :param y_train:
    :param x_test:
    :param y_test:
    :return:
    """

    lgbm = LGBMClassifier(random_state=0)
    lgbm.fit(x_train, y_train)
    description("LGBM", lgbm.predict(x_test), y_test)
    Cross_valid(lgbm, x_train, y_train, 5)


def EtraTress(x_train, y_train,x_test,y_test):
    """
    极度提升树算法
    :param x_train:
    :param y_train:
    :param x_test:
    :param y_test:
    :return:
    """

    et = ExtraTreesClassifier(random_state=0)
    et.fit(x_train, y_train)

    description("ETrees",et.predict(x_test), y_test)
    Cross_valid(et, x_train, y_train, 5)

def Cross_valid(model, x_train, y_train, num):
    """
    K折交叉验证
    :param model: 训练模型
    :param x_train:  训练集数据
    :param y_train: 训练集标签
    :param num:  交叉验证次数
    :return:
    """
    c = cross_val_score(model, x_train, y_train, cv=num)
    print("K折交叉验证:", c)
    plt.figure(figsize=(6, 5))
    plt.plot(np.arange(1, 6), c, 'o-')
    plt.xticks(np.arange(1,6,1))
    plt.xlabel("次数")
    plt.ylabel("准确率")
    plt.show()



def DealData():
    """
    数据预处理
    :return:
    """
    data = pd.read_excel("期刊文摘.xlsx") # 读取文本数据
    quoting=csv.QUOTE_NONE
    stop = pd.read_csv("stopwords.txt",error_bad_lines=False, quoting=csv.QUOTE_NONE,header=None) # 读取停用词表

    # print(data.head())
    print(data['分类'].unique())
    kind = data["分类"].value_counts()

    # 统计每一种类被的期刊文本数量
    matplotlib.rcParams['axes.unicode_minus'] = False # 正常显示负号
    plt.rcParams["font.sans-serif"] = "SimHei" # 设置图片中的字体为中文黑体
    plt.figure(figsize=(8, 6))
    sns.barplot(x=kind.index,y=kind.values,alpha=0.8)
    # 在柱状图上面显示数字
    for x, y in enumerate(kind.values):
        plt.text(x, y + 10, '%s' % y, ha='center', va='bottom')
    plt.title("各类别期刊文摘数量统计")
    plt.xlabel("期刊类别")
    plt.ylabel("数量")
    plt.tight_layout()
    # plt.show()



    label = dict()
    for index,i in enumerate(data["分类"].unique()):
        label[i] = index
    c = list(data["分类"])
    t = []
    for i in c:
        t.append(label[i])
    data['分类'] = t

    word = [] # 存储分词结果
    text = list(data["正文"])
    stop.columns = ["停用词"]
    stop = list(stop["停用词"])
    # stop.append(' ')
    # stop.append('\n')
    # print(stop)



    for i in text:
        for q in range(10):
            str(i).replace(str(q), '$$')  # 将文本中0~9的数字替换成$$便于后续去除。
        # seg_list = jieba.cut(str(i), cut_all=False)  # 分词
        seg_list = jieba.lcut(str(i))
        seg_list = list(seg_list)
        for j in seg_list:  # 遍历列表中的词语，去除停用词
            if j in stop:
                seg_list.remove(j)

        word.append(' '.join(seg_list))


    # print(seg_list)
    # print(word[-1])

    # 划分数据集,训练集：测试集=9：1
    x_train,x_test,y_train, y_test = train_test_split(word,t, test_size=0.1)


    # 提取方法：TFIDF
    x_train, x_test = TfidfModel(x_train, x_test)
    # 提取方法：词袋模型
    # x_train, x_test = Countvec(x_train, x_test)

    return x_train, y_train, x_test, y_test



def TfidfModel(x_train, x_test):
    """
    TFIDF模型提取特征
    :param x_train:  训练集
    :param x_test: 测试集
    :return:
    """
    tf = TfidfVectorizer()
    x_tr = tf.fit_transform(x_train)
    x_te = tf.transform(x_test)

    return x_tr, x_te


def Countvec(x_train, x_test):
    """
    词袋模型，提取特征
     对文本进行特征值化
    :return:None
    """
    cv = CountVectorizer()
    x_train = cv.fit_transform(x_train)
    x_test = cv.transform(x_test)
    # print(cv.get_feature_names())
    # print(x_train.toarray()) # 转化成数组输出
    x_train = x_train.toarray()
    x_test = x_test.toarray()

    return x_train.tolist(),x_test.tolist()

def SVD(train):
    """
    SVD奇异值分解降维
    :param train:
    :return:
    """
    svd = decomposition.TruncatedSVD(1000)
    return svd.fit_transform(train)


if __name__ =="__main__":
    x_train,y_train,x_test,y_test = DealData()


    # 进行SVD降维
    # x_train = SVD(x_train)

    # 训练模型
    LGBM(x_train, y_train, x_test, y_test)
    GDBT(x_train, y_train, x_test, y_test)
    XGBoost(x_train,y_train,x_test,y_test) # XGBoost
    DecisionTree(x_train, y_train, x_test, y_test)
    RandomForest(x_train,y_train,x_test,y_test)
    naviebayes(x_train,y_train,x_test,y_test)
    EtraTress(x_train, y_train, x_test, y_test)
    KNeighbors(x_train,y_train,x_test,y_test)
    Logitic(x_train,y_train,x_test,y_test)
    AdaBoost(x_train,y_train,x_test,y_test)
    svm_model(x_train, y_train, x_test, y_test)  # 支持向量机

词云实现代码

pasg=pd.read_excel(r"C:\Users\acer\Desktop\数据挖掘\文本分类实践项目\期刊文摘.xlsx")

tanspatation = pasg.loc[pasg['分类']=='交通',:]
for line in tanspatation.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行  
tags1 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text1 = " ".join(tags1)

sport = pasg.loc[pasg['分类']=='体育',:]
for line in sport.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags2 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text2 = " ".join(tags2)

agri = pasg.loc[pasg['分类']=='农业',:]
for line in agri.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags3 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text3 = " ".join(tags3)

medi = pasg.loc[pasg['分类']=='医疗',:]
for line in medi.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags4 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text4 = " ".join(tags4)

his = pasg.loc[pasg['分类']=='历史',:]
for line in his.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags5 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text5 = " ".join(tags5)

philo = pasg.loc[pasg['分类']=='哲学',:]
for line in philo.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags6 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text6 = " ".join(tags6)

edu = pasg.loc[pasg['分类']=='教育',:]
for line in edu.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags7 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text7 = " ".join(tags7)

liter = pasg.loc[pasg['分类']=='文学',:]
for line in liter.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags8 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text8 = " ".join(tags8)

politic = pasg.loc[pasg['分类']=='时政',:]
for line in politic.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行
tags9 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text9 = " ".join(tags9)

law = pasg.loc[pasg['分类']=='法律',:]
for line in law.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags10 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text10 = " ".join(tags10)

elec = pasg.loc[pasg['分类']=='电子',:]
for line in elec.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags11 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text11 = " ".join(tags11)

mine = pasg.loc[pasg['分类']=='矿藏',:]
for line in mine.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags12 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text12 = " ".join(tags12)   

space = pasg.loc[pasg['分类']=='空间',:]
for line in space.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags13 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text13 = " ".join(tags13) 

econo = pasg.loc[pasg['分类']=='经济',:]
for line in econo.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags14 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text14 = " ".join(tags14) 
    
souce = pasg.loc[pasg['分类']=='能源',:]
for line in souce.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags15 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text15 = " ".join(tags15) 
    
art = pasg.loc[pasg['分类']=='艺术',:]
for line in art.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags16 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text16 = " ".join(tags16) 

compu = pasg.loc[pasg['分类']=='计算机',:]
for line in tanspatation.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行
tags17 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text17 = " ".join(tags17) 
    
communi = pasg.loc[pasg['分类']=='通信',:]
for line in communi.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行 
tags18 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text18 = " ".join(tags18) 
     
environment = pasg.loc[pasg['分类']=='环境',:]
for line in tanspatation.itertuples(): #使用a.itertuples()遍历DataFrame的每一行
    linE = getattr(line, '正文') # 获得每一行
tags19 = jieba.analyse.extract_tags(linE, topK=100, withWeight=False)  # 关键词提取 topK=100 提取TF-IDF权重最大的前100个关键词
text19 = " ".join(tags19) 

#词云图
font=r"C:\Windows\Fonts\msyh.ttc"

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text1)
wordcloud.to_file('交通.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text2)
wordcloud.to_file('体育.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text3)
wordcloud.to_file('农业.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text4)
wordcloud.to_file('医疗.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text5)
wordcloud.to_file('历史.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text6)
wordcloud.to_file('哲学.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text7)
wordcloud.to_file('教育.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text8)
wordcloud.to_file('文学.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text9)
wordcloud.to_file('时政.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text10)
wordcloud.to_file('法律.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text11)
wordcloud.to_file('电子.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text12)
wordcloud.to_file('矿藏.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text13)
wordcloud.to_file('空间.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text14)
wordcloud.to_file('经济.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text15)
wordcloud.to_file('能源.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text16)
wordcloud.to_file('艺术.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text17)
wordcloud.to_file('计算机.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text18)
wordcloud.to_file('通信.png')

wordcloud = WordCloud(font_path=font, max_words = 100, background_color='white') #width=1600,height=1200, mode='RGBA'
wordcloud.generate(text19)
wordcloud.to_file('环境.png')

你可能感兴趣的:(数据挖掘与分析,机器学习,逻辑回归,数据挖掘,决策树)

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
使用Qlib基于LightGBM预测沪深300涨跌 DeepReinforce 量化投资
Qlib是一个专为量化金融和算法交易研究设计的开源库。本文配置一个基于LightGBM的梯度提升决策树（GBDT）模型，并使用金融数据集（包含158个技术指标特征）进行训练和预测。1.导入必要的模块pythonCollapseWrapRunCopyfromqlib.contrib.model.gbdtimportLGBModelfromqlib.contrib.data.handlerimport
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本