狄克推多er

基于Python3.6编写的jieba分词组件+Scikit-Learn库+朴素贝叶斯算法小型中文自动分类程序

实验主题：大规模数字化（中文）信息资源信息组织所包含的基本流程以及各个环节执行的任务。

本文所采用的分类及程序框架主要参考了这篇博客

基本流程：

如下图所示，和信息资源信息组织的基本流程类似，大规模数字化（中文）信息资源组织的基本流程也如下：1信息资源的预处理、2信息外部特征描述、3信息内部特征标引、4信息资源的分类、5得到序化的信息资源

图1

1.1在信息资源预处理环节，首先要选择处理文本的范围，建立分类文本语料库：训练集语料（已经分好类的文本资源）和测试集语料（待分类的文本语料）。其次要转化文本格式，使用Python的lxml库去除html标签。最后监测句子边界，标记句子的结束。

1.2在信息外部特征描述环节，大规模数字化信息资源信息组织关注的不多，主要是对信息资源的内容、外部表现形式和物质形态（媒体类型、格式）的特征进行分析、描述、选择和记录的过程。信息外部特征序化的最终结果就是书目。

1.3在信息内部特征标引环节，指在分析信息内容基础上，用某种语言和标识符把信息的主题概念及其具有检索意义的特征标示出来，作为信息分析与检索的基础。而信息内部特征序化的结果就是代表主体概念的标引词集合。数字化信息组织更注重通过细粒度信息内容特征的语义逻辑和统计概率关系。技术上对应文本自动分类中建立向量空间模型和TF/IDF权重矩阵环节，也就是信息资源的自动标引。

1.4在信息资源分类环节，注重基于语料库的统计分类体系，在数据挖掘领域称作文档自动分类，主要任务是从文档数据集中提取描述文档的模型，并把数据集中的每个文档归入到某个已知的文档类中。常用的有朴素贝叶斯分类器和KNN分类器，在深度学习里还有卷积神经网络分类法。

1.5最后便得到了序化好的信息资源，接下来根据目的的不同有两种组织方法，一是基于资源（知识）导航、另一种是搜索引擎。大规模数字化（中文）信息资源信息组织主要是一种基于搜索引擎的信息组织，序化好的信息资源为数字图书馆搜索引擎建立倒排索引打下基础。

图22程序文件的目录层次结构

功能说明：

（1） html_demo.py程序对文本进行预处理，即用lxml去除html标签。

（2） corpus_segment.py程序利用jieba分词库对训练集和测试集分词。

（3） corpus2Bunch.py程序利用的是Scikit-Learn库中的Bunch数据结构将训练集和测试集语料库表示为变量，分别保存在train_word_bag/train_set.dat和test_word_bag/test_set.dat。

（4） TFIDF_space.py程序用于构建TF-IDF词向量空间，将训练集数据转换为TF-IDF词向量空间中的实例（去掉停用词），保存在train_word_bag/tfdifspace.dat，形成权重矩阵；同时采用同样的训练步骤加载训练集词袋，将测试集产生的词向量映射到训练集词袋的词典中，生成向量空间模型文件test_word_bag/testspace.dat。

（5） NBayes_Predict.py程序采用多项式贝叶斯算法进行预测文本分类。

1.分词程序代码

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
import os
from importlib import reload
import jieba
# 配置utf-8输出环境
reload(sys)

# 保存至文件
def savefile(savepath, content):
    with open(savepath, "w", encoding='utf-8', errors='ignore') as fp:
        fp.write(content)
# 读取文件
def readfile(path):
    with open(path, "r") as fp:
        content = fp.read()
    return content

def corpus_segment(corpus_path, seg_path):
    # 获取每个目录（类别）下所有的文件
    for mydir in catelist:
        class_path = corpus_path + mydir + "/"  # 拼出分类子目录的路径如：train_corpus/art/
        seg_dir = seg_path + mydir + "/"  # 拼出分词后存贮的对应目录路径如：train_corpus_seg/art/

        if not os.path.exists(seg_dir):  # 是否存在分词目录，如果没有则创建该目录
            os.makedirs(seg_dir)

        file_list = os.listdir(class_path)  # 获取未分词语料库中某一类别中的所有文本
        for file_path in file_list:  # 遍历类别目录下的所有文件
            fullname = class_path + file_path  # 拼出文件名全路径如：train_corpus/art/21.txt
            content = readfile(fullname)  # 读取文件内容
            content = content.replace("\r\n", "")  # 删除换行
            content = content.replace(" ", "")#删除空行、多余的空格
            content_seg = jieba.cut(content)  # 为文件内容分词
            savefile(seg_dir + file_path, " ".join(content_seg))  # 将处理后的文件保存到分词后语料目录

    print ("中文语料分词结束！！！")

if __name__=="__main__":
    #对训练集进行分词
    corpus_path = "C:/Users/JAdpp/Desktop/数据集/trainingdataset/"  # 未分词分类语料库路径
    seg_path = "C:/Users/JAdpp/Desktop/数据集/outdataset1/"  # 分词后分类语料库路径
    corpus_segment(corpus_path, seg_path)

2.用Bunch数据结构将训练集和测试集转化为变量的程序代码

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
from importlib import reload

reload(sys)
import os#python内置的包，用于进行文件目录操作，我们将会用到os.listdir函数
import pickle#导入 pickle包
from sklearn.datasets.base import Bunch



def _readfile(path):
    with open(path, "rb") as fp:
        content = fp.read()
    return content

def corpus2Bunch(wordbag_path,seg_path):
    catelist = os.listdir(seg_path)# 获取seg_path下的所有子目录，也就是分类信息
    #创建一个Bunch实例
    bunch = Bunch(target_name=[], label=[], filenames=[], contents=[])
    bunch.target_name.extend(catelist)
    # 获取每个目录下所有的文件
    for mydir in catelist:
        class_path = seg_path + mydir + "/"  # 拼出分类子目录的路径
        file_list = os.listdir(class_path)  # 获取class_path下的所有文件
        for file_path in file_list:  # 遍历类别目录下文件
            fullname = class_path + file_path  # 拼出文件名全路径
            bunch.label.append(mydir)
            bunch.filenames.append(fullname)
            bunch.contents.append(_readfile(fullname))  # 读取文件内容
    # 将bunch存储到wordbag_path路径中
    with open(wordbag_path, "wb") as file_obj:
        pickle.dump(bunch, file_obj)
    print("构建文本对象结束！！！")

if __name__ == "__main__":
    #对训练集进行Bunch化操作：
    wordbag_path = "train_word_bag/train_set.dat"  # Bunch存储路径
    seg_path = "C:/Users/JAdpp/Desktop/数据集/outdataset1/"  # 分词后分类语料库路径
    corpus2Bunch(wordbag_path, seg_path)

    # 对测试集进行Bunch化操作：
    wordbag_path = "test_word_bag/test_set.dat"  # Bunch存储路径
    seg_path = "C:/Users/JAdpp/Desktop/数据集/experimentdataset/"  # 分词后分类语料库路径
    corpus2Bunch(wordbag_path, seg_path)

3.建TF-IDF词向量空间，将训练集和测试集数据转换为TF-IDF词向量空间中的实例（去掉停用词）程序代码

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import codecs
import sys
from importlib import reload
reload(sys)

from sklearn.datasets.base import Bunch
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer

def _readfile(path):
    with open(path, "rb") as fp:
        content = fp.read()
    return content

def _readbunchobj(path):
    with open(path, "rb") as file_obj:
        bunch = pickle.load(file_obj)
    return bunch

def _writebunchobj(path, bunchobj):
    with open(path, "wb") as file_obj:
        pickle.dump(bunchobj, file_obj)

def vector_space(stopword_path,bunch_path,space_path,train_tfidf_path=None):

    stpwrdlst = _readfile(stopword_path).splitlines()
    bunch = _readbunchobj(bunch_path)
    tfidfspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[], vocabulary={})

    if train_tfidf_path is not None:
        trainbunch = _readbunchobj(train_tfidf_path)
        tfidfspace.vocabulary = trainbunch.vocabulary
        vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5,vocabulary=trainbunch.vocabulary)
        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)

    else:
        vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5)
        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)
        tfidfspace.vocabulary = vectorizer.vocabulary_

    _writebunchobj(space_path, tfidfspace)
    print("if-idf词向量空间实例创建成功！！！")

if __name__ == '__main__':

    stopword_path = "train_word_bag/hlt_stop_words.txt"
    bunch_path = "train_word_bag/train_set.dat"
    space_path = "train_word_bag/tfdifspace.dat"
    vector_space(stopword_path,bunch_path,space_path)

    bunch_path = "test_word_bag/test_set.dat"
    space_path = "test_word_bag/testspace.dat"
    train_tfidf_path="train_word_bag/tfdifspace.dat"
    vector_space(stopword_path,bunch_path,space_path,train_tfidf_path)

4.用多项式贝叶斯算法预测测试集文本分类情况

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import sys
from importlib import reload

reload(sys)

import pickle
from sklearn.naive_bayes import MultinomialNB  # 导入多项式贝叶斯算法


# 读取bunch对象
def _readbunchobj(path):
    with open(path, "rb") as file_obj:
        bunch = pickle.load(file_obj)
    return bunch

# 导入训练集
trainpath = "train_word_bag/tfdifspace.dat"
train_set = _readbunchobj(trainpath)

# 导入测试集
testpath = "test_word_bag/testspace.dat"
test_set = _readbunchobj(testpath)

# 训练分类器：输入词袋向量和分类标签，alpha:0.001 alpha越小，迭代次数越多，精度越高
clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label)

# 预测分类结果
predicted = clf.predict(test_set.tdm)

for flabel,file_name,expct_cate in zip(test_set.label,test_set.filenames,predicted):
    if flabel != expct_cate:
        print(file_name,": 实际类别:",flabel," -->预测类别:",expct_cate)

print("预测完毕!!!")

# 计算分类精度：
from sklearn import metrics
def metrics_result(actual, predict):
    print('精度:{0:.3f}'.format(metrics.precision_score(actual, predict,average='weighted')))
    print('召回:{0:0.3f}'.format(metrics.recall_score(actual, predict,average='weighted')))
    print('f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict,average='weighted')))
metrics_result(test_set.label, predicted)

5.分类结果

C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file01.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file02.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file03.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file04.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file05.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file06.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file07.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file08.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file09.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file10.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file11.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file12.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file13.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file14.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file15.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file16.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file17.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file18.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file19.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file20.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file21.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file22.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file23.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file24.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file25.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file26.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file27.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file28.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file29.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file30.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file31.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file32.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file33.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file34.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file35.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file36.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file37.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file38.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file39.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file40.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file41.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file42.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file43.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file44.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file45.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file46.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file47.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file48.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file49.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file50.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file51.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file52.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file53.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file54.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file55.txt : 实际类别: experimentdataset  -->预测类别: class7
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file56.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file57.txt : 实际类别: experimentdataset  -->预测类别: class8
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file58.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file59.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file60.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file61.txt : 实际类别: experimentdataset  -->预测类别: class2
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file62.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file63.txt : 实际类别: experimentdataset  -->预测类别: class3
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file64.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file65.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file66.txt : 实际类别: experimentdataset  -->预测类别: class5
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file67.txt : 实际类别: experimentdataset  -->预测类别: class4
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file68.txt : 实际类别: experimentdataset  -->预测类别: class1
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file69.txt : 实际类别: experimentdataset  -->预测类别: class6
C:/Users/JAdpp/Desktop/数据集/experimentdataset/experimentdataset/file70.txt : 实际类别: experimentdataset  -->预测类别: class7
预测完毕!!!

总结：

遇到的问题主要有Python2.7和Python3的语法问题，举例来说，参考代码由于是Python2.7编写的，所以在设置utf-8 unicode环境时需要写“sys.setdefaultencoding('utf-8')”代码，而在Python3字符串默认编码unicode,所以sys.setdefaultencoding也不存在了，需要删除这行。还有print在Python3以后由语句变成了函数，所以需要加上括号。分词环节参考了jieba组件作者在github上的官方教程和说明文档，Scikit-Learn库则参考了官方的技术文档。程序运行成功，但遗留一个小bug，在于由于数据集结构问题，训练集和测试集分类数不同，所以不能评估分类评估结果，召回率、准确率和F-Score。

下一篇会出构建搜索引擎的实现原理。

考研复习之记忆方法 herosunly 考名校研究生经验分享考研
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
OPPO机器学习算法岗（AI智能体）内推飞300 人工智能业界资讯
专注于以端设备为中心的AI智能体研究与应用，研究方向包括但不限于智能体与多智能体框架、大模型推理与规划、大模型工具使用等。1、负责大模型驱动的AI智能体框架的实现、评估与优化，并参与构建产品原型；2、设计微调方案、适配算法和调优工程方案，结合智能体应用，实现最佳效果与性能；3、跟踪与研究AI智能体相关前沿技术，并针对大模型推理与规划、工具使用、结构化输出等提出创新性方案。推荐码：X3448036
模型优化前沿趋势与行业应用实战智能计算研究中心其他
内容概要模型优化技术正经历从理论研究到产业落地的关键跃迁。随着自动化机器学习（AutoML）与边缘计算技术的深度融合，模型开发范式正从人工调参转向自动化、自适应优化。以联邦学习为代表的数据隐私保护技术，正在重构跨机构协作的模型训练范式，而量子计算与神经架构搜索（NAS）的结合，为超参数优化开辟了新维度。在应用层面，医疗影像识别准确率突破99%的突破性成果，验证了迁移学习在跨领域知识迁移中的巨大潜力
H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【LLM】从零开始实现 LLaMA3 FOUR_A LLM 人工智能机器学习大模型 llama 算法
分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。BPE（BytePairEncoding，字节对编码）是一种数据压缩算法，也被用于自然语言处理中的分词方法。它通过逐步将常见的字符或子词组合成更长的词元（tokens），从而有效地表示文本中的词汇。在自然语言处理中的BPE分词器的工作原理如下：初始化：首先，将所有词汇表中的单词分解为单个字符或符号。例
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
在LangChain中运行Replicate模型的实用指南 fgayif langchain 人工智能 python
##技术背景介绍Replicate是一个平台，可以轻松调用各种预训练的AI模型。与传统的模型托管和调用相比，Replicate提供了简单的API接口，使开发者能够快速集成和使用强大的AI模型。本文将重点介绍如何在LangChain项目中集成和调用Replicate模型。##核心原理解析在集成Replicate模型之前，需要进行一些基础设置和安装工作。LangChain是一个用于自然语言处理的库，它
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

基于Python3.6编写的jieba分词组件+Scikit-Learn库+朴素贝叶斯算法小型中文自动分类程序

实验主题：大规模数字化（中文）信息资源信息组织所包含的基本流程以及各个环节执行的任务。

基本流程：

功能说明：

总结：

你可能感兴趣的:(机器学习,自然语言处理)