0599jiangyc

探索weka实现中文文本分类

总体思路：

主要流程：

1. 从网上搜寻中文文本分类数据集

2. 使用python-jieba库对所搜集的中文文本数据集进行分词操作，并存储为txt文本

3. 将txt通过excel转换成cvs文件

4. 在weka中进行数据预处理后进行分类学习并预测，比较各个参数以及函数对正确率的影响

主要实现流程

下载数据集，下载地址给出：链接：https://pan.baidu.com/s/1jyTis9z9D8FNU7khO7k0VA 密码：rgy5

使用python-jieba库进行分词操作：

下面给出代码：相关解释见注释

#!/usr/bin/python
####!!!编码要改成utf-8以支持中文
# -*- coding: utf-8 -*-
#coding=utf-8
#所处理的文本目录结构如下
#data
#	-sports
#		-1.txt
#		-2.txt
#		-...
#	-campus
#	-female
#	-literature
#共分为四个大类：运动+校园+女性+文学，每个文件夹下有几百个txt文件，下面的程序对某个文件夹进行分词并存储在相应的汇总txt文件中
from jieba import *
import os.path
import time

#重文件描述符中读出文本并执行默认的精确切割，返回分词后的字符串
def jieba_cut(f):
    seg_list = cut(f.read())
    return " ".join(seg_list).encode("utf-8")

pathDir = os.listdir("./sport")				#执行不同文件夹，这三个参数需要修改
target_file  = open("./sport.txt","w")		#执行不同文件夹，这三个参数需要修改
#对目标文件夹中的每个文件都进行分词操作
for afile in pathDir:
    f = open("./sport/"+afile, "r")			#执行不同文件夹，这三个参数需要修改
    text = jieba_cut(f)+"\n"
    target_file.write(text)

print "done!"

给出分词后txt文本样例：

Campus.txt

93 焦点 【 温州 再现 “ 黑 校车 ” 】 近日 ， 温州 柳市 交警 中队 查获 2 辆 超载 学生 接送车 ： 【 浙 CEY041 】 核载 19 人 ， 却 坐 了 45 名 学生
 ， 属于 严重 超载 。 【 浙 CE6586 】 核载 19 人 ， 却 坐 了 33 名 学生 。 这 两辆 校车 分别 属于 柳 市民 工子弟 学校 和 柳市 前进 希望 小学 两
所 学校 。 据悉 ， “ 民办学校 ” 、 “ 黑校 ” 无证 校车 普遍 超载 。 $ LOTOzf $
新闻晨报 【 北大 规定 校内 停止 售烟 ， 教职工 不得 在 学生 前 吸烟 】 曹一 漫画 ： 北大 带 了 个 好头 ， 比 “ 烟草 院士 ” 那 档子 事儿 强多 了
 。 支持 一下 。 吸烟 是 个人 选择 ， 不 危害 公共 健康 ， 躲 着 吸烟区 偷着乐 呵 也 蛮 好 的 。 可 这年头 叼 着 烟斗 装 “ 大师 ” 的 也 不少 ，
 若 无 真才实学 ， 恐怕 也 装不像 。 $ LOTOzf $
转发 微博 鞋带 ： 最新 统计 显示 中国 留学生 一年 为 美国 经济 至少 贡献 了 44 亿美元 ， 随着 留学 热 愈演愈烈 ， 留学生 群体 成为 人们 关注 的
 焦点 。 我国 留学生 出现 越来越 低龄 的 趋势 ， 国内 高中 纷纷 开设 专门 的 出国 班 ， 参加 “ 美国 高考 ” 的 中国 学生 也 大幅 增加 。 2010 年
 高考 弃考 人数 接近 100 万 ， 其中 因 出国 留学 而 选择 弃 考者 比例 达 211 。 原文 转发 原文 评论

Sports.txt

【 进球 视频 ： 朴智星 突破 赢 点球   潇洒 哥 罚进 戴帽 】 CC 英超   国际足球     http : url . cn / 0xrsz                                 收起 进球 视频 ： 朴智星 突破 赢 点球   潇洒 哥 罚进 戴 ... $ LOTOzf $
经过 5 天 75 场 激战 ， 2011 年 世界 羽联 超级 赛 总决赛 于 18 日 在 柳州 落幕 。 5 个 单项 顶尖高手 间 的 对决 ， 首次 尽遣 主力 的 东道主 中国 军团 创 历届 最好 成绩 ， 夺得 除 男双 以外 的 4 枚 金牌 。 林丹 、 王仪涵 分别 加冕 男女 单打 冠军 。 王晓理 / 于洋 、 张楠 / 赵芸蕾 分别 夺取 女双 和 混双 冠军 。 柴飚 / 郭振东 获得 男双 银牌 （ 新浪 ） 大麦 娱乐 $ LOTOzf $
我 明白 nba 为什么 炒作 科比 ， 炒作 詹姆斯 ， 甚至 炒作 姚明 。 但是 国内 的 这些 主持人 无端 的 炒作 这些 人 。 得到 什么 ， 得到 nba 征服 中国 球迷 的 心 。 与 我 篮球 发展 何关 。 乔丹 之后 ， nba 一直 没有 找到 能够 接替 他 的 人 。 $ LOTOzf $
NBAhttp : url . cn / 3eubFs       NBA 的 视频 直播 ， 有 兴趣 的 朋友 看看 $ LOTOzf $
对 寒冷 说 不 冬天 的 球场 也 能 成为 挥洒 汗水 的 地方 “ 反季节 联赛 ” 吴悠 : : 2011 反季节 联赛 第一周 高清 图片 摄影师 ： 阿樊 : 8 樊 喜儿 她 爸 ： 反季节 联赛 首周 图片 集锦 ， 四支 队伍 激情 撞色 转发 ( 43 ) 评论 ( 9 ) 12 月 12 日 12 : 15 来自 新浪 微博
还是 娄 老师 专业 娄一晨 ： 今日 温网 对阵 ： 20 : 00 中央 球场 索 德林 休伊特 ， 李娜 利希茨基 （ 德国 ） ， 曼纳里诺 （ 法国 ） 费德勒 。 1 号 球场 安德森 （ 南非 ） 德约 科维奇 。 2 号 球场 第 5 场 巴尔塔 哈 （ 英国 ） 彭帅 。 16 号 球场 第 2 场 郑洁 土居 美咲 （ 日本 ） 。 : 其中 李娜 的 比赛 时间 可能 与 中国国奥队 冲突 。 五星 体育 ： : 9 纳达尔 斗士 神勇 、 费德勒 天王 不老 、 德约 科维奇 红星 闪耀 、 穆雷 主场 欲 谱 新篇 6 月 20 日 7 月 3 日 ， 2011 温布尔 顿 网球 公开赛 ， 五星 体育

文本比较乱，下面在excel中处理成cvs文件，并去除无关痛痒的符号

txt转化cvs

方法有很多，在网上还可以搜索到相应的脚本。我使用的方式是通过excel分割符来实现转化，下面展示cvs文件样例：

汇总后的样本集共有3312例样本

text,label
科比 ： 交易 奥多姆 我 不爽   谢天谢地 加索尔 没 走     http : url . cn / 1orJGW     有点 意思   真是   为 小牛 填瓦 虽然 奥多姆 有时候   有点 头脑发热 但是 真正 打球 认真 起来 的 能力   还是 足以 比肩 一流 球星     现在 小牛 这笔 交易 赚 了 现在 就 看 湖人 能否 得到 霍华德 或者 保罗   否则 他们 等于 帮 小牛 卫冕 增加 筹码 自己 却 一无所得 $ LOTOzf $,sports
旅游 卫视 本 周五 直播 2011 中国 - 亚太 对抗赛  中国队 梁文冲 领衔 12 名 顶尖 球员 迎战 亚太 队 ！ 实力 选手 角逐 首届 东风 日产 杯  精彩 值得 期待  请 关注 旅游 卫视 直播 ！ 12 月 16 日 - 18 日  每天 13 ： 00 - 16 ： 00 东风 日产 杯 中国 - 亚太 对抗 旅游 卫视 官方 微博                 $ LOTOzf $,sports
...
...
...

weka中进行预处理

a. 打开weka后，点击右上角的explorer

b. 在explorer中打开之前编辑好的cvs文件：

这里有可能出现几个问题：

文本没有进行逗号和引号的过滤，由于cvs中会使用到这两个符号作为划分，因此文本中不能带有这两个符号，可以使用excel替换功能即可
要保证数据是一个“矩形”，不能有数据空缺，在excel中，数据必须是完整举行，不能多一块少一块
weka不支持中文导致中文乱码，在windows中找到runweda.ini修改如图：

c. 刚打开的cvs文件其中我们所需处理的文本的类型为nominal，需要通过filter将其先转成string，再转化成word_vector（词向量）

weka自带的filter默认是没有string库的，需要手动在filter中添加上：

先在filter中添加上关于string的filter

然后在weka/filters/unsupervised/attribute/中找到nominaltostring，然后设置需要进行filter的attributes：

通过上述操作，文本类型已经变成了string，再进行filter操作，将其变成word_vector:

预处理最终效果为：

感觉这里的数字是没什么软用的。。其实可以过滤掉

进行文本分类并预测、评估正确率！

结果展示：（结果汇总及分析在后面）

试验方法：十折交叉验证英文名叫做10-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成十分，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。

bayesnet:

第一个就有不错的正确率喔

NaiveBayes:

SMO(SVM):

IBK(KNN)(k=1):

AdaBoostM1: 耗时久、准确度低

AttributeSelectedClassifier:耗时久、准确度低

Stacking:

OneR:

ZeroR:

为什么ZeroR和Stacking的数据一模一样。。？有大神解疑吗

J48: 二叉决策树，耗时很久这个

RandomForest:

实验结果与分析

1. 数据集的66%作为训练集，33%作为测试集（也做了2：1的测试实验，比十折的实验快很多，把数据也放上来吧）

	Correctly Classified Percentage	kappa	Root mean squared error	Root relative squared error
bayesnet	88.45%	0.8332	0.2133	51.23%
naivebayes	85.35%	0.7895	0.2446	58.76%
knn(k=1)(ibk in weka)	62.70%	0.4397	0.3932	94.44%
AdaBoostM1	51.07%	0.2329	0.3885	93.31%
AttributeSelectedClassifier	75.49%	0.6339	0.2786	66.91%
Stacking	40.68%	0	0.4163	100%
OneR	51.07%	0.2333	0.4946	118.81%
ZeroR	40.68%	0	0.4163	100%
J48	83.13%	0.7536	0.265	63.66%
RandomForest	87.12%	0.8086	0.2558	61%
SMO(SVM)	89.70%	0.85	0.3322	79.80%

参数说明：
Correctly Classified Percentage	正确分类百分比
kappa	内部一致性系数(inter-rater,coefficient of internal consistency)，是作为评价判断的一致性程度的重要指标。取值在0～1之间。Kappa≥0.75两者一致性较好；0.75>Kappa≥0.4两者一致性一般；Kappa<0.4两者一致性较差
Root mean squared error	标准差
Root relative squared error	把N次实验的绝对误差求和,然后除以实际值与均值之差的求和再开根号. 此值越小实验越准确.

2. 十折交叉验证法，将数据集分成10份，其中9份作为训练集，1份作为测试集，进行10次实验后取平均值

	Correctly Classified Percentage	kappa	Root mean squared error	Root relative squared error
bayesnet	90.16%	0.8583	0.1964	47.17%
naivebayes	86.08%	0.8001	0.2397	57.56%
knn(k=1)(ibk in weka)	64.37%	0.4723	0.3681	88.39%
AdaBoostM1	52.60%	0.2575	0.3847	92.38%
AttributeSelectedClassifier	77.32%	0.6702	0.2789	66.98%
Stacking	40.46%	0	0.4164	100%
OneR	52.60%	0.2577	0.4868	116.91%
ZeroR	40.46%	0	0.4164	100%
J48	83.30%	0.7582	0.2685	64.48%
RandomForest	88.16%	0.825	0.2462	59.13%
SMO(SVM)	90.73%	0.8657	0.3285	78.89%

参数说明：
Correctly Classified Percentage	正确分类百分比
kappa	内部一致性系数(inter-rater,coefficient of internal consistency)，是作为评价判断的一致性程度的重要指标。取值在0～1之间。Kappa≥0.75两者一致性较好；0.75>Kappa≥0.4两者一致性一般；Kappa<0.4两者一致性较差
Root mean squared error	标准差
Root relative squared error	把N次实验的绝对误差求和,然后除以实际值与均值之差的求和再开根号. 此值越小实验越准确.

实验分析：

试验一与试验二的实验结果区别不大，以下以试验二的结果讨论。十折交叉验证法，用来测试算法准确性，是常用的测试方法。
在本实验中，综合来看，贝叶斯、决策二叉树、序列最小优化算法(英语:Sequential minimal optimization, SMO)的准确率都比较高，但贝叶斯算法在误差控制上具有明显的优势，SMO算法在算法执行速度上具有优势，但误差较大，决策二叉树方法的准确率、误差控制都不及SMO算法。
关于序列最小优化算法(英语:Sequential minimal optimization, SMO)，上述实验数据的核函数为 POLY:多项式核函数（ploynomial kernel），下面探索不同的核函数对SMO结果的影响：

a. RBF:径向机核函数(radical basis function)

径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某
一中心xc之间欧氏距离的单调函数 ,可记作 k(||x-xc||), 其作用往往是局部的 , 即当x远离xc时函数取值很小。
最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ)2) } 其中x_c为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。如果x和x_c很相近那么核函数值为1，如果x和x_c相差很大那么核函数值约等于0。由于这个函数类似于高斯分布，因此称为高斯核函数，也叫做径向基函数(Radial Basis Function 简称RBF)。它能够把原始特征映射到无穷维。

b. Puk kernel

可以看到，不同的核函数对结果的影响十分巨大，经过比较，当核函数为 POLY:多项式核函数（ploynomial kernel），可以得到较高的准确率

对于knn(k=1)(ibk in weka)分析：（不知道分析的对不对，如有错误请指正）

在Weka分类器中有一类Lazy Classifier分类器。相对对其它的Inductive Learning的算法来说，lazy Learning的方法在训练是仅仅是保存样本集的信息，直到测试样本到达是才进行分类决策。也就是说这个决策的模型是在测试样本到来以后才生成的。相对与其它的分类算法来说，这类的分类算法可以根据每个测试样本的样本信息来学习模型，这样的学习模型可能更好好的拟合局部的样本特性。

该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

本次的训练样本中，由于每个类的样本容量不平均，导致knn的正确率下降。如下图，可以看到由于运动的样本数量很多，而校园的样本数量较少，导致校园样本的k个邻居中其他三类样本占大多数。随着k增加，样本分类产生错误的几率也随之增加，这是上面实验结果中k=1，2，3，4，5中k越大，准确度越低的原因。
关于naivebayes：

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 [1] 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。

和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响.

参考文献：

https://blog.csdn.net/huang1024rui/article/details/51510611
http://blog.sina.com.cn/s/blog_626896c10101iksv.html
https://baike.baidu.com/item/朴素贝叶斯/4925905?fr=aladdin
http://www.cnblogs.com/flippedkiki/p/7209076.html?utm_source=itdadao&utm_medium=referral

深度学习（DL/ML）学习路径 jackl的科研日常深度学习学习人工智能
最近几年，尤其是自从2016年AlphaGo打败李世石事件后，人工智能技术受到了各行业极大关注。其中以机器学习技术中深度学习最受瞩目。主要原因是这些技术在科研领域和工业界的应用效果非常好，大幅提升了算法效率、降低了成本。因而市场对相关技术有了如此大的需求。我在思考传统行业与这些新兴技术结合并转型的过程中，亦系统的回顾了深度学习及其相关技术。本文正是我在学习过程中所作的总结。我将按照我所理解的学习路
系统架构师计算题(1)——计算机系统基础知识(上) Chris_166 软考系统架构师系统架构师考试计算题
持续刷题，持续总结，持续更新!目录1.文件系统题型1：多级索引2.存储管理题型1：页式存储题型2：段式存储题型3：段页式存储3.磁盘读取题型1：访问耗时4.RAID题型1：计算容量1.文件系统文件在系统中的存储结构有如下几种：(1)连续结构。连续结构也称顺序结构，它将逻辑上连续的文件信息（如记录）依次存放在连续编号的物理块上。只要知道文件的起始物理块号和文件的长度，就可以很方便地进行文件的存取。(
细说机器学习算法之ROC曲线用于模型评估 Melancholy 啊机器学习算法人工智能数据挖掘 python
系列文章目录第一章：Pyhton机器学习算法之KNN第二章：Pyhton机器学习算法之K—Means第三章：Pyhton机器学习算法之随机森林第四章：Pyhton机器学习算法之线性回归第五章：Pyhton机器学习算法之有监督学习与无监督学习第六章：Pyhton机器学习算法之朴素贝叶斯第七章：Pyhton机器学习算法之XGBoost第八章：Pyhton机器学习算法之GBDT第九章：Pyhton机器学
深入剖析 Scikit-learn 中的 LogisticRegression：参数调优指南夜色呦 scikit-learn 机器学习人工智能
LogisticRegression是一种广泛应用于二分类问题的机器学习算法。在scikit-learn库中，LogisticRegression类提供了一个高效且易于使用的实现。本文将深入探讨LogisticRegression的各种参数，并展示如何通过调整这些参数来优化模型的性能。1.LogisticRegression简介LogisticRegression通过使用逻辑函数将线性回归的输出映
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
机器学习笔记 - 将音频转换为图像进行分类的机器学习模型坐望云起深度学习从入门到精通机器学习深度学习语音识别光谱图 Whisper
一、简述语音识别技术是将音频信号转化为文本的过程。其基本原理如下：1.音频录制：首先需要对口语发音进行录制，并将其转化为数字形式的音频文件。2.预处理：对音频信号进行预处理，包括去除杂音干扰、增加音频的信噪比以及消除不必要的语音、噪声等。3.特征提取：特征提取是语音信号处理的一个重要部分，通过对音频数据进行分析，提取其中特有的频率、音调、幅度等数学特征，并转化成数字特征。4.模型训练：在特征提取完
2025年美国大学生数学建模竞赛C题思路(对每题分析) FFMXjy 数学建模学习-传统算法机器学习深度学习系列课程数学建模美赛美国大学生数学建模
2025年美国大学生数学建模竞赛C题思路开发奖牌数预测模型1.目标：建立一个模型来预测每个国家的奖牌数，特别是金牌和总奖牌数。步骤：2.使用提供的summerOly_athletes.csv和summerOly_medal_counts.csv数据。3.清理数据，处理缺失值和异常值。4.提取有用的特征，如国家、年份、项目、奖牌类型等。5.选择适当的机器学习算法，如线性回归、随机森林或梯度提升树。6
【TVM教程】为 Mobile GPU 自动调优卷积网络 HyperAI超神经 TVM 人工智能机器学习 TVM 编程编译器 GPU CPU
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
Python入门教程丨3.2 再见Excel！用Python这5个模块，我把3天工作压缩到3分钟凌小添 Python教程 python excel 开发语言
⭐还在用Excel手动算均值方差？还在为海量数据统计熬夜加班？用Python这5把「数据手术刀」写一次代码，就能直接复用，专业报告自动生成！本期内容：模块核心功能应用场景math数学计算几何、物理模拟random生成随机数据游戏、抽样测试statistics统计分析回归分析、市场调研numpy数组与矩阵运算图像处理、机器学习pandas表格数据处理与分析金融分析、数据清洗一、基础数学库1.1mat
强化学习在自动驾驶中的实现与挑战 Echo_Wish 人工智能前沿技术自动驾驶人工智能机器学习
强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。而强化学习（ReinforcementLearning,RL），作为机器学习的一大分支，在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程，为车辆提供动态、灵活的导航与控制能力。然而，强化学习在实际应用中并非一帆风顺，还面临着诸多技术和现实挑战。本文将从原理、实现与挑战
AI：263-强化学习在自动驾驶领域的应用与前沿挑战一键难忘精通AI实战千例专栏合集自动驾驶汽车强化学习人工智能
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（ReinforcementLearning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战，并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。1.强化学习的基础概念强化学习是一种通过试错的方式来学习最佳策略的机器学习方法。
特征选择（机器学习）赵孝正机器学习算法机器学习人工智能
目录1.为什么需要特征选择2.常见的特征选择方法2.1过滤式（FilterMethods）小示例（用Python伪代码表达）：2.2包裹式（WrapperMethods）小示例（RFE伪代码示例）：2.3嵌入式（EmbeddedMethods）小示例（Lasso伪代码示例）：3.实践建议4.小结1.为什么需要特征选择在机器学习任务中，经常会遇到以下问题：特征（变量）数量过多，导致计算量大、训练速度
【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
计算机组成原理面试题饭小粒计算机组成原理计算机组成原理
计算机组成原理是计算机科学的基础课程之一，涉及计算机系统的基本结构和工作原理。以下是一些可能出现在面试中的计算机组成原理相关题目：1.**什么是冯·诺依曼体系结构？**-冯·诺依曼体系结构是一种计算机组织架构，它将程序指令存储和数据存储在同一个可读写的内存空间内，由中央处理单元（CPU）执行指令。2.**解释指令周期和时钟周期。**-指令周期是CPU完成一条指令所需的全部时间。时钟周期是CPU内部
Spark性能调优大数据侠客 spark相关问题汇总及解决 spark 性能调优
1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更
Windows上安装与使用 Jupyter Notebook 梓仁沐白 python windows jupyter ide
1.了解JupyterNotebookJupyterNotebook是一个交互式计算环境，非常适合进行数据科学和机器学习的研究和实验。可以在Notebook中直接编写代码、运行代码块、保存结果，非常直观。在安装JupyterNotebook时，可以选择全局环境（base环境）或虚拟环境。全局环境指的是安装在Miniconda或Anaconda根目录的Python环境，而虚拟环境是用于隔离不同项目和
核心线程数和最大线程数设置参考标准【Java】松树戈实用配置 java 开发语言
核心线程数和最大线程数设置参考标准【Java】首先确定Java线程是什么态的？Java的线程是用户态+内核态，而内核态线程通过操作系统来调用，最终的可用线程数与操作系统的核数相关【如果设置了太多，很多是无效线程】一个设计标准：根据当前业务是IO密集型还是CPU密集型，设置核心线程数CPU密集型：核心线程数=CPU核数+1【机器学习、视频转码】IO密集型：核心线程数=CPU核数*2【Web应用】Ja
使用 JuiceFS 快照功能实现数据库发布与端到端测试 Juicedata 架构运维
今天的博客来自JuiceFS云服务用户Jerry，他们通过使用JuiceFSsnapshot功能，创新性地实现了数据的版本控制。Jerry，是一家位于北美的科技公司，利用人工智能和机器学习技术，简化用户购买汽车和家庭保险的比较及购买流程。在软件开发领域，严格的测试和受控发布已经成为几十年来的标准做法。但如果我们能将这些原则应用到数据库和数据仓库中会怎样？想象一下，能够为数据基础设施定义一套带有测试
【系统架构设计】计算机组成与体系结构（一）傻傻虎虎系统架构设计精编系统架构计算机原理计算机系统组成
计算机组成与体系结构计算机系统组成计算机硬件组成控制器运算器主存储器辅助存储器输入设备输出设备计算机系统结构的分类存储程序的概念Flynn分类复杂指令集系统与精简指令集系统总线兜兜转转，最后还是回到了4大件，补基础，仅对学习过程中的要点进行记录，方便后面查看。个人感觉，计算机组成与体系结构整体内容是偏向硬件的，所以思考时，从硬件角度出发。计算机系统组成计算机硬件组成控制器控制器是分析和执行指令的部
2025年美赛数学建模2025 MCM Problem A: Testing Time: The Constant Wear On Stairs A题测试时间：楼梯上的持续磨损代码解析 2025年数学建模美赛 2025年美赛MCM/ICM 数学建模 2025年数学建模美赛 2025数学建模美赛 A题 2025 楼梯上的持续磨损 matlab代码
目录Python1.数据预处理与特征工程数据标准化与特征构建2.行进方向偏好分析深度神经网络（DNN）用于方向性分析3.多人同时使用分析卷积神经网络（CNN）用于磨损模式识别4.时间序列分析LSTM模型用于时间序列预测matlab代码Python我们将采用更多的机器学习和深度学习技术，例如图像处理、深度神经网络（DNN）、卷积神经网络（CNN）等，并结合不同的算法进行更深入的分析。1.数据预处理与
PyTorch 快速入门無量空所深度学习机器学习 pytorch 开源
我们将通过一个简单的示例，快速了解如何使用PyTorch进行机器学习任务。PyTorch是一个开源的机器学习库，它提供了丰富的工具和库，帮助我们轻松地构建、训练和测试神经网络模型。以下是本教程的主要内容：一、数据处理PyTorch提供了两个基本的数据处理工具：torch.utils.data.DataLoader和torch.utils.data.Dataset。Dataset用于存储样本及其对应
【Java】已解决：`java.lang.NoClassDefFoundError` 屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【Java】已解决java.lang.NoSuchMethodException异常屿小夏 java python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
PennyLane: 探索量子计算的新里程戴艺音
PennyLane:探索量子计算的新里程项目地址:https://gitcode.com/gh_mirrors/pe/pennylane项目简介是一个开源软件框架，专注于混合量子和经典计算。由PennyLaneAI团队开发，该项目提供了一个直观且灵活的方式来设计、训练和优化涉及量子硬件的机器学习模型。其目标是让研究人员和开发者能够轻松地在本地或云端的量子计算机上进行实验。技术分析PennyLane
Anaconda 虚拟环境和 Python 虚拟环境主要的区别张biubiu python 开发语言
在PyCharm中配置Anaconda虚拟环境和Python虚拟环境主要的区别在于环境的管理方式和用途。下面我会分别解释这两种虚拟环境的特点，并说明它们的差异。1.Anaconda虚拟环境Anaconda是一个针对数据科学、机器学习等应用领域优化的Python发行版，它提供了Python、R和大量的科学计算和数据处理包（如NumPy、Pandas、SciPy、Matplotlib等）的集成，且方便
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Oracle备份恢复工作：Oracle数据库的导出与导入。杨云龙666 数据库
当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障(硬件故障、软件故障、网络故障、进程故障和系统故障)影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库该处理称为数据库恢复，而要进行数据库的恢复必须要有数据库的备份工作。1整库导出与导入注意：（整库导出与导入：数据量比较大，耗
CPU缓存架构详解与Disruptor高性能内存队列实战吴冰_hogan juc 缓存架构 java
引言现代计算机系统的性能很大程度上取决于CPU与内存之间的交互效率。随着处理器技术的发展，CPU的速度远超主内存，为了弥补这种速度差异，引入了多级高速缓存（Cache）。然而，在多核环境下，缓存一致性成为了一个重要的问题。本文将详细介绍CPU缓存架构的工作原理、面临的挑战及解决方案，并探讨Disruptor这一高性能内存队列的设计理念和实际应用。1.CPU缓存架构详解1.1CPU高速缓存概念CPU
自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合辞落山 scikit-learn 线性回归 python
1.引言简要介绍线性回归模型及其在机器学习中的应用。2.创建自定义数据集通过生成一个简单的自定义数据集来模拟问题。可以使用numpy生成数据。importnumpyasnpimportmatplotlib.pyplotasplt#生成自定义数据np.random.seed(42)X=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)3.使用s
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

探索weka实现中文文本分类

探索weka实现中文文本分类

总体思路：

主要流程：

1. 从网上搜寻中文文本分类数据集

2. 使用python-jieba库对所搜集的中文文本数据集进行分词操作，并存储为txt文本

3. 将txt通过excel转换成cvs文件

4. 在weka中进行数据预处理后进行分类学习并预测，比较各个参数以及函数对正确率的影响

主要实现流程

进行文本分类并预测、评估正确率！

结果展示：（结果汇总及分析在后面）

实验结果与分析

1. 数据集的66%作为训练集，33%作为测试集（也做了2：1的测试实验，比十折的实验快很多，把数据也放上来吧）

2. 十折交叉验证法，将数据集分成10份，其中9份作为训练集，1份作为测试集，进行10次实验后取平均值

实验分析：

你可能感兴趣的:(计算机系统,机器学习,weka)