王国龙_成长

初试weka数据挖掘

偶然间在网上看到了一篇关于weka好的博文，就记录了下来……

weka下载地址为http://www.cs.waikato.ac.nz/ml/weka/downloading.html

读者有时候看到两个图片并列，其中一个是原文的，另一个是我实验时打开的。

一.引入

数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师不需要去做算法层面的东西。他们的精力，集中在特征提取、算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），是一款免费的，非商业化的，基于Java环境下开源的机器学习以及数据挖掘软件，它和它的源代码可在其官方网站下载。有趣的是，该软件的缩写weka也是New Zealand独有的一种鸟名，而Weka的主要开发者同时恰好来自新西兰的the University of Waikato。

下面就是weka鸟，咱看下其风采。

Weka提供的功能有数据处理，特征选择、分类、回归、聚类、关联规则、可视化等。本文将对Weka的使用做一个简单的介绍，并通过简单的示例，使大家了解使用weka的流程。本文将仅对图形界面的操作做介绍，不涉及命令行和代码层面的东西。

二.工具简介

窗口右侧共有4个应用，分别是

Explorer：用来进行数据实验、挖掘的环境，它提供了分类，聚类，关联规则，特征选择，数据可视化的功能。
Experimentor：用来进行实验，对不同学习方案进行数据测试的环境。
KnowledgeFlow：功能和Explorer差不多，不过提供的接口不同，用户可以使用拖拽的方式去建立实验方案。另外，它支持增量学习。
SimpleCLI：简单的命令行界面。

Weka支持很多种文件格式，包括arff、xrff、csv，甚至有libsvm的格式。其中，arff是最常用的格式，我们在这里仅介绍这一种。
Arff全称是Attribute-Relation File Format，以下是一个arff格式的文件的例子。

% 
%  Arff file example 
% 
@relation ‘labor-neg-data’ 
@attribute ‘duration’ real 
@attribute ‘wage-increase-first-year’ real 
@attribute ‘wage-increase-second-year’ real 
@attribute ‘wage-increase-third-year’ real 
@attribute ‘cost-of-living-adjustment’ {‘none’,'tcf’,'tc’} 
@attribute ‘working-hours’ real 
@attribute ‘pension’ {‘none’,'ret_allw’,'empl_contr’} 
@attribute ’standby-pay’ real 
@attribute ’shift-differential’ real 
@attribute ‘education-allowance’ {‘yes’,'no’} 
@attribute ’statutory-holidays’ real 
@attribute ‘vacation’ {‘below_average’,'average’,'generous’} 
@attribute ‘longterm-disability-assistance’ {‘yes’,'no’} 
@attribute ‘contribution-to-dental-plan’ {‘none’,'half’,'full’} 
@attribute ‘bereavement-assistance’ {‘yes’,'no’} 
@attribute ‘contribution-to-health-plan’ {‘none’,'half’,'full’} 
@attribute ‘class’ {‘bad’,'good’} 
@data 
1,5,?,?,?,40,?,?,2,?,11,’average’,?,?,’yes’,?,’good’ 
2,4.5,5.8,?,?,35,’ret_allw’,?,?,’yes’,11,’below_average’,?,’full’,?,’full’,'good’ 
?,?,?,?,?,38,’empl_contr’,?,5,?,11,’generous’,'yes’,'half’,'yes’,'half’,'good’ 
3,3.7,4,5,’tc’,?,?,?,?,’yes’,?,?,?,?,’yes’,?,’good’ 
3,4.5,4.5,5,?,40,?,?,?,?,12,’average’,?,’half’,'yes’,'half’,'good’ 
2,2,2.5,?,?,35,?,?,6,’yes’,12,’average’,?,?,?,?,’good’ 
3,4,5,5,’tc’,?,’empl_contr’,?,?,?,12,’generous’,'yes’,'none’,'yes’,'half’,'good’ 
3,6.9,4.8,2.3,?,40,?,?,3,?,12,’below_average’,?,?,?,?,’good’ 
2,3,7,?,?,38,?,12,25,’yes’,11,’below_average’,'yes’,'half’,'yes’,?,’good’ 
1,5.7,?,?,’none’,40,’empl_contr’,?,4,?,11,’generous’,'yes’,'full’,?,?,’good’ 
3,3.5,4,4.6,’none’,36,?,?,3,?,13,’generous’,?,?,’yes’,'full’,'good’ 
2,6.4,6.4,?,?,38,?,?,4,?,15,?,?,’full’,?,?,’good’ 
2,3.5,4,?,’none’,40,?,?,2,’no’,10,’below_average’,'no’,'half’,?,’half’,'bad’

这个例子来自于weka安装目录data文件下的labor.arff文件，来源于加拿大劳资谈判的案例，它根据工人的个人信息，来预测劳资谈判的最终结果。文件中，“%”开头的是注释。剩余的可以分为两大部分，头信息（header information）和数据信息（data information）。
头信息中，“@relation”开头的行代表关系名称，在整个文件的第一行（除去注释）。格式是@relation <relation-name>“@attribute”开头的代表特征，格式是@attribute <attribute-name> <datatype>attribute-name是特征的名称，后面是数据类型，常用数据类型有以下几种

numeric，数字类型，包括integer（整数）和real（实数）
nominal，可以认为是枚举类型，即特征值是有限的集合，可以是字符串或数字。
string，字符串类型，值可以是任意的字符串。

从“@data ”开始，是实际的数据部分。每一行代表一个实例，可以认为是一个特征向量。各个特征的顺序与头信息中的attribute逐个应，特征值之间用逗号分割。在有监督分类中，最后一列是标注的结果。某些特征的数值如果是缺失的，可以用“？”代替。

使用weka进行数据挖掘的流程如下图：

        其中，在weka内进行的是数据预处理，训练，验证这三个步骤。
         1）数据预处理：数据预处理包括特征选择，特征值处理（比如归一化），样本选择等操作。
         2）训练：训练包括算法选择，参数调整，模型训练。
         3）验证：对模型结果进行验证。
        本文剩余部分将以这个流程为主线，以分类为示例，介绍使用weka进行数据挖掘的步骤。

发现我的界面和这个不一样的，不过为了演示需要，未作改动，知道了因为区域4选择的不同在区域5显示的便不同。

三.数据预处理

数据预处理：打开Explorer界面，点“open file”，在weka安装目录下，选择data目录里的“labor.arff”文件，将会看到如下界面。我们将整个区域分为7部分，下面将分别介绍每部分的功能。

区域1共6个选项卡，用来选择不同的数据挖掘功能面板，从左到右依次是Preprocess（预处理）、Classify（分类）、Cluster（聚类）、Associate（关联规则）、Select attribute（特征选择）和Visualize（可视化）。
区域2提供了打开、保存，编辑文件的功能。打开文件不仅仅可以直接从本地选择，还可以使用url和db来做数据源。Generate按钮提供了数据生成的功能，weka提供了几种生成数据的方法。点开Edit，将看到如下界面

在这个界面，可以看到各行各列对应的值，右键每一列的名字(先点击列名)，可以看到一些编辑数据的功能，这些功能还是比较实用的。

        区域3名为Filter，有些人可能会联想到特征选择里面的Filter方法，事实上，Filter针对特征（attribute）和样本（instance）提供了大量的操作方法，功能十分强大。
        区域4，可以看到当前的特征、样本信息，并提供了特征选择和删除的功能。在区域4用鼠标选择单个特征后，区域5将显示该特征的信息。包括最小值、最大值、期望和标准差。
        区域6提供了可视化功能，选择特征后，该区域将显示特征值在各个区间的分布情况，不同的类别标签以不同的颜色显示。
        区域7是状态栏，没有任务时，小鸟是坐着的，任务运行时，小鸟会站起来左右摇摆。如果小鸟站着但不转动，表示任务出了问题。

四.Filters实例

点开Filter下面的choose按钮，可以看到如下界面

Filters可分为两大类，supervised(监督、管理)和unsupervised。supervised下的方法需要类别标签，而unsupervised则不需要。attribute类别表示对特征做筛选，instance表示对样本做选择。

Case 1：特征值归一化
该项功能与类别无关，且是针对attribute的，我们选择unsupervised -> attribute下面的Normalize。点开Normalize所在的区域(在所选择的filter上点击即可)，将看到如下界面。左边的窗口，有几个参数可以选择。点击more，将出现右边的窗口，该窗口详细介绍了此功能。

使用默认参数，点击ok，回到主窗口。在区域4选好将要归一化的特征，可以是一个或多个，然后点击apply。在可视化区域中，我们可以看到特征值从1到3被归一到了0到1之间(看区域5的最大最小值)。

Case 2: 分类器特征筛选
该功能与类别相关，选择supervised -> attribute下面的AttributeSelection。该界面有两个选项，evaluator是评价特征集合有效性的方法，search是特征集合搜索的方法。在这里，我们使用InformationGainAttributeEval作为evaluator，使用Ranker作为search，表示我们将根据特征的信息增益值对特征做排序。Ranker中可以设置阈值，低于这个阈值的特征将被扔掉。

        点击apply，可以看到在区域4里特征被重新排序，低于阈值的已被删掉。
        Case 3：选择分类器错分的样本
        选择unsupervised -> instance下面的RemoveMisclassified，可以看到6个参数，classIndex用来设置类别标签，classifier用来选择分类器，这里我们选择J48决策树，invert我们选择true，这样保留的是错分样本，numFolds用来设置交叉验证的参数。设置好参数之后，点击apply，可以看到样本的数量从57减少到了7。

五.分类

        在Explorer中，打开classify选项卡，整个界面被分成几个区域。分别是
        1）Classifier：点击choose按钮，可以选择weka提供的分类器。常用的分类器有
              a）bayes下的Naïve Bayes（朴素贝叶斯）和BayesNet（贝叶斯信念网络）。
              b）functions下的LibLinear、LibSVM（这两个需要安装扩展包）、Logistic Regression、Linear Regression。
              c）lazy下的IB1（1-NN）和IBK（KNN）。
              d）meta下的很多boosting和bagging分类器，比如AdaBoostM1。
              e）trees下的J48（weka版的C4.5）、RandomForest。
         2）Test options
        评价模型效果的方法，有四个选项。
              a）Use training set：使用训练集，即训练集和测试集使用同一份数据，一般不使用这种方法。
              b）Supplied test set：设置测试集，可以使用本地文件或者url，测试文件的格式需要跟训练文件格式一致。
              c）Cross-validation：交叉验证，很常见的验证方法。N-folds cross-validation是指，将训练集分为N份，使用N-1份做训练，使用1份做测试，如此循环N次，最后整体计算结果。
             d）Percentage split：按照一定比例，将训练集分为两份，一份做训练，一份做测试。在这些验证方法的下面，有一个More options选项，可以设置一些模型输出，模型验证的参数。
        3）Result list
        这个区域保存分类实验的历史，右键点击记录，可以看到很多选项。常用的有保存或加载模型以及可视化的一些选项。
        4）Classifier output
       分类器的输出结果，默认的输出选项有Run information，该项给出了特征、样本及模型验证的一些概要信息；Classifier model，给出的是模型的一些参数，不同的分类器给出的信息不同。最下面是模型验证的结果，给出了   一些常用的一些验证标准的结果，比如准确率（Precision），召回率（Recall），真阳性率（True positive rate），假阳性率（False positive rate），F值（F-Measure），Roc面积（Roc Area）等。Confusion Matrix给出了测试样本的分类情况，通过它，可以很方便地看出正确分类或错误分类的某一类样本的数量。

        Case 1：使用J48对labor文件做分类
            a.打开labor.arff文件，切换到classify面板。
            b.选择trees->J48分类器，使用默认参数。
            c.Test options选择默认的十折交叉验证，点开More options，勾选Output predictions。
            d.点击start按钮，启动实验。
            e.在右侧的Classifier output里面，我们看到了实验的结果。

上图给出了实验用的分类器以及具体参数，实验名称，样本数量，特征数量以及所用特征，测试模式。

上图给出了生成的决策树，以及叶子节点数、树的节点数、模型训练时间。如果觉得这样不直观，可以在Result list里面右键点击刚刚进行的实验，点击Visualize Tree，可以看到图形界面的决策树，十分直观。

再往下是预测结果，可以看到每个样本的实际分类，预测分类，是否错分，预测概率这些信息。

        最下面是验证结果，整体的accuracy是73.68%，bad类准确率是60.9%，召回率70.0%，good类准确率是82.4%，召回率75.7%。

        5）可视化
        打开Explorer的Visualize面板，可以看到最上面是一个二维的图形矩阵，该矩阵的行和列均为所有的特征（包括类别标签），第i行第j列表示特征i和特征j在二维平面上的分布情况。图形上的每个点表示一个样本，不同的类别使用不同的颜色标识。下面有几个选项，PlotSize可以调整图形的大小，PointSize可以调整样本点的大小，Jitter可以调整点之间的距离，有些时候点过于集中，可以通过调整Jitter将它们分散开。

上图是duration和class两个特征的图形，可以看出，duration并不是一个好特征，在各个特征值区间，good和bad的分布差不多。
单击某个区域的图形，会弹出另外一个窗口，这个窗口给出的也是某两个特征之间分布的图形，不同的是，在这里，通过点击样本点，可以弹出样本的详细信息。可视化还可以用来查看误分的样本，这是非常实用的一个功能。分类结束后，在Result list里右键点击分类的记录，选择Visualize classify errors，会弹出如下窗口。

        这个窗口里面,十字表示分类正确的样本，方块表示分类错误的样本，X轴为实际类别，Y轴为预测类别，蓝色为实际的bad，红色为实际的good。这样，蓝色方块就表示实际为bad，但为误分为good的样本，红色方块表示实际为good，被误分为bad的样本。单击这些点，便可以看到该样本的各个特征值，分析为什么这个样本被误分了。
        再介绍一个比较实用的功能，右键点击Result list里的记录，选择Visualize threshold curve，然后选好类别(bad 还是good)，可以看到如下图形。

该图给出的是分类置信度在不同阈值下，分类效果评价标准的对比情况。上图给出的是假阳性比率和真阳性比率在不同阈值下的对比，其实给出的就是ROC曲线。我们可以通过选择颜色，方便地观察不同评价标准的分布情况。如果X轴和Y轴选择的是准确率和召回率，那我们可以通过这个图，在这两个值之间做trade-off，选择一个合适的阈值。其它的一些可视化功能，不再一一介绍。

六.小结
本文仅仅针对weka的Explorer界面的某些功能做了介绍，Explorer其它的功能，比如聚类、关联规则、特征选择，以及Experimentor和KnowledgeFlow界面使用，可以参考weka的官方文档。另外，weka支持扩展包，可以很方便地把liblinear、libsvm这样的开源工具放进来。在Linux下面，可以使用weka的命令行进行实验，具体的使用方法，也请参考weka官方文档。有这样一款开源、免费、强大的数据挖掘工具，你还在等什么呢？没有用过weka的数据挖掘工程师们，赶紧行动吧。

参考来源：百度搜索研发部，原文有删改。

Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
weka 决策树 marui1982 机器学习
1.参数说明：Generaloptions:-hor-helpOutputhelpinformation.-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行10交叉验证）Setstrainingfile.-T（测试文件，如果设置，则不进行交叉验证
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
特征缩放：统一量纲，提高模型性能 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
特征缩放：统一量纲，提高模型性能1.背景介绍在机器学习和数据挖掘领域，我们经常会遇到不同特征之间量纲差异很大的情况。比如，一个数据集中可能包含年龄（0-100）、收入（0-100000）、身高（150-200cm）等不同尺度的特征。这种量纲不统一会给许多机器学习算法（如梯度下降）带来问题，导致收敛速度慢、模型性能差等。特征缩放（FeatureScaling）就是一种用于解决这个问题的常用数据预处理
80| Python可视化篇 —— Matplotlib数据可视化小刘要努力。 Python教程系列专栏可视化数据分析 python
文章目录Matplotlib和数据可视化安装matplotlib绘制折线图绘制散点图绘制正弦曲线绘制直方图使用Pygal绘制矢量图3D图Matplotlib和数据可视化数据的处理、分析和可视化已经成为Python近年来最为重要的应用领域之一，其中数据的可视化指的是将数据呈现为漂亮的统计图表，然后进一步发现数据中包含的规律以及隐藏的信息。数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下
社会科学市场博弈和价格预测之时间序列挖掘（Datawhale AI 夏令营）会飞的Anthony 人工智能人工智能
深入理解赛题——探索性数据分析首先，我们先介绍一下什么是EDA：探索性数据分析（ExploratoryDataAnalysis,EDA）是一组数据分析技术，旨在总结其主要特征，通常通过可视化手段来实现。EDA的目标是通过数据的统计摘要和图形展示来发现数据的结构、异常值、模式、趋势、关系以及变量之间的相互作用。为什么进行EDA？在现在的数据挖掘类比赛中，模型和方法选择空间往往很小，同时存在不少自动机
企业数据挖掘平台×DeepSeek强强联合，多种应用场景适用泰迪智能科技01 DeepSeek 数据挖掘人工智能
企业数据挖掘建模平台简单易用，可提供代码方便定制，全面培训服务+丰富模型参考+专业建模人员支持服务。在科技飞速发展的今天，人工智能领域的每一次突破都如同投入湖面的巨石，激起层层波澜。DeepSeek作为大模型领域的璀璨新星，以其卓越的技术实力和创新的应用模式，成为了全球瞩目的焦点，也为高校教育、企业发展都带来了前所未有的机遇与变革。当数据挖掘平台×DeepSeek强强联合，又会碰撞出怎样的火花呢？
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
【数据挖掘】Pandas之DataFrame dundunmm 数据挖掘机器学习数据挖掘大数据人工智能 pandas 机器学习
在Pandas中，DataFrame提供了丰富的数据操作功能，包括查询、编辑、分类和汇总。1.数据查询（Filtering&Querying）1.1按索引或列名查询importpandasaspddata={"ID":[101,102,103,104,105],"Name":["Alice","Bob","Charlie","David","Eva"],"Age":[25,30,35,40,28]
学生行为习惯画像可视分析平台 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
学生行为习惯，画像分析，可视化，机器学习，数据挖掘，教育科技1.背景介绍随着教育信息化进程的不断加速，海量教育数据正在被生成和积累。这些数据蕴含着丰富的学生行为信息，例如学习时间、学习内容、学习方式、学习效果等。有效挖掘和分析这些数据，能够帮助教育工作者深入了解学生的学习习惯和行为模式，从而为个性化教学、精准指导和学习效果提升提供重要支撑。然而，传统的教育数据分析方法往往局限于简单的统计描述，难以
用python制作简单的小游戏,用python设计一个小游戏 w12130826 pygame python 开发语言人工智能
本篇文章给大家谈谈python编写小游戏详细教程，以及用python制作简单的小游戏，希望对各位有所帮助，不要忘了收藏本站喔。Python为什么能这么火热？Python相对于其他语言来说比较简单，即使是零基础的普通人也能很快的掌握，在其他方面比如，处于灰色界的爬虫，要VIP的视频，小说，歌，没有爬虫解决不了的；数据挖掘及分析，淘宝就是例子，想开个淘宝店，需要获取相关商品信息，这时数据分析就能解决等
python和java的优缺点-java有哪些python没有的优点? weixin_37988176
Java和Python都是目前最火的后台语言。Java的使用时间更久，更成熟，Python语言更年轻，更便捷。两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言，Python可以让开发人员轻松表达概念，程序员维护和更新代码库更容易;3.Py
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
从数据中挖掘洞见：初探数据挖掘的艺术与科学 Echo_Wish 大数据数据挖掘人工智能
从数据中挖掘洞见：初探数据挖掘的艺术与科学在当今信息爆炸的时代，我们每天都被海量数据所包围。这些数据不仅记录了我们每天的生活轨迹，还蕴含着无数潜在的模式和洞见。作为大数据领域的自媒体创作者，我笔名Echo_Wish，在这篇文章中，我将带领大家初探数据挖掘的奥秘，揭示如何从数据中寻找隐藏的模式。什么是数据挖掘？数据挖掘（DataMining），顾名思义，就是从大量数据中“挖掘”出有价值的信息和模式。
Perl初试 weixin_30480583 网络
通过接口发送短信的socket小样：#!/usr/bin/perl-w#auth:[email protected]#what:sendmessagetophone#usage:sms.pl[phonenumber][text]usestrict;useSocket;if(scalar@ARGV!=2){die"Usage:sms.pl[phonenumber][text]\n";}my$p
[点点搬家]初试mod_perl+apache 之二 promenade perl apache
[四年前的博客了，学习apache的纯真年代]学习practicalmod_perl中关于apache的配置，章节连接如下http://www.modperlbook.org/html/4-1-1-Configuration-Files.html1,".htaccess"文件，可以看到httpd.conf中有这样的模块AllowOverrideNoneOptionsNoneOrderallow,d
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
【数据挖掘】异构图与同构图 dundunmm 数据挖掘深度学习数据挖掘知识图谱人工智能
在图论（GraphTheory）中，异构图（HeterogeneousGraph）和同构图（HomogeneousGraph）是两种不同的图结构概念，它们的主要区别在于节点和边的类型是否单一。1.异构图（HeterogeneousGraph）定义：异构图是指节点类型和/或边类型不同的图，通常用于建模具有多种实体和关系的复杂系统。例如，在社交网络、知识图谱、生物网络等领域，数据往往包含多个类别的实体
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

初试weka数据挖掘

你可能感兴趣的:(初试weka数据挖掘)