qq_35169045

数据挖掘初试--熟悉WEka平台

实验一熟悉weka平台

一、实验名称

WEKA的使用与数据准备

二、实验目的

熟悉数据挖掘的常用软件WEKA的安装和环境，理解weka的数据格式，掌握数据格式的转换，理解数据预处理的必要性和基本方法。

三、实验平台

计算机、软件WEKA、UtraEdit

四、实验数据

bank-data.csv（在服务器上有提供）

weather.arff （代码在文档中）

五、实验方法和步骤

1、实验准备

(1)访问WEKA网站http://www.cs.waikato.ac.nz/ml/weka，下载带JAVA虚拟机版本的WEKA。（机房如果安装就不用安装）

(2)将实验所需数据bank-data.csv从服务器下载。

2、了解weka的环境

(1)安装weka，了解weka的环境

(2) “weather.arff”文件，了解arff文件的格式

3、数据准备

（1）将原来的“bank-data.csv”文件转化为arff文件“bank-data.arff”。

（2）把“ID”属性去掉。

（3）把“Children”属性转换成数值型的值{0,1,2,3}。

（4）使用“Discretize”的Filter把“age”和“income”的离散化，另存文件为bank_data_final.arff

六、实验指导

1. 简介

WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

图一 WEKA主界面

如果想自己实现数据挖掘算法，可以看weka的接口文档，在weka中集成自己的算法。

2005年8月，在第11届ACM SIGKDD国际会议上，怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖，Weka系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。

2. 数据格式

跟很多电子表格或数据分析软件一样，WEKA所处理的数据集是图2那样的一个二维的表格。

图2 新窗口打开

表格里的一个行称作一个实例(Instance)，相当于统计学中的一个样本，或者数据库中的一条记录。列称作一个属性（Attrbute），相当于统计学中的一个变量，或数据库中的一个字段。这样一个表格(数据集)，在WEKA看来，呈现了属性之间的一种关系(Relation)。图1中一共有14个实例，5个属性，关系名称为“weather”。

WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件，这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。以下是“weather.arff”文件代码。

代码:

% ARFF file for the weather data with some numric features

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

@attribute humidity real

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

@data

% 14 instances

sunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no

需要注意的是，在Windows记事本打开这个文件时，可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。识别ARFF文件的重要依据是分行，因此不能在这种文件里随意的断行。空行（或全是空格的行）将被忽略。以“%”开始的行是注释，WEKA将忽略这些行。如果你看到的“weather.arff”文件多了或少了些“%”开始的行，是没有影响的。除去注释后，整个ARFF文件可以分为两个部分。

第一部分：头信息(Head information),包括了对关系的声明和对属性的声明。

第二部分：数据信息(Data information),即数据集中给出的数据。从“@data”标记开始，后面的是数据信息。

(1)关系声明

关系名称在ARFF文件的第一个有效行来定义，格式为

@relation

是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。

(2)属性声明

属性声明用一列以“@attribute”开头的语句表示。数据集中的每一个属性都有它对应的“@attribute”语句，来定义它的属性名称和数据类型。

这些声明语句的顺序很重要。首先它表明了该项属性在数据部分的位置。例如，“humidity”是第三个被声明的属性，这说明数据部分那些被逗号分开的列中，第三列数据 85 90 86 96 ... 是相应的“humidity”值。其次，最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。属性声明的格式为

@attribute

其中是必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它必须加上引号。

WEKA支持的有四种，分别是

numeric-------------------------数值型

-----分类（nominal）型

string----------------------------字符串型

date []--------日期和时间型

其中和将在下面说明。还可以使用两个类型“integer”和“real”,但是WEKA把它们都当作“numeric”看待。注意“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的，而“relation”“attribute ”和“date”则不区分。

数值属性

①数值型属性可以是整数或者实数，但WEKA把它们都当作实数看待。

分类属性

②分类属性由列出一系列可能的类别名称并放在花括号中：{, , , ...}。数据集中该属性的值只能是其中一种类别。

例如如下的属性声明说明“outlook”属性有三种类别：“sunny”，“ overcast”和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。

@attribute outlook {sunny, overcast, rainy}

如果类别名称带有空格，仍需要将之放入引号中。

字符串属性

③字符串属性中可以包含任意的文本。这种类型的属性在文本挖掘中非常有用

示例： @ATTRIBUTE LCC string

日期和时间属性

④日期和时间属性统一用“date”类型表示，它的格式是

@attribute date []

其中是这个属性的名称，是一个字符串，来规定该怎样解析和显示日期或时间的格式，默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。数据信息部分表达日期的字符串必须符合声明中规定的格式要求（下文有例子）。

(3)数据信息

数据信息中“@data”标记独占一行，剩下的是各个实例的数据。每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value)，用问号“?”表示，且这个问号不能省略。例如：

@data

sunny,85,85,FALSE,no

?,78,90,?,yes

字符串属性和分类属性的值是区分大小写的。若值中含有空格，必须被引号括起来。例如：

@relation LCCvsLCSH

@attribute LCC string

@attribute LCSH string

@data

AG5, 'Encyclopedias and dictionaries.;Twentieth century.'

AS262, 'Science -- Soviet Union -- History.'

日期属性的值必须与属性声明中给定的相一致。例如：

@RELATION Timestamps

@ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"

@DATA

"2001-04-03 12:12:12"

"2001-05-03 12:59:55"

(4)稀疏数据

有的时候数据集中含有大量的0值（比如购物篮分析），这个时候用稀疏格式的数据存贮更加省空间。稀疏格式是针对数据信息中某个实例的表示而言，不需要修改ARFF文件的其它部分。看如下的数据：

@data

0, X, 0, Y, "class A"

0, 0, W, 0, "class B"

用稀疏格式表达的话就是

@data

{1 X, 3 Y, 4 "class A"}

{2 W, 4 "class B"}

每个实例用花括号括起来。实例中每一个非0的属性值用 <空格> 表示。是属性的序号，从0开始计；是属性值。属性值之间仍用逗号隔开。

注意在稀疏格式中没有注明的属性值不是缺失值，而是0值。若要表示缺失值必须显式的用问号表示出来。

3、xls,cvs,arff数据格式转化

实际工程中数据常以各种各样的格式存储和加工，如Excel的xls文件,记事本文件，CSV文件。（CSV逗号分隔值文件（Comma Separated value），是一种用来存储数据的纯文本文件格式，通常用于电子表格或数据库软件。）WEKA默认的存储数据的格式是ARFF，因此有必要了解其他格式的文件是如何转换为ARFF文件，以方便在weka中处理。

用UltraEdit打开bank-data.csv可以看到，这种格式也是一种逗号分割数据的文本文件,储存了一个二维表格。

图3 使用UltraEdit打开bank-data.csv

(1)Excel的xls转化为CSV

Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中，只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表，另存为CSV类型，点“确定”、“是”忽略提示即可完成XLS转化为CSV格式的操作。

(2)使用“Arff Viewer”模块完成CSV文件转为Arff文件

在WEKA 3.5中提供了一个“Arff Viewer”模块，可以用它打开一个CSV文件将进行浏览，然后另存为ARFF文件。

图4 Arff Viewer”模块

图4 Arff Viewer”模块选择文件类型

进入“Exploer”模块，从上方的按钮中打开CSV文件然后另存为ARFF文件。

5.1数据集属性的选择

通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据集保存一次，并用UltraEdit打开这个ARFF文件。我们发现，在属性声明部分，WEKA已经为每个属性选好了合适的类型。

5.2数值数据属性的离散化处理

有些算法，只能处理所有的属性都是分类型的情况。这时候就需要对数值型的属性进行离散化。

在bank-data数据集中有3个变量是数值型的，分别是“age”，“income”和“children”。其中“children”只有4个取值：0，1，2，3。这时我们在UltraEdit中直接修改ARFF文件，把 @attribute children numeric

改为 @attribute children {0,1,2,3} 就可以了。

在“Explorer”中重新打开“bank-data.arff”，看看选中“children”属性后，区域6那里显示的“Type”是不是变成“Nominal”了？

“age”和“income”的离散化我们需要借助WEKA中名为“Discretize”的Filter来完成。在区域2中点“Choose”，出现一棵“Filter树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。若无法关闭这个树，在树之外的地方点击“Explorer”面板即可。

现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。

图6WEKA中“Discretize”的Filter的离散化的参数设置

不打算对所有的属性离散化，只是针对对第1个和第4个属性，故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段，于是把“bins”改成“3”。其它框里不用更改，关于它们的意思可以点“More”查看。点“OK”回到“Explorer”，可以看到“age”和“income”已经被离散化成分类型的属性。若想放弃离散化可以点区域2的“Undo”。

如果对“"(-inf-34.333333]"”这样晦涩的标识不满，可以用UltraEdit打开保存后的ARFF文件，把所有的“'\'(-inf-34.333333]\''”替换成“0_34”。其它标识做类似地手动替换。经过上述操作得到的数据集我们保存为bank-data-final.arff。

五、通过实验,要求同学实验中解决以下问题，并递交完整的实验报告

1、ARFF数据类型的格式如何，数据如何转换成ARFF数据类型?将转换后的文档bank-data-final.arff提交

2、为什么在数据预处理中，需要进行数据处理和分类数据的转换。

3、仔细观察WEKA Explorer 的主界面，解释1~8区域的对应的含义与作用。

4、访问如下站点，了解IBM和微软在其数据库产品中提供的数据挖掘功能。

[1] https://www.ibm.com/support/knowledgecenter/search/data%20mining

[2]http://msdn.microsoft.com/zh-cn/library/ms175595.aspx

最终提交要求：

一个实验报告和一个转换过的bank-data-final.arff文件，放到文件夹中压缩提交，压缩包命名为：学号+姓名

数据挖掘

（1）将原来的“bank-data.csv”文件转化为arff文件“bank-data.arff”。

步骤一：用weka打开“bank-data.csv”准备转换

步骤二：另存为转换成bank-data-.arff文件

（2）把“ID”属性去掉。

（3）把“Children”属性转换成数值型的值{0,1,2,3}。

步骤一：将上步骤中的文件重新命名为bank-data-id.arff,并用记事本打开

更改前

更改后

步骤二：在“Explorer”中重新打开“bank-data.arff”，看看选中“children”属性后，区域6那里显示的“Type” 变成“Nominal”，如下图可见

（4）使用“Discretize”的Filter把“age”和“income”的离散化，另存文件为bank_data_final.arff

在区域2中点“Choose”逐级找到“Discretize -B 10 -M -0.1 -R first-last”文件。

离散化改成12段

Age更改后

Income更改后

最后保存文件为bank_data_final0236.arff

短视频矩阵系统源码新发布技术方案有那几种？ Yxh18137784554 短视频矩阵开发矩阵算法架构
短视频矩阵系统从21年发展到现在经历了历史性的发展高潮经过各平台的反复变化政策，短视频矩阵系统目前做的为数不多的同梯队的筷子科技、云罗抖去推、超级编导都选用的是什么方式的代发解决方案呢？今天小编就来给我的技术粉们分享下一下几种常见的开发方案#短视频矩阵系统##短视频矩阵系统还能用吗？##短视频矩阵系统源码##短视频矩阵系统代发/托管发都有什么解决方案?短视频矩阵系统源码新发布的技术方案通常有以下几
【C++开源库】tinyxml2解析库使用介绍小庞在加油 C++知识 c++开源 tinyxml2解析库
TinyXML-2是一个在C++中使用的轻量级、简单且高效的XML解析库。它由LeeThomason开发，旨在提供快速解析和生成XML数据的功能，同时保持代码的简洁性和易于使用。TinyXML-2支持多种编译器和平台，包括Windows、Linux和macOS。特点与优势简单易用：TinyXML-2提供了直观的API，使得解析和生成XML文档变得简单。高性能：它经过优化，能够快速解析大型XML文件
【深入理解 SpringBoot3】第一弹：SpringBoot3 快速入门敖云岚 spring boot 后端 java
一、SpringBoot是什么SpringBoot帮我们简单、快速地创建一个独立的、生产级别的Spring应用大多数SpringBoot应用只需要编写少量配置即可快速整合Spring平台以及第三方技术。特性：直接嵌入Tomcat、Jetty或Undertow（无需部署war包）提供可选的starter（场景启动器）简化应用的整合实现按需的自动配置Spring以及第三方库（约定大于配置）：appli
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
深入理解 Vue3 中的 Reflect 和 Proxy 使用写完这行代码打球去 #vue vue.js 前端 javascript
Proxy详解讲到Proxy对象相信大家都肯定很熟悉，vue3的响应式原理就是以此为基础的。Proxy对象用于创建一个对象的代理，从而实现基本操作的拦截和自定义（如属性查找、赋值、枚举、函数调用等）。Proxy语法简要介绍constp=newProxy(target,handler)handler常用方法get-拦截对象属性的读取操作set-拦截对象属性的设置操作has-拦截属性查询操作delet
【QT入门】qmake和cmake的简单区别不吃~香菜 QT入门 qt 开发语言学习 qmake cmake
声明：该专栏为本人学习Qt知识点时候的笔记汇总，希望能给初学的朋友们一点帮助(加油！)往期回顾：【QT入门】Windows平台下QT的编译过程-CSDN博客【QT入门】VS2019+QT的开发环境配置-CSDN博客【QT入门】VS2019和QTCreator如何添加第三方模块-CSDN博客【QT入门】qmake和cmake的简单区别qmake和cmake是两种常用的构建工具，用于自动化构建C++项
SpringAI集成DeepSeek 一诚学编程 java 人工智能 spring boot
1、利用spring-ai-openai集成DeepSeek1.1、在DeepSeek开放平台创建APIKEY1.2、创建SpringBoot工程，引入依赖4.0.0org.springframework.bootspring-boot-starter-parent3.3.8org.examplespringai-deepseek1.0-SNAPSHOT17171.0.0-M5org.spring
软件架构设计关键点：平衡高可用、性能、扩展性及成本的系统化实践 yinhezhanshen 程序人生系统架构
在数字化转型的浪潮中，软件系统已成为企业运营的核心支撑。从电商平台的秒杀活动到金融系统的实时交易，从物联网设备的百万级连接到政务服务的全天候响应，软件架构的设计质量直接决定了系统能否在复杂环境中稳定运行。本文将从高可用性、高性能、可扩展性、安全性、成本控制、规模承载和弹性伸缩七个维度，剖析现代软件架构设计的核心要点。一、高可用性：构建业务连续性的基石‌冗余设计‌：采用主从复制、多活数据中心架构（如
Temu跨境新风口：2025年开店必知的账号安全指南香菜9527 安全
近年来，Temu凭借其强大的供货链体系与超低价策略，成为跨境电商行业的新风口，吸引众多卖家入驻。随着平台竞争加剧，账号安全问题逐渐成为卖家面临的核心挑战。账号被封、资金冻结、违规操作等问题频发，轻则影响销量，重则导致店铺损失惨重。因此，了解并遵循安全运营规则，是每位卖家成功的关键。本文将为你详细解析Temu开店过程中必须掌握的账号安全知识，并提供实操建议，助你稳健运营。1.Temu账号安全为何重要
【004安卓开发方案调研】之Ionic+Vue+Capacitor开发安卓 ThinkPet 移动app开发 android ionic Capacitor Vue
基于Ionic+Vue+CapacitorPlugins的国内安卓开发生态和技术现状，结合跨平台框架特性与国内实际环境，以下是综合分析：一、技术成熟度评估1.核心优势跨平台开发效率Ionic提供预制的UI组件库（如卡片、列表、表单），结合Vue的响应式数据绑定，可快速构建80%以上的基础功能界面，开发效率比原生开发提升约40%。典型场景：企业内部工具App、电商商品详情页、新闻资讯类应用。Capa
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力香菜9527 人工智能业界资讯经验分享
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力近年来，全球跨境电商市场格局加速演变，中国跨境电商平台正积极拓展海外市场。继在北美、欧洲、澳大利亚等地区取得显著成绩后，拼多多旗下跨境电商平台Temu正式开启中亚市场布局。乌兹别克斯坦成为Temu在中亚的首个重点市场，标志着其全球扩张战略进入新的阶段。乌兹别克斯坦市场潜力与政策环境乌兹别克斯坦作为中亚人口最多的国家（约3500万人），近年来消费
《BUG生存指南》（有芝士的小说）可问可问春风重生之我来csdn写小说 bug 计算机小说小说
《BUG生存指南》“叮咚！”小张的手机响了，他抬头看了一眼，是一条来自“程序员自救互助群”的消息：【紧急通知：今晚午夜12点，所有未解决的BUG将实体化，威胁程序员安全。请及时修复代码，祝你好运。】“什么鬼？”小张笑着放下手机，继续敲代码，“这谁的恶作剧？也太无聊了。”小张是一名初级程序员，刚入职一家互联网公司。他最近负责的是一款在线购物平台的支付系统。项目上线在即，但代码里还有一堆未解决的BUG
麒麟服务器操作系统Redis部署手册太极淘麒麟操作系统管理工具服务器 redis 运维
软件简介Redis****介绍REmoteDIctionaryServer(Redis)是一个由SalvatoreSanfilippo写的key-value存储系统，是跨平台的非关系型数据库。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API。Redis通常被称为数据结构服务器，因为
C++ XML文件和解析 RangoLei_Lzs C++前端服务器 xml c++
XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。它具有自描述性和平台无关性的特点。XML文档的格式主要由一组嵌套的元素和属性构成，结构清晰，易于理解和解析。XML文档的基本格式一个XML文档通常包括以下部分：XML声明：标识文档和版本信息。根元素：整个XML文档只能有一个根元素，所有其他元素必须嵌套在根元素内。元素：具有开始标签和结束标签，可以嵌套其他元素。属性：为元素提供额外的信息。
高速NOA要爆！一年「1000万辆」市场红利，谁是最大赢家？高工智能汽车人工智能大数据
只有更低，没有最低。从7万元价位到5万元价位，2025的“智驾平权”之战开局已是火拼。有消息披露，奇瑞计划在小蚂蚁等入门级产品上全系标配基于高通8620平台的智能驾驶系统，可实现高速NOA和记忆泊车功能。2025款奇瑞小蚂蚁的起售价是5.99万元，按照这个价格区间，相当于高速NOA智驾方案进一步下探到5万级别水平。对比比亚迪将高速NOA智驾首次带入7万级车型市场，奇瑞这一动作无疑进一步加剧今年高阶
使用Python和Django构建支持多语言的博客网站程序员～小强 python django sqlite
随着互联网的发展,博客已经成为人们获取信息和分享想法的重要平台。但是不同国家和地区的用户语言各异,这给博客的国际化带来了挑战。本文将介绍如何使用Python和Django这两个强大的Web开发框架,来构建一个支持多语言的博客网站。Django框架概述Django是一个开源的Web应用框架,由Python写成。它鼓励快速开发和干净的设计。通过提供大量常用组件,Django可以更快地构建高质量的Web
阿里云+华为云双活架构：头部企业的云端生存法则云上的阿七阿里云华为云架构
如何在云端构建高可用、高可靠的业务架构，依然是企业IT决策者面临的挑战。面对单一云厂商可能带来的故障风险，越来越多的头部企业开始采用“阿里云+华为云”双活架构，以提升业务连续性，实现跨云容灾，打造更稳健的云端生存法则。什么是双活架构？双活架构（Active-ActiveArchitecture）指的是企业在两个云平台（如阿里云和华为云）上同时运行核心业务，实现数据同步和业务负载均衡。一旦某一云平台
04-项目负责人对业务不熟悉 javascript
一直以来，项目管理中存在一个较为突出的问题：项目负责人在接到产品需求后，往往只是简单浏览一眼，便着手制定项目开发计划。计划制定完成后，负责人通常只深入研究自己负责开发的模块，而对其他模块则不再深入了解。对于由其他同事负责开发的功能模块，项目负责人通常连三个基本问题都无法准确回答：一是“是什么”，即这个功能具体是什么；二是“为什么”，即客户为什么需要这个功能，这个功能对客户有什么实际用途，是否可以不
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
Qt上位机编程命名规范-执行版有追求的菜鸟 qt 开发语言
主要规范原则参考Qt上位机编程命名规范。1.文件/文件夹大小写分析考虑跨平台性，全小写是一种约定俗成的风格，在许多大型开源项目中（如Linux内核、Python标准库）被广泛使用。1.1.配合文件扩展名通常文件名小写配合小写扩展名（如.h,.cpp,.json），使整体风格统一：main.cppconfig.jsonutils.h1.2.文件夹和pri文件命名通常小写、下划线分开：control_
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
RK3568平台（音频篇）音频ALSA框架嵌入式_笔记瑞芯微音视频
一.ALSA框架简介ALSA表示先进linux声音架构（AdvancedLinuxSoundArchiecture），它由一系列的内核驱动、应用程序编程接口（API）以及支持linux下声音的应用程序组成、ALSA项目发起的原有是linux下的声卡驱动（OSS）没有获得积极的维护，而且落后于新的声卡技术。JaroslavKysela早先写了一个声卡驱动，并由此开始了ALSA项目，随后，更多的开发者
使用LangChain加载College Confidential数据 scaFHIO langchain python
#使用LangChain加载CollegeConfidential数据##技术背景介绍CollegeConfidential是一个提供有关3800+所大学和学院信息的平台。它被广泛使用于教育咨询和申请指导领域。为了方便开发者从CollegeConfidential获取数据，我们可以使用LangChain的`CollegeConfidentialLoader`模块进行加载和处理。##核心原理解析La
基于偏移量、游标分页的详解 B_rownJay 数据库 oracle
前言大量的数据集往往会被分成多个空间去存储。例如一本书就会有几十页几百页，因为把一本书都放在一页去展示不管是对生产者还是消费者都是及其不友好的。又比如在网页中我们常常会看到一页一页的数据，当然我们自己开发的时候也少不了做分页展示的需求。基于偏移量进行分页对于分页我们相较于使用游标进行分页更熟悉、见得更多的是基于偏移量进行分页。例如这样一个Get请求：brownjay.com/api/v1/book
Kafka扩分区和分区副本重分配之后消费组会自动均衡吗？石臻臻的杂货铺 Kafka kafka 消费者
作者：石臻臻,CSDN博客之星Top5、KafkaContributor、nacosContributor、华为云MVP,腾讯云TVP,滴滴Kafka技术专家、KnowStreamingPMC)。KnowStreaming是滴滴开源的Kafka运维管控平台,有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,带你一起你参与开源！。KnowStreaming体验环境请访问：
使用 Argilla 进行大语言模型数据管理与监控 qahaj 语言模型 python 人工智能
技术背景介绍Argilla是一个开源的数据管理平台，专为大语言模型（LLMs）设计。它旨在通过快速的数据管理以及结合人类和机器的反馈，帮助开发者构建更强大的语言模型。同时，Argilla支持整个MLOps周期的每个步骤，从数据标注到模型监控。核心原理解析Argilla的核心优势在于其灵活的数据管理流程和强大的反馈机制。通过Argilla，开发者可以实时监控模型性能，并根据需要调整数据标注策略。这种
java毕业设计，网上商城系统爱编程的小哥 java毕设 java 课程设计 spring boot vue
️OnlineMall商城系统全解析|Vue3+SpringBoot全栈实战（附高并发与数据安全方案）一、系统架构全景基于七张效果图分析，该系统是企业级电商综合管理平台，采用SpringBoot3+Vue3+ElementPlus+MyBatisPlus技术栈，覆盖商品管理、订单处理、会员运营等核心场景。通过RBAC权限控制+Elasticsearch搜索+分布式事务三大技术亮点，支持10万级商品
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

数据挖掘初试--熟悉WEka平台

你可能感兴趣的:(数据挖掘初试--熟悉WEka平台)