only301

数据挖掘入门实验二

实验2：基于Weka的数据挖掘程序设计

学号：姓名： XXXXXXX 专业：计算机班级：

实验目标

在掌握基于Weka工具的数据挖掘（分类、回归、聚类、关联规则分析）应用的基础上，实现基于Weka API的数据挖掘程序设计。

实验内容

下载并安装JDK 7.0 64位版，Weka 3.7版，Eclipse IDE for Java Developers 4.0以上版本。
基于Weka API的数据分类。
基于Weka API的数据回归。
基于Weka API的数据聚类。
基于Weka API的关联规则分析。

实验步骤

下载并安装JDK 7.0 64位版，Weka 3.7版，Eclipse IDE for Java Developers 4.0以上版本

JDK与Weka的安装方法与实验1中相同。
从http://www.eclipse.org/home/index.php 下载并安装Eclipse。
在Eclipse中建立一个新的Java工程，用于放置实验程序的源代码。
编程请遵循Java编程规范。规范中文版参见：

http://www.hawstein.com/posts/google-java-style.html 。

基于Weka API的数据分类

读取“电费回收数据.csv”。

Weka支持多种数据导入方式，由于要处理的数据存储的方式为“.csv”, 而CSVLoader是能从csv文件加载数据集，因此采用CSVLoader来加载文件。

读取完数据还需要删除一些无用的属性列，为了实现该目标，在TestClassifier类中增加一个成员函数deleteUnusedAttributes(Instances ins, List deletedAttributes)来完成该过程。

数据预处理：
1. 将数值型字段规范化至[0,1]区间。

对数据进行规范化就需要用到Normalize类，而该类存在于weka.filters.unsupervised.attribute.Normalize，需要引入该包，之后再对数据进行

规范化

b. 调用特征选择算法（Select attributes），选择关键特征。

特征选择算法如下：

CfsSubsetEval: 根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估

CorrelationAttributeEval：根据单个属性和类别的相关性进行选择

GainRatioAttributeEval：根据与分类有关的每一个属性的增益比进行评估。

InfoGainAttributeEval：根据与分类有关的每一个属性的信息增益进行评估。

OneRAttributeEval：根据OneR分类器评估属性。

PrincipalComponent：主成分分析（PCA）

ReliefFAttributeEval：根据ReliefF值评估属性

SysmetricalUncerAttributeEval：根据属性的对称不确定性评估属性

WrapperSubsetEval：使用一种学习模式对属性集进行评估。

InfoGainAttributeEval根据属性增益大小来选择关键属性，该方法较为简单，操作方便，选出的关键特征有较好的代表性，因此在上述的几个方法中选择了InfoGainAttributeEval，用InfoGainAttributeEval方法结果如下：

根据结果的话，应选取TQSC(欠费时长)、PAY_MODE(缴费方式)两个关键属性。

实验结果：

分别调用决策树（J48）、随机森林（RandomForest）、神经网络（MultilayerPerceptron）、朴素贝叶斯（NaiveBayes）等算法的API，完成对预处理后数据的分类，取60%作为训练集。输出各算法的查准率（precision）、查全率（recall）、混淆矩阵与运行时间。

A.决策树（J48）

数据挖掘入门实验二_第1张图片

B.随机森林（RandomForest）

数据挖掘入门实验二_第2张图片

C.神经网络（MultilayerPerceptron）

数据挖掘入门实验二_第3张图片

D.朴素贝叶斯（NaiveBayes）

数据挖掘入门实验二_第4张图片

基于Weka API的回归分析

读取“配网抢修数据.csv”。

Weka支持多种数据导入方式，由于要处理的数据存储的方式为“.csv”, 而CSVLoader

是能从csv文件加载数据集，因此采用CSVLoader来加载文件。

数据预处理：
1. 将数值型字段规范化至[0,1]区间。
2. 调用特征选择算法（Select attributes），选择关键特征。

需要先对数据处理后才能进行关键特征的选取

处理的过程：

先剔除无关属性（如年月日、地区编号）

再将属性FAULT_COUNT_TOTAL（总故障量）列为标签

将所有的数据离散化处理

在这次的关键特征选择中，使用了CfsSubsetEval，该方法是根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估，实验选择结果如下：

数据挖掘入门实验二_第5张图片

分别调用随机森林（RandomForest）、神经网络（MultilayerPerceptron）、线性回归（LinearRegression）等算法的API对数据进行回归分析，取60%作为训练集。输出各算法的均方根误差（RMSE，Root Mean Squared Error）、相对误差（relative absolute error）与运行时间。

A.随机森林（RandomForest）

B.神经网络（MultilayerPerceptron）

C.线性回归（LinearRegression）

基于Weka API的数据聚类

读取“移动客户数据.tsv”（TAB符分隔列）。
数据预处理：
1. 将数值型字段规范化至[0,1]区间。
2. 调用特征选择算法（Select attributes），选择关键特征。

数据挖掘入门实验二_第6张图片

分别调用K均值（SimpleKMeans）、期望值最大化（EM）、层次聚类（HierarchicalClusterer）等算法的API对数据进行聚类，输出各算法的聚类质量与运行时间。聚类质量根据以下2个指标计算：
1. Silhouette指标
2. S_Dbw指标

数据挖掘入门实验二_第7张图片

数据挖掘入门实验二_第8张图片

基于Weka API的关联规则分析

读取“配网抢修数据.csv”。
数据预处理：
1. 将数值型字段规范化至[0,1]区间。
2. 调用特征选择算法（Select attributes），选择关键特征。
调用Apriori算法对数值型字段进行关联规则分析，输出不同置信度（confidence）下算法生成的规则集。

预备知识

置信度度量通过规则进行推理具有的可靠性。对于给定的规则X→Y ，置信度越高，Y在包含X的事务中出现的可能性就越高。

metricType 度量类型。设置对规则进行排序的度量依据。可以是：置信度（类关联规则只能用置信度挖掘），提升度(lift)，杠杆率(leverage)，确信度(conviction)。

在 Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度，它们分别是：

a） Lift ： P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(>1)，越表明A

和B存在于一个购物篮中不是偶然现象,有较强的关联度.

b） Leverage ：P(A,B)-P(A)P(B)

Leverage=0时A和B独立，Leverage越大A和B的关系越密切

c） Conviction：P(A)P(!B)/P(A,!B) （!B表示B没有发生） Conviction也是用来衡量A

和B的独立性。从它和lift的关系（对B取反，代入Lift公式后求倒数）可以看出，

这个值越大, A、B越关联。

置信度confidence=0.9

数据挖掘入门实验二_第9张图片

以置信度为0.9的作为例子分析结果：

这里除了置信度为设置的，其余变量均是系统默认的。

Minimum support: 0.1 (172 instances) //最小支持度为0.1

Minimum metric : 0.9 //设置的置信度为0.9

Number of cycles performed: 18 //进行18轮搜索

Generated sets of large itemsets: // 这是满足支持度进行搜索的结果

Size of set of large itemsets L(1): 12 // 频繁1项集：12个

Size of set of large itemsets L(2): 21 // 频繁2项集：21个

Size of set of large itemsets L(3): 8 // 频繁3项集：8个

Size of set of large itemsets L(4): 1 // 频繁4项集：1个

Best rules found:

1. BEGIN_WEATHER=5 WIND_VELOCITY=4 RAIN_PROBABILITY=10 230 ==> END_WEATHER=5 220 lift:(2.03) lev:(0.06) [111] conv:(11.06)

//若BEGIN_WEATHER取值为5，RAIN_PROBABILITY取值10且WIND_VELOCITY取值4可以推出END_WEATHER的取值为5，该关联规则置信度为96%

2. BEGIN_WEATHER=5 RAIN_PROBABILITY=10 300 ==> END_WEATHER=5 280 lift:(1.98) lev:(0.08) [138] conv:(7.56)

3. BEGIN_WEATHER=5 RAIN_PROBABILITY=20 230 ==> END_WEATHER=5 210 lift:(1.94) lev:(0.06) [101] conv:(5.79)

4. WIND_VELOCITY=4 RAIN_PROBABILITY=20 220 ==> END_WEATHER=5 200 lift:(1.93) lev:(0.06) [96] conv:(5.54)

置信度confidence=0.8

数据挖掘入门实验二_第10张图片

置信度confidence=0.7

数据挖掘入门实验二_第11张图片

置信度confidence=0.6

数据挖掘入门实验二_第12张图片

置信度confidence=0.5

数据挖掘入门实验二_第13张图片

置信度confidence=0.4

数据挖掘入门实验二_第14张图片

置信度confidence=0.3

数据挖掘入门实验二_第15张图片

置信度confidence=0.2

数据挖掘入门实验二_第16张图片

置信度confidence=0.1

数据挖掘入门实验二_第17张图片

四、实验结果提交

将实验代码放在一个Eclipse工程中，用不同包名和类名区分不同任务的实验，提交工程的压缩包。注意：压缩包中不应包含编译生成的.class文件。

你可能感兴趣的:(数据挖掘实验)

python小游戏经典坦克大战-实验设计小哥儿最放纵 python 游戏
一.游戏流程概述游戏基本规则：按上下左右键移动我方坦克，按空格键进行发射子弹，击中坦克，坦克爆炸消失。若我方坦克被子弹击中或撞上，我方坦克死亡按ESC键可以重生。敌方坦克功能：白色敌方坦克为一般坦克。白色较小敌方坦克速度快，射击子弹频繁。黄色坦克被击中后会随机生成白色小坦克。地图：白色“铁”地图：子弹不能穿过此地图，坦克不能穿过此地图。蓝色“水地图”子弹和坦克均可以穿过此地图。游戏流程图基本流程如
双盲机制（信念，欲望）：模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力人工智能 android python 自然语言处理 pycharm
如何让人工智能生成的说服性对话更接近真实的日常交流目录如何让人工智能生成的说服性对话更接近真实的日常交流**一、核心创新点解析****1.双盲对话生成机制****2.因果心理理论指导****3.多智能体协作框架ToMMA****二、实验结论****三、论文贡献**怎么代码中实现Agent的双盲场景假设代码实现代码解释注意事项模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用
智能优化算法应用：基于旗鱼算法与双伽马校正的图像自适应增强算法智能算法研学社（Jack旭）智能优化算法应用图像增强算法计算机视觉人工智能
智能优化算法应用：基于旗鱼算法与双伽马校正的图像自适应增强算法-附代码文章目录智能优化算法应用：基于旗鱼算法与双伽马校正的图像自适应增强算法-附代码1.全局双伽马校正2.旗鱼算法3.适应度函数设计4.实验与算法结果5.参考文献6.Matlab代码摘要：本文主要介绍基于旗鱼算法与双伽马校正的图像自适应增强算法。1.全局双伽马校正设图像的灰度值范围被归一化到[0,1]范围之内，基于全局亮度的双伽马调整
怎么做好备件管理？备件管理系统都包括哪些功能模块？沃丰科技低代码人工智能系统架构
数字化转型成为大趋势，在全球供应链面临挑战的背景下，备件仓储、备件管理的数字化升级对企业、对行业有着至关重要的意义。如何借助售后服务系统，加强整个备件管理链条清晰程度，沉淀管理数据，通过数据挖掘明确备件的损坏规律，对未来设备管理流程进行优化成为各大企业的关注点。进一步来说，备件是设备修理的主要物质基础，做好备件管理，及时供应备件，可以缩短修理时间、减少损失，供应质量优良的备件，可以保证修理质量和修
数据挖掘data mining Wlq0415 学习5 数据挖掘人工智能
数据挖掘是从大量数据集中提取有用信息和知识的过程。它通常涉及使用算法和技术来分析数据，以发现数据中的模式、趋势和关联。数据挖掘可以帮助企业和组织理解客户行为，预测市场趋势，优化运营流程等。数据挖掘的过程大致可以分为以下几个步骤：定义问题：明确数据挖掘的目的和需要解决的问题。数据收集：从各种数据源中收集相关的数据。数据预处理：清洗和整理数据，处理缺失值、异常值等问题。数据转换：将原始数据转换成适合挖
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
【数据挖掘】NumPy的索引与切片（Indexing & Slicing） dundunmm 机器学习数据挖掘 python numpy 数据挖掘机器学习
NumPyndarray的索引与切片（Indexing&Slicing）NumPy提供灵活高效的索引与切片方式，支持一维、二维、多维数组的访问与操作。1️⃣索引（Indexing）索引用于访问NumPy数组中的单个元素。一维数组索引importnumpyasnparr=np.array([10,20,30,40,50])print(arr[0])#访问第1个元素->10print(arr[-1])
基于STM32对射式红外传感器计次爱写代码的雨一颗 stm32 单片机嵌入式硬件
一，实验目的：初步理解中断二，实验内容：对射式红外传感器接线：VCC、GND分别接电源的正负极，DO数字输出端，任意选择一个GPIO口接上就行（以PB14口为例，当我们的挡光片或者编码盘在这个对射式红外传感器中间经过时，DO就会输出电平跳变信号，然后这个电平跳变信号触发STM32PB14口的中断，在中断函数里，执行变量++的程序，然后主循环里调用OLED显示这个变量）外部中断配置：把从GPIO到N
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
为什么高校都在大规模使用嵌入式仿真实验教学平台做嵌入式教学？嵌入式仿真实验教学平台单片机嵌入式硬件 linux 人工智能嵌入式实时数据库物联网
近年来，嵌入式仿真实验教学平台在高校中迅速普及，成为电子信息类、自动化类等专业的核心教学工具。无论是课程设计、科研项目，还是学科竞赛，这一平台都展现出独特的价值。本文将从技术趋势、教学痛点、平台优势等多个角度，解析高校大规模采用嵌入式仿真实验教学平台背后的深层原因，并为开发者推荐这一高效学习工具。一、破解传统教学痛点：从“纸上谈兵”到“实战练兵”传统嵌入式教学长期面临三大难题：硬件依赖高，成本压力
DeepSeek与嵌入式仿真实验教学平台结合：从理论学习到实践开发的桥梁嵌入式仿真实验教学平台 linux 人工智能运维嵌入式实时数据库物联网嵌入式硬件 stm32
随着嵌入式技术的快速发展，嵌入式仿真实验教学平台逐渐成为高校电子类专业教学的重要工具。本文将详细介绍如何利用DeepSeek（深度求索）这一强大的工具，结合嵌入式仿真实验教学平台，完成从理论学习到实践开发的全过程，帮助大家掌握嵌入式仿真实验教学平台的使用方法。一、嵌入式仿真实验教学平台简介嵌入式仿真实验教学平台是由深圳航天科技创新研究院开发的一款专业的嵌入式仿真实验软件。该平台基于先进的仿真引擎，
Centos配置suiqd及路由转发新时代先锋 centos 服务器运维网络 linux
文章目录赛题1.关闭Selinux及防火墙2.安装squid服务，并启动3.开启路由转发，提供路由功能4.Firefox浏览器设置代理访问任意页面，出现下面的信息就表示，代理设置成功赛题2.squid•安装squid服务，开启路由转发，为当前实验环境提供路由功能；Squid是-个高性能的http代理服务器和web缓存服务器，可以很好的实现HTTP和FTP以及DNS查询、SSL等应用的缓存代理。1、
嵌入式仿真实验教学平台比Proteus更具有教学优势嵌入式仿真实验教学平台学习 proteus 嵌入式实时数据库 stm32 嵌入式硬件
近年来，随着物联网、人工智能等技术的快速发展，嵌入式系统教学的实践性和创新性需求日益增强。传统仿真工具如Proteus虽曾占据重要地位，但其局限性逐渐暴露。相比之下，嵌入式仿真实验教学平台凭借其高仿真度、资源整合能力及虚实结合的教学模式，正在成为高校和教育机构的新选择。本文将从技术演进、教学痛点、平台优势及实际应用等角度，解析嵌入式仿真实验教学平台为何能全面超越Proteus，成为教学创新的核心工
常用Python数据分析库详解 weixin_34092370 python shell
Python之所以这么流行，这么好用，就是因为Python提供了大量的第三方的库，开箱即用，非常方便，而且还免费哦，学Python的同学里估计有30%以上是为了做数据分析师或者数据挖掘，所以数据分析相关的库一定要熟悉，那么常用的Python数据分析库有哪些呢？1.NumPyNumPy是Python科学计算的基础包，它提供：1).快速高效的多维数组对象ndarray；2).直接对数组执行数学运算及对
doris: Hive 向阳1218 大数据 hive hadoop 数据仓库 doris
自2.1.3版本开始，ApacheDoris支持对Hive的DDL和DML操作。用户可以直接通过ApacheDoris在Hive中创建库表，并将数据写入到Hive表中。通过该功能，用户可以通过ApacheDoris对Hive进行完整的数据查询和写入操作，进一步帮助用户简化湖仓一体架构。本文介绍在ApacheDoris中支持的Hive操作，语法和使用须知。提示这是一个实验功能。提示使用前，请先设置：
探秘BirdWatch：实时推文可视化利器宋韵庚
探秘BirdWatch：实时推文可视化利器BirdWatchTweetstreamanalysisandvisualizationwithreal-timeupdates.项目地址:https://gitcode.com/gh_mirrors/bi/BirdWatchBirdWatch是一款基于Web的响应式应用，专为实时展示和分析推文流而设计。它最初是一个实验平台，用于探索解决同一问题的不同方法
aws aurora vs mysql_GitHub - NageNalock/aws-AuroraVsMySQL: Aurora 与 MySQL 对比试验俠之大者 aws aurora vs mysql
RDS-Aurora与RDS-MySQL性能对比实验实验目的使用Sysbench对Aurora与MySQL进行基准测试,对比二者的读写性能.本实验大约耗时30分钟,实验区域为俄勒冈(您也可以根据实际情况自行更改)涉及组件RDS-AuroraRDS-MySQLEC2实验步骤重要本实验默认您已经拥有了AWS账户并创建了IAM用户若未执行以上设置，可参考这里配置VPC将安全组的入站规则设置为Type:A
计算机网络socket实验报告2,计算机网络socket编程实验报告.docx 超级爱喝水
Socket编程实验报告一、程序代码(1)服务器端#include#include#pragmacomment(lib,"ws2_32.lib")voidmain(){WORDwVersionRequested;WSADATAwsaData;interr;wVersionRequested=MAKEWORD(1,1);err=WSAStartup(wVersionRequested,&wsaDat
kubeadm_k8s_v1.31高可用部署教程 techzhi kubernetes 容器云原生
kubeadm_k8s_v1.31高可用部署教程实验环境部署拓扑图**部署署架构****LoadBalance****Controlplanenode****Workernode****资源分配（8台虚拟机）**集群列表前置准备关闭swap开启ipv4转发更多设置1、VerifytheMACaddressandproduct_uuidareuniqueforeverynode2、Checknetw
探秘 Mininet：解锁网络仿真与 SDN 开发的密码漫谈网络网络技术进阶通途网络 mininet sdn
Mininet是一个轻量级网络仿真工具，常用于SDN（软件定义网络）开发、网络协议测试和拓扑实验。以下是典型命令解释，以及Mininet的核心使用方法和常见指令场景：一、典型命令解析sudomn--controller=remote,ip=127.0.0.1,port=6633--switchovsk,protocols=OpenFlow13--mac--controller=remote:指定使
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
六足仿生机器人地形自适应步态规划研究 HH予机器人
六足仿生机器人地形自适应步态规划研究第1章绪论第2章机器人系统建模第3章地形感知与建模第4章自适应步态生成算法第5章动力学仿真与实验第6章驱动代码设计与实现源码&文档链接第1章绪论1.1研究背景与意义1.2国内外研究现状1.2.1多足机器人步态规划1.2.2地形适应技术1.3关键技术挑战1.4本文主要贡献第2章机器人系统建模2.1机械结构参数%机器人参数配置robotParams=struct(.
【ArcGIS Pro微课1000例】0016：ArcGIS Pro 2.8浮雕效果地图制图案例教程刘一哥GIS 《ArcGIS ArcGIS Pro 浮雕效果地图制图实验教程缓冲区
ArcGISPro制作地图时可以制作出很多很炫的效果，比如地图阴影、地图晕渲效果、浮雕效果、三维效果等等。本实验讲解在ArcGISPro2.8中制作浮雕效果地图，效果如下所示：【参考阅读】：ArcGIS实验教程——实验四十四：ArcGIS地图浮雕效果制作完整案例教程1.加载矢量数据加载实验数据包data16.rar中的秦安县乡镇矢量数据：2.缓冲区分析点击【分析】选项卡，点击【缓冲区】。
集成化信息化信号采集处理系统一体化生物医学信号采集系统机能集成化信号采集与处理系统 minhong1001 其他
实验平台技术指标：（MHO561-6O623O7）1.1、整机外形尺寸：1500（±20）mm×740（±10）mm×2100mm（±20）（长*宽*高）；1.2、实验台操作面积：1220（±10）mm×740（±10）mm（长*宽）；1.3、实验台面离地高度：两侧各830-850mm；1.4、输液架离台面高度：1000-1200mm；1.5、输液架移动范围：两侧各600mm；1.6、实验台制造工
嵌入式Linux设备驱动程序开发指南17（IIO子系统一）——读书笔记 Jack.Jia linux驱动 linux 运维服务器
IIO子系统一十七、IIO子系统(一)17.1简介17.2数模转换——DAC实验17.2.1IIO缓冲区17.2.2触发器17.2.3工业I/O事件17.2.4iio工具17.2.5LTC2607——DAC模块介绍17.2.5.1设备树17.2.5.2LTC2607驱动模块介绍17.2.5.2.1用作I2C交互的工业框架17.2.5.2.2用作IIO设备的工业框架17.2.5.3源代码17.3模数
北大版，86页DeepSeek黑科技手册！比清华版更炸裂（免费下载） 2501_90850230 素材资源人工智能 DeepSeek 科技人工智能
北大最新的《DeepSeek提示词工程和落地场景》！这份文档刚在学术圈炸锅，作为国内首个系统性拆解推理大模型（DeepSeek-R1）落地方案的公开资料，其价值不仅在于揭示了一款国产模型的工程实践，更折射出大模型技术从实验室走向产业化的关键路径。手册下载：https://pan.quark.cn/s/881640172703DeepSeek全家桶北大版和清华版到底啥区别？技术定位：一个像社交达人，
Python爬虫岱宗夫up 教学 python 爬虫开发语言
python凭借其简洁的语法和强大的库支持，成为编写爬虫程序的首选语言之一。今天，我将通过一个简单的示例，带你入门Python爬虫，并展示如何爬取网页内容并保存到文本文件中。一、爬虫的基本概念爬虫（WebCrawler）是一种自动获取网页内容的程序。它模拟浏览器的行为，向目标网站发送请求，获取网页的HTML代码，然后通过解析HTML提取所需的数据。爬虫广泛应用于数据挖掘、搜索引擎优化、信息采集等领
微博舆情分析系统 weixin_34194379 人工智能 ui java
1新浪微博舆情分析系统摘要随着互联网的迅速发展，互联网上信息也在飞速增加。如何在广泛信息中总体把握舆情，是一个很重要的问题。本系统实现了基于新浪微博的舆情分析，提供了相关话题获得、关注度曲线绘制、情感取向分析等功能；并对“复旦”关键词进行了跨越一年的舆情分析的实验。关键词中文信息处理；舆情分析；情感分析1.引言随着Web2.0时代的到来，所有的互联网用户都在产生着大量的信息。依靠人工去阅读所有信息
linux 网络ip设置方法,Linux配置ip地址的两种方法 Steven Ban linux 网络ip设置方法
Linux配置ip地址的两种方法，实验环境为centos7.6方法1：nmcli工具配置(centos7以下版本不支持该方法)第一步，通过nmcliconnection查看网卡名称[root@localhost~]#nmcliconnectionNAMEUUIDTYPEDEVICEeth009be0948-faf1-43b6-a5a4-c19efab0bb48etherneteth0第二步，配置i
数据挖掘与数据分析两者的区别中琛源科技
随着大数据爆发式增长，市场上对大数据相关人才的需求与日俱增，导致大数据行业人才需求紧缺，引发了关于大数据的学习浪潮，在这个过程中，人们也会不时将数据分析与数据挖掘的关系混淆，什么是数据挖掘?与数据分析有什么联系吗?又或者说数据挖掘与数据分析有什么区别呢?让我们带着这些问题，一起往下解惑吧。数据分析简单的说，就是对数据进行分析，比较专业的说法是，数据分析是指用适当的统计分析方法对收集来的大量数据进行
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他