xrzs

WEKA 学习总结

一、一些基础概念

1. Weka处理的数据表格中，一个横行称为一个实例（Instance）,竖行代表一个属性（Arrtibute），数据表格称为一个数据集，在weka看来，呈现了属性之间的一种关系（Relation）

2. Weka存储数据的格式是ARFF（Attribute-RelationFile Format）文件，这是一种ASCII文本文件。

3. Weka的ARFF文件可以分为两部分。第一部分给出了头信息（Head information）,包括了对关系的声明和对属性的声明。第二部分给出了数据信息（Data information），即数据集中给出的数据。从@Data标记开始，后面的就是数据信息了。

4. Weka作为数据挖掘，面临的第一个问题往往是我们的数据不是ARFF格式的。幸好，WEKA还提供了对CSV文件的支持，而这种格式是被许多其他软件所支持的。此外，WEKA还提供了通过JDBC访问数据库的功能。

5. 需要注意的是，matlab给出的csv文件往往没有属性名（Excel 给出的也可能没有）。而WEKA必须从CSV文件的第一行读取属性名，否则就会把第一行的各属性值读成变量名。因此我们对于matlab给出的csv文件需要用UltraEdit打开，手工添加一行属性名。

6. Weka提供了命令将CSV文件转换成arff文件。

7. Weka GUI根据不同功能分为8个界面：

(1) 区域1的几个选项卡用来切换不同的挖掘任务面板。

(2) 区域2是一些常用按钮。包括打开数据，保存及编辑功能。

(3) 选择某个Filter，可以实现筛选数据或者对数据进行某种变换。

(4) 区域4展示了数据集的一些基本情况。

(5) 列出了数据集的所有属性。

(6) 区域6中有关于这个属性的摘要，注意对于数值属性和分类属性，摘要的方式是不一样的。

(7) 区域7中是区域5属性的直方图。

(8) 区域8是状态栏，可以查看Log义判断是否有错。右边的weka鸟在动的话说明weka正在执行挖掘任务。右键点击状态栏可以执行java内存垃圾回收。

8. 通常对于数据挖掘任务来说，ID这样的信息是无用的。

9. Weka把分类（Classification）和回归（Regression）都放在“Classify”选项卡中。

10. 在weka中，待预测的目标（输出）被称为Class属性，这应该是来自分类任务的“类”。一般的，若Class属性是分类型时我们的任务才叫分类，Class属性是数值型时我们的任务叫回归。

11. 所谓回归分析法，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量和自变量之间的回归关系函数表达式（称回归方程）。

12. 在回归分析中，又依据描述自变量和因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性分析。通常线性回归分析法是最基本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

13. 一元线性回归是指事物发展的自变量和因变量之间是单因素的简单线性关系，它的模型可以表示为： y=a+bx

14. 多元线性回归是指一个因变量和多个自变量之间的线性关系，模型一般形式为：

Y=a+b1x1+b2x2+…+bnxn

15. 为了保证生成的模型的准确性而不至于出现拟合的现象，我们有必要采用10折交叉验证来选择和评估模型。

16. 10 折交叉验证：英文名叫做10-fold corss –validation，用来测试算法的准确性。是常用的测试方法。将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得到相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精确读的估计，一般还需要进行多次10折交叉验证。

17. 数据挖掘中分类与聚类最本质的区别：

简单的说：分类是“监督学习”，事先知道有那些类别可以分。聚类—是“无监督学习”，事先不知道要分成哪些类。

数据分类是指分析数据库中的一组对象，找出去共同属性。然后根据分类模型，把他们划分为不同的类别。分类数据首先根据训练数据建立分类模型，然后根据这些分类描述分类数据中的测试数据或产生更恰当的描述。文本分类的一般流程是：（1）构造训练集（预先对文档手工标注类别、分词、去掉stopword和常用词、提取特征词、计算特征值TF-IDF）（2）对要预测的新文本需（分词、去掉stopword和常用词、计算特征值）（3）用分类器进行预测分类

聚类是指数据库中的数据可以划分为一些列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督的学习”：不需要训练过程、以及不需要预先对文档手工标注类别，因此具有较高的灵活性和自动化处理能力，成为对文本信息进行有效组织、摘要和导航的重要手段。

18. 在进行聚类运算时，设置seed是设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。

19. 朴素贝叶斯（NaiveBayes）
朴素贝叶斯模型（NBC）发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC 模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。NBC 模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给 NBC 模型的正确分类带来了一定影响。在属性个数（特征维度）比较多或者属性之间相关性较大时，NBC 模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC 模型的性能最为良好。

二、weka 中的几个分类、聚类例子

import java.io.File;

import weka.classifiers.Classifier;
import weka.classifiers.trees.J48;
import weka.core.Instances;
import weka.core.converters.ArffLoader;

/**
 * J48 即决策树 C4.5 算法
C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：
1、用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2、在树构造过程中进行剪枝；
3、能够完成对连续属性的离散化处理；
4、能够对不完整数据进行处理。
C4.5 算法有如下优点：
产生的分类规则易于理解，准确率较高。
其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。
* http://www.ibm.com/developerworks/cn/opensource/os-cn-datamining/
*/
public class J48Test {

	public static void main(String[] args) throws Exception {
		Classifier m_classifier = new J48();
		// 训练语料文件，官方自带的 demo 里有
		File inputFile = new File("D:\\c_install_program\\Weka-3-6\\data\\cpu.with.vendor.arff");
		ArffLoader atf = new ArffLoader();
		atf.setFile(inputFile);
		Instances instancesTrain = atf.getDataSet(); // 读入训练文件
		// 测试语料文件：随便 copy 一段训练文件出来，做分类的预测准确性校验
		inputFile = new File("D:\\c_install_program\\Weka-3-6\\data\\cpu.with.vendor_test.arff");
		atf.setFile(inputFile);
		Instances instancesTest = atf.getDataSet(); // 读入测试文件
		instancesTest.setClassIndex(0); // 设置分类属性所在行号（第一行为0号），instancesTest.numAttributes()可以取得属性总数
		double sum = instancesTest.numInstances(), // 测试语料实例数
		right = 0.0f;
		instancesTrain.setClassIndex(0);// 分类属性：第一个字段
		m_classifier.buildClassifier(instancesTrain); // 训练
		for (int i = 0; i < sum; i++)// 测试分类结果
		{
			double predicted = m_classifier.classifyInstance(instancesTest.instance(i));
			System.out.println("预测某条记录的分类id：" + predicted + ", 分类值："
					+ instancesTest.classAttribute().value((int) predicted));
			System.out.println("测试文件的分类值： " + instancesTest.instance(i).classValue() + ", 记录："
					+ instancesTest.instance(i));
			System.out.println("--------------------------------------------------------------");

			// 如果预测值和答案值相等（测试语料中的分类列提供的须为正确答案，结果才有意义）
			if (m_classifier.classifyInstance(instancesTest.instance(i)) == instancesTest.instance(i)
					.classValue()) {
				right++;// 正确值加1
			}
		}
		// 请将文件内容的第一列 ? 换成正确答案，才能评判分类预测的结果，本例中只是单纯的预测，下面的输出没有意义。
		System.out.println("J48 classification precision:" + (right / sum));
	}

}

import weka.clusterers.ClusterEvaluation;
import weka.clusterers.EM;
import weka.core.Instances;
import weka.core.converters.ConverterUtils.DataSource;
import weka.filters.Filter;
import weka.filters.unsupervised.attribute.Remove;

/**
 *EM是一种基于模型的聚类算法，假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数，充分拟合给定数据，
 *并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上个参数获得。
 * http://irwenqiang.iteye.com/blog/1601902
 */
public class ClassesToClusters {
  public static void main(String[] args) throws Exception {
    // load data
    Instances data = DataSource.read("D:\\c_install_program\\Weka-3-6\\data\\iris.arff");
    data.setClassIndex(data.numAttributes() - 1);

    // generate data for clusterer (w/o class)
    Remove filter = new Remove();
    filter.setAttributeIndices("" + (data.classIndex() + 1));
    filter.setInputFormat(data);
    Instances dataClusterer = Filter.useFilter(data, filter);

    // train clusterer
    EM clusterer = new EM();
    // set further options for EM, if necessary...
    clusterer.buildClusterer(dataClusterer);

    // evaluate clusterer
    ClusterEvaluation eval = new ClusterEvaluation();
    eval.setClusterer(clusterer);
    eval.evaluateClusterer(data);

    // print results
    System.out.println(eval.clusterResultsToString());
  }
}

import java.io.File;
import java.io.FileNotFoundException;
import java.io.PrintWriter;
import java.util.Scanner;

import weka.clusterers.XMeans;
import weka.core.Instances;
import weka.core.converters.ArffLoader;

public class WekaCluster {

	private ArffLoader loader;
	private Instances dataSet;
	private weka.clusterers.Clusterer cluster;
	private int numOfClusters;
	private String newAttribute;
	private File arffFile;
	private int sizeOfDataset;

	public WekaCluster(File arffFile) {
		this.arffFile = arffFile;
		doCluster();
	}

	private void doCluster() {
		loader = new ArffLoader();
		newAttribute = "";
		try {
			loader.setFile(arffFile);
			dataSet = loader.getDataSet();
			cluster = new XMeans();
			cluster.buildClusterer(dataSet);
			numOfClusters = cluster.numberOfClusters();
			StringBuilder sb = new StringBuilder();
			for (int i = 0; i < numOfClusters; i++) {
				sb.append("s" + (i + 1) + " ");
			}
			newAttribute = sb.toString().trim();
			sizeOfDataset = dataSet.numInstances();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	public void newArffWriter() {
		int lineNum = 0;
		try {
			Scanner input = new Scanner(arffFile);
			// PrintWriter out = new
			// PrintWriter(CfUtil.GetFileNameNoExtFromFileName(arffFile.getName())
			// + "_classification.arff");
			PrintWriter out = new PrintWriter("D:\\c_install_program\\Weka-3-6\\data\\cpu.arff");

			while (input.hasNext()) {
				String line = input.nextLine();
				if (line.startsWith("@relation")) {
					out.println("@relation" + line.substring(9) + "_classification");
				} else if (line.startsWith("@data")) {
					out.println("@attribute shape {" + newAttribute + "}");
					out.println("@data");
				} else if (line.startsWith("@attribute")) {
					out.println(line);
				} else if (line.isEmpty()) {
					out.println();
				} else {
					line += ",class" + (cluster.clusterInstance(dataSet.instance(lineNum)) + 1);
					out.println(line);
					lineNum++;
				}
			}
			out.close();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	public int clusterNewInstance(weka.core.Instance instance) {
		int indexOfCluster = -1;
		try {
			indexOfCluster = cluster.clusterInstance(instance);
			// System.out.println("cluster " + indexOfCluster);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return indexOfCluster;
	}

	public double[] frequencyOfCluster() {
		int[] sum = new int[this.numOfClusters];
		try {
			System.out.println("---------- will show the every instance's clusterIndex: ");
			for (int i = 0; i < this.sizeOfDataset; i++) {
				int clusterIndex = cluster.clusterInstance(dataSet.instance(i));
				sum[clusterIndex]++;
				System.out.println("instanceIndex: " + i + ", clusterIndex: " + clusterIndex + ",\t"
						+ dataSet.instance(i));
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
		double[] fre = new double[sum.length];
		for (int i = 0; i < sum.length; i++) {
			fre[i] = (double) sum[i] / (double) this.sizeOfDataset;
		}
		return fre;
	}

	public static void main(String[] args) {
		File file = new File("D:\\c_install_program\\Weka-3-6\\data\\cpu.arff");
		WekaCluster wc = new WekaCluster(file);
		double[] fre = wc.frequencyOfCluster();
		for (int i = 0; i < fre.length; i++) {
			System.out.println("clusterIndex " + i + "'s freq: " + fre[i]);
		}

		// wc.newArffWriter(file);
		double[] feature = { 125, 256, 6000, 256, 16, 128, 199 };
		// double[] feature = { 1480,11000,14000,01,01,10,45222 };
		weka.core.Instance ins = new weka.core.Instance(7);
		// int insNums = wc.dataSet.numInstances();
		for (int i = 0; i < ins.numAttributes(); i++) {
			ins.setValue(i, feature[i]);
			// System.out.println(wc.dataSet.lastInstance().attribute(i).getLowerNumericBound());
		}
		// wc.dataSet.add(ins);
		// ins.setDataset(wc.dataSet);
		// System.out.println(ins.attribute(1).getLowerNumericBound());
		// System.out.println(wc.dataSet.instance(insNums));
		System.out.println(ins + " in cluster: " + wc.clusterNewInstance(ins));
	}

}

三、REF

Weka教程（包含了数据格式、数据准备、分类和聚类Demo）

http://irwenqiang.iteye.com/blog/1308834

http://www.blogjava.net/changedi/archive/2010/11/04/337190.html

基于 VSM（向量空间模型）的文本聚类算法
http://irwenqiang.iteye.com/blog/1544217
http://irwenqiang.iteye.com/category/182686
WEKA学习总结
http://blog.csdn.net/lantian0802/article/details/8875874
用JAVA程序调用LibSVM API示例
http://blog.csdn.net/yangliuy/article/details/8041343
http://blog.csdn.net/yangliuy/article/details/7628976

朴素贝叶斯分类器的应用

http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html

十大数据挖掘算法及各自优势

http://www.199it.com/archives/272346.html

ActiveMQ学习总结（10）——ActiveMQ采用Spring注解方式发送和监听一杯甜酒 ActiveMQ
对于ActiveMQ消息的发送，原声的api操作繁琐，而且如果不进行二次封装，打开关闭会话以及各种创建操作也是够够的了。那么，Spring提供了一个很方便的去收发消息的框架，springjms。整合Spring后，代码不仅变得非常优雅，而且易用性和扩展性更好。1.maven依赖org.apache.xbeanxbean-spring3.16org.springframeworkspring-jms
【教程4＞第2章＞第30节】本章整体思维导图与学习总结 fpga和matlab #第3章·通信—高阶调制解调 FPGA 教程4 学习总结高阶调制解调
教程4.目录.目录1.本章节目录2.本章节思维导图3.本章节学习案例与实际应用欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程3:simulink入
3.14学习总结 2402_88131930 学习
今天完成了几道关于二叉树的算法题关于二叉树的最小最大深度和数据流中的第k大元素，用到优先队列，学习了有关java的基础知识，学习了双指针法。
Java学习总结归纳 eyes______ java 学习开发语言
202402150625卢芊涵一、第一章：初始java与面向对象程序设计1.1java概述1.1.1计算机编程语言发展史：编程语言从早期的机器语言，逐步发展到汇编语言，再到高级语言。机器语言是二进制代码，直接由计算机硬件执行，但可读性和可维护性极差；汇编语言使用助记符代替二进制指令，一定程度上提高了可读性；高级语言如Java则更接近人类语言，提高了开发效率。例如，机器语言可能是一串010101，而
MVC/MVP/MVVM框架学习总结（二）每次的天空 mvc 学习 java
上次已经了解到MVC的知识，现在是扩展实现MVP/MVVM的框架改进本身项目MVVM框架即Model-View-ViewModel框架，是一种软件架构设计模式，以下是具体介绍：核心组件Model（模型）：代表应用程序的数据结构和业务逻辑，负责数据的存储、检索、验证和处理，定义业务规则和算法，是应用程序的数据核心。比如在一个电商应用中，商品数据、用户订单数据等的存储和相关逻辑处理都属于Model层。
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
(学习总结28)Linux 基本命令3 瞌睡不来学习 linux
Linux基本命令3工具使用命令使用vim编辑器命令vim使用nano文本编辑器命令nano使用gcc/g++编译器命令gcc/g++使用gdb/cgdb调试器命令gdb/cgdb使用自动化构建命令make使用版本控制器命令git系统或进程相关命令读取输入并赋值给变量命令read设置或修改shell环境命令set设置环境变量命令export测试网络连接命令ping显示系统登录记录命令last显示失
Spring Cloud 与微服务学习总结（14）—— 云原生时代，如何从 Java 开发者转型微服务？一杯甜酒 Spring Cloud与微服务 java 云原生 spring cloud 微服务微服务架构
前言根据维基百科定义，微服务不是整体应用程序中的一个层。相反，微服务是一个独立的业务功能，具有清晰的接口，并且可以通过内部组件实现分层架构。从战略角度来看，微服务架构基本上遵循“做一件事，就要做得好”的Unix哲学。为了应对传统单体架构的缺陷，微服务架构被企业广泛应用。然而，实践之前有很多问题都需要提前考虑清楚，比如Java背景的开发者是否更有优势？微服务、容器化、DevOps和CI/CD之间的关
Git学习总结（9）——如何构建你自己的 Git 服务器一杯甜酒 Git
现在我们将开始学习如何构建一个Git服务器，如何在具体的事件中写一个针对特定的触发操作的自定义Git（例如通告），如何发布你的代码到一个网站。
C# WPF学习总结战族狼魂 WPF C#c#wpf 学习
经过一段时间的学习和实践，我对C#WPF（WindowsPresentationFoundation）有了更深入的理解。WPF作为一个强大的桌面应用程序开发框架，为开发者提供了丰富的UI控件、强大的数据绑定和灵活的布局系统。以下是我对C#WPF学习的一些总结：目录1.基础知识2.UI设计3.数据绑定4.动画和特效5.命令和路由事件6.自定义控件和扩展性7.性能优化和内存管理8.实战项目经验9.学习
playWright学习总结 one day321 python 开发语言
注意，这里并没有学过selenium自动化。playwright对比selenium来说，不需要不断下载驱动。且playWright最大的优点是可以录制操作，并自动生成自动化脚本。视频：快速上手-3-示例_哔哩哔哩_bilibili资料：Xpath/Role/视觉定位方法-白月黑羽安装：直接使用命令安装：pipinstallplaywright安装需要的浏览器：playwrightinstall安
weka 决策树 marui1982 机器学习
1.参数说明：Generaloptions:-hor-helpOutputhelpinformation.-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行10交叉验证）Setstrainingfile.-T（测试文件，如果设置，则不进行交叉验证
今日学习之 Java TCP通信技术与群聊程序开发 java修仙传学习 java tcp/ip 经验分享
在今天的Java学习中，我深入探索了TCP通信技术，并将其应用于群聊程序的开发，同时了解了TCP通信的BS架构。以下是我的学习总结与技术分享。一、TCP通信技术基础TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。它的主要特点包括：面向连接：在通信开始之前，需要建立连接（三次握手），通信结束后需要释放连接（四次挥手）。可靠交付：通过确认、重传和排序机制，确保数据准确无误地
第N2周：构建词典 OreoCC NLP
本人往期文章可查阅：深度学习总结我的环境：语言环境：Python3.11编译器：PyCharm深度学习环境：Pytorchtorch==2.0.0+cu118torchvision==0.18.1+cu118显卡：NVIDIAGeForceGTX1660本周任务：使用N1周的.txt文件构建词典，停用词请自定义1.导入数据fromtorchtext.vocabimportbuild_vocab_f
第N3周：NLP中的数据集构建 OreoCC 自然语言处理深度学习 pytorch
本人往期文章可查阅：深度学习总结对于初学者，NLP中最烦人的问题之一就是数据集的构建问题，处理不好就会引起shape问题（各种由于shape错乱导致的问题）。这里我给出一个模板，大家可根据这个模板来构建。torch.utils.data是PyTorch中用于数据加载和预处理的模块。其中包括Dataset和DataLoader两个类，它们通常结合使用来加载和处理数据。1.Datasettorch.u
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
Python学习总结 serve the people 巨人的肩膀 python 开发语言
第一个python程序print("HelloWorld")#缩进一般4个空格键或者1个tab键，但是所有代码块语句必须是相同的缩进，这个必须严格执行，不同的缩进会导致程序不能运行，不能混用空格和tabifTrue:print("True")else:print("False")python注释符单行注释（行注释）#print("HelloWorld")多行注释（块注释）'''print("Hel
学习总结项目苏小夕夕学习人工智能深度学习机器学习
近段时间学习了机器学习、线性回归和softmax回归、多层感知机、卷积神经网络、Pytorch神经网络工具箱、Python数据处理工具箱、图像分类等的知识，学习了利用神经网络实现cifar10的操作、手写图像识别项目以及其对应的实验项目报告总结。项目总结本次项目我使用了VGG19模型、AlexNet模型和已使用的VGG16模型进行对比，在已有的条件下，对代码进行更改是，结果展示中，VGG19模型的
第N4周：NLP中的文本嵌入 OreoCC 自然语言处理人工智能
本人往期文章可查阅：深度学习总结词嵌入是一种用于自然语言处理（NLP）的技术，用于将单词表示为数字，以便计算机可以处理它们。通俗的讲就是，一种把文本转为数值输入到计算机中的方法。之前文章中提到的将文本转换为字典序列、one-hot编码就是最早期的词嵌入方法。Embedding和EmbeddingBag则是PyTorch中的用来处理文本数据中词嵌入（wordembedding）的工具，它们将离散的词
Java学习——day14 blackA_ java 学习开发语言
文章目录1.项目需求分析2.项目设计3.代码分析4.运行示例5.今日学习总结6.今日生词今日学习计划1.项目需求分析功能要求：(1)存储学生信息：使用HashMap存储学生信息（学号作为键，Student对象作为值）。(2)操作学生数据：添加学生（姓名、学号、成绩）。删除学生（按学号删除）。查询学生（按学号查询）。显示所有学生信息。(3)异常处理：防止重复添加（如果学号已存在，抛出异常）。查询/删
第二周的学习总结没耐心的胖子学习总结 c语言
第二周的学习总结计算器边缘计算计算器请设计一款加减乘除计算器，要求能输入小数，并对非数字的输入进行报警。#includeintmain(intarg,constchar*argv[]){charmrk;floatnum1,num2,result=0;intn1,n2;printf("请输入需要计算的式子：");n1=scanf("%f",&num1);scanf("%c",&mrk);n2=sca
云计算第一周学习总结（2）夊亙云计算学习
接下来是两个初始化设置，一个是关闭防火墙，另一个是关闭seLinux，防火墙的作用是保证系统的安全，那既然是为了保护系统的安全那为什么要关闭呢，主要原因就是我们所建立服务器本身就是为了让客户访问，但一旦防火墙开启，客户访问时防火墙会把客户当作入侵者，阻止客户的正常访问，所以需要将其关闭，那么紧接着就会产生另一个问题，要是将防火墙关闭了，真正的入侵者过来破坏服务器了怎么办，不用担心一般会有两种解决手
第十一周：学习总结程序员
1.前言历时三个月的学习，让我对管理有了更为清晰的认知，以前自己是摸着石头过河，很难判断什么样的方式，或者说什么样的思路是正确的，但是，经过这段时间的学习，自己好像突然在迷雾中看见了明灯，可以看见前方的路况，仿佛看到了整个管理世界的地图，然后知道了自己处于哪个位置。2.角色转变在没有学习之前，我是这样认为的，普通员工只需要做好自己手头上的工作，比如他是一位开发人员，那么他只需要按照需求完成开发任务
Redis 学习总结(2) Java 操作 Redis 的示例 caihuayuan4 面试题汇总与解析 spring 课程设计 springboot vue sql
1.背景在java开发中集成redis。我们用到SpringDataRedis。2.知识SpringDataRedis是更大的SpringData系列的一部分，它提供了从Spring应用程序对Redis的轻松配置和访问。它支持两种Redis驱动程序：LettuceJedisSpringDataRedis实现了对底层的抽象，无论是那一种驱动，使用起来是一样的。3.示例3.1导入依赖包org.spri
关于openAI接口的使用(个人学习总结) 暗雾飘扬 python机器学习_实验项目学习人工智能
文章目录背景OpenAIOpenAI的三种使用方法模型python的openai库根据文档自定义request函数http请求构成接口的响应构成自定义请求和接收函数背景在使用OpenAIAPI接口时遇到了许多问题，在此总结个人的问题（不代表大众），如要深究请看官方OpenAI-API接口文档（中文版）。OpenAIOpenAI的三种使用方法1、使用OpenAIAPI2、使用第三方库3、自己训练模型
【FFmpeg】拉流 gma999 ffmpeg
概述项目实践中涉及到使用ffmpeg进行推流和拉流操作，本文主要对一些基本操作做一个学习总结，后续再学习其源码架构；总结方法遵循实现功能配合函数具体实现基本使用拉流avformat_network_init();//日志输出等级set_ffmpeg_log_level();AVFormatContext*fmt_ctx=NULL;AVPacket*pkt=av_packet_alloc();if(
Python学习总结学学睡觉 python 学习开发语言
客户端与服务端聊天窗口服务端导入wxPython用于创建图形界面。socket用于网络通信，AF_INET是IPv4地址族，SOCK_STREAM表示流式套接字（TCP）。利用wxPython创建图形界面，并通过socket与服务器通信。主要功能：连接服务器。发送和接收消息。断开连接。界面上有文本框和按钮来操作。wxPython处理UI部分，socket处理网络通信。importthreading
Rust学习总结之-match ftzchina Rust rust 学习 match
Rust有一个叫做match的极为强大的控制流运算符，它允许我们将一个值与一系列的模式相比较，并根据相匹配的模式执行相应代码。模式可由字面量、变量、通配符和许多其他内容构成。一：match定义可以把match表达式想象成某种硬币分类器：硬币滑入有着不同大小孔洞的轨道，每一个硬币都会掉入符合它大小的孔洞。同样地，值也会通过match的每一个模式，并且在遇到第一个“符合”的模式时，值会进入相关联的代码
python总结报告_python 学习总结 weixin_39628247 python总结报告
数据蛙第一期课程已经进行了两周了，最近一周学习的内容是python相关，这里总结性地概况课程内容，以作知识回顾参考。一、python的基础知识1、数据类型数字型：int、float、Boolean非数字型：字符串、列表、元组、字典可变类型：列表、字典不可变类型：数字、字符串、元组格式化字符串：两种写法a、python的格式化字符串，使用%如果希望输出文字信息的同时输出数据，那就需要使用到格式化操作
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

WEKA 学习总结

一、一些基础概念

二、weka 中的几个分类、聚类例子

三、REF

你可能感兴趣的:(WEKA 学习总结)