datamonday

【Paper】Data Mining：The WEKA data mining software: an update

论文原文
论文下载
论文被引：20211
论文年份：2009

WEKA：Weka是经过实践检验的开源机器学习软件，可以通过图形用户界面，标准终端应用程序或Java API进行访问。它被广泛用于教学，研究和工业应用，包含用于标准机器学习任务的大量内置工具，并且可以透明地访问scikit-learn，R和Deeplearning4j等知名工具箱。

WEKA官网
WEKA下载

The WEKA data mining software: an update

ABSTRACT

More than twelve years have elapsed since the first public release of WEKA. In that time, the software has been rewritten entirely from scratch, evolved substantially and now accompanies a text on data mining [35]. These days, WEKA enjoys widespread acceptance in both academia and business, has an active community, and has been downloaded more than 1.4 million times since being placed on SourceForge in April 2000. This paper provides an introduction to the WEKA workbench, reviews the history of the project, and, in light of the recent 3.6 stable release, briefly discusses what has been added since the last stable version (Weka 3.4) released in 2003.

自从WEKA首次公开发行以来，已经过去了十二年。在那个时候，该软件已经完全从头开始重写，经过了实质性的发展，现在伴随着有关数据挖掘的文字[35]。如今，WEKA在学术界和企业界都得到了广泛认可，并拥有活跃的社区，自2000年4月被放置在SourceForge上以来，其下载量已超过140万次。本文介绍了WEKA工作台，回顾了WEKA工作台的历史。根据最近的3.6稳定版本，该项目简要讨论了自2003年最后一个稳定版本（Weka 3.4）以来增加的内容。

1. INTRODUCTION

威卡托知识分析环境（WEKA）产生于对统一工作台的需求，这将使研究人员可以轻松访问机器学习中的最新技术。该项目于1992年启动之时，已有各种语言的学习算法可供使用，这些算法可在不同的平台上使用，并能以多种数据格式进行操作。收集学习计划以对数据集进行比较研究的任务充其量是艰巨的。可以预见，WEKA不仅将提供学习算法的工具箱，而且还将提供一个框架，研究人员可以在该框架内实现新的算法，而不必关心支持数据处理和方案评估的基础架构。

如今，WEKA被公认为数据挖掘和机器学习的标志性系统[22]。它已在学术界和企业界获得了广泛的接受，并已成为数据挖掘研究的一种广泛使用的工具。本书[35]是一本流行的数据挖掘教科书，在机器学习出版物中经常被引用。如果没有将系统作为开源软件发布，那么成功的可能性很小。让用户自由访问源代码使繁荣的社区能够开发并促进创建许多包含或扩展WEKA的项目。

在本文中，我们简要回顾了WEKA工作台和项目的历史，讨论了最近的3.6稳定版本中的新功能，并重点介绍了基于WEKA的许多项目。

2. THE WEKA WORKBENCH

WEKA项目旨在为研究人员和从业人员提供全面的机器学习算法和数据预处理工具集合。它使用户可以快速尝试并在新数据集上比较不同的机器学习方法。其模块化，可扩展的体系结构允许通过提供的大量基础学习算法和工具来构建复杂的数据挖掘过程。得益于简单的API，插件机制和设施，该工具包的扩展非常容易，它可以自动将新的学习算法与WEKA的图形用户界面集成在一起。

工作台包括用于回归，分类，聚类，关联规则挖掘和属性选择的算法。数据可视化工具和许多预处理工具可以很好地满足对数据的初步探索。这些与学习方案的统计评估和学习结果的可视化相结合，可支持数据挖掘的过程模型，例如CRISP-DM [27]。

2.1 User Interfaces

WEKA具有多个图形用户界面，可轻松访问基础功能。主要的图形用户界面是“资源管理器”。它具有基于面板的界面，其中不同的面板对应于不同的数据挖掘任务。在名为“预处理”面板的第一个面板中，可以使用WEKA的数据预处理工具（称为“过滤器”）加载和转换数据。该面板显示在图1.可以从各种来源加载数据，包括文件，URL和数据库。支持的文件格式包括WEKA自己的ARFF格式，CSV，LibSVM格式和C4.5格式。也可以使用人工数据源生成数据，并使用数据集编辑器手动编辑数据。

资源管理器中的第二个面板可访问WEKA的分类和回归算法。相应的面板称为“分类”，因为回归技术被视为“连续类”的预测变量。默认情况下，该面板针对在“预处理”面板中准备的数据集运行所选学习算法的交叉验证，以评估预测性能。它还显示了从完整数据集构建的模型的文本表示形式。但是，其他评估方式，例如基于单独的测试集，也受支持。如果适用，该面板还提供对模型图形表示的访问，例如决策树。此外，它可以可视化散点图中的预测误差，还可以通过ROC曲线和其他“阈值曲线”进行评估。也可以在此面板中保存和加载模型。

除监督算法外，WEKA还支持非监督算法的应用，即聚类算法和关联规则挖掘方法。可分别通过第三和第四面板在资源管理器中访问它们。 “群集”面板使用户可以对“预处理”面板中加载的数据运行聚类算法。它提供了用于评估聚类性能的简单统计信息：用于统计聚类算法的基于似然的性能，以及与“真实”聚类成员资格的比较（如果在数据的属性之一中指定的话）。如果适用，聚类结构的可视化也是可能的，并且必要时可以永久存储模型。

WEKA对聚类任务的支持不像其对分类和回归的支持那样广泛，但是与关联规则挖掘相比，它具有更多的聚类技术，到目前为止，它还是被忽略了。但是，它确实包含了该领域最知名的算法以及其他一些算法的实现。可以通过资源管理器中的“关联”面板访问这些方法。

在实际数据挖掘中，最重要的任务之一可能是确定数据中哪些属性是最可预测的属性。为此，WEKA的资源管理器提供了一个用于选择属性的专用面板，即“选择属性”，该面板提供了用于识别数据集中最重要属性的各种算法和评估标准。由于可以将不同的搜索方法与不同的评估标准组合在一起，因此可以配置各种可能的候选技术。可以通过基于交叉验证的方法来验证所选属性集的鲁棒性。

请注意，属性选择面板主要用于探索性数据分析。应使用WEKA的“ FilteredClassifier”（可通过“分类”面板访问）结合基础分类或回归算法来应用属性选择技术，以避免在获得的性能估算中引入乐观偏差。此警告还适用于“预处理”面板中可用的某些预处理工具（更具体地说，是受监管的工具）。

在许多实际应用中，数据可视化提供了重要的见解。这些甚至可以避免使用机器学习和数据挖掘算法进行进一步分析。但是，即使不是这种情况，他们也可能会通知您针对当前问题选择适当算法的过程。资源管理器中的最后一个面板称为“可视化”，提供了一个颜色编码的散点图矩阵，并提供了通过在矩阵中选择各个图并选择要可视化的数据部分进行向下钻取的选项。还可以获得有关各个数据点的信息，并以选定的数量随机扰动数据以发现模糊的数据。

资源管理器设计用于基于批处理的数据处理：将训练数据全部加载到内存中，然后进行处理。这可能不适用于涉及大型数据集的问题。但是，WEKA确实具有一些允许增量模型构建的算法的实现，可以从命令行界面以增量模式应用这些算法。这些算法的增量性质在资源管理器中被忽略，但是可以使用WEKA的一组图形用户界面中的最新功能（即所谓的“知识流”）加以利用，如图2所示。

资源管理器也可以处理大多数任务，这些任务也可以由知识流来处理。但是，除了基于批次的训练外，它的数据流模型还可以通过处理节点进行增量更新，这些处理节点可以在将各个实例加载到适当的增量学习算法之前对其进行加载和预处理。它还提供了可视化和评估节点。一旦配置了互连处理节点的设置，就可以将其保存以备后用。

WEKA中的第三个主要图形用户界面是“ Experimenter”（参见图3）。该接口旨在方便基于WEKA中可用的许多不同评估标准对算法的预测性能进行实验比较。实验可以涉及跨多个数据集运行的多种算法。例如，使用重复的交叉验证。实验还可以分布在网络中的不同计算节点上，以减少单个节点的计算负荷。设置实验后，可以将其保存为XML或二进制形式，以便在必要时可以重新访问。配置和保存的实验也可以从命令行运行。

与WEKA的其他用户界面相比，数据挖掘从业者使用此实验仪的频率可能更低。但是，一旦在资源管理器中执行了初步实验，使用此替代接口为特定数据集或数据集的集合识别合适的算法通常会容易得多。

在此，我们要结束对WEKA主要图形用户界面的简要说明，并指出，无论需要哪种用户界面，重要的是要提供用于运行WEKA的Java虚拟机并具有足够的堆空间。需要预先规定所需的内存量（应将其设置为低于所用计算机的物理内存量，以避免交换），这可能是在实践中成功应用WEKA的最大绊脚石。另一方面，考虑到运行时间，与用C编写的程序相比，它不再具有明显的劣势，因为现代的实时编译器非常复杂，因此用C编写的程序经常反对Java来处理数据密集型处理任务。 Java虚拟机。

3. HISTORY OF THE WEKA PROJECT

WEKA项目由新西兰政府自1993年起资助，直到最近。原始的资金申请于1992年末提交，并说明了该项目的目标：

“该计划旨在建立最先进的设施，用于开发机器学习技术，并研究其在新西兰经济的关键领域中的应用。具体来说，我们将创建一个用于机器学习的工作台，确定有助于其在农业行业中成功应用的因素，并开发新的机器学习方法和评估其有效性的方式。”

该项目的前几年专注于工作台的界面和基础架构的开发。大多数实现都是用C语言完成的，其中一些评估程序用Prolog编写，而用户界面则使用TCL / TK生成。在此期间，创建了WEKA1首字母缩写词，并创建了系统使用的属性关系文件格式（ARFF）。

WEKA的第一版是内部发行的，发行于1994年。该软件处于测试阶段。首次公开发行（版本2.1）于1996年10月发布。图4显示了WEKA 2.1的主要用户界面。 1997年7月，发布了WEKA 2.2。它包括八种学习算法（其实现由原作者提供），使用基于外壳脚本的包装器和用C编写的数据预处理工具集成到WEKA中。WEKA2.2还具有基于Unix Makefiles的功能，用于根据这些算法配置和运行大规模实验。

到现在为止，维护软件变得越来越困难。诸如更改支持库，依赖性管理和配置复杂性等因素使开发人员难以完成这项工作，而安装体验也使用户感到沮丧。大约在这个时候，决定完全用Java重写系统，包括学习算法的实现。鉴于Java当时还不到两年，所以这是一个比较激进的决定。此外，Java的运行时性能使其成为实现计算密集型机器学习算法的可疑选择。然而，人们决定，诸如“一次编写，随处运行”以及简单的打包和分发之类的优势超过了这些缺点，并将促进软件的广泛接受。

1998年5月，基于TCL / TK的系统（WEKA 2.3）最终发布了，并在1999年中期发布了100％Java WEKA 3.0。 WEKA的非图形版本伴随着Witten和Frank [34]的第一版数据挖掘书。 2003年11月，稳定版的WEKA（3.4）发行了，预计该书的第二版将出版[35]。在3.0到3.4之间，开发了三个主要的图形用户界面。

4. NEW FEATURES SINCE WEKA 3.4

自3.4版以来，WEKA已添加了许多新功能-不仅以新的学习算法的形式，而且还包括预处理过滤器，可用性改进和对标准的支持。截至撰写本文时，3.4代码行包含690个Java类文件，总共271,447行code2；在Java代码中，第2行包含在代码行中。 3.6代码行包含1,081个类文件，总共509,903行代码。在本节中，我们将讨论WEKA 3.6中一些最重要的新功能。

4.1 Core

WEKA核心课程的最大变化是增加了关系值属性，以直接支持多实例学习问题[6]。关系值属性允许其每个值引用另一组实例（通常在多实例设置中定义“袋子”）。WEKA数据格式的其他新增功能包括ARFF文件的XML格式，并支持在标准ARFF文件中指定实例权重。

WEKA核心的另一个附加功能是“功能”元数据功能。该框架允许各个学习算法和过滤器声明它们能够处理的数据特征。反过来，这使WEKA的用户界面可以显示此信息，并向用户提供有关手头数据方案适用性的反馈。同样，“ TechnicalInformation”类允许方案为它们实现的算法提供引用细节。同样，此信息将通过用户界面自动格式化和公开。图5显示了LogitBoost分类器的技术信息和功能。

在WEKA 3.6中，使用ad2As（由Unix命令wc -l计算）也改善了日志记录功能。中央日志文件的位置。该文件捕获所有写入WEKA中任何图形记录面板的信息，以及任何输出到标准输出和标准错误的信息。

4.2 Learning Schemes

自WEKA 3.4起，添加了许多新的学习算法，并对现有算法进行了改进。后者的一个例子是基于实例的学习，现在支持可插拔的距离函数和新的数据结构（例如，球树和KD树），以加快对最近邻居的搜索。WEKA 3.6中的一些新分类算法包括：

•贝叶斯逻辑回归[13]：文本分类的BLR方法，具有高斯先验和拉普拉斯先验。
•最佳优先决策树[28]：使用最佳优先搜索策略构建决策树。
•决策表朴素贝叶斯混合[15]：结合决策表和朴素贝叶斯的混合学习器。
•判别多项式朴素贝叶斯[30]：一个简单的贝叶斯分类器，具有判别性参数学习，可用于文本分类。
•功能树[12]：决策树在叶子处具有斜裂和线性函数。
•高斯过程[26]：实现众所周知的高斯过程方法进行回归。
•Simple CART [3]：决策树学习器，实现最小的成本复杂性修剪。
•AODE的变体[39，17]：具有包含分解（AODEsr）和加权AODE（WAODE）的平均一依赖估计量。
Wrapper classifiers：允许LibSVM [5]和LibLINEAR [9]第三方库提供的众所周知的算法在WEKA中使用。

除了这些算法之外，自3.4版以来，WEKA还添加了完整的多实例算法包，其中大多数首先分发在单独的MILK包中，用于多实例学习[37]。WEKA 3.6还具有新的“元”算法（new “meta” algorithms），可以围绕基础学习算法进行包装以扩大适用性或增强性能：

•嵌套二分法[10; [8]：一种利用两类分类器的层次结构处理多类分类问题的方法。
•Dagging [32]：类似于Bagging的元分类器，它将分类的训练数据子集提供给所选的基础学习算法。
•旋转森林[24]：通过在已经使用主成分分析旋转的输入数据的随机选择子空间上训练基础学习者，来生成整体分类器。

聚类算法集也得到了以下的扩展：

•CLOPE聚类器[38]：一种用于事务数据的快速聚类方案。
•顺序信息瓶颈群集器[29]：主要用于文档群集的群集器。

4.3 Preprocessing Filters

正如WEKA中学习计划的清单在增加一样，预处理工具的数量也在增加。 WEKA 3.6中的一些新的过滤器包括：

•添加分类：将分类器的预测添加到数据集。
•添加ID：将ID属性添加到数据集-用于跟踪实例。
•添加值：如果缺少标签，则将给定列表中的标签添加到属性中。
•属性重新排序：更改数据集中属性的顺序。
•四分位间距：根据四分位间距将实例标记为包含离群值和极值。
•内核过滤器[2]：将给定的一组预测变量转换为内核矩阵。
•数值清除器：用用户提供的默认值替换数值，以“清除”超出阈值或太接近特定值的数值。
•数值到标称值：通过简单地将所有观察到的数值添加到标称值列表中，即可将数值属性转换为标称值。
•分区多过滤器：将提供的过滤器列表应用于相应的属性范围集，并将结果合并为新的数据集。
•多实例命题，反之亦然：在多实例格式之间进行转换。
•随机子集：选择属性的随机子集。
•RELAGGS [19]：使用聚合将关系数据转换为命题数据。
•储层样本[33]：增量采样实例并执行储层采样，以对不适合主存储器的数据集进行下采样。
•按表达式子集：根据用户指定的表达式过滤实例。
•Wavelet [25]：对数据执行小波变换。

4.4 User Interfaces

除了上述功能和技术信息元数据的公开内容外，自3.4版以来，WEKA中的GUI进行了进一步的改进和改进。 GUI选择器-WEKA的图形起点-经过重新设计，现在可以访问各种支持的用户界面，系统信息和日志记录信息，以及WEKA中的主要应用程序。图6显示了经过改进的GUI选择器。

散点图，ROC曲线，树和图形都可以从“可视化”菜单下的条目中访问。 “工具”菜单提供了两个新的支持GUI：

•SQL查看器：允许对数据库运行用户输入的SQL，并预览结果。当按下“打开数据库”按钮时，资源管理器中也使用此用户界面从数据库中提取数据。
•贝叶斯网络编辑器：提供用于构建，编辑和可视化贝叶斯网络分类器的图形环境。

图7和8分别显示了SQL查看器和Bayes网络编辑器。通常，对合成数据评估算法很有用。

如本文前面所述，Explorer的用户界面现在具有WEKA的数据生成器工具。可以从决策列表，径向基函数网络和贝叶斯网络以及经典的LED24域生成适合分类的人工数据。可以根据数学表达式生成人工回归数据。还有一些生成器，用于为聚类目的生成人工数据。知识流界面也得到了改进：它现在包括一个新的状态区域，可以同时提供有关数据挖掘过程中多个组件操作的反馈。知识流的其他改进包括对关联规则挖掘的支持，对可视化多个ROC曲线的改进的支持以及插件机制。生成人工数据集的灵活性。

4.5 Extensibility

自3.4版以来，已向WEKA添加了许多插件机制。这些使WEKA可以以各种方式扩展，而不必修改组成WEKA分布的类。通过编写扩展javax.swing.JPanel并实现接口weka.gui.explorer.Explorer.ExplorerPanel的类，可以轻松添加Explorer中的新选项卡。图9显示了带有一个新选项卡的资源管理器，该选项卡由插件提供，用于运行简单的实验。 类似的机制允许将分类器错误，预测，树和图形的新可视化效果添加到资源管理器“分类”面板的历史记录列表中的弹出菜单中。 Knowledge Flow具有插件机制，只需将其jar文件（以及任何必要的支持jar文件）添加到用户主目录中的.knowledgeFlow / plugins目录中，即可合并新组件。启动Knowledge Flow时会自动加载这些jar文件，并通过“插件”选项卡提供插件。

4.6 Standards and Interoperability

WEKA 3.6包括对导入PMML模型（预测建模标记语言）的支持。 PMML是一种与供应商无关的基于XML的标准，用于表达统计和数据挖掘模型，该标准已获得专有和开源数据挖掘供应商的广泛支持。 WEKA 3.6支持导入PMML回归，通用回归和神经网络模型类型。 WEKA的未来版本中将添加更多模型类型的导入，以及对导出PMML的支持。图10显示了由Clementine系统创建并加载到资源管理器中的PMML径向基函数网络。

WEKA 3.6的另一个新功能是能够以众所周知的LibSVM和SVM-Light支持向量机实现[5]使用的格式读取和写入数据。这是对新的LibSVM和LibLINEAR包装器分类器的补充。

5. PROJECTS BASED ON WEKA

有许多项目以某种方式扩展或包装WEKA。在撰写本文时，WEKA网站3的“相关项目”网页上列出了46个此类项目。其中一些包括：

•自然语言处理系统。有很多使用WEKA进行自然语言处理的工具：GATE是NLP工作台[11]。Balie执行语言识别，标记化，句子边界检测和命名实体识别[21]； Senseval-2是用于词义消除歧义的系统； Kea是一个自动提取关键短语的系统[36]。
•生物学知识发现。已经开发出了几种使用WEKA或基于WEKA的工具来辅助生物学应用中的数据分析：BioWEKA是WEKA的扩展，用于生物学，生物信息学和生物化学方面的任务[14]； Epitopes Toolkit（EpiT）是基于WEKA的平台，用于开发表位预测工具； maxdView和Mayday [7]提供了微阵列数据的可视化和分析。
•分布式和并行数据挖掘。有许多项目已将WEKA扩展为分布式数据挖掘。 Weka-Parallel提供了一个分布式交叉验证工具[4]。 GridWeka提供分布式评分和测试以及交叉验证[18]； FAEHIM和Weka4WS [31]使WEKA可以作为Web服务使用。
•开源数据挖掘系统。一些著名的开源数据挖掘系统提供了插件，以允许访问WEKA的算法。康斯坦茨信息矿工（KNIME）和**RapidMiner [20]**是两个这样的系统。 R [23]统计计算环境还通过RWeka [16]包为WEKA提供了接口。
•科学的工作流程环境。开普勒Weka（Kepler Weka）项目将WEKA的所有功能集成到开普勒[1]开源科学工作流程平台中。

6. INTEGRATION WITH THE PENTAHO BI SUITE

Pentaho公司是商业开源商业智能软件的提供商。 Pentaho BI套件包括报告，交互式分析，仪表板，ETL /数据集成和数据挖掘。每个项目都是一个单独的开源项目，由企业级开源BI平台捆绑在一起。 2006年底，WEKA被用作该套件的数据挖掘组件，此后一直集成到该平台中。

WEKA与Pentaho平台之间集成的重点是与Pentaho数据集成（PDI），也称为Kettle项目。 PDI是引擎驱动的流式ETL工具。它丰富的提取和转换操作集，以及对多种数据库的支持，是WEKA数据过滤器的自然补充。 PDI可以轻松导出WEKA原生ARFF格式的数据集，以立即用于模型创建。

已经创建了几个特定于WEKA的转换步骤，以便PDI可以访问WEKA算法，并且可以用作评分平台和自动创建模型的工具。其中第一个如图11所示，称为“ Weka评分”。它使用户能够导入序列化的WEKA模型（分类，回归或聚类）或受支持的PMML模型，并使用它对数据进行评分，作为ETL转换的一部分。在操作场景中，模型的预测性能可能会随着时间的流逝而降低。

这可能是由于数据基础分布的变化而引起的，有时也称为“概念漂移”。如图12所示，针对PDI的第二个WEKA特定步骤允许用户执行整个知识流过程，作为转换的一部分。这可以自动定期重新创建或刷新模型。

由于Pentaho BI服务器可以执行PDI转换并将其用作数据源，因此可以将数据挖掘的结果合并到整个BI流程中，并在报表，仪表板和分析视图中使用。

7. CONCLUSIONS

自从1992年成立以来的16年中，WEKA项目已经走了很长一段路。它所取得的成功证明了其社区和许多贡献者的热情。释放WEKA作为开源软件并用Java实现它在其成功中起着不小的作用。这两个因素确保不管任何特定机构或公司的承诺或健康状况，它都可维护和可修改。

8. ACKNOWLEDGMENTS

Many thanks to past and present members of the Waikato machine learning group and the external contributers for all the work they have put into WEKA.

9. REFERENCES

[1] I. Altintas, C. Berkley, E. Jaeger, M. Jones, B. Ludscher, and S. Mock. Kepler: An extensible system for design and execution of scientific workflows. In In SSDBM, pages 21–23, 2004.
[2] K. Bennett and M. Embrechts. An optimization perspective on kernel partial least squares regression. In J. S. et al., editor, Advances in Learning Theory: Methods, Models and Applications, volume 190 of NATO Science Series, Series III: Computer and System Sciences, pages 227–249. IOS Press, Amsterdam, The Netherlands, 2003.
[3] L. Breiman, J. H. Friedman, R. A. Olshen, and C. J.
Stone. Classification and Regression Trees. Wadsworth International Group, Belmont, California, 1984.
[4] S. Celis and D. R. Musicant. Weka-parallel: machine learning in parallel. Technical report, Carleton College, CS TR, 2002.
[5] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[6] T. G. Dietterich, R. H. Lathrop, and T. Lozano-P´erez.
Solving the multiple instance problem with axis-parallel rectangles. Artif. Intell., 89(1-2):31–71, 1997.
[7] J. Dietzsch, N. Gehlenborg, and K. Nieselt. Maydaya microarray data analysis workbench. Bioinformatics, 22(8):1010–1012, 2006.
[8] L. Dong, E. Frank, and S. Kramer. Ensembles of balanced nested dichotomies for multi-class problems. In Proc 9th European Conference on Principles and Practice of Knowledge Discovery in Databases, Porto, Portugal, pages 84–95. Springer, 2005.
[9] R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification. Journal of Machine Learning. Research, 9:1871–1874, 2008.
[10] E. Frank and S. Kramer. Ensembles of nested dichotomies for multi-class problems. In Proc 21st International Conference on Machine Learning, Banff, Canada, pages 305–312. ACM Press, 2004.
[11] R. Gaizauskas, H. Cunningham, Y. Wilks, P. Rodgers, and K. Humphreys. GATE: an environment to support research and development in natural language engineering.
In In Proceedings of the 8th IEEE International Conference on Tools with Artificial Intelligence, pages 58–66, 1996.
[12] J. Gama. Functional trees. Machine Learning, 55(3):219–250, 2004.
[13] A. Genkin, D. D. Lewis, and D. Madigan. Largescale bayesian logistic regression for text categorization.
Technical report, DIMACS, 2004.
[14] J. E. Gewehr, M. Szugat, and R. Zimmer. BioWeka— extending the weka framework for bioinformatics.
Bioinformatics, 23(5):651–653, 2007.
[15] M. Hall and E. Frank. Combining naive Bayes and decision tables. In Proc 21st Florida Artificial Intelligence Research Society Conference, Miami, Florida. AAAI Press, 2008.
[16] K. Hornik, A. Zeileis, T. Hothorn, and C. Buchta.
RWeka: An R Interface to Weka, 2009. R package version 0.3-16.
[17] L. Jiang and H. Zhang. Weightily averaged onedependence estimators. In Proceedings of the 9th Biennial Pacific Rim International Conference on Artificial Intelligence, PRICAI 2006, volume 4099 of LNAI, pages 970–974, 2006.
[18] R. Khoussainov, X. Zuo, and N. Kushmerick. Gridenabled Weka: A toolkit for machine learning on the grid. ERCIM News, 59, 2004.
[19] M.-A. Krogel and S. Wrobel. Facets of aggregation approaches to propositionalization. In T. Horvath and A. Yamamoto, editors, Work-in-Progress Track at the Thirteenth International Conference on Inductive Logic Programming (ILP), 2003.
[20] I. Mierswa, M. Wurst, R. Klinkenberg, M. Scholz, and T. Euler. Yale: Rapid prototyping for complex data mining tasks. In L. Ungar, M. Craven, D. Gunopulos, and T. Eliassi-Rad, editors, KDD ’06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 935–940, New York, NY, USA, August 2006. ACM.
[21] D. Nadeau. Balie—baseline information extraction : Multilingual information extraction from text with machine learning and natural language techniques. Technical report, University of Ottawa, 2005.
[22] G. Piatetsky-Shapiro. KDnuggets news on SIGKDD service award. http://www.kdnuggets.com/news/ 2005/n13/2i.html, 2005.
[23] R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2006. ISBN 3900051-07-0.
[24] J. J. Rodriguez, L. I. Kuncheva, and C. J. Alonso. Rotation forest: A new classifier ensemble method. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(10):1619–1630, 2006.
[25] K. Sandberg. The haar wavelet transform.
http://amath.colorado.edu/courses/5720/ 2000Spr/Labs/Haar/haar.html, 2000.
[26] M. Seeger. Gaussian processes for machine learning. International Journal of Neural Systems, 14:2004, 2004.
[27] C. Shearer. The CRISP-DM model: The new blueprint for data mining. Journal of Data Warehousing, 5(4), 2000.
[28] H. Shi. Best-first decision tree learning. Master’s thesis, University of Waikato, Hamilton, NZ, 2007. COMP594.
[29] N. Slonim, N. Friedman, and N. Tishby. Unsupervised document classification using sequential information maximization. In Proceedings of the 25th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 129–136, 2002.
[30] J. Su, H. Zhang, C. X. Ling, and S. Matwin. Discriminative parameter learning for bayesian networks. In ICML 2008, 2008.
[31] D. Talia, P. Trunfio, and O. Verta. Weka4ws: a wsrfenabled weka toolkit for distributed data mining on grids.
In Proc. of the 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005, pages 309–320. Springer-Verlag, 2005.
[32] K. M. Ting and I. H. Witten. Stacking bagged and dagged models. In D. H. Fisher, editor, Fourteenth international Conference on Machine Learning, pages 367–375, San Francisco, CA, 1997. Morgan Kaufmann Publishers.
[33] J. S. Vitter. Random sampling with a reservoir. ACM Transactions on Mathematical Software, 11(1):37–57, 1985.
[34] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.
Morgan Kaufmann, San Francisco, 2000.
[35] I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, 2 edition, 2005.
[36] I. H. Witten, G. W. Paynter, E. Frank, C. Gutwin, and C. G. Nevill-Manning. Kea: Practical automatic keyphrase extraction. In Y.-L. Theng and S. Foo, editors, Design and Usability of Digital Libraries: Case Studies in the Asia Pacific, pages 129–152. Information Science Publishing, London, 2005.
[37] X. Xu. Statistical learning in multiple instance problems.
Master’s thesis, Department of Computer Science, University of Waikato, 2003.
[38] Y. Yang, X. Guan, and J. You. CLOPE: a fast and effective clustering algorithm for transactional data. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 682–687. ACM New York, NY, USA, 2002.
[39] F. Zheng and G. I. Webb. Efficient lazy elimination for averaged-one dependence estimators. In Proceedings of the Twenty-third International Conference on Machine Learning (ICML 2006), pages 1113–1120. ACM Press, 2006.

你可能感兴趣的:(人类活动识别（HAR）,论文学习（Paper）)

什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【Linux内核模块】Linux内核模块程序结构 byte轻骑兵 #嵌入式Linux驱动开发实战 linux 运维服务器
如果你已经写过第一个"HelloWorld"内核模块，可能会好奇：为什么那个几行代码的程序能被内核识别？那些module_init、MODULE_LICENSE到底是什么意思？今天咱们就来扒一扒内核模块的程序结构，搞清楚一个合格的内核模块到底由哪些部分组成，每个部分又承担着什么角色。目录一、内核模块的"骨架"：最简化结构解析二、头文件：内核模块的"说明书"2.1最常用的三个头文件2.2按需添加的其
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
php中调用对象的方法可以使用array($object, ‘methodName‘)？ IT 老王 php android 开发语言
是的，在PHP中，array($object,'methodName')是一种标准的回调语法，用于表示“调用某个对象的特定方法”。这种语法可以被许多函数（如call_user_func()、call_user_func_array()、usort()等）识别并执行。语法原理在PHP中，可调用对象（callable）有多种形式，其中之一是[对象实例,方法名]数组：第一个元素：对象实例（必须是已实例化
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
SpringAOP中的JointPoint和ProceedingJoinPoint使用详解（附带详细示例）如何在5年薪百万 springboot
概念JointPointJointPoint是程序运行过程中可识别的点，这个点可以用来作为AOP切入点。JointPoint对象则包含了和切入相关的很多信息。比如切入点的对象，方法，属性等。我们可以通过反射的方式获取这些点的状态和信息，用于追踪tracing和记录logging应用信息。Pointcutpointcut是一种程序结构和规则，它用于选取joinpoint并收集这些point的上下文信
网络安全行业核心人才需求与职业发展路径 Gappsong874 安全网络安全程序人生职场和发展
在数字化浪潮席卷全球的今天，数据已成为驱动经济、重塑社会的核心资产。从智慧城市到工业互联网，从移动支付到远程医疗，数字技术深度融入人类生活的每个角落。然而，技术赋能的另一面是风险的指数级放大——网络攻击手段日益复杂，数据泄露事件频发，关键基础设施面临瘫痪威胁，甚至国家安全与公民隐私也暴露在未知风险之中。在此背景下，网络安全早已超越技术范畴，成为关乎国家战略、企业存续与个人权益的“数字生命线”。无论
网安学习NO.12
下一代防火墙（Next-GenerationFirewall，简称NGFW）是在传统防火墙基础上发展而来的新一代网络安全防护设备，其核心目标是解决传统防火墙在复杂网络环境（如云计算、移动办公、加密流量激增等）中“防护维度不足、威胁识别滞后、功能单一”等痛点，通过融合多元安全能力，实现对网络流量更精准、更智能、更全面的管控与防御。一、下一代防火墙与传统防火墙的核心差异传统防火墙主要依赖“端口-协议”
使用Adb wifi Android真机运行Uni-app pony1688 adb uni-app android
1、手机安装Adbwifi,我的用是这个：ADBWiFi(com.rair.adbwifi)-5.1.5-应用-酷安2、手机上运行ADB，运行后点击开始后界面如下3、如果手机已root,在电脑上运行adbconnect192.168.200.33:5555就可以连上了（注意:(1)不要进PowerShell,否则报错：无法将“adb”项识别为cmdlet、函数、脚本文件或可运行程序的名称。...(
试题公式ocr识别数据集
试题公式ocr识别数据集insurance_formula_latexhttps://github.com/LeeXYZABC/insurance_formula_latex.gitreference---
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
开源 Arkts 鸿蒙应用开发（六）数据持久--文件和首选项存储
文章的目的为了记录使用Arkts进行Harmonyapp开发学习的经历。本职为嵌入式软件开发，公司安排开发app，临时学习，完成app的开发。开发流程和要点有些记忆模糊，赶紧记录，防止忘记。相关链接：开源Arkts鸿蒙应用开发（一）工程文件分析-CSDN博客开源Arkts鸿蒙应用开发（二）封装库.har制作和应用-CSDN博客开源Arkts鸿蒙应用开发（三）Arkts的介绍-CSDN博客开源Ark
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
pycharm无法识别pip安装的包
在使用conda创建一个新的环境后，有些包通过pip的方式安装更方便有效，若在pip安装后，遇到该环境没有此包，或pycharm监测不到此包，通常是pip的环境指向有问题。解决措施：#首先检查当前pip的指向whichpip'若输出为/home/username/anaconda/bin/pip，则说明当前pip指向有问题，处于base环境中'#退出当前环境condadeactivateyourc
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
每日MySQL之024：FLUSH TABLES 匿_名_用_户 MYSQL MySQL FLUSH TABLES
FLUSHTABLES作用是flush表，并根据参数加上相应的锁。默认是写日志的，如果不希望写日志，可以设置加上参数NO_WRITE_TO_BINLOG。另外，FLUSHTABLES命令执行前会隐式地发出commit命令，常见语法如下：•FLUSHTABLES关闭所有的表，包括正在使用的表，并且会flushquerycache。如果有正处于活动状态的LOCKTABLES...READ命令，则不允许
信息传播分析：研究信息流动规律 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1信息传播的本质信息传播是人类社会活动中不可或缺的一部分。从远古时代的烽火狼烟到现代的互联网社交媒体，信息传播的形式不断演变，但其本质始终是信息的流动和交换。信息传播的过程涉及信息源、传播渠道、受众等多个要素，其最终目的是将信息有效地传递给目标受众，并产生预期的影响。1.2信息传播研究的意义研究信息传播的规律，对于理解社会发展、舆论引导、文化传承等方面具有重要意义。通过分析信息传播
微信开放平台中 `UnionID` 和 `OpenID`使用区别对比慧一居士架构总结架构系统架构
在微信开放平台中，UnionID和OpenID是用于标识用户身份的关键字段，但二者使用场景和作用范围有本质区别。以下是详细对比：核心区别字段OpenIDUnionID作用范围单应用内唯一（如一个小程序或公众号）跨同一开放平台下所有应用唯一用途识别同一用户在同一应用内的身份识别同一用户在不同应用（同主体）中的身份获取条件用户访问应用即可获得需满足以下条件：1.应用绑定到同一开放平台2.用户已关注/使
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开