阿里云云栖号

训练第一个机器学习模型

导语

在笔者的上一篇文章中[1]，使用了 k-NN 算法来识别手写字数据集，它的缺点是浪费存储空间且执行效率低。本文将使用决策树算法来解决同样的问题。相对 k-NN 算法，它更节约存储空间且执行效率更高。更重要的是，实施决策树算法的过程将训练算法并得到知识 —— 这是开发机器学习程序的一般步骤。一旦理解了这个工作流程，才有可能利用好机器学习这把利剑。

在本文中，笔者将训练一个决策树模型并使用该模型来识别手写字数据集。从中读者将可以了解到：如何构建学习模型？模型经过训练后学习到了怎样的知识？学习到的知识怎么表示和存储？又该如何利用这些学到的知识来解决同类的问题？

本文适合以下背景的读者阅读：

了解 MNIST 数据集[2]；

使用 Javascript 作为编程语言的开发者；

不需要具备算法能力和高数的背景：全文只有一道数学公式；

加上示例代码，全文总共 460 行，大约需要 20 分钟的阅读时间。

作者学识有限，如有疏漏，敬请指正。

生活中的决策

在开始构建决策树之前，必须了解决策树的工作原理。更详细的内容可以从参考资料的链接[2]中获得。

一个例子是，如何教育一个学龄前的儿童辨认猫和老虎？

训练第一个机器学习模型_第1张图片

我们会拿来一些示例照片，对照这些照片根据某些特征来训练小孩，告他 A 是猫，B 是老虎；

这些特征可能是，表面的颜色、耳朵的形状、体积的大小等等；

我们总是希望儿童能快速辨认出猫和老虎，毕竟假如他们真的遇到了老虎，则需要和老虎保持一定的距离；

其中一种筛选方法就是决策模型：把认为最重要的特征先进行甄别，然后到次要的，再到次次要的，以此来加速决策过程并得出判定。

作为一个示例，这里假设将识别老虎分为 2 个特征，分别是耳朵的形状和体积大小，那么已知的数据可能是这样的：

训练第一个机器学习模型_第2张图片

在程序中将使用数组的形式来表示上列数据，我把它称为「抓虎的数据集」：

训练第一个机器学习模型_第3张图片

根据已有的数据集（经验），猫和老虎的决策树则是这样：

训练第一个机器学习模型_第4张图片

这就是决策树的工作原理了。因为属于分类算法，所以决策树也可以推演到 MNIST 数据集的识别中。把 728 个点作为特征，对应的数字作为分类目标即可应用决策树算法。当然决策树算法不适合解决 MNIST 数据集这类特征为数值型的问题，但是因为它易于理解和实现，人们在通过解释后都有能力去理解决策树所表达的意义，因此作为机器学习中训练模型的算法来进行入门则非常合适。

那么决策树模型在程序中应该如何构建和表示呢？

构建决策树

决策树的构建过程就是在训练数据集中不断划分数据集，直到找到目标分类的过程。在此过程中需要找到最好的数据集划分方式，递归地不断划分数据集，直到所有的分类都属于同一类目或没有多余特征时停止生长。可以结合上一章节的「抓虎」的决策树进行理解。

找出最佳特征来划分数据

不难看出，构建决策树的关键问题是如何找出最佳的特征来划分数据集。先要回答问题是，假设我按照某个特征将数据集一分为二，那么有 N 种划分方式，哪一种才算做「最好的划分方式」？这就得引入香农熵的概念。

香农熵

划分数据集的大原则是：将无序的数据变得更加有序。

在「抓虎」的决策树中，耳朵的形状是最佳的划分特征，因为根据它来划分后的数据集更加有序了（混杂项更少）。度量集合有序程度的其中一种方法就是香农熵。香农熵是信息论中的内容，有兴趣的读者可以从参考资料的链接[4]中获得更详细的内容。在此只需要知道的是，香农熵越低则集合越有序。

香农熵的计算公式是：

根据公式，在程序中实现计算香农熵的代码：

训练第一个机器学习模型_第5张图片

进行一些测试将会有助于理解香农熵的含义：

训练第一个机器学习模型_第6张图片

根据特征划分数据集

实现一个函数，根据特征来划分数据集：

训练第一个机器学习模型_第7张图片

拿「抓虎」的数据集进行测试，看看划分后的数据长什么样？

从结果上看，成功地按照某个特征值把数据划分了出来。

组合计算熵的算法和划分数据集的函数，就可以找出最佳的数据划分特征项。以下是代码实现：

训练第一个机器学习模型_第8张图片

训练第一个机器学习模型_第9张图片

将该函数在「抓虎」的数据集进行测试，这个数据集的第一划分依据是什么特征？

如无意外，程序将输出 0。耳朵的形状是最佳的划分特征，证明程序达到了我们预想的效果。

递归构建决策树

将上面的函数结合起来，再不断地进行递归就可以构建出决策树模型。什么时候应该停止递归？有 2 种情况：

1.当所有的分类都属于同一类目时，停止划分数据 —— 该分类即是目标分类；

2.划分的数据集中没有其他特征时，停止划分数据 —— 根据出现次数最多的类别作为目标分类。

构建树的入参是什么？

训练数据集 —— 从训练数据中提取决策知识；

特征的标签 —— 用于绘制决策树每个节点。

以下是代码实现：

训练第一个机器学习模型_第10张图片

训练第一个机器学习模型_第11张图片

训练第一个机器学习模型_第12张图片

自此就完成了学习模型的构建。

训练算法得到知识

将已有的数据集使用决策树模型进行训练，将会得到怎样的知识？

以「抓虎」为例，运行以下代码：

可见，能得到的知识是针对数据集学习到的特征权重顺序排列，是层层筛选决策的依据。

为了更加直观和易于理解，可以将数据可视化（关于如何进行数据可视化不是本文的内容），它大概长这样：

训练第一个机器学习模型_第13张图片

在程序中加入知识的存储和提取函数，方便利用已有的知识进行推理。所以再声明 2 个辅助函数：

训练第一个机器学习模型_第14张图片

使用已有的知识进行推理

只需要写一个解析树的函数就可以将学习到决策知识推理到同类的数据集中。以下是代码实现：

训练第一个机器学习模型_第15张图片

以「抓虎」为例，下次见到一个耳朵形状是三角形，体积较小的动物，根据我们之前学习到的知识，它应该是猫还是老虎？

如无意外，将会输出 "Cat"。

应用到 MNIST 数据集

最后，组合上面的函数，将其应用到 MNIST 数据集的识别中。

值得注意的是，在数据准备环节需要一些工作以适应上文构建的算法：

将特征由数值型转化为标称型，这里我用了 0 / 1；

将分类值由 one-hot 向量转化为具体的数字。

准备数据

训练第一个机器学习模型_第16张图片

学习阶段

训练第一个机器学习模型_第17张图片

训练第一个机器学习模型_第18张图片

在笔者的电脑上大概运行了 10 分钟：

看起来运行时间很长，那怎么能说比 k-NN 算法更有效率？！

其实这是训练阶段的耗时，而训练阶段往往是离线处理，有大量的手段可以优化这部分的性能。

应用阶段

训练第一个机器学习模型_第19张图片

训练第一个机器学习模型_第20张图片

如无意外，终端命令行中将输出以下结果：

使用决策树算法来识别 MNIST 数据集效果很不理想，不过从中可以看到构建一个机器学习应用的完整过程。

你可能感兴趣的:(训练第一个机器学习模型)

Solidity/Rust 实战 —— Web3 开发者免费训练营（第23期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第23期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单8月13日-8月22日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书主办社区:HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前，HackQuest组织的共学营已达22
Solidity/Rust 实战 —— Web3 开发者免费训练营（第16期） moonshotcommons 共学营 rust web3 开发语言
HackQuest第16期Solidity/Rust共学营即将开营！Solidity/Rust共学营信息清单6月11日-6月20日免费（成功结营的小伙伴还将获得专属周边）全程线上(会议具体时间入营后通知)️头部公链官方签发的学习证书关于HackQuestHackQuest是一个充满活力的Web3开发者教育社区，我们的目标是培养下一代Web3开发者。目前我们的产品仍处于内测阶段，我们计划招募小伙伴们
【为什么网络安全缺口很大，而招聘却很少？】网络安全工程师教学安全黑客技术网络安全 web安全网络安全游戏数据库
为什么网络安全缺口很大，而招聘却很少？2020年我国网络空间安全人才数量缺口超过了140万，就业人数却只有10多万，缺口高达了93%。这里就有人会问了：1、网络安全行业为什么这么缺人？2、明明人才那么稀缺，为什么招聘时招安全的人员却没有那么多呢？首先来回答第一个问题，从政策背景、市场需求、行业现状来说。政策背景自从斯诺登棱镜门事件曝光之后，网络空间站成为现代战场第一战场，网络安全能力也被各国列为了
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
力扣网C语言编程题：在数组中查找目标值位置魏劭逻辑编程题 C语言算法 c语言 leetcode
一.简介本文记录一下力扣网上涉及数组的问题：排序数组中查找目标值的位置。主要以C语言实现。二.力扣网C语言编程题：在数组中查找目标值位置题目：在排序数组中查找元素的第一个和最后一个位置给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
Python打卡训练营day31 weixin_70153780 Python打卡训练营 python 开发语言
规范的文件命名目标：将文件夹中的文件按规则重命名（如添加前缀、序号等）。#示例importos#定义文件夹路径folder_path=r'C:\Users\Name\Documents\Project\Files'#遍历文件夹中的文件forindex,filenameinenumerate(os.listdir(folder_path)):#拆分文件名和后缀file_ext=os.path.spl
Python打卡训练营Day26 宸汐Fish_Heart Python打卡训练 python java 数据库
@浙大疏锦行DAY26函数专题1知识点回顾：1.函数的定义2.变量作用域：局部变量和全局变量3.函数的参数类型：位置参数、默认参数、不定参数4.传递参数的手段：关键词参数5.传递参数的顺序：同时出现三种参数类型时作业：题目1：计算圆的面积●任务：编写一个名为calculate_circle_area的函数，该函数接收圆的半径radius作为参数，并返回圆的面积。圆的面积=π*radius²(可以使
Python打卡训练营Day27 宸汐Fish_Heart Python打卡训练 python 算法开发语言
@浙大疏锦行DAY27函数专题2：装饰器ps：第一期day27对应5月16日知识点回顾：1.装饰器的思想：进一步复用2.函数的装饰器写法3.注意内部函数的返回值作业：编写一个装饰器logger，在函数执行前后打印日志信息（如函数名、参数、返回值）昨天我们接触到了函数大部分的功能，然后在你日常ctrl点进某个复杂的项目，发现函数上方有一个@xxx,它就是装饰器装饰器本质上是一个Python函数，它可
《多设备协同训练：HarmonyOS联邦学习驱动Unity游戏AI进化》爱学习的小齐哥哥 HarmonyOS 5 Unity 游戏 HarmonyOS5 unity 游戏引擎 Unity 游戏
随着游戏产业的智能化升级，游戏AI正从传统的规则驱动向数据驱动的“自进化”模式转型。然而，传统游戏AI训练面临数据孤岛、计算资源受限、隐私安全风险三大核心挑战：单设备训练难以处理复杂场景的海量数据，集中式训练需上传用户行为数据（侵犯隐私），且高性能计算依赖云端或专用硬件（成本高、延迟大）。在此背景下，HarmonyOS联邦学习与多设备协同训练的融合，为Unity游戏AI的智能化进化提供了突破性解决
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
基于Python Anaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案神经网络15044 仿真模型算法机器学习 python cnn lstm
以下是一个基于PythonAnaconda环境，使用CNN-LSTM模型预测碳交易价格的完整技术方案。内容涵盖数据预处理、模型构建、训练优化、预测可视化和结果分析等核心环节，代码与文字说明共计超过6000字。基于CNN-LSTM的碳交易价格预测系统设计与实现一、项目背景与目标1.1碳交易市场概述碳交易作为应对气候变化的重要市场机制，其价格波动直接影响企业减排决策。准确预测碳价（CarbonEmis
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
小模型和大模型的区别在哪里？我非常不满意人工智能深度学习机器学习
小模型和大模型在多个方面存在显著差异，主要体现在参数量、训练与运行速度、处理数据的准确性及应用场景上。参数量：大模型通常包含数十亿甚至数万亿个参数，这使得它们能够捕捉更复杂的数据模式和关系。相比之下，小模型的参数数量相对较少，通常在几百万到几千万之间，这限制了它们处理复杂任务的能力，但同时也意味着它们可以更快地训练和部署。训练与运行速度：由于参数数量的差异，小模型的训练和推理速度通常比大模型快。这
Playwright 常用元素定位方式（基础版）阿福不是狗 Playwright python
Playwright常用元素定位方式（基础版）一、get_by_XXXXXget_by_role：根据元素角色进行定位,常用的参数有两个，第一个是角色名称role，第二个是元素的文本name。其他参数的解释大家可以参考源码注释。#获取页面名称为确定的按钮page.get_bt_role('button',name='确定')playwright有大量的角色可以供我们选择，下面是源码内的可定位的角色
【PyTorch】保存和加载模型 Jackilina_Stone #Deep Learning pytorch python 人工智能深度学习模型
目录■state_dict■用于推理的保存和加载模型保存/加载state_dict保存/加载整个模型以TorchScript格式导出/加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU,加载到CPU保存在GPU,加载到GPU保存在CPU,加载到
Python打卡：Day39 剑桥折刀s python
知识点回顾图像数据的格式：灰度和彩色数据模型的定义显存占用的4种地方模型参数+梯度参数优化器参数数据批量所占显存神经元输出中间状态batchisize和训练的关系@浙大疏锦行
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
代码随想录算法训练营第一天|704.二分查找、35.搜索插入位置、34.在排序数组中查找元素的第一个和最后一个位置、27.移除元素、977.有序数组的平方天天开心(∩_∩) 算法 leetcode 数据结构
LeetCode704二分查找题目链接二分查找左闭右闭写法classSolution{publicintsearch(int[]nums,inttarget){intleft=0,right=nums.length-1;if(targetnums[right]){return-1;}while(left>1);if(target>nums[mid]){left=mid+1;}if(targetnu
鸿蒙开发：实现一个标题栏吸顶
前言本文基于Api13来了一个需求，要实现顶部下拉刷新，并且顶部的标题栏，下拉状态下跟随手势刷新，上拉状态下进行吸顶，也就是tabs需要固定在顶部标题栏的下面，基本的效果可以看下图，下图是一个Demo，实际的需求，顶部标题栏带有渐变显示，不过这些不是重点。首先要解决什么问题？第一个就是下拉刷新和上拉加载，第二个就是tabs组件进行吸顶，第三个就是手势冲突问题了，这三个问题解决了，那么效果基本上也就
# Spring Boot应用开发入门教程：从零开始搭建你的第一个项目嘿，小伙伴们！今天我们就来聊聊如何从零开始开发一个Spring Boot应用。别担心，我保证用最简单易懂的方式带你入门，哪怕你周盛欢 spring boot
一、认识SpringBoot首先，得先搞清楚SpringBoot是个啥玩意儿。简单来说，SpringBoot是基于Spring框架的一个简化开发的工具。Spring框架本身是个很强大的Java开发框架，但用起来配置挺复杂。SpringBoot就厉害了，它能自动配置很多东西，让我们能快速搭建应用，少写很多代码。就好比你去餐厅吃饭，Spring框架可能需要你先点菜、再等厨师做菜，SpringBoot就
每日leetcode XiaoyaoCarter leetcode训练 leetcode 算法职场和发展 c++二分查找双指针
611.有效三角形的个数-力扣（LeetCode）题目给定一个包含非负整数的数组nums，返回其中可以组成三角形三条边的三元组个数。示例1:输入:nums=[2,2,3,4]输出:3解释:有效的组合是:2,3,4(使用第一个2)2,3,4(使用第二个2)2,2,3示例2:输入:nums=[4,2,3,4]输出:4提示:1&nums){intn=nums.size()-1;if(ni+1&&nums
如何设计和训练大模型（神经网络）：从入门到精通！
“学习一门技术，先找一套工具和理论研究下去；千万不要反复横跳，什么都想学”大模型作为未来重要的发展方向，很多人想学习大模型技术，但又苦于无从下手；而本公众号前前后后也写过一些怎么学习大模型技术的方法论；但大部分都是从应用的角度作为切入点。但是，有一个问题就是，如果你是一个技术从业者，想学习和设计一款属于自己的大模型，应该怎么做？设计一个自己的大模型大模型作为一门快速发展的新型技术，其理论与实现也是
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
numpy -- np.concatenat 学习笔记 qq_43632431 numpy 笔记 python
np.concatenate是NumPy中用于连接数组的函数。以下是详细说明：基本语法numpy.concatenate((a1,a2,...),axis=0,out=None,dtype=None)参数说明arrays:要连接的数组序列（元组或列表）axis:连接轴的方向，默认为0在NumPy中，axis指定了操作的维度方向：axis=0:第一个维度（行方向）axis=1:第二个维度（列方向）a
剑指offer46_字符串中第一个只出现一次的字符
字符串中第一个只出现一次的字符字符串中找出第一个只出现一次的字符。如输入"abaccdeff"，则输出b。如果字符串中不存在只出现一次的字符，返回#字符。数据范围输入字符串长度[0,1000][0,1000][0,1000]。样例输入："abaccdeff"输出：'b'算法思路（哈希表计数）核心思想：使用哈希表统计每个字符的出现次数。二次遍历字符串，找到第一个计数为1的字符。关键步骤：第一次遍历：
MIAOYUN | 每周AI新鲜事儿（06.14-06.20）人工智能算法机器学习深度学习
紧跟技术浪潮，洞察行业未来，MIAOYUN《每周AI新鲜事儿》，为您精选全球AI领域的最新动态，涵盖AI技术突破、行业动态、趋势发展、前沿政策与学术研究，带您走在智能时代前沿，一起来回顾本周发生的AI新鲜事儿吧！AI开源大模型腾讯混元3D2.1大模型全链路开源6月14日，在CVPR2025（计算机视觉领域顶会之一）上，腾讯混元3D2.1大模型对外全链路开源，其模型权重及架构、训练代码、数据处理流程
手把手教你用Java实现用户登录注册的功能查拉图斯特拉talk java 开发语言
登陆注册功能说起用户登录注册其实主要还是几个点，首先第一个就是我们常说的一些验证码。因为验证码可以防止用户频繁的请求接口，比如有一些刻意攻击的请求用来检测账户是否存在，验证码起到了至关重要的一个作用防止重复恶意请求。接着就是一个用户的一个加密密码加密，不要小看这个加密，虽然说加密的方式千变万化，但是作为微服务程序来说，大部分网站还是会用HTTPS的证书，传输还是加密传输的，只是到服务端才进行加密校
Linux网卡Bond设置杨了个杨8982 linux基础 linux 服务器网络
一、网卡Bond介绍1.概念网卡Bond是一种网络技术，也被称为链路聚合、端口绑定或接口绑定，能将多个物理网络接口组合成一个逻辑接口。2.工作原理及作用bond模式增加网络带宽提高网络可靠性实现负载均衡适用场景备注Mode0：Balance-RR（轮询模式）原理：依次将数据包按顺序分配到各个成员接口发送。例如有三个成员接口，第一个数据包从接口1发送，第二个从接口2发送，第三个从接口3发送，之后循环
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他