啦啦右一

机器学习 | 降维：PCA主成分分析

本文整理自

长路漫漫2021的原创博客：sklearn基础篇（九）-- 主成分分析（PCA）

李春春_的原创博客：主成分分析（PCA）原理详解

bilibili视频：用最直观的方式告诉你：什么是主成分分析PCA

文章目录

降维
PCA的思想
用最直观的方式告诉你：什么是主成分分析PCA
- PCA是什么？
- 怎么找坐标系，特别是怎么找方差最大的方向？
- 怎么求R？协方差矩阵的特征向量就是R！
- - 协方差
  - 协方差矩阵
  - 协方差矩阵的特征向量
- 总结一下PCA怎么求解？
- PCA和奇异值分解
PCA的推导：基于最小投影距离
PCA的推导：基于最大投影方差
PCA算法流程⭐️
- 特征值分解算法
- - 观测数据规范化处理，得到规范化数据矩阵X
  - 计算相关矩阵R
  - 求R的特征值和特征向量
  - 求k个样本主成分
  - 计算k个主成分yi与原变量xi的相关系数ρ(xi,yi)以及k个主成分对原变量xi的贡献率vi
  - 计算n个样本的k个主成分值
- PCA实例
- 奇异值分解算法
- - 构造新的n×m矩阵
  - 对矩阵X′进行截断奇异值分解
  - 求k×n样本主成分矩阵

降维

降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。
降维具有如下一些优点：
- 1）使得数据集更易使用；
- 2）降低算法的计算开销；
- 3）去除噪声；
- 4）使得结果容易理解。
PCA（Principal Component Analysis）是一种常见的数据分析方式，常用于高维数据的降维，可用于提取数据的主要特征分量。
PCA 的数学推导可以从最大可分型和最近重构型两方面进行，前者的优化条件为划分后方差最大，后者的优化条件为点到划分平面距离最小，这里我将从最大可分性的角度进行证明。
初学者建议先阅读这份教程，英文好的可以直接阅读原文文献，其他小伙伴可以参考：A tutorial on Principal Components Analysis | 主成分分析（PCA）教程
奇异值分解，可以参考这份教程，英文好的可以直接阅读原文文献，其他的小伙伴可以参考：A Tutorial on Principal Component Analysis(译)

PCA是将数据投影到方差最大的几个相互正交的方向上，以期待保留最多的样本信息。
样本的方差越大表示样本的多样性越好，在训练模型的时候，我们当然希望数据的差别越大越好。否则即使样本很多但是他们彼此相似或者相同，提供的样本信息将相同，相当于只有很少的样本提供信息是有用的。
样本信息不足将导致模型性能不够理想。这就是PCA降维的目的：将数据投影到方差最大的几个相互正交的方向上。这种约束有时候很有用，比如在下面这个例子：
对于这个样本集我们可以将数据投影到 x 轴或者 y 轴，但这都不是最佳的投影方向，因为这两个方向都不能最好的反映数据的分布。很明显还存在最佳的方向可以描述数据的分布趋势，那就是图中红色直线所在的方向。也是数据样本作投影，方差最大的方向。向这个方向做投影，投影后数据的方差最大，数据保留的信息最多。

PCA的思想

PCA顾名思义，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。基本想法是将所有数据投影到一个子空间中，从而达到降维的目标，为了寻找这个子空间，我们基本想法是：
- 所有数据在子空间中更为分散
- 损失的信息最小，即：在补空间的分量少
PCA问题的优化目标：将一组n维向量降为k维（0

特征选择的问题，其实就是要剔除的特征主要是和类标签无关的特征。而这里的特征很多是和类标签有关的，但里面存在噪声或者冗余。在这种情况下，需要一种特征降维的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性。

PCA的思想是将n维特征映射到k维上（k是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征。

用最直观的方式告诉你：什么是主成分分析PCA

哔哩哔哩视频网址，呜呜呜强推！（这个视频用的是特征值分解算法）

PCA是什么？

PCA的目的就是找到一个坐标系，使得这个数据在只保留一个维度的时候，信息损失是最小的（数据分布式最分散的，即保留的信息是最多的）。

怎么找坐标系，特别是怎么找方差最大的方向？

补充数据的线性变换

左右拉伸的时候，拉伸的方向决定了方差最大的方向是横或者纵。
旋转决定了方差最大方向的角度。
所以实际上我们要求的就是R，看要转几度。

上述过程是可逆的

怎么求R？协方差矩阵的特征向量就是R！

协方差

协方差矩阵

左边第一个图的协方差是个单位矩阵；第二个对角线是正数，所以是正相关；第三个对角线是负数，所以是负相关。

将协方差公式和方差公式代入协方差矩阵，可得以下推导。

上边是白数据的协方差矩阵，然后代入求我们手上数据的协方差矩阵。

协方差矩阵的特征向量

协方差矩阵乘以特征向量等于特征值乘以特征向量
转换后，可以视作如下构成：
把特征向量1和特征向量2看作R矩阵，把特征值1和特征值2看作L矩阵，再把左边的R移到右边

由此得：
- 特征值 1就是x方向拉伸倍数的平方，特征值2就是y方向拉伸倍数的平方。
- L就是在R这组基下（新坐标系）的协方差矩阵。

总结一下PCA怎么求解？

PCA和奇异值分解

PCA的缺点：离群点影响大。就加一个离群点，整个方向动的幅度就很大。

SVD奇异值分解补充

接下来是堆公式环节

PCA的推导：基于最小投影距离

以下公式推导主要参考：刘建平Pinard——主成分分析（PCA）原理总结，详细原理可以阅读：降维——PCA（非常详细）。

PCA的推导：基于最大投影方差

PCA算法流程⭐️

特征值分解算法

观测数据规范化处理，得到规范化数据矩阵X

计算相关矩阵R

求R的特征值和特征向量

求k个样本主成分

计算k个主成分yi与原变量xi的相关系数ρ(xi,yi)以及k个主成分对原变量xi的贡献率vi

计算n个样本的k个主成分值

以上部分参考了sklearn基础篇（九）-- 主成分分析（PCA），不过结合那个哔哩哔哩视频，个人感觉PCA这一算法的流程其实就是：

数据预处理：将原始数据进行标准化或归一化处理，完成去中心化。

计算协方差矩阵：将处理后的数据进行协方差矩阵的计算，得到协方差矩阵。

特征值分解：对协方差矩阵进行特征值分解，得到特征值和特征向量。

特征值排序：将所有特征值从大到小排序，选择前k个特征值对应的特征向量作为新的基向量。

生成新的特征空间：将原始数据投影到新的特征空间中，得到降维后的数据。包括拉伸（特征值）和旋转（特征向量）。

PCA实例

奇异值分解算法

输入：m×n样本矩阵X，每一行元素均值为0。这里每一行是一个特征。
输出：k×n样本主成分矩阵Y
参数：主成分个数k

构造新的n×m矩阵

对矩阵X′进行截断奇异值分解

求k×n样本主成分矩阵

你可能感兴趣的:(机器学习与模式识别,#,机器学习方法,机器学习,人工智能)

linux内核路由子系统,深入理解Linux网络技术内幕——路由子系统的概念与高级路由... 罗心澄 linux内核路由子系统
本文讨论IPv4的路由子系统。(IPv6对路由的处理不同)。基本概念路由子系统工作在三层，用来转发入口流量。路由子系统主要设计路由器、路由、路由表等概念。路由器：配备多个网络接口卡(NIC)，并且能利用自身网络信息进行入口流量转发的设备。路由：流量转发，决定目的地的过程路由表：转发信息库，该库中储存路由需要本地接收还是转发的信息，以及转发流量时所需要的信息。(即，信息库用来判断，要不要转发，如果要
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
React的状态管理——Redux miraculous111 react.js javascript 前端
Redux与计数器配套工具使用ReactToolkit创建counterStore为React注入storeReact组件使用store中的数据React组件修改store中的数据绑定用户交互效果展示action传参Redux异步状态管理React中的Redux就像Vue中的Vuex和Pinia一样，都是状态管理工具，通过这种方式可以很方便的实现各个组件中的通信。下面的代码是通过Redux实现一个
STM32:关于NVIC的工作与优先级分组方式 sewinger stm32学习笔记单片机嵌入式硬件 stm32
一，NVIC是什么NVIC，全称是NestedVectoredInterruptController，即嵌套向量中断控制器。它是ARMCortex-M系列处理器内核的一个重要组成部分，主要用于管理中断请求，协调中断的优先级，以及控制中断的嵌套执行，使得处理器能够高效、有序地响应和处理多个中断源。这个名称是如何体现的，下面一一说明。二，“嵌套”体现在哪？NVIC的嵌套体现在它能够处理多个中断的嵌套执
Angular与ASP.NET Core：解决表单数据传输问题 t0_54coder 编程问题解决手册 angular.js asp.net 前端个人开发
在现代Web开发中，Angular和ASP.NETCore是两个非常流行的框架，它们的组合可以构建出高效且易于维护的应用程序。然而，在使用Angular发送表单数据到ASP.NETCoreAPI时，开发者常常会遇到一些数据传输的问题。今天我们就来探讨如何正确地处理这种情况，并通过实际例子来展示解决方案。问题描述假设我们有一个Angular前端应用，需要将一个包含文件和其他数据的表单提交到ASP.N
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
TVBOX最新配置地址,TVBOX直播源接口配置地址,TVBOX最新直播接口 keysoso TV电视盒子电视盒子电视电视机
TVbox直播源最新配置地址如何获取与设置？TVbox直播源的配置与获取是许多用户关心的问题，因为这关系到能否顺利观看各类直播节目。下面，我们将逐步向大家介绍如何获取和设置TVbox最新的直播源配置地址。一、TVbox直播源的基本认识TVbox直播源最新配置地址如何获取与设置？上述标题满足了您的要求，它是一个带疑问的中文长标题，且符合用户搜索需求，同时包含了tvbox直播源和最新配置地址的关键词，
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
无再暴露源站！群联AI云防护IP隐匿方案+防绕过实战群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全 http 服务器
一、IP隐藏的核心原理群联AI云防护通过三层架构实现源站IP深度隐藏：流量入口层：用户访问域名解析至高防CNAME节点（如ai-protect.example.com）智能调度层：基于AI模型动态分配清洗节点，实时更新节点IP池回源层：防护节点通过加密隧道与源站通信，源站仅接受来自群联节点的流量二、IP隐藏配置全流程1.DNS配置（域名指向群联CNAME）#域名DNS记录示例@CNAMEai-pr
四层协议攻防手册：从SYN Flood到UDP反射的深度防御群联云防护小杜安全问题汇总 udp 网络网络协议服务器爬虫运维 web安全
一、四层协议攻击类型与特征攻击类型协议层特征SYNFloodTCP大量半开连接，SYN_RECV状态堆积UDP反射放大UDP小请求包触发大响应（如NTP、DNS响应）TCP分片攻击TCP发送异常分片耗尽重组资源连接耗尽攻击TCP建立大量空闲连接占用端口资源二、TCP层定制防御方案1.SYNCookie防护（内核参数优化）#启用SYNCookieecho1>/proc/sys/net/ipv4/tc
小程序被黑客攻击，如何防御！群联云防护小杜安全问题汇总小程序安全 web 被攻击阿里云 waf
在当今数字化时代，小程序作为连接用户与服务的桥梁，其安全性至关重要。随着小程序生态的日益壮大，也吸引了越来越多的不法分子试图通过各种手段进行攻击，如注入攻击、盗取用户数据、恶意篡改等。为了保护用户隐私和业务安全，开发者必须采取有效的防御措施。本文将深入探讨几种常见的小程序攻击方式及其解决方案，并附带示例代码，以确保您的小程序能够稳健运行。1.SQL注入攻击防范问题描述：攻击者通过在输入字段中插入恶
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
RestTemplate和RPC区别酷爱码经验分享 rpc 网络协议网络
RestTemplate是Spring框架中用于进行RESTful风格的HTTP请求的模板类，通常用于与外部服务进行通信。它基于HTTP协议，使用GET、POST、PUT、DELETE等HTTP方法来进行通信，传输的数据通常使用JSON或XML格式。它是一种基于资源的通信方式，通过URL来标识资源。RPC（RemoteProcedureCall）是一种远程过程调用的通信机制，用于不同进程或不同主机
从边缘到核心：群联云防护如何重新定义安全加速边界？群联云防护小杜安全问题汇总安全分布式 ddos 前端 node.js udp
一、安全能力的全方位碾压1.协议层深度防护四层防御：动态过滤畸形TCP/UDP包（如SYNFlood），传统CDN仅限速率控制。技术示例：基于AI的协议指纹分析，拦截异常连接模式。七层防御：精准识别业务逻辑攻击（如薅羊毛API调用），CDN仅支持基础URL黑名单。文档引用：“支持基于HTTP头部字段的多条件组合精准访问控制”（产品文档）。2.资源调度与成本优势节点复用：群联共享节点池降低单客户成本
深入浅出：序列化与反序列化的全面解析进击的小白菜一些开发常识开发语言开发常识
文章目录1.引言2.什么是序列化？2.1为什么需要序列化？3.什么是反序列化？3.1反序列化的重要性4.序列化与反序列化的实现4.1JSON(JavaScriptObjectNotation)4.2XML(eXtensibleMarkupLanguage)4.3ProtocolBuffers(Protobuf)4.4MessagePack5.安全性考虑6.性能优化7.结论附录：常见问题解答Q1:什
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
从5G向6G演进的三维连接宋罗世家技术屋智能科学与技术专栏 5G
【摘要】三维连接技术作为地面网络（TN）与非地面网络（NTN）的融合组网技术，既能解决TN空天地海覆盖受限与NTN服务场景受限问题，又能促进后5G（B5G）与6G网络基础设施产业链的健康发展。首先简述了三维连接技术的发展历程，然后重点介绍了未来两年将要完成的5GNTN标准需求、部署结构、空中接口、频谱与终端方面的设计考虑，最后给出了对未来B5G/6G三维连接技术展望，提出了需要全球产学研机构共同研
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
一文读懂 Linux 下 Docker 搭建及简单应用 Waitccy linux docker 运维服务器
一、引言在Linux系统的运维与开发场景中，Docker凭借其高效的容器化技术，极大地简化了应用部署与管理流程。它打破了传统环境配置的复杂性，实现应用及其依赖的封装，确保在不同环境中稳定运行。本文将详细介绍在Linux系统下搭建Docker的步骤，并通过几个简单应用示例，带你快速上手Docker。二、Linux下Docker搭建（一）准备工作系统要求：建议使用主流的Linux发行版，如Ubuntu
扫地机高增长神话破灭！科沃斯、石头科技艰难 “破冰”！ liukuang110 科技
扫地机器人赛道太冷，陆续有企业倒在寒风里。先是，老牌研发商广东宝乐机器人宣布破产重整；曾获得腾讯和红杉资本大额融资，并邀请罗永浩代言的“追光”品牌，也在短短两年内宣告失败。就连雷军投资、小米生态链孵化的睿米科技，也发布了停止运营的通告。头部玩家近况亦不乐观。以科技创新而闻名的科沃斯业绩大幅下滑，在过去几个月中股价的剧烈下跌，引发了市场的高度关注与深刻反思。另一头部玩家石头科技，毛利率下滑、存货周转
线程中run方法与start方法的差别夜君客 java 开发语言
run()方法run()方法是Runnable接口中定义的方法，Thread类实现了Runnable接口。当你直接调用run()方法时，它会在当前线程中执行，而不会启动一个新的线程。也就是说，run()方法只是一个普通的方法调用，不会产生多线程的效果。start()方法start()方法用于启动一个新的线程。当你调用start()方法时，JVM会创建一个新的线程，并在这个新线程中调用run()方法
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
手把手教你完成 MATLAB 的下载安装与激活（详细图文教程）徐浪老师徐浪老师大讲堂 matlab 开发语言
引言MATLAB是当前最流行的科学计算软件之一，被广泛应用于工程、数学、金融等多个领域。对于新用户而言，下载安装MATLAB可能会遇到一些困惑。本文将以详细步骤、清晰截图的形式，为您介绍MATLAB的下载、安装及激活的完整过程。一、下载安装前的准备工作在开始下载安装之前，请确保以下事项已准备妥当：1.系统需求MATLAB对系统配置有一定要求，具体包括：操作系统：Windows10或更新版本，mac
Graylog日志系统超详细部署和配置 kim_liao123 部署 elasticsearch docker
Graylog日志系统部署和配置1.软件介绍：Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。功能上和ELK类似，但又比ELK要简单，依靠着更加简洁，高效，部署使用简单；官方文档：https://docs.graylog.org/en/3.3/pages/users_and_roles.html以下所有部署方式都来源与官方文档2.软件准备：服务端：Mongo：存储graylog的一
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
CI/CD构建与注意事项 Sirius Wu ci/cd
1.CI/CD概述1.1定义CI（ContinuousIntegration，持续集成）：是一种软件开发实践，开发团队成员频繁地将代码集成到共享的代码仓库中。每次集成都会通过自动化的构建（包括编译、打包等）和测试来验证，从而尽早发现集成错误。CD（ContinuousDelivery/Deployment，持续交付/持续部署）：持续交付：是在持续集成的基础上，将经过测试的代码自动部署到预生产环境，
新能源智慧路灯：点亮城市未来之路 2501_91106766 材料工程
在城市发展进程中，新能源智慧路灯凭借其创新性，为可持续发展指引了方向。它不仅是照明设施的升级换代，更是城市基础设施向智能化转型的重要环节。一、能源供应的革新新能源智慧路灯的关键在于其能源系统。通常配备太阳能电池板，可将日间阳光转化为电能，并储存于高性能电池中，为夜间照明及其他功能提供动力。在光照条件欠佳的区域，出现了风能辅助发电的路灯，风力发电机与太阳能电池板协同运作，确保能源供应的稳定性。这种多
Java高频面试之集合-13 牛马baby 面试职场和发展 java 哈希算法 HashMap
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：为什么hash函数能降哈希碰撞？哈希函数通过以下核心机制有效降低碰撞概率，确保不同输入尽可能映射到不同的哈希值：一、设计原理与数学基础均匀分布（UniformDistribution）目标：使任意输入经过哈希计算后，结果在输出空间中均匀分布。数学方法：利用模运算、位操作等，确保输入变化时哈希值的变化无规律。示例：#简单哈
Java高频面试之集合-02 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：说说队列queueJava队列（Queue）详解队列（Queue）是Java集合框架中一种先进先出（FIFO）的线性数据结构，广泛应用于生产者-消费者模型、任务调度、线程池等场景。Java提供了丰富的队列实现，涵盖线程安全、阻塞、优先级等特性。一、队列的核心接口与操作Java队列的顶层接口是java.util.Queue
Java高频面试之集合-07 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：ArrayList和Vector的区别是什么？ArrayList与Vector的区别详解ArrayList和Vector都是Java中基于动态数组实现的List接口的实现类，但它们在设计、性能和线程安全性上有显著差异。以下是两者的核心区别：1.线程安全性特性ArrayListVector线程安全非线程安全（方法未同步）线
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他