congpin7333

漫谈“数据湖”之价值与架构

一、数据湖概念的提出

数据湖这一概念，最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出。其比喻是：如果我们把数据比作大自然的水，那么各个江川河流的水未经加工，源源不断地汇聚到数据湖中。业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源，多种类型数据，并可以对数据进行快速加工，分析的平台，本质上是一套先进的企业数据架构。”

"数据湖"的核心价值在于为企业提供了数据平台化运营机制。随着DT时代的到来，企业急需变革，需要利用信息化、数字化、新技术的利器形成平台化系统，赋能公司的人员和业务，快速应对挑战。而这一切的数据基础，正是数据湖所能提供的。

二、数据湖特点

数据湖本身，具备以下几个特点：

1）原始数据

海量原始数据集中存储，无需加工。数据湖通常是企业所有数据的单一存储，包括源系统数据的原始副本，以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库（行和列）的结构化数据，半结构化数据（CSV，日志， XML， JSON），非结构化数据（电子邮件，文档， PDF）和二进制数据（图像，音频，视频）。也就是数据湖将不同种类的数据汇聚到一起。

2）按需计算

使用者按需处理，不需要移动数据即可计算。数据库通常提供了多种数据计算引擎供用户来选择。常见的包括批量、实时查询、流式处理、机器学习等。

3）延迟绑定

数据湖提供灵活的，面向任务的数据编订，不需要提前定义数据模型。

三、数据湖优缺点

任何事物都有两面性，数据湖有优点也同样存在些缺点。

优点包括：

数据湖中的数据最接近原生的。这对于数据探索类需求，带来很大便利，可以直接得到原始数据。
数据湖统一企业内部各个业务系统数据，解决信息孤岛问题。为横跨多个系统的数据应用，提供一种可能。
数据湖提供了全局的、统一的企业级数据概览视图，这对于数据质量、数据安全..直到整体的数据治理，甚至提高到数据资产层面都大有裨益。
数据湖改变了原有工作模式，鼓励人人了解、分析数据；而不是依赖于专门的数据团队的”供给”方式，可以提升数据运营效率、改善客户互动、鼓励数据创新。

图1

缺点主要体现在：

对数据的归集处理程度明显缺失，对于试图直接使用数据的用户来说显得有些过于“原材料”化，且数据太过冗余。应对这一问题，可通过”数据接入+数据加工+数据建模”的方式来解决。
对数据湖基础层的性能有较高要求，必须依托高性能的服务器进行数据处理过程。这主要是来自于海量数据、异构多样化数据、延迟绑定模式等带来的问题。
数据处理技能要求高。这也主要是因为数据过于原始带来的问题。

四、数据湖与关联概念

4.1 数据湖 vs 数据仓库

数据湖建设思路从本质上颠覆了传统数据仓库建设方法论。传统的企业数据仓库则强调的是整合、面向主题、分层次等思路。其两者并不是对等的概念，更多是包含；即数据仓库作为数据湖的一类“数据应用”存在。两者可从以下维度进行对比：

1）存储数据类型

数据仓库是存储清洗加工过的，可信任的、结构良好的数据；
数据湖则是存储大量原始数据，包括结构化的、半结构化的和非结构化的数据。在我们世界中，主要是由原始的、混乱的、非结构化的数据组成。随着“混乱数据”的不断升级，人们对它的兴趣也不断增长，想要更好的理解它、从其中获取价值、并根据它做出决策。这就得需要一个灵活、敏捷、经济且相对轻松的解决方案，然而这些都不是数据仓库的强项。而且当有新的需求提出时，传统数据仓库又难以快速随之变化。

2）处理数据方式

如果需要加载到数据仓库中的数据，我们首先需要定义好它，这叫做写时模式（Schema-On-Write）。
而对于数据湖，您只需加载原始数据，然后，当您准备使用数据时，就给它一个定义，这叫做读时模式（Schema-On-Read）。

这是两种截然不同的数据处理方法。因为数据湖是在数据到使用时再定义模型结构，因此提高了数据模型定义的灵活性，可满足更多不同上层业务的高效率分析诉求。

3）工作合作方式

传统的数据仓库的工作方式是集中式的，业务人员给需求到数据团队，数据团队根据要求加工、开发成维度表，供业务团队通过BI报表工具查询。
数据湖更多是开放、自助式的（self-service），开放数据给所有人使用，数据团队更多是提供工具、环境供各业务团队使用（不过集中式的维度表建设还是需要的），业务团队进行开发、分析。

4）其他

还有很多方面，我们通过下图简要对比。

4.2 数据湖 vs 大数据

数据湖的技术实现，与大数据技术紧密结合。

通过Hadoop存储成本低的特点，将海量的原始数据、本地数据、转换数据等保存在Hadoop中。这样所有数据都在一个地方存储，能给后续的管理、再处理、分析提供基础。
通过Hive、Spark等低成本处理能力(相较于RDBMS)，将数据交给大数据库平台剂型处理。此外，还可通过Storm、Flink等支持流式处理等特殊计算方式。
由于Hadoop的可扩展性，可以很方便地实现全量数据存储。结合数据生命周期管理，可做到全时间跨度的数据管控。

4.3 数据湖 vs 云计算

云计算采用虚拟化、多租户等技术满足业务对服务器、网络、存储等基础资源的最大化利用，降低企业对IT基础设施的成本，为企业带来了巨大的经济性；同时云计算技术实现了主机、存储等资源快速申请、使用，则同样为企业带来了更多的管理便捷性。在构建数据湖的基础设施时，云计算技术可以发挥很大作用。此外，像AWS、MicroSoft、EMC等均提供了云端的数据湖服务。

4.4 数据湖 vs 人工智能

近些年，人工智能技术再一次飞速发展，训练和推理等需要同时处理超大的，甚至是多个数据集，这些数据集通常是视频、图片、文本等非结构化数据，来源于多个行业、组织、项目，对这些数据的采集、存储、清洗、转换、特征提取等工作是一个系列复杂、漫长的工程。数据湖需要为人工智能程序提供数据快速收集、治理、分析的平台，同时提供极高的带宽、海量小文件存取、多协议互通、数据共享的能力，可以极大加速数据挖掘、深度学习等过程。

4.5 数据湖 vs 数据治理

传统方式下，数据治理工作往往是在数据仓库中。那么在构建企业级数据湖后，对数据治理的需求实际更强了。因为与”预建模”方式的数仓不同，湖中的数据更加分散、无序、不规格化等，需要通过治理工作达到数据”可用”状态，否则数据湖很可能会”腐化”成数据沼泽，浪费大量的IT资源。平台化的数据湖架构能否驱动企业业务发展，数据治理至关重要。这也是对数据湖建设的最大挑战之一。

4.6 数据湖 vs 数据安全

数据湖中存放有大量原始及加工过的数据，这些数据在不受监管的情况下被访问是非常危险的。这里是需要考虑必要的数据安全及隐私保护问题，这些是需要数据湖提供的能力。但换种角度来看，将数据集中在数据湖中，其实是有利于数据安全工作的。这要比数据分散在企业各处要好的多。

五、数据湖架构

5.1 数据接入

在数据接入方面，需提供适配的多源异构数据资源接入方式，为企业数据湖的数据抽取汇聚提供通道。提供如下能力：

数据源配置：支持多种数据源，包括但不限于数据库、文件、队列、协议报文等。
数据采集：支持对应数据源的采集动作，需完成结构解析、清洗、标准化格式等。
数据同步：支持数据同步到其他数据源，包括必要的清洗、加工、转换等。
数据分发：支持数据的共享分发，将数据以多种形式(对象、API等)发布出来。
任务调度：任务管理、监控、日志、策略等。
数据加工：支持对数据的加密、脱敏、规格化、标准化等加工逻辑。

5.2 数据存储

许多企业通常忽略数据积累的价值，数据需要从企业的各个方面持续的收集、存储，才有可能基于这些数据挖掘出价值信息，指导业务决策，驱动公司发展。因此数据湖需要提供的核心能力之一就是存储能力。通过一套数据存储池，可有效解决企业中的数据烟囱问题，提供统一的命名空间，多协议互通访问，实现数据资源的高效共享，减少数据移动。当然数据在湖中也不能无序存放，这里需要有个数据生命周期的概念。需要根据数据的不同阶段，根据其价值、成本因素，设计可行的存储方案。

5.3 数据计算

数据湖需要提供多种数据分析引擎，来满足数据计算需求。需要满足批量、实时、流式等特定计算场景。此外，向下还需要提供海量数据的访问能力，可满足高并发读取需求，提高实时分析效率。

5.4 数据应用

在基本的计算能力之上，数据湖需提供批量报表、即席查询、交互式分析、数据仓库、机器学习等上层应用，还需要提供自助式数据探索能力。

作者：韩锋

首发于公众号《韩锋频道》，欢迎关注。

来源：宜信技术学院

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/69918724/viewspace-2649516/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/69918724/viewspace-2649516/

你可能感兴趣的:(漫谈“数据湖”之价值与架构)

RocketMQ 高可用集群架构与一致性机制解析乘风破浪~~ rocketmq 架构
分布式场景中一致性问题：1.服务器不稳定：随时泵机的可能2.网络问题：导致请求丢失3.网速问题：难以保证请求顺序性，最终结果数据一致性需要操作顺序性保证4.快速响应：不能因为一致性，导致响应以集群中最慢的为准。常见的算法弱一致性算法：DNS系统，Gossip协议（RedisCluster）强一致性算法：Basic-Paxos、Multi-Paxos包括Raft系列(Nacos的JRaft，Kafk
普法资讯：冒名贷款导致名义贷款人征信不良，怎么办？静宁魏兴宁
兰州魏兴宁律师表示，如冒用他人名义在银行处贷款，导致名义贷款人征信不良，名义贷款人可向人民法院起诉，要求关联银行向中国人民银行申请更正中国人民银行征信系统中名义贷款人名下的不良征信记录。原告诉称：张某向法院提出诉讼请求：请求判令被告某银行立即逐级删除原告借款挂账未处理的信息，并恢复原状。事实与理由：原告因经济需要向银行申请贷款，谁料在被告处有未还借款18518元，导致原告无法申请他行贷款。原告于2
都不是我想说的躲在月亮上
今天的月亮很美这不是我想说的来自远方的呼唤与应答遥不可及的山崖堕入深渊的鬼和清澈见底的湖最后情欲的交织同他人一样破碎的不成模样。
Oracle19c 主备adg OPatch补丁升级
oracle19c主备adgOPatch补丁升级1，使用OPatch升级和打补丁2，查看当前OPatch版本3，OPatch包安装4，打补丁4.1，上传已经下载的补丁文件4.2，备库停止日志传输（主库不用执行）4.3，关闭备库和监听4.4，打补丁前检查当前补丁和冲突4.5，根据补丁文件中的readme.html，查看主备架构可以打哪些补丁。4.6，打两个补丁4.7，检查补丁最新版本5，启动主库打补
解决【WVP服务+ZLMediaKit媒体服务】加入海康摄像头后，能发现设备，播放/点播失败，提示推流超时！ l1o3v1e4ding 后端开发热点代码视频编解码音视频实时音视频 java linux
环境介绍每人搭建的环境不一样，情况不一样，但是原因都是下面几种：wvp配置不当网络端口未放开网络不通我搭建的环境：WVP服务：windows下，用idea运行的源码ZLM服务：虚拟机里问题描述1.国标设备里能发现海康的摄像头，心跳正常2.WVP服务与ZLM服务心跳正常3.播放失败，推流超时解决问题，我是第三种情况（详见下面的点播流程图的第5步）原因是ZLM服务在虚拟机里，虚拟机默认是NAT网络连接
解决引入TransXNet模块后显存爆炸问题的全面指南 pk_xz123456 算法大数据 python 机器人数据挖掘深度学习
解决引入TransXNet模块后显存爆炸问题的全面指南前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.问题背景与现状分析1.1MF-PSN和TransXNet项目概述MF-PSN（Multi-FeaturePyramidStereoNetwork）是一个基于金字塔特征的多特征立体匹配网络，它通过构建多层次的特征金字塔来处理不同尺度的立体匹配问题
探索名门望族背后的秘密期待遇见最好的自己
20200824读书笔记（十七）朱熹家族186节朱熹家族。一个人是如何成人，成才，成事的？想搞懂自己与他人。有一天，我发现搞懂自己与他人还是不够的，还要搞懂人生，当我去探索人生的时候，我是否进入了一个全新的世界，不是为了学习历史，而是需要探索东方智慧。不是为了探索东方智慧，而是为了寻找人生答案。朱熹是一个从天理之人，从小想搞懂天下万物。把道和理都要研究透。因此成为了我要重点研究的对象之一。带着朱熹
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Spring04：Spring MVC dfraetaem Spring spring mvc java 后端
一、SpringMVC核心解析SpringMVC是基于Java实现MVC模型的轻量级Web框架，其核心优势在于简化Web开发、灵活性强和与Spring生态无缝集成。通过分层设计，它将应用分为：Controller层：处理请求和响应Service层：业务逻辑处理Dao层：数据持久化操作分层架构示例（SpringBoot+MyBatis）1.Dao层（数据访问层）//UserDao.java（接口）@
75、Java并发集合与GUI多线程编程详解 fire9 Java编程艺术：从入门到精通 Java 并发集合 GUI多线程编程
Java并发集合与GUI多线程编程详解1.并发集合概述在多线程编程中，对共享集合的操作需要特别处理，以避免数据不一致等问题。java.util.concurrent包中的并发集合就是为此而设计和优化的。1.1并发集合的优势与通过JavaCollectionsAPI获取的同步集合不同，java.util.concurrent包中的集合专门针对多线程共享集合的场景进行了优化，能更好地支持多线程环境下的
美国VPS服务器Linux内核参数调优的实践与验证 cpsvps 服务器 linux 运维
美国vps服务器Linux内核参数调优的实践与验证在云计算和虚拟化技术日益普及的今天，美国VPS服务器因其稳定的网络环境和优越的性价比，成为众多企业和开发者的首选。Linux内核参数的默认配置往往无法充分发挥VPS的性能潜力。本文将深入探讨美国VPS服务器上Linux内核参数的调优实践，通过系统化的测试验证方法，帮助用户实现服务器性能的显著提升。美国VPS服务器Linux内核参数调优的实践与验证一
数字住建：深入解析城市智慧治理的“中国方案” 数字孪生家族建筑业数字化转型数字住建智慧城市建设治理视频孪生技术数字孪生技术
在这个数字化浪潮席卷全球的时代，城市治理正在经历一场深刻的变革。数字技术与城市治理的深度融合，不仅改变了城市管理的方式，更重塑了城市发展的格局。在这场变革中，"数字住建"作为城市智慧治理的重要抓手，正在成为推动城市管理现代化、智能化、精细化的核心引擎。一、数字住建：城市治理的新范式数字住建的提出，源于城市治理面临的现实困境。随着城市化进程的加快，城市管理的复杂性日益增加。传统的管理模式面临着效率低
智慧水厂怎么建？物联网数据采集+SCADA升级，水务工业智能转型
在智慧工业与“双碳”目标的双重驱动下，智慧水厂已成为水务行业数字化转型的必选项。通过物联网（IoT）技术实现水厂数据采集的实时化、自动化，不仅能提升供水效率与水质安全，还能降低能耗与运维成本。一、智慧水厂的核心痛点：数据孤岛与效率瓶颈传统水厂依赖人工巡检和分散式监控系统，普遍存在以下问题：1.数据滞后：人工抄表与离线分析导致决策延迟；2.设备盲区：水泵、阀门等关键设备状态无法实时感知；3.能耗浪费
【操作系统-Day 7】程序的“分身”：一文彻底搞懂什么是进程 (Process)？吴师兄大模型操作系统操作系统计算机组成原理进程（Process）python 深度学习大模型人工智能
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
网上最火的配音台词可爱，网上最火的配音台词超燃配音就业圈
一、网上最火的配音台词可爱，网上最火的配音台词超燃在网络上，有很多可爱和燃点的配音台词广受欢迎。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。这些配音台词常常以幽默、俏皮的方式表达出人们的情感和观点，引起了广大网友的共鸣。这些台
《洞见》读后感杨慧裕
《洞见》把认知升级的过程总结为“认知闭环”：选择学习认知——践行验证认知——调整迭代认知：第一步，选择已被验证的认知，学习之。这就是一个学习知识的过程，关键要分清的是，哪些是值得学习的认知。将这个点应用在习惯养成上面，在养成习惯之前，一定要选择适合自己的方法，不要盲目跟风，就像别人四点起床阅读，呢没分清自己的学习体制，就跟风四点起来阅读，最后早起毁一天，书也没读好，人还迷迷糊糊一天什么也做不好。第
Ubuntu 系统安装 Docker 全流程指南 ANFUT ubuntu docker linux
一、环境准备1.系统要求-Ubuntu22.04LTS或24.04LTS（兼容性最佳）-内核版本≥5.15（验证命令：`uname-r`）-64位架构（验证命令：`arch`输出应为`x86_64`）2.卸载旧版本sudoaptremovedockerdocker-enginedocker.iocontainerdruncsudorm-rf/var/lib/docker二、核心安装步骤3.配置仓库
从 Spring Boot 2.x 到 Spring Boot 3.x：全面对比与快速上手指南超级小忍 SpringBoot spring boot 后端 java
一、前言SpringBoot自诞生以来，凭借其“约定优于配置”的理念、开箱即用的设计和强大的生态支持，迅速成为Java开发领域的主流框架。随着Java语言的持续演进和开发者需求的提升，SpringBoot也在不断升级。SpringBoot3.x是一次重大版本升级，不仅带来了对现代Java特性的全面支持，还对底层架构、依赖管理和性能进行了深度优化。本文将从以下几个方面，详细对比SpringBoot2
Java 中 Consumer 与 Provider 的用法详解
前言在Java编程中，Consumer和Provider是两个非常重要的函数式接口，它们在函数式编程和依赖注入等场景中被广泛使用。本文将详细讲解这两个接口的定义、使用场景以及实际示例，帮助你更好地理解和应用它们。一、Consumer接口1.1Consumer接口的定义Consumer是Java8引入的一个函数式接口，位于java.util.function包中。它表示一个接受单个输入参数并且无返回
Spring AI + MCP Client 配置与使用详解超级小忍 SpringAI spring 人工智能 java
前言随着大模型技术的快速发展，ModelCoordinationProtocol(MCP)逐渐成为连接本地系统和远程AI服务的重要桥梁。SpringAI是Spring官方推出的AI开发框架，支持多种语言模型接口，而MCPClient则是其集成远程推理能力的核心组件之一。本文将详细介绍如何在SpringBoot项目中配置和使用SpringAI的MCPClient，包括环境准备、依赖引入、配置方式、代
WEB：DOM （一）基础概念 —— 节点与选择重生之我是Java开发战士 WEB 前端
文章目录一、DOM核心概念解析1.1什么是DOM？1.2DOM与HTML的关系二、DOM节点（Node）详解2.1节点类型2.2节点的基本属性2.3元素节点特有的属性和方法三、DOM选择与访问3.1传统选择方法3.1.1getElementById()3.1.2getElementsByTagName()3.1.3getElementsByClassName()3.2现代选择方法（CSS选择器）3
WEB：DOM （二）核心操作 —— 内容
文章目录一、innerHTML二、innerText与textContent2.1innerText2.2textContent2.3对比与选择三、表单元素的值操作获取和修改元素的内容是DOM操作中最常见的需求，JavaScript提供了多种方式来操作元素的内容。一、innerHTMLinnerHTML属性用于获取或设置元素的HTML内容，设置时会解析HTML标签。原始内容constcontent
Java高并发编程核心：并发集合与原子类详解 msbQQ java 开发语言后端并发编程
在当今高并发、高吞吐的分布式系统中，Java并发编程已成为开发者必备的核心能力。当线程如潮水般涌来，如何确保数据安全？如何避免死锁陷阱？如何实现无阻塞的高效运算？答案就隐藏在并发集合与原子类这两大基石之中。1.并发集合：线程安全的容器1.1ConcurrentHashMap我在最开始学习这个容器的时候当时会记住它的特点是：线程安全，允许多个线程进行读和写。null值和键：ConcurrentHas
真的是内心深处的愿望没被满足么？艾米丽a
昨晚做了一个很长的梦。梦里有纠结，有哭泣，有挣扎，有寻找，有争吵，也有哭闹，也有后悔不已。非常的真实，让我整个人沉迷其中，不愿醒来。都说日有所思，夜有所梦。真的非常有道理！我梦里发生的事――离开公职，重新开始。已经被我埋在心底好久了。本以为过去了，不会再想起，没想到过了这么久，它竟在梦中出现。现在的我有一份堪称铁饭碗的工作。它的好处在乎稳定，提供了基本的生存保障。做些这份工作，铁定不会饿死。不足之
Java 中的并发集合（Concurrent Collections）详解与使用指南超级小忍 Java java 开发语言
前言在多线程编程中，共享数据结构的线程安全是一个关键问题。传统的集合类（如HashMap、ArrayList）并不是线程安全的，如果在并发环境下直接使用，可能会导致数据不一致、死锁等问题。为了解决这个问题，Java提供了一套线程安全的并发集合类，它们都位于java.util.concurrent包中。本文将详细介绍Java中常见的并发集合类，包括它们的实现原理、使用场景以及性能对比，帮助你更好地选
叶黄素（Lutein）、玉米黄质（Zeaxanthin）、虾青素（Astaxanthin）与维生素 A 在护眼上的差异净逮着一个嘬健康医疗笔记
叶黄素（Lutein）、玉米黄质（Zeaxanthin）、虾青素（Astaxanthin）与维生素A在护眼上的差异维度叶黄素&玉米黄质（常并称“叶黄素”）虾青素维生素A（视黄醇/视黄酸等）归属类胡萝卜素中的“非前体型”氧化胡萝卜素（叶黄素类）类胡萝卜素中的酮型类胡萝卜素类胡萝卜素中的“维生素型”——可转化成视黄醛/视紫红质体内主要分布●黄斑中心凹（叶黄素:外周>中心；玉米黄质:中心>外周）●晶状体
STM32微控制器的按键短按与长按检测 AI_Guru人工智能 stm32 单片机嵌入式硬件
在嵌入式系统开发中，按键是最常见的输入设备之一。STM32微控制器广泛用于各种项目，包括需要按键输入的场合。本文将介绍如何在STM32微控制器上实现按键的短按和长按检测。引言按键检测是嵌入式系统中的基础功能，它允许用户通过物理按键与设备进行交互。STM32微控制器提供了丰富的GPIO（通用输入输出）引脚，可以方便地连接按键并进行检测。短按和长按是两种常见的按键操作模式，短按通常用于触发一个事件或命
关于韭菜的交易费我才是Alpha呀
作为一家交易所，他们的大部分盈利应该是来自于手续费（交易佣金），如果说他们放弃了这一块，又加上他的团队是非常厉害的团队，那么他们起码应该是一个看好未来并且愿意和用户一起成长的团队。而不是把用户当“韭菜”。对于交易费李笑来在《韭菜的自我修养》中写到：“韭菜”的幻觉在于，他们用行动表明他们的坚信和坚持，他们认为自己的智商与体力，完全可以打败手续费……殊不知，“抽水”是人类史上唯一可以永续的商业模式，真
云服务器哪家便宜，阿里云服务器与腾讯云服务器价格对比阿里云最新优惠和活动汇总
云服务器哪家便宜？对于想要购买云服务器的用户来说，大多都会优先选择阿里云或腾讯云的服务器，因为这两家都是目前国内名气最大的云服务商，自然也成为了用户购买云服务器的首选，因此，用户也总是喜欢拿阿里云服务器和腾讯云服务器的价格来做对比，今天给大家做个常用服务器配置的对比，看看云服务器哪家便宜。阿里云腾讯云.png一、代金券优惠力度对比首先我们看下阿里云和腾讯云各自的代金券优惠力度，因为不管购买哪家云服
单片机IO中断方式的短按与长按功能 weixin_50707044 单片机嵌入式硬件
#include//定义按键连接的引脚sbitKEY=P1^0;//定义短按和长按的时间阈值（单位：毫秒）#defineSHORT_PRESS_TIME200#defineLONG_PRESS_TIME1000//定义标志位bitpress_flag=0;bitlong_press_flag=0;unsignedintpress_time=0;//中断服务程序，用于处理按键按下的事件voidext
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他