傅一平

数据湖，大数据的下一个变革！

作者 | Tina

采访嘉宾 | 堵俊平

AI 前线导读：让数据产生价值才叫成功。早期有不少的公司引入了 Hadoop，将企业的各种结构化非结构化数据加载至 Hadoop 环境当中，想让自己的数据发挥更大的价值，但这并不容易。2016 年，Gartner 公司估计有 60% 的大数据项目遭遇失败。一年之后，他们表示 60% 的估计太过保守，这个数字应该是 85%。

大数据存储已经走到了一个新的阶段，肯定会有新的革命性技术来替换它。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

大数据的未来

前十多年，大数据的发展主要集中在技术框架上，社区出现了一系列优秀的作品，如最开始引领大数据风潮的 Hadoop，到计算引擎 Spark、Flink ，消息中间件 Kafka ，以及资源调度器 Kubernetes 等等，大数据领域的技术框架已经比较成熟。

通过开源架构策略，现代化数字企业逐渐意识到自己的目标是通过业务实现数据的价值化，未来将会把更多的精力投向研究底层数据消费和上层的产品应用。

2019 年 6 月，谷歌以 26 亿美元收购了数据分析公司 Looker。同月，Salesforce 宣布以 157 亿美元收购 BI 企业 Tableau 。2019 年 9 月，Cloudera 宣布收购商业智能实时分析厂商 Arcadia Data。这些收购案例都说明企业的目标开始转向解读所积累的海量数据。

赋能业务，快速应对挑战，正是数据湖所能提供的。数据湖的概念，最早是在 2011 年由 Dan Woods 提出，”是一个集中化存储海量的、多个来源，多种类型数据，并可以对数据进行快速加工，分析的平台，本质上是一套先进的企业数据架构“。例如在社交广告中的用户画像，需要行为日志等非结构化数据，经过层层数据加工形成业务价值。以后也会延伸到图像、语音等类型。这些就是数据湖能提供的特别优势。

Apache Ozone 项目是由大数据公司 Hortonworks 贡献出来的，最初是为了解决 Hadoop 系统中的对象存储问题。面对 Hadoop 向云上发展的方向，腾讯选择了在一年多前正式加入 Ozone，组了一支队伍，利用腾讯的业务场景和数据规模，进行协同开发，扩展成数据湖存储，并推进技术落地。InfoQ 采访了腾讯大数据海量存储与数据湖研发负责人 堵俊平，了解数据湖的发展和面临的挑战，本文基于这次采访。堵俊平曾在 Hortonworks 供职 4 年，负责 YARN 团队，目前在腾讯负责腾讯大数据的海量存储、海量计算以及数据湖等研发方向，有 10 多年的云计算与大数据产品研发经验。今年 10 月，他将在 QCon 全球软件开发大会（上海站）2019 作题为《OZone - 下一代数据湖存储》的演讲。

数据湖是数据仓库的进阶

关于数据湖的定义确实是一个业界有较多争议的地方。狭义的数据湖指的是数据湖存储，即可以存放海量数据（各种格式）的地方，包括 Hadoop 的文件系统 HDFS 或者云上的对象存储系统 S3 都属于这个范畴。广义的数据湖除了数据湖存储，还包括数据湖的管理和分析，即提供一整套工具，提供数据目录（Data Catalog）服务以及统一的数据访问。

业界很重要的趋势，是从传统的数据仓库向数据湖的方向在演进。

传统的数仓体系

最早出现的是数据库一体机，是由单独的硬件软件所构成，这种数仓的问题也很明显，它需要一个专有的硬件设计，你只要用的不是通用的硬件，一般成本都会比较高。第二，它的扩展性非常差，在往前推十年、二十年是可以的，但是在这样的大数据时代，大家都不想随意地抛弃掉自己的数据和数据资产，所以一体机模式的数仓肯定要被这个时代淘汰掉。

分布式的数仓阶段

这个阶段也分两块，一块是从分库分表，从逻辑上把这个数据分成不同的模块，放在不同的数据库上面；另外一个方式，整个过程是通过 MPP 这个架构，通过一些独立的数据库组建出来 MPP 数据库，总体来说 MPP 数据库还是非常强大的。但是 MPP 有一个限制，它不能支持海量的数据，因为更多添加节点，尤其是当它的扩展规模超过 100 个节点以上的时候，会发现大的任务几乎无法执行，因为最慢的节点会拖累整个任务的执行。

云原生的数仓阶段

这些 adhoc 分析的任务在业务不断变化的情况下，包括经历波峰、波谷，对计算资源有不同的需求，这个时候云原生数仓就会越来越流行，因为它是一个多集群的，弹性可伸缩的，并且支持海量的高并发。这里说回传统的 MPP 数仓，还有个问题，就是 SQL 并发能力跟单机数据库是一样的，因为并发的所有 SQL 都要在每一台机器上去执行，无法突破单机数据库的并发限制。

无论是传统数仓还是新型数仓，无论是类似 Teradata，还是 MPP 架构，或者是 Oracle 单机加强版架构，都是从数据库发展而来的。使用的场景也主要是用格式化的数据。但数据湖并不要求很强的数据格式，非结构化、半结构化数据都行，也不要求数据入库之前需要像数仓那样建立严格的一套 ER 模型，或者其他的范式模型。

数据可以很轻松进入数据湖，用户也可以延迟数据的采集、数据清洗、规范化的处理，可以把这些延迟到业务需求来了之后再进行处理。这跟早期的数仓思维就很不一样，它相对于企业来说，灵活性比较强。传统的数仓，因为模型范式的要求，业务不能随便的变迁，变迁涉及到底层数据的各种变化。传统数仓没法支持业务变化。对于数据湖来说，尤其像互联网行业中新的应用，不断的发生变化，它的数据模型也不断的变化。相对来说，数据湖就更加的灵活，能更快速的适应上层数据应用的变化。

数据湖的三个层次，分为数据库等底层存储、元数据管理、跨不同数据源的 SQL 引擎。数据湖也是数据仓库发展的高级阶段，对于数仓来说，数据湖有很多扩展能力。数仓解决的核心问题，数据湖也解决了一遍，而且涉及面更广。比如说，数据库的数据有对齐的要求，数据库是面向应用的，每个应用可能需要一个数据库。如果一个公司有几十个应用，就会有几十个数据库。几十个数据库之间怎么去连接分析、统一分析？是没有办法的。随后就由数据库发展成了一个数据仓库，数据仓库不面向任何应用。但是，它对接到数据库，如果需要每天定时有些 ETL 的批处理的任务，将不同应用和数据汇总起来，按照一些范式模型去做连接分析，得到一定时间段的总体数据视图。这个前提是很多数据库要给数仓供应数据。这些供应数据是数据库是表格化、规范化的方式。

但现在互联网企业的应用，大部分数据不再来源于数据库了，它可能来源于日志，比如用户的行为日志，或机器的日志，可能来源于各种各样的非格式化的数据。这时就必须要用数据湖这种方式。可以跨越之前数仓建模种种的约束，针对业务需求去做联合分析和查询。对上层数据应用所提供的接口更像是一个统一的界面，屏蔽了底层异构数据源的差异，这也是大数据发展未来的重要趋势。

面向未来，数据湖做出的变革

存储计算分离

二十年前，Google 用普通硬盘代替了昂贵的专有硬件设备方案，但当时的网络带宽只有 100M。为了快读访问，同时也创造出了计算和存储耦合的架构。Hadoop 延续了计算存储一体化的方式。

存储计算一体化架构的性能是经过了优化的：通过任务调度的方式，将计算调度到离数据更近的地方，访问更快也省资源。而云端的场景，采用的是计算和存储分离的方式，第一性能可能不是最重要的点，第二大家更考虑”弹性伸缩“，业务需要大的波峰时候，需要很多的资源，业务相对在低谷的时候，希望资源可以是收缩的。

Ozone 这样的下一代数据湖兼顾 Hadoop 的计算存储一体化和云的弹性伸缩的优势，一方面实现了逻辑上的计算存储分离，同时在任务调度时，又能做到数据和机架感知功能（data、rack awareness），能让计算更贴近存储。

这也是对传统云存储数据访问方式的一个变革。

如上图所示传统云访问方式，存储计算是分离的，各种计算节点统一的通过接口，也即 RESTful 方式访问数据。之后，计算框架在基于 Ozone 计算存储分离的条件下，可以把计算任务发送到临近存储的节点之上，通过调度计算而不是拖数据的方式达到高性能。

高性能高可靠的海量存储

Hadoop 的三副本保证了数据的可靠性，传统的大数据的 HDFS 写的方式是依次写多个副本。在写性能优化上，Ozone 采用 Raft 分布式通讯协议，同时写几个副本。这种局部创新，让 Ozone 得到了很好的性能上的提升。

对于 Hadoop 存储面向云的演化，还要看 HDFS 如何跟云上的对象存储配合。在 HDFS 上，所有的元数据（命名空间、块管理等）都会放在单个的 NameNode 节点上，如果考虑到同时并行的文件操作以及数据块上报、RPC 的响应等因素，这个时候就会遭遇扩展瓶颈。如果集群存储的是海量小文件，元数据体量会剧烈暴增，这个瓶颈期会更快到来。所以这种架构不适合海量的高性能大数据处理。Ozone 将元数据进行了分散处理，规避了以前的问题。并且云上的对象存储方式，从硬件上和通用 API 访问的方式上，性价比比较高。Ozone 除了提供文件接口，为了跟云去做对接，还提供了对象存储，这样就可以在云上部署类似的系统，对数据访问进行无缝的集成，而且相比传统的云端对象存储还可以做高性能的拓扑感知。

这相当于在传统的对象存储和 HDFS 海量分布式文件存储中做了取长补短，也是一个重要的变革。

面向机器学习

现在面对机器学习和离线计算，跟大数据场景下处理的数据方式不一样，现在需要去处理的可能是一张张图片，或云语料文字，这种数据的颗粒度更小，不像传统的大数据应用那么集中。这种海量小文件，不是传统的 HDFS 所擅长的，正好在 Ozone 里得到了解决，可以支撑小文件或对象存储方式，对机器学习的发展也有促进作用。

现在深度学习和超大规模的神经网络潮流来了之后，更离不开大量的数据。AI 和大数据在技术层面上，两个社区也开始相互对接融合，不断出现在大数据平台做深度学习的 AI 框架，这样的平台能在底层有调度的能力，能同时调度好 AI 模型训练、推理以及做数据预处理的任务。

针对云和机器学习场景，Ozone 项目具有很多特点，包括：无限的扩展能力，强一致性的对象存储能力，与主流计算调度框架 YARN 和 Kubernetes 无缝对接，以及同时兼容对象存储与 HDFS API 等。这些技术特性也决定了 OZone 的现在的发展方向。

堵俊平总结说：“大数据存储已经走到了一个新的阶段，肯定会有新的革命性技术来替换它。”

未来挑战

数据湖的使用场景，是为了将各种数据汇集到一起，但现在的数据引擎太千差万别了，SQL 引擎是一套，NoSQL 包括 Cassandra、HBase 又是另一套东西，还有类似 Elasticsearch 和图计算等等。很多引擎都自带存储，将这些数据从不同的引擎里去拉通，堵俊平觉得是很有价值的。但是目前还没有哪家公司有工具能完全做到，大部分是选择少数几个数据引擎去统一。堵俊平表示”腾讯内部有研发项目，来做类似的事情。希望能够把各种各样的数据引擎和元数据都能够做一个聚合和统一，这样才能真正达到理想中的数据湖管理和统一数据分析的愿景“。

扫描二维码关注“与数据同行”

“与数据同行”开通了微信和QQ群，现已汇聚了3000位小伙伴了，扫描以下二维码加入。

近期文章列表

五级数据挖掘工程师，你处在哪一级？

不做中台会死吗？

BI（商业智能）的未来？

数据分析的道与术

OPPO数据中台之基石：基于Flink SQL构建实数据仓库

超越BI，数据产品的前途在哪里？

数据中台已成下一风口，它会颠覆数据工程师的工作吗？

数据产品经理，并不是数据 + 产品经理

数据中台不是技术平台，没有标准架构！

如何有效推进百万标签库的治理？

运营商大数据对外价值变现的十大趋势

如何深入浅出的理解数据仓库建模？

艰难的旅程：我们如何用“十步法”完成了一次企业级数据治理的落地？

五年数字大屏之路，“述说”着我们大数据变现怎样的故事？（附演示视频）

人工智能现在的技术“好玩”到了什么程度？

超越平台，数据中台的业务化、服务化及开放化！

建模核心能力自我掌控后，到底给我们带来了什么变化？

联邦学习，带我们走出“数据孤岛”的困境？

拥有敏捷数据交付平台（DataMaster）是怎样一种体验？

一次客户细分的实践

风声鹤唳的大数据圈，又有多少理解了数据安全的底线？

要看更多，请点击左下角阅读原文即可阅读整理好的所有文章！

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

数据湖，大数据的下一个变革！

你可能感兴趣的:(数据湖，大数据的下一个变革！)