傅一平

深入浅出亚马逊AWS数据湖

【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群，加微信号frank61822701 为好友后入群。新开招聘交流群，请关注【与数据同行】公众号，后台回复“招聘”后获得入群方法。

正文开始

一、认识数据湖

1、初识数据湖

Data lake，我第一次接触这个概念，是在2014年IBM组织的数据治理交流论坛上。当时只是认为“数据湖”就是一个概念，没什么新意，“不就是把不同结构的数据实现统一存储，Hadoop不就是干这个活的吗？本质上还是换汤不换药、新瓶装老酒，又一个新概念”！

2、数据湖的定义

后来发现，主流的大数据和云计算公司都在推这个叫“数据湖”的技术。于是，我特意上网百度了一下，“数据湖”的概念原来早在2011年被首次提出，维基百科对它给出了如下的定义：

数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统，它按原样存储数据，而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。

亚马逊AWS对数据湖做了进一步解释：“数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。”

这时，我对“数据湖”有了更深一步的认知：数据湖技术是不断发展的，它可以以更方便、更廉价的方式解决不同类型数据结构的统一存储问题，同时还能够为机器学习提供全局数据。我们可以将“数据湖”理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘、数据可视化等技术，促进数据价值变现的完整解决方案。

3、数据湖与数据仓库的区别

谈到“数据湖”人们总是喜欢用数据仓库与其进行比较（可能是从概念和用途上来讲他们确实有些相似），以下是AWS给出的数据仓库和数据湖的对比：

通过上表，我们不难发现“数据湖”有着数据仓库无法比拟的优势：

首先，在数据处理和存储能力方面，数据湖可以处理结构化、半结构化、非结构化的所有数据结构的数据，而数据仓库只能处理结构化数据。

数据仓库在处理数据之前要先进行数据梳理、定义数据结构、进行数据清洗才进行入库操作，而数据湖是不管“三七二十一”连上数据源就能将原始数据“一锅端过来”，这就为后续数据湖的机器学习、数据挖掘带来了无限可能！

其次，在数据质量和安全方面，数据仓库作用范围有限，它只能用于收集、处理和分析特定业务问题所必需的数据，而数据湖却能对任何数据，甚至无法监管的原始数据实施数据治理，以提升数据质量和安全性。

最后，在灵活性上数据湖具备天然优势。传统的数仓，因为模型范式的要求，业务不能随便的变迁，这涉及到底层数据的各种变化，这导致了传统数仓无法支持业务的变化。对于数据湖来说，即使像互联网行业不断有新的应用，业务不断发生变化，数据模型也不断的变化，但数据依然可以非常容易的进入数据湖，对于数据的采集、清洗、规范化的处理，完全可以延迟到业务需求的时候再来处理。这跟早期的数仓思维就很不一样，数据湖相对于企业来说，灵活性比较强，能更快速的适应前端应用的变化。

二、AWS数据湖架构

亚马逊AWS算是“数据湖”技术的鼻祖了，早在2006年3月，亚马逊就推出了全球首款公有云服务Amazon S3，其强大的数据存储能力，奠定了AWS数据湖领导地位的基础。

上图是AWS数据湖的一个典型架构，我们看到数据湖并不是一个产品、也不是一项技术，而是由多个大数据组件、云服务组成的一个解决方案。

当然，最核心的组件是Amazon S3，它可以存储二进位为基础的任何信息，包含结构化和非结构化的数据，例如：企业信息系统ERP、CRM等系统中的关系型数据，从手机、摄像机来的照片、音视频文件，从汽车上、风力发电机等各种设备来的数据文件等等。

数据源连接，AWS 提供了一个叫AWS Glue产品，Glue是胶水的意思，支持不同的数据库服务之间的连接。Glue主要有两个功能，一个是ETL，即，数据的抽取、转换和加载。另一个功能，是数据目录服务的功能，因为把这些数据都存在数据湖里面，在这个过程中，要对这些数据打上标签，把它做分类的工作。Glue就像爬虫一样对数据湖里的海量数据，进行自动爬取，生成数据目录的功能。

大数据处理，AWS数据湖可以分为三个阶段对数据进行处理。第一阶段批处理：通过把各种类型的原始数据加载到Amazon S3上，然后通过AWS Glue对数据湖中的数据进行数据处理，也可以使用Amazon EMR进行数据的高级处理分析。第二阶段流处理和分析，这个任务是基于Amazon EMR、Amazon Kinesis来完成的。第三阶为机器学习，数据通过 Amazon Machine Learning、Amazon Lex、Amazon Rekognition进行深度加工，形成可利用的数据服务。

数据服务：AWS数据湖可为不同角色的用户提供不同的数据服务，数据科学家可以基于数据湖进行数据探索和数据挖掘，数据分析师可以基于数据进行数据建模、数据分析等；业务人员可以查询、浏览数据分析师的分析结果，也基于数据目录自助式进行数据分析。基于数据湖可以开发各类SaaS应用，同时数据湖提供数据开放能力，支持将数据以API接口的形式开放出去以供外部应用调用。

安全与运维：由于AWS数据湖运行在云端，数据安全人们关注的重点。亚马逊的Amazon VPC为云端数据湖提供了管理和监控功能， VPC 支持指定 IP 地址范围、添加子网、关联安全组以及配置路由表，AWS IAM、AWS KMS为数据湖的安全保驾护航，为构建出一个安全的云数据湖提供支撑。

三、如何构建数据湖

数据湖从技术层面也是一个大数据平台，传统上搭建一个集数据存储、数据处理、机器学习、数据分析等应用为一体的大数据平台需要十几个甚至几十个大数据组件，同时还需要为相关组件构建集群，以满足大批量数据处理、计算和存储的需要。这个过程往往是非常复杂的，可能需要数月才能完成。

2018年，AWS 推出了LakeFormation，据说是可以帮助企业在几天内就能构建出安全的数据湖。期待很快在国内推出，我都想去测试一把了！

好了，下面我们谈一谈基于AWS数据服务组件，到底该如何构建出一个“数据湖”？AWS官网中给出“数据湖”从创建到应用的五个步骤，如下图所示：

笔者将这五个步骤归纳为“建湖、聚数、治数、用数”八个字：建湖即初始化存储，聚数即迁移数据，治数即数据清洗、数据准备、元数据管理、数据安全和合规性管理，用数即数据分析、数据服务。

1、建湖--闲庭信步筑数湖

首先，基于AWS Identity、IAM服务创建数据湖运行工作流的所需的管理员和权限策略所需的角色，即：为数据湖创建管理员和指定用户组。

然后，注册数据湖，指定数据湖存储中心Amazon S3的路径，并设置“数据湖”权限，以允许其他人管理“数据目录”和数据湖中的数据。

最后，设置Amazon Athena以便查询导入到Amazon S3数据湖中的数据。

至此，一个简单的数据湖就构建完成了。当然不同的应用场景下我们还需要设置不同服务，对于希望把存放在数据湖和Redshift数据仓库中的数据做交叉融合分析的用户，可以通过设置Amazon Redshift Spectrum，使得Redshift可以查询存储在Amazon S3中的数据，从而实现数据仓库与数据湖的数据融合分析。

2、聚数--百条大川终归海

随着大数据时代的到来，企业数据量的明显激增，各种各样的数据铺天盖地而来。有来自企业内部信息系统的数据，例如：ERP系统、CRM系统等，经过多年的沉淀，企业积累的大量的历史数据，是企业数据分析的主要来源。有来自于各种IoT设备产生的实时数据，而且这些数据常以混合数据格式生成的，包括结构化数据、半结构化数据和非结构化数据。有来自企业的互联网数据，包括互联网业务产生的数据，以及通过网页爬虫采集的其他网站的数据……，这些新的大规模的海量的数据，不仅量大、种类繁多，而且来的又非常猛，犹如“洪水猛兽”。

AWS为实现不同数据类型数据的数据采集、处理提供了多种工具，例如：AWS Glue、Database Migration、Kinesis、Internet of Things等，支持将各种类型的数据轻松迁移至Amazon S3中进行统一管理。这个过程，就正好像就像“数据湖”字面含义，我们就找一大片湿地（S3），然后这些像洪水一样来自“四面八方”的数据先蓄在这个湖里面，形成数据“百川归海”之势，然后在利用一些工具来对它进行治理、查询和分析。

3、治数--疏川导滞按需流

数据湖有着卓越的数据存储能力，支持大量的、多种类型的大数据统一存储。然而，企业的业务是实时在变化的，这代表着沉积在数据湖中的数据定义、数据格式实时都在发生着转变，如果不加以治理，企业的“数据湖”就有可能变成“垃圾”堆积的“数据沼泽”，而无法支撑企业的数据分析和使用。

“流水不腐，户枢不蠹”，我们只有让“数据湖”中的“水”流动起来，才可以让“数据湖”不变成“数据沼泽”。AWS Glue提供ETL和数据目录能力，让数据从数据源迁移过来的时候就能做一定的数据转换，并形成清晰的数据目录。Amazon EMR、Amazon Glue支持对数据湖中的数据分区域、分阶段的进行清洗和处理，进一步净化湖中的“水源”。之后，数据通过 Amazon Machine Learning、Amazon Lex、Amazon Rekognition进行深度加工，形成可利用的数据服务，这样循环往复，持续提升数据湖中的“水质”。

同时，Amazon S3、DynamoDB、Redshift具备很好的数据安全机制，数据的传输和存储都是加密的，加密密钥只有客户自己掌握，防止数据泄露带来的风险。另外，还有Amazon VPC安全策略、AWS IAM、AWS KMS等安全组件为AWS数据湖保驾护航，为企业数据的存储、处理、使用提供一个安全、合规的数据环境。

总之，通过在数据湖的设计、加载和维护过程中加入强大的数据处理、元数据管理、数据质量检核和数据安全的相关组件，并由所有这些领域的经验丰富的专业人员积极参与，可显著提高数据湖的价值。否则，你的数据湖可能会变成数据沼泽。

4、用数--水到渠成价值增

数据湖的出现，最初就是为了补充数据仓库的缺陷和不足，为了解决数据仓库漫长的开发周期，高昂的开发成本，细节数据丢失、信息孤岛无法彻底解决、出现问题无法真正溯源等问题。但是随着大数据技术的发展，数据湖不断演变，汇集了各种技术，包括数据仓库、实时和高速数据流技术、机器学习、分布式存储和其他技术。数据湖逐渐发展成为一个可以存储所有结构化、非结构化数据，对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台，为企业提供数据“采集、存储、治理、分析、挖掘、服务”的完整解决方案，从而实现“水到渠成”的数据价值洞察。

AWS 提供了在数据湖上运行的最广泛、最具成本效益的分析服务集合，每项分析服务都专门为广泛的分析用例而构建：

利用AmazonAthena，使用标准 SQL 直接查询存储在S3中的数据，实现交互式分析；
利用AmazonEMR满足对使用Spark和Hadoop框架的大数据处理，Amazon EMR 提供了一种托管服务，可以轻松、快速且经济高效地处理海量数据；
利用AmazonRedshift 可快速构建PB级结构化数据运行、复杂分析查询功能的数据仓库；
利用AmazonKinesis，轻松收集、处理和分析实时的流数据，如 IoT 遥测数据、应用程序日志和网站点击流；
利用AmazonQuickSight轻松构建可从任何浏览器或移动设备访问的精致可视化效果和内容丰富的控制面板；
同时，AWS 提供了一系列广泛的机器学习服务和工具，支持在AWS数据湖上运行机器学习算法，深度挖掘数据价值。

这些工具和服务，能够为不同角色的用户，例如数据科学家、数据分析师、业务人员、数据管理员等提供强大的功能支持，从而帮助企业实现以“数据为驱动”的数字化转型。

四、总结

传统信息系统是由流程驱动的，企业的所有业务都是围绕着流程而进行的，这个阶段数据并没有引起人们的重视。到了数据仓库阶段，企业对数据的应用也仅是处于辅助层面，企业的管理决策、业务创新主要还是靠人的经验，数据只是一个参考。但随着数字化时代的来临，大数据技术不断的深入应用，人们发现大数据的问题发现能力、预测能力要远远超过人们的经验。越来越多的企业选择基于数据进行企业的经营决策，基于数据提升组织绩效，基于数据做产品的创新。企业正在从“流程驱动”的信息化时代，走向“数据驱动”的数字化时代。

“数据湖”是应时代而生的一个产物，它的价值不仅在于可以将海量的、不同类型的数据进行统一存储，并提供数据目录和查询服务。数字化的时代，数据更加大量、更加实时、更加面向未来，机器学习、人工智能成为一个企业数字化转型的关键性因素。数据湖支持海量的、实时的数据处理和分析，甚至这种数据处理与分析都不需要预定义数据模型，增强了数据的洞察能力，它使得这些海量数据的价值就更加比以前有所提高，帮助人们在局部的数据里面找到更多的规律。可以说“数据湖”简直是为“机器学习”而生。

有效的利用“数据湖”，充分的挖掘数据潜在价值，能帮助企业更好的细分市场，以助于企业能有针对性的为企业发展提供决策支撑，更好的掌握市场动向，更好的对市场反应产生新的洞见，更好的设计规划或改进产品，更好的为客户提供服务。从而，提升企业的竞争力，甚至创新企业的商业模式！

我被“非结构化数据包围了”，请求支援！

收藏！一张图帮你快速建立大数据知识体系

数据仓库、数据湖、流批一体，终于有大神讲清楚了！

如何打造一个顶尖的精确营销系统？

干货 | 携程机票数据仓库建设之路

从数仓到数据中台，谈技术选型最优解

从离线数据仓库到实时数据仓库的演进

相伴十六载，讲讲我和数据仓库的故事（二）

相伴十六载，讲讲我和数据仓库的故事（一）

大数据架构如何做到流批一体？

美团点评基于 Flink 的实时数仓平台实践

“做好大数据测试，我是认真的！”

辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)

一文读懂非关系型数据库（NoSQL）

如何深入浅出的理解数据仓库建模？

痛苦与变革，如何避免大数据PaaS平台建设中的这些“坑”？

中国电信的“天翼大数据飞龙平台”长啥样？

论道数据仓库维度建模和关系建模

解读云栖大会的《阿里巴巴数据服务产品开发及大数据体系》

一个传统企业大数据发展的编年史

一个业务化的大数据PaaS平台启示录

为什么选择这样的大数据平台架构？

我们需要什么样的ETL?

一只传统企业大数据平台团队的绽放！

看上去很美, 谈谈阿里云的大数据平台「数加」

大数据运维的思考

浙江移动大数据平台践行之路（上）

浙江移动大数据平台践行之路（下）

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
自动化测试工程师面试，常问的问题有哪些？自动化测试老司机软件测试测试工程师自动化测试面试职场和发展软件测试 selenium 测试工具 android 测试工程师
自动化测试工程师面试是非常重要的环节，面试官会通过一系列的问题来评估候选人的技能和经验。下面是一些常见的问题，以及如何详细而规范地回答这些问题的建议。1.请介绍一下你的自动化测试经验。回答这个问题时，可以从项目经验、使用的自动化测试工具、编写的测试脚本等方面来介绍自己的经验。重点强调你在自动化测试领域的技能和擅长的领域。2.你在自动化测试中使用的编程语言是什么？为什么选择这种语言？回答这个问题时，
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Go编程语言前景怎么样？参加培训好就业吗 QFdongdong
Go语言专门针对多处理器系统应用程序的编程进行了优化，使用Go编译的程序可以媲美C或C++代码的速度，而且更加安全、支持并行进程。不仅可以开发web,可以开发底层，目前知乎就是用golang开发。区块链首选语言就是go,以-太坊，超级账本都是基于go语言，还有go语言版本的btcd.Go的目标是希望提升现有编程语言对程序库等依赖性(dependency)的管理，这些软件元素会被应用程序反复调用。由
由于直接在一个回答中提供完整且多语言的游戏商城代码是不现实的（因为每种语言都有其独特的语法和库），我将为你概述一个游戏商城的核心概念，并提供几种不同编程语言的基本框架或示例代码段。 uthRaman 游戏 python 开发语言
商城系统概述hailiangwang.com游戏商城系统通常包含以下部分：用户系统（登录、注册、用户信息）商品列表（游戏、DLC、虚拟货币等）购物车系统支付系统订单系统2.示例框架（伪代码）首先，我们给出一个伪代码框架，描述商城的核心逻辑。plaintextclassUser:deflogin(username,password):#验证用户登录passdefregister(username,p
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
uniapp实现IM即时通讯仿微信聊天功能即构开发者
本文介绍如何基于UNIAPP使用即时通讯SDKZIMSDK快速实现基本的消息收发功能。1uniappim即时通讯功能方案介绍即时通讯SDKZIMSDK提供了如下接入方案：image.png在此方案中，您需要通过您自己的业务系统实现以下业务逻辑：搭建客户端的用户管理逻辑，并下发用户ID用于客户端登录。鉴权Token，建议由您的业务后台自行实现，保证鉴权数据安全。uni-appSDK是一个基于原生iO
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

深入浅出亚马逊AWS数据湖

你可能感兴趣的:(数据仓库,数据安全,大数据,编程语言,hadoop)