「已注销」

独家 | 关于数据湖架构、战略和分析的8大错误认知（附链接）

翻译：张玲

校对：丁楠雅

本文约9200字，建议阅读20分钟。

本文打破有关数据湖的8个错误认知，错误认知包括3方面，还提出了5个小技巧，以构建一个灵活的、可交付业务价值的数据湖。

本文的目的是构建数据湖，并提供适应企业数据策略的背景信息。咨询公司和提供商提出的意见相互矛盾，因此，这些信息历来一直不透明，令人困惑。

不幸的是，这些令人困惑和颇具误导性的建议导致人们不断就技术平台的背景信息发问，而不是就一个战略或者业务成果来发问。这种技术驱动的决策过程试图使主观的讨论变得更加客观，例如，他们会追问什么是亚马逊数据湖？或者什么是最好的数据湖软件。也许有一个供应商急于求成，正在医疗领域里推广符合流行语的、兼容HIPPA的数据湖。所以，对于那些想要厘清数据湖如何赋能数据洞察的人来说，这些关于数据湖的讨论令人更加困惑。

亚马逊数据湖

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&isMul=1&isNew=1&lang=zh_CN&token=1763595143&token=1763595143&lang=zh_CN#data-lakes

兼容HIPPA的数据湖

https://aws.amazon.com/lake-formation/

打破这些与数据湖策略、架构和实现建议相关的错误认知，将有助于你理解数据湖失败的原因及其实现面临的各种挑战，还有助于阐明供应商和咨询公司提供的建议可能与数据湖最佳实践背道而驰的原因。

让我们开始一一打破这些错误认知吧！

错误认知1：数据湖与数据仓库，必须二选一

人们普遍建议在数据湖和数据仓库之间二选一，但这是错误的。

审视现实-数据仓库和数据湖之间的区别

这种必须在数据湖和数据仓库之间二选一的认知错误地限制了讨论的框架。当人们通过询问数据仓库是否过时来开启讨论时，似乎在告知是时候抛弃你的企业级数据仓库。这些问题的出发点都有误，而且正在引你误入歧途。

通常，一家公司需要就某一特定的设计模式进行某种形式的技术投资时，就会引发这些问题的讨论。例如，他们声称某些操作可以或必须发生在数据仓库中，然后将这些操作定义为是采用数据湖架构的限制和风险。

那供应商推广的数据湖架构限制示例是什么？

供应商会说数据湖无法像数据仓库那样便于按需扩展计算资源，从而它是受限的。这是真的，但具有误导性。就这就像抱怨汤姆布拉迪肯定是一名可怕的运动员，因为他从未在职业橄榄球生涯中打过本垒打。既然汤姆布拉迪是一名橄榄球运动员，你会期望他成为一名在芬威棒球场（好吧，也叫Pesky'pole）投球飞过左外野全垒打墙的全垒打投球手吗？不。

Pesky'pole

https://www.youtube.com/watch?v=ZdiCbHh5U7w

那么，为什么供应商和咨询公司会在这里应用数据仓库计算概念？

事实上，声称数据湖没有计算资源是一种FUD行销手法（灌输数据湖的负面观念，在你的头脑里注入疑惑和恐惧，使你误以为除了数据仓库以外，别无选择）。数据湖无法按需扩展计算资源，是因为没有需要扩展的计算资源。

FUD行销手法

https://en.wikipedia.org/wiki/Fear,_uncertainty_and_doubt

在数据湖体系结构中，计算资源分离是一种核心的抽象，这是Redshift Spectrum、Presto和Athena解决方案存在的原因。以Amazon的Athena为例，Athena不是一个数据仓库软件，而是一个基于开源FaceBook Presto开发的按需查询引擎，它将按需提供“计算”资源查询数据作为一项服务来提供。 Amazon的Redshift Spectrum和Athena一样可以查询数据湖中的数据，利用的是从一个Redshift集群中分离出来的计算资源。
Redshift Spectrum https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#aws-redshift-spectrum

Presto https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#aws-data-lake

Athena https://blog.openbridge.com/aws-athena-automated-60-second-setup-zero-administration-and-automatic-optimization-eba474e9897a
根据设计，数据湖中的查询数据服务可以很好地抽象出这个引擎模型，而且无论你在Google云上是否有亚马逊数据湖（AWS数据湖）、Oracle数据湖、Azure数据湖或BigQuery数据湖，模型都是类似的。可以通过Athena这类的查询引擎或者像Redshift、 BigQuery、Snowflake等“仓库”来查询数据湖数据内容，这些服务提供计算资源，而不是提供一个数据湖。

Redshift

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#aws-redshift

BigQuery

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#bigquery

所以，对于大多数企业来说，数据湖和数据仓库如何共存才是正确的讨论内容，而不是讨论如何二选一。当有人向你提出只能二选一时，他们可能是利益相关方，也就是说他们的产品或者商业伙伴也提供相关的功能。

错误认知2：数据仓库就是一个数据湖

这种想法会诱使你放弃数据湖，将所有数据都扔进数仓中。
审视现实-定义有效的数据湖
的确，有一些供应商和咨询公司主张将数仓作为数据湖模型。
不同的供应商和咨询公司会建议使用模式（或其他物理或逻辑结构）来表示数据从“原始”到数仓中其他状态的生命周期，业务所需的任何成熟度数据都可以在仓库范围内完成。
传统上，数仓旨在反映企业已经完成的事务，也反映企业完成一系列的一致事务，例如一个已经完成的事务可能提供有关收入、订单、“最佳客户”和其他领域的重要事务。
但是，在数仓“导入所有数据”模型中，数仓包含所有的数据内容，其中会包括暂时的和易失的原始数据。
将所有的原始数据重新打包到数仓中的操作更像是操作型数据库（Operational Data Store，ODS）或者数据集市的操作，而不像是数仓的操作。你能将所有的数据都扔进数仓吗？不能。不能仅仅因为你可以在技术上做一些事情，就可以使它成为正确的体系结构。

操作型数据库

https://en.wikipedia.org/wiki/Operational_data_store

将所有数据放进仓库的建议说，事务数据只是逻辑组织数据的一个功能。在企业内部定义和推广这个逻辑定义的人将无法得到理解，甚至更糟的是他将被忽视，原因是这种方式几乎就是一种发生在数仓中的“数据沼泽”，尽管教科书上定义数据沼泽发生在数据湖中。对于任何一个被迫善后处理的人来说，这都是一场数据处理的噩梦。

数据处理

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#data-wrangler-data-munging

这个模型会将你限制在数仓技术及其模型中，同时还需要你将所有数据都导入数仓。如果你喜欢四处寻找供应商、设定各种人为限制、降低数据认知能力和背负各种技术债务，那么这种方法肯定很适合你。

技术债务

https://en.wikipedia.org/wiki/Technical_debt

正确的做法是，数据湖可以最小化技术债务，同时还可以加速企业团队对数据的消耗。考虑到数仓、查询引起和数据分析市场的变化在加快，你战略的核心应该是最小化风险和技术债务。

数据湖架构

错误认知3：数据湖只能用Hadoop来实现

你会经常发现有讨论和示例将数据湖等同于Hadoop或者Hadoop相关供应商技术栈，这会给人一种错觉：数据湖和Hadoop特定的技术紧密相关。
审视现实-Hadoop不是一个数据湖
虽然Hadoop技术可以用于数据湖的构建和运行，但它们并不能反映出所支持的数据湖的基本战略和架构。
认识到数据湖最先反映的是战略和架构，而不是技术，这一点很重要。Pentaho联合创始人兼首席技术官詹姆斯·狄克逊（也就是创造“数据湖”这个词的人）说：
这种情况和传统的商业智能分析程序构建方式类似，根据终端用户给出的数据问题清单，从数据流中筛选出与问题相关的字段属性，并批量记载到数据集市中。在你提出新问题之前，这个方法是可行的。数据湖可以完全解决这个问题，你可以将所有数据存储在数据湖中，填充数据集市和数据仓库以满足传统的数据需求，针对新问题，则可以启用数据湖中的原始数据以供即席查询和生成报告。
Hadoop和其它技术一样，可以支持战略和架构的实现。如果现在你有一个数据湖，会有很多非Hadoop的选择，即使这些选择使用了Hadoop相关技术。例如，你的数据湖需要同时支持Snowflake这样的数仓解决方案和在AWS Athena、Presto,、Redshift Spectrum和BigQuery这样的就地查询方式。

AWS Athena

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#aws-athena

Redshift Spectrum

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#redshift

别以为数据湖只能使用Hadoop实现，如果你遵循一个精心抽象的数据湖架构，那么就可以根据技术的发展性及其对更广泛的企业生态系统的支持度选择其它技术，从而最小化风险。

错误认知4：数据湖仅用于“存储”数据

在这种情况下，数据湖只是一个存储你所有数据的地方。你只需要所有数据放入数据湖，而后启用新的数据管理模型就可以大功造成，这就和将所有的文件都放进笔记本电脑上超大硬盘中的“无标题文件夹”一样。
审视现实-数据湖不仅仅是一个存放数据的地方
当供应商将数据湖定义为存储的同义词时，这可能会变得复杂。例如，微软将产品打包为Azure Data Lake Storage或Azure Data Lake Storage Gen2，数据湖确实提供了存放数据的功能，但这只是其特征之一。
如前所述，应该将数据湖视为是企业更为广泛的数据栈中的战略元素，这包括在下游系统中（如数仓）支持事务数据集成，或者在Tableau或Oracle ETL等工具中支持数据处理。
因此，数据湖不仅仅可以存储数据，还可以兼容数仓、数据分析技术栈中的技术。事实上，大多数数据湖是动态的生态系统，而不是静态的封闭系统。当数仓负载适中时，数据湖是一个活跃数据源，源源不断为其输送数据，反之亦然，负载过重时，数据湖进行对数据进行适当地动态处理，以降低成本和提高效率。
数据湖对数据进行适当地组织，以便将下游价值传递给使用数据的下游系统，包括数仓。例如，数据湖在支持数仓整合事务数据方面发挥了积极的作用。
我们有一位客户使用数据湖对数十个网站和第三方酒店的标签进行质量控制分析，这有助于识别负责这项工作的不同团队可能存在的差异和执行错误。还有一位客户在将数据导入企业级数据仓库前，使用数据湖过滤来自不同部门、第三方和合作伙伴系统中的不准确订单或重复的多渠道订单。
这两个例子都强调了，数据湖在保证下游事务数据的准确性和合规性上发挥了积极的作用。
正如麦肯锡员工所说：“...数据湖不仅保证了技术栈的灵活性，而且还保证了业务能力的灵活性。”数据湖作为一种服务模型，是为了交付业务价值，而不仅仅是存储数据。
交付业务价值 https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/a-smarter-way-to-jump-into-data-lakes

错误认知5：数据湖仅存储“原始”数据

和错误认知2相关，“把所有数据都倒进数仓”的方法表示，数据湖不会增加价值，原因是只有原始数据驻留在数据湖中。他们主张：“如果数据湖只处理原始数据，那么就不用担心数据湖了，只需将所有的原始数据或者已被处理的数据转存至数仓中”。
审视现实--定义有效的数据湖策略和架构

数仓或SQL查询引擎的典型工作流
正如之前所说的，这和数仓旨在反映既定事务数据的基本前提相矛盾。一个更好的历史数据比较不是在数仓和数据湖之间进行，而是在ODS和数据湖之间进行。
从历史数据角度上看，数据湖是一个ODS，而不是一个数仓，因为数据湖从上游获取粗糙和不稳定的原始数据。一个ODS数据通常时间范围很窄，可能只有90天内的数据，针对某一特定数据领域，时间范围可能更窄。另一方面，数据湖对于保留的数据没有时间范围限制，从而时间范围更广些。
那么，数据湖仅是为了存储“原始”数据吗？
不。
根据设计，数据湖应该有一定程度的数据输入管理（即管理什么数据要进入数据湖）。如果你没有管理数据进入模式的意识，那么你其它地方的技术栈可能存在问题，这对于数仓或任何其它数据系统也是一样的，垃圾进，垃圾出。

数据湖的最佳实践应该包括一个配备初始数据池的模型，在这个初始数据池里，你可以最低限度地优化模型，以为下游处理数据或辅助处理数据。数据处理可能发生在Tableau或PowerBi之类的分析工具中，也有可能发生在加载数据到数仓（如Snowflake、Redshift和BigQuery）的应用程序中。

优化 https://blog.openbridge.com/how-to-be-a-hero-with-powerful-parquet-google-and-amazon-f2ae0f35ee04
与我们合作的一位客户将Adobe事件数据发送到AWS，以支持企业Oracle云环境。为什么要从AWS到Oracle呢？因为这是Oracle BI环境中最高效的和最具成本效益的数据处理模式，尤其是考虑到使用AWS数据湖和Athena作为按需查询服务的灵活性和经济性。

Adobe事件数据发送到AWS，以支持企业Oracle云环境

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#oracle-data-lake

通过最大限度地保证数据的有效性，提高处理数据的效率，你可以最大限度地降低下游数据处理者所要付出的数据处理成本。

错误认知6：数据湖仅适用于“大”数据

如果你花时间阅读过数据湖的相关资料，你会认为数据湖只有一种类型，看起来像里海（它是一个湖，尽管名字中有“海”）。人们将数据湖描述成一个庞大的、包容一切的实体，旨在保存所有的知识，因此只会有一个企业大数据湖或者大数据架构的同义词。
审视现实-数据湖有各种形状和大小
不幸的是，“大数据”角度给人以一种错觉：数据湖仅适用于里海范围那么大的数据，这当然会让数据胡的概念令人生畏。因此，用如此量大的术语来描述数据湖会使那些本可以从中获益的人无法接近。
另一个观点是数据湖和大数据只能二选一。像自然界中的湖泊一样，数据湖有各种不同的形状和大小。每一种数据湖都有一种自然状态，通常反映数据的生态系统，就像自然界中反映鱼、鸟或其它有机体的生态系统一样。
以下是一些例子：

诺大的“Caspian”：
就像里海是大片水域一样，这种类型的数据湖是一个存放各种半结构化和非结构化数据的大型数仓，这些整合了不同数据集的超大数据集反映了来自企业方方面面的信息。

临时的“Ephemeral”：就像沙漠可以有小的、临时的湖泊一样，临时的数据湖“Ephemeral”也是短暂存在的。它们可以用于项目、试生产、PoC或者一个点解决方案，可以很快打开，也可以很快关闭。

领域性的“Project”：这种类型的数据湖和“Ephemeral”一样往往集中在特定的知识领域中。然后，和临时“Ephemeral”不同的是，这种数据湖可以持续一段时间。这些数据湖可能也很浅，可能专注于一个狭窄的数据领域，如媒体、社交、网络分析、电子邮件或类似的数据源。有一位客户称他们的项目为“Tableau数据湖”。

通过设计，所有数据湖类型都应该采用一种抽象，以最大限度地降低风险，并提供更大的灵活性。此外，它们的结构应该便于数据处理，独立于数据规模的大小。当数据科学家、业务用户或者python代码使用数据湖时，确保它们拥有一个易于处理数据和可自定义数据规模的数据环境。

数据湖示例
无论你的使用场景是机器学习、数据可视化、生成报告还是为数仓和数据集市输送数据，数据规模的不同，思考方式不同，有可能创造出使用这些数据湖的新方式。

错误认知7：数据湖没有安全保障

数据湖是一个不安全的数据对象集合，可供组织中的任何人使用，而这些人只是想从中获得一些帮助，带着他们想要的信息离开。
审视现实-安全是一种选择，确保你考虑的是它
从某种意义上说，人们会依赖于隐性的安全技术解决方案（即自动的AWS S3 AES对象加密），而不会去构建一个显性的、可以管理安全性的架构和下游使用场景，这可能会导致安全漏洞，但这可以说是很多系统的漏洞，而非仅是数据湖本身的漏洞。因此，认为数据湖本质上不安全的观点是不准确的。
安全可以是而且应该是我们要考虑的重中之重，这里有4个需要考虑的方面：

访问：通常，对针对基础数据定义良好的访问策略。在AWS中，你可以定义针对S3的IAM策略及其相关服务。除此以外，微软还有一个描述类似安全策略方法的Azure数据湖架构。
工具：处理数据的工作和系统也会确保一定的安全性。例如，查询引擎可以有一个表级和列级数据的访问控制机制。此外，数据处理工具（如Tableau或Power BI）也可以对数据湖中的数据设置访问控制。
加密：通常会希望（或强制）在数据传输和静止时对其进行加密。
分区：逻辑分区和物理分区在一定水平上进一步简化了安全策略，例如团队可以将数据从初始数据池ETL至另一个位置，实现匿名化敏感数据，以供下游使用。

人们可以争论这些不同策略的优点，但要是说数据湖本身是不安全的，这是不正确的。

错误认知8：数据湖会变成数据沼泽

曾有一篇文章评论数据湖最终会变成数据沼泽，因为它们只是存储，缺乏治理、管理，没有数据生命周期/保留策略，也没有元数据。
审视现实-正确安排人员、流程和技术
在极端情况下，这是真的。如果你把一个数据湖当作是你笔记本电脑上一个通用的“无标题文件夹”来处理文件，那么就可能会变成一个数据沼泽（见错误认知4）,所以，这会存在风险。然而，对于任何习惯以这种方式进行文件转储的人来说，他们对成功安排人员、流程和技术都有点不感兴趣。
那么，真正的数据沼泽是什么呢？真正的数据沼泽是设计不当创造出来的，而不是疏于管理促成的。
数据湖更大的威胁不是缺乏治理、管理、生命周期策略和元数据，而是缺乏防止这种情况发生的生态系统，这个生态系统包括工具、角色、职责和系统。数据湖之所以成为沼泽，不仅仅是因为“倾倒文件”，还因为数据湖的相关人员、流程和技术安排过于复杂。如果你认为你的企业级数仓过程缓慢，那么你的数据湖也会如此。
简单、敏捷和灵活是数据湖众多优点中的一部分，当湖中出现重要的业务逻辑和流程时，你将面临这样的风险：创建出来的解决方案缺乏简单性、无法响应变化、设计过于严格，而这就是你需要警惕的数据沼泽。数据沼泽是昂贵的、费时的，从而无法满足任何人的期望。这听起来是不是很熟悉？
对于那些正在计划或者已经部署了数据湖的人来说，要小心数据湖的定位和特性蔓延。经常会看到供应商将其在传统数仓和其它ETL产品中发现的特性和功能定义为数据湖的功能，尽管从技术上讲，可以在数据湖中进行复杂的数据处理。
但是，你可能在数据湖外已经有了执行这些处理操作的工作流、工具、人员和技术，并不是所有的数据处理都符合你的上下游流程，请仔细考虑数据湖嵌套处理数据导致复杂性激增的风险。
请警惕，当前或计划中的数据湖逐渐看起来更像是传统的ETL工具和数仓的合体，如果你已经经历过一个过于复杂的构建企业级数仓工作，会很容易发现这一点。

数据驱动企业的数据湖架构及策略

数据湖的发展模式和我们熟知的技术发展模式一样，新的概念出现，接着被先驱者和技术江湖骗子采用，随着时间的推移，成功模式才变得清晰。这种清晰源自努力实践的经验教训，很大程度上是通过失败来获得成功。
结果，数据湖的技术术语、最佳实践和致力于构建更好平台的投资都在改进。业务实践的经济性、架构方式和优化方法都在不断变化，这允许团队以适应应用场景的方法将这些数据湖解决方案整合进企业的数据栈中。
不幸的是，这些批评逐渐变成广为流传的“数据湖不成功”、“数据湖等同于数据沼泽”、“数据湖与Hadoop等特定技术过于紧密联系”等这类信息。最后，还会出现“什么是数据湖”定义过于模糊和不固定的抱怨。
批评是任何技术发展的必要组成部分。
然而，技术发展的关键是以退为进，这样做，是因为这些批评并非仅针对数据湖。事实上，这些评论可以针对任何一项技术，特别是数据项目。例如，术语“数据仓库”和数据湖定义一样模糊而不断变化（见错误认知2），在谷歌上搜索“失败的数据仓库”，也会发现一些关于项目失败的故事。这些是否意味着我们应该放弃“数据仓库”这个短语或者停止追求这些项目？
不。
通常情况下，蔑视数据湖的咨询公司或企业都将自己提供的产品和服务视为灵丹妙药，致力于实现自己的愿景和最佳实践。如果一个咨询公司或供应商不相信一个模型，为什么要他们参与一个他们不相信的解决方案呢？将数据湖工作委托给这类咨询公司或供应商，很有可能是数据湖失败的一个原因。
在深入了解如何构建数据湖或如何和企业定制数据湖之前，我们有一些技巧可以帮助你进行规划。

如何构建数据湖

https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&appmsgid=100013110&isMul=1&token=698435870&lang=zh_CN#amazon-data-lake

开始：从小处做起，要灵活

到目前为止，我们已经讨论了什么是数据湖或者构建数据湖的步骤是什么的基本问题。我们还忽视了一个重要事实：数据湖和数仓不仅可以共生，也可以共繁荣。
因此，停止购买闪亮的Hortonworks数据湖解决方案，组建软件开发工程师、客户经理、解决方案架构和支持技术工程师来构建企业数据湖吧！
从小处做起，要灵活。下面是一些关于如何运转数据湖实现的小技巧：

焦点：
寻找可以部署“Ephemeral”和“Project”解决方案的机会，确保你可以降低风险，克服技术和组织挑战，从而使你的团队能够建立对数据湖的信心。
激情：
确保你有一个内部的“福音传道者”或“大力倡导者”，这个人对公司内部的解决方案和应用充满激情。
如果缺少这样充满激情的人或团队，你会发现构建数据湖的热情就很快殆尽，正如健身房新年促销4周会员卡一样。
简单：
坚持简单和敏捷的理念，根据这一点，做出人、流程和技术的选择。
缺乏复杂性不应该被视为缺陷，而应该视作是精心设计的副产品。
缩小：
缩小数据范围，可以很好地定义数据湖，以便了解从ERP、CRM、Point-of-Sales、Marketing or Advertising data从导出地数据，这个阶段的数据处理经历有助于你了解数据的基本结构、获取、治理、质量和测试的工作流。

实验：将你的解决方案和现代BI分析工具（如Tableau、Power BI、Amazon Quicksight或Looker）结合起来，这可以让非技术用户有机会通过访问数据湖来测试和探索数据，同时也有助于你利用不同的用户群来评估性能瓶颈，发现改进机会，及时补充与现有EDW系统或其它数据系统的连接和其它候补数据源。除此之外，还允许你发现对团队有意义的数据湖工具以及适合投入资源的数据湖自动化部分。

将你的解决方案和现代BI分析工具（如Tableau、Power BI、Amazon Quicksight或Looker）结合起来

https://blog.openbridge.com/building-a-serverless-business-intelligence-stack-with-apache-parquet-tableau-and-amazon-athena-e1a2363c2e6d

作为一个成功的数据湖早期采用者，应该重点关注商业价值方法而不是具体实现的技术方法，这意味着你不必担心Cloudera Data Lake新出了产品、如何开启AWS Lake Formation工作流、Gartner魔方图或是Azure团队希望你购买哪些数据湖分析方案。

AWS Lake Formation

https://aws.amazon.com/lake-formation/

数据湖专注于业务价值，为你提供了一个在全面数据分析的背景下搭建工作框架的机会，这会提高你实现数据湖目标和衡量业务绩效的速度。
使用无代码、全自动和零管理的Amazon Redshift Spectrum或Amazon Athena Services来启动你的工作。

Amazon Redshift Spectrum

https://www.openbridge.com/warehouse/amazon-redshift-spectrum

Amazon Athena Services

https://www.openbridge.com/warehouse/amazon-athena

想讨论数据湖架构还是数据湖分析？请致电我们的数据专家团队。

致电

https://calendly.com/openbridge/project-discussio

原文标题： Data Lakes? Big Myths About Architecture, Strategy, and Analytics 原文链接： https://blog.openbridge.com/8-myths-about-data-lakes-c0f1fc712406

编辑：王菁

校对：林亦霖

译者简介

张玲，在岗数据分析师，计算机硕士毕业。从事数据工作，需要重塑自我的勇气，也需要终生学习的毅力。但我依旧热爱它的严谨，痴迷它的艺术。数据海洋一望无境，数据工作充满挑战。感谢数据派THU提供如此专业的平台，希望在这里能和最专业的你们共同进步！

翻译组招募信息

工作内容：将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友，数据派翻译组欢迎你们加入！

你能得到：提高对于数据科学前沿的认知，提高对外文新闻来源渠道的认知，海外的朋友可以和国内技术应用发展保持联系，数据派团队产学研的背景为志愿者带来好的发展机遇。

其他福利：和来自于名企的数据科学工作者，北大清华以及海外等名校学生共同合作、交流。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

你可能感兴趣的:(独家 | 关于数据湖架构、战略和分析的8大错误认知（附链接）)

从单品到全盘：解锁服装商品企划的全局密码 xss
全局思维，服装行业的胜负手？在如今的服装行业，竞争可谓是白热化状态。从繁华都市的街头巷尾，到电商平台的虚拟世界，各类服装品牌如雨后春笋般涌现，让人目不暇接。大到国际知名品牌，小到街头巷尾的小众潮牌，都在想尽办法吸引消费者的目光。在这个竞争激烈的大环境下，价格战、设计比拼、营销大战等各种竞争手段层出不穷。价格战中，品牌们为了吸引顾客，不断压低价格，利润空间被一再压缩；设计上，大家绞尽脑汁，紧跟潮流甚
有没有开源的企业网盘，是否适合企业使用？网盘
开源选项丰富、灵活定制能力强、需要额外运维投入、适合特定场景但不一定适合所有企业，是开源企业网盘的主要特征。从表面看，开源网盘往往具有免费或低成本优势，但企业要投入一定的人力与技术资源来完成安装、维护与升级，从而保障系统的稳定运行。我个人尤其建议在评估运维能力和长期需求后再行决定，因为开源网盘的可行性需要与企业的IT基础和信息安全策略相匹配。在这几点特征里，灵活定制能力强最具吸引力。企业可以根据自
golang中使用mysql事务彩色代码 Golang编程语言 MySQL数据库 mysql golang 数据库
在Go语言中，可以使用第三方库来处理MySQL事务。在示例中，我们将使用database/sql包与github.com/go-sql-driver/mysql驱动程序来连接和执行MySQL数据库操作。首先，确保你已经安装了相应的依赖库。你可以使用以下命令来安装它们：goget-udatabase/sqlgoget-ugithub.com/go-sql-driver/mysql接下来，我们将演示一
visionPro8.2r紧急许可重复利用方法吾与谁归in 视觉编辑器
VisionPro安装，个人学习使用VisionPro安装，紧急许可重复使用方法，目前仅是8.2r,在这备份一下。建议首次安装时进行备份紧急激活许可（1-4次激活都可以，第五次凉凉）。1.以管理员身份运行CognexSoftwareLicensingCenter软件2、配置连接类型一定要设置离线3，安装紧急许可这里第一个显示broken是因为第一次紧急许可过期了，第一个显示ok是新激活的紧急许可。
C#使用Winform实现简单的编辑器：编译、运行、关键字、注释高亮显示。吾与谁归in c#java c++
发布文章的目的即是学习也是分享保存。目录1、简单的界面设计2、实现代码（1）用到的变量字段（2）窗体初始化、加载（3）执行操作：编译、运行（4）编译功能方法（5）高亮显示（6）其它3、运行效果4、说明1、文本发生变化的重绘滚动（闪烁）问题。2、光标位置显示问题。3、关键字高亮显示后，直接在后面输入文字格式问题。1、简单的界面设计程序分为脚本编辑框，操作、结果显示栏。脚本编辑栏：可以编写自己想要的代
js触发onclick事件获取文本框中的值value 吾与谁归in Web前端 js javascript html5
1.首先我们创建一到两个文本框，使用标签用户名：密码：2.接着我们创建script代码，创建函数获取文本框中的值，获取值是通过文本框的id获取的，使用到了标签/**创建函数*/functiononclickFun(){/*通过id获取元素*/varuser=document.getElementById("name")/*警示窗口*/alert("你好【"+user.value+"】，欢迎进入系统
最新整理的50个网络安全必知术语，想要入行网安，建议收藏！ wljslmz 网络技术 web安全安全网络安全
想象一下，你刚入行网络安全（Cybersecurity），兴冲冲地打开一本专业书，或者加入一个网安论坛，结果满屏的“漏洞”“威胁”“DDoS”“加密”……脑袋瞬间一片迷雾。这时候，你会不会觉得自己像个“数字文盲”，完全摸不着北？别慌，这正是网络安全术语存在的意义——它们是你进入这个高能领域的“通行证”！网络安全术语可不是什么枯燥的学术名词，而是行业里沟通的“通用语言”。它就像一张地图，能帮你快速定
微信小程序云开发的sql语法 where `$and` 运算符怎么用？踩坑总结！代码简单说 2025开发必备微信小程序 sql 小程序 where 微信小程序and
微信小程序云开发$and组合查询时间戳转换**最近在小程序云开发里用$and组合查询，结果直接翻车，明明条件写对了，却总是查不出数据，要么就是报错，真是要被折腾疯了，官方文档也没给完整示例，最终折腾了半天，终于找到正确用法，现在分享出来，避免大家踩坑1.$and查询失败的真正原因在云开发数据库查询时，如果你的$and组合条件查不出数据，大概率是因为数据类型不匹配，特别是在时间筛选时，很多人会写成这
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Spring 中的依赖注入 web13093320398 面试学习路线阿里巴巴 java
依赖注入当某个java实例需要另一个java实例的协助时，在传统的程序设计过程中，通常由调用者来创建被调用者的实例在spring中，创建被调用者的工作不再由调用者来完成，因此称为控制反转，创建被调用者实例的工作通常由spring容器来完成，然后注入调用者，因此也称为依赖注入注入方式通过构造器注入将被依赖对象通过构造函数的参数注入给依赖对象，并且在初始化对象的时候注入优点：对象初始化完成后便可获得可
Spring @Around 注解 web13093320398 面试学习路线阿里巴巴 spring java 后端
@Around是SpringAOP（面向切面编程）中的一个注解，它用于定义一个环绕通知（AroundAdvice）。环绕通知是AOP中最强大的一种通知类型，因为它能够在方法执行之前和之后都执行自定义的逻辑，并且可以控制方法是否继续执行或改变其返回值。@Around注解的基本用法要使用@Around注解，你需要先定义一个切面（Aspect），然后在该切面中使用@Around注解来标注一个方法，该方法
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
Golang实现一个事务型内存数据库 qingwave Code 数据库 golang redis
内存数据库经我们经常用到，例如Redis，那么如何从零实现一个内存数据库呢，本文旨在介绍如何使用Golang编写一个KV内存数据库MossDB。特性MossDB是一个纯Golang编写、可嵌入的、键值型内存数据库，包含以下特性可持久化，类似RedisAOF(AppendonlyLog)支持事务支持近实时的TTL(TimetoLive),可以实现毫秒级的过期删除前缀搜索Watch接口，可以监听某个键
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
golang 事务tx 乒乒乓乓丫 golang 开发语言后端
1.事务txgolang事务-Mr.peter-博客园Go操作Mysql（三）-kaichenkai-博客园golang中事务的使用_zh1303300的博客-CSDN博客_golang事务golangMysql--Tx-Go语言中文网-Golang中文社区2.golangmysql事务（增、删、改、查）golangmysql事务_golang操作mysql示例（增、删、改、查、事务）_Zhuan
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
65%的家庭有人“啃老”，数据解读国内版巨婴是如何炼成的？永洪科技大数据啃老单身房价
近日，韩国“30-39岁的未婚人口中有54.8%变成啃老族；40-44岁的未婚人口中有44.1%变成啃老族”的数据在网上引发热议。而反观国内，2020年数据显示，中国的啃老族已经占据了中国超过60%的家庭，30%的年轻人靠“啃老”过活，65%以上的家庭存在“啃老”方面的问题。对此，很多80、90后纷纷表示不服。网友调侃：贵族的啃老叫继承家业，到了穷人就成了啃老了。其实，啃老现象在各国都存在，是全人
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
Manus AI：国产AI Agent的破局与隐忧 Hello kele 人工智能人工智能程序员经验分享 AI编程
2025年3月，国内AI领域突然杀出一匹黑马——ManusAI。这个自称全球首个通用AIAgent的产品，凭借"自主完成复杂任务"的核心能力，在技术圈掀起了不小的波澜。官网演示中，它能自动筛选简历、生成房产分析报告、甚至编写股票研究PPT，被网友戏称为"数字世界的私人助理"。但随着内测的展开，关于它的争议也开始浮出水面。一、技术突围背后的故事Manus的开发团队Monica.im颇为低调。创始人肖
DeepSeek与剪映短视频创作指南 meisongqing 人工智能 DeepSeek 剪映
DeepSeek（深度求索）作为一家专注实现AGI的中国公司，其技术可能涉及AI文本生成、图像处理等领域，结合剪映的智能剪辑功能，可以大幅提升短视频创作效率。以下是结合两者优势的详细创作步骤：一、创意策划阶段AI灵感激发使用DeepSeek的AI文本生成功能，输入关键词（如"美食教程"、"科技科普"）获取创意方向生成10-20个标题备选（示例Prompt："生成10个吸引年轻人的美妆短视频标题"）
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
2025 DeepSeek 10 大王炸组合，赋能职场效率革命 meisongqing 人工智能
在当下这个被AI深度渗透的时代，职场竞争愈发激烈，效率成为了制胜的关键因素。DeepSeek作为一款功能强大的AI工具，正引领着职场人的工作方式变革。当DeepSeek与其他热门应用巧妙搭配，便诞生了一系列能够大幅提升工作效率的王炸组合。无论你是忙碌的职场人士，还是充满创意的内容创作者，这些组合都将为你带来前所未有的工作体验，助你轻松应对各种复杂任务。接下来，让我们一同深入了解2025年DeepS
不同存储器组织和交叉编址技术的工作方式及举例说明海大超级无敌暴龙战士计算机组成原理学习方法
不同存储器组织和交叉编址技术的工作方式及举例说明本节介绍内存系统中常见的组织方式以及如何通过交叉编址来提高存储器性能，主要内容包括：多模块存储器单体多字存储器多体并行存储器高位交叉编址（顺序方式）低位交叉编址（交叉方式）下面依次说明这些结构的工作原理和实际应用中的举例。1.多模块存储器原理简介：多模块存储器将整个存储系统划分为多个独立模块（或称“块”），每个模块具有一定的存储容量和独立的控制电路。
【C语言】结构体篇熬夜超级玩家 C语言 c语言算法开发语言
目录结构体的定义结构体变量的声明和初始化声明结构体变量初始化结构体变量访问结构体成员结构体数组结构体指针结构体嵌套结构体作为函数参数值传递指针传递结构体的内存对齐位域结构体的定义结构体是一种自定义的数据类型，它把不同类型的数据组合成一个整体，方便管理和操作相关的数据。在定义结构体时，使用struct关键字，后面跟着结构体的名称，再用花括号{}包含结构体的成员列表，每个成员由数据类型和成员名组成，成
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
中信银行太原分行营业部开展“金融知识普及共筑消费安全”宣传活动 lsrsyx 金融安全
在第62个学雷锋纪念日与“3・15消费者权益保护日”来临之际，３月５日，中信银行太原分行营业部积极响应号召，以“金融知识普及，共筑消费安全”为主题，走进社区，传递金融知识，开展了一系列丰富多彩且富有成效的消费者权益保护活动，致力于提升公众金融素养与风险防范意识。分行营业部组织志愿者深入平阳路街道社区，开展“央行支付，惠企利民”主题宣传活动。活动现场，志愿者们通过发放精心制作的宣传单页，向居民们详细
DeepSeek赋能机器人革命：从推理引擎到行业落地的全栈技术实践量子纠缠BUG DeepSeek部署 AI DeepSeek 机器人人工智能 AI编程
——解析大模型如何重塑机器人产业的智能化未来引言：机器人产业的技术范式转移在2025年全球机器人市场规模突破2000亿美元的关键节点，DeepSeek凭借其创新的"推理优先"技术架构，正在重构机器人产业的智能化路径。通过将大模型的认知推理能力与机器人执行系统深度融合，DeepSeek在商业服务、工业制造、智慧城市等领域创造了多个标杆案例。本文将从技术架构、行业应用、开发实践三个维度，深度解读Dee
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s