半_调_子

Mastering Spark for Data Science：通过spark进行数据科学

Spark对数据科学世界的影响令人震惊。自从Spark 1.0发布至今还不到3年，但Spark已经被公认是任何大数据架构的全能内核。大约在此期间，我们在巴克莱银行采用了Spark作为我们的核心技术，这被认为是一个大胆的举动。现在可以肯定，Spark是任何大数据科学项目的起点。

第1章，大数据科学生态系统，本章介绍了通过大规模数据获得成功的方法和随附的生态系统。它着重于将在后面的章节中使用的数据科学工具和技术，以及介绍环境以及如何适当地配置它。此外，它还解释了与整体数据体系结构和长期成功相关的一些非功能性注意事项。

第2章，数据采集，作为数据科学家，最重要的任务之一是将数据准确地加载到数据科学平台中。本章将说明如何构建Spark中的常规数据提取管道，该管道可作为跨许多输入数据的可重用组件，而不是使用不受控制的临时过程。

第3章，输入格式和架构，本章演示如何将数据从其原始格式加载到不同的架构，从而使各种不同类型的下游分析能够在同一数据上运行。考虑到这一点，我们将研究数据模式的传统理解领域。我们将涵盖传统数据库建模的关键领域，并解释其中的一些基石原理如何仍适用于当今的Spark。此外，在磨练我们的Spark技能的同时，我们将分析GDELT数据模型，并展示如何以有效和可扩展的方式存储此大型数据集。

第4章，探索性数据分析，一个常见的误解是，EDA仅用于发现数据集的统计属性并提供有关如何利用它的见解。实际上，这不是全部。完整的EDA将扩展该想法，并包括对“在生产中使用此数据Feed的可行性”的详细评估。它还要求我们还了解如何为该数据集指定生产级数据加载例程，该例程可能会以“熄灯模式”运行很多年。本章提供了一种快速的方法，该方法使用“数据概要分析”技术来进行数据质量评估以加速流程。

第5章，Spark for Geographic Analysis，地理处理是Spark的一个功能强大的新用例，本章演示了如何入门。本章的目的是解释数据科学家如何使用Spark处理地理数据，以生成基于地图的功能强大的大型数据集视图。我们演示了如何通过Spark与Geomesa的集成轻松地处理时空数据集，这有助于将Spark变成复杂的地理处理引擎。本章稍后将利用时空数据将机器学习应用于预测油价。

第6章“基于链接的外部数据报废”，本章旨在说明一种常见的模式，用于通过URL或API（例如GDELT和Twitter）上的外部内容来增强本地数据。我们提供了一个使用GDELT新闻索引服务作为新闻URL来源的教程，演示了如何构建可从互联网上刮取全球关注的重大新闻的网络规模新闻扫描仪。我们将进一步解释如何通过克服规模挑战的方式来使用专业的Web爬网组件，随后是本章的总结。

第7章，构建社区，本章旨在解决数据科学和大数据中的一个常见用例。随着越来越多的人在一起互动，交流，交换信息或只是对不同主题具有共同兴趣，整个世界可以表示为图表。数据科学家必须能够发现社区，找到影响者/杰出贡献者并发现可能的异常情况。

第8章，构建推荐系统，如果要选择一种向公众展示数据科学的算法，则肯定会使用推荐系统。如今，推荐系统无处不在。它们之所以受欢迎是因为它们的多功能性，实用性和广泛的适用性。在本章中，我们将演示如何使用原始音频信号来推荐音乐内容。

第9章，新闻词典和实时标记系统，虽然分层数据仓库将数据存储在文件夹文件中，但是典型的基于Hadoop的系统依赖于平面体系结构来存储数据。如果没有适当的数据管理或对数据的全部内容有清楚的了解，那么将数据湖变成沼泽的机会是无可否认的，其中有趣的数据集（例如GDELT）只不过是包含大量非结构化文本的文件夹文件。在本章中，我们将描述一种创新的方式，以一种非监督的方式并且几乎实时地标记输入的GDELT数据。 ---这块内容，可用于数据治理

第10章，故事重复数据删除和变异，在本章中，我们将重复数据删除并将GDELT数据库索引到故事中，然后随着时间的推移跟踪故事并了解它们之间的联系，它们如何变异以及是否会导致任何后续事件。在不久的将来发生的事件。本章的核心是Simhash的概念，该概念使用随机索引来检测接近的重复项和构建向量以降低维数。

第11章，异常检测和情感分析，也许是2016年最显着的事件是紧张的美国总统选举及其最终结果：唐纳德·特朗普总统的选举，这一运动将长期被人们记住；尤其是因为它前所未有地使用了社交媒体，并激起了用户的热情，其中大多数人通过使用标签来表达自己的感受。在本章中，我们将尝试使用实时Twitter提要检测美国大选期间的异常推文，而不是尝试自行预测结果。

第12章，趋势微积分，早在“什么趋势”的概念成为数据科学家流行的研究主题之前，就有一个比较老的数据科学仍然无法很好地解决这个问题。这是趋势。当前，趋势分析（如果可以这样称呼）主要由人们“盯着”时间序列图并提供解释来进行。但是人们的眼睛在做什么？本章描述了Apache Spark中用于数字研究趋势的新算法的实现：TrendCalculus。

第13章，安全数据，我们访问了数据科学的许多领域，常常涉足传统上与数据科学家的核心工作知识无关的领域。在本章中，我们将访问另一个经常被忽视的领域，即安全数据；更具体地说，如何在数据生命周期的所有阶段保护您的数据和分析结果。本章的核心是为Spark构建商业级加密编解码器。

第14章，可扩展算法，在本章中，我们将了解为什么有时即使基本算法尽管规模较小，但在“大数据”中仍会经常失败。我们将看到在编写运行于海量数据集上的Spark作业时如何避免出现问题，并将了解算法的结构以及如何编写可扩展至PB级数据的自定义数据科学分析。本章主要介绍以下方面：并行化策略，缓存，混洗策略，垃圾回收优化和概率模型；解释这些如何帮助您充分利用Spark范例。

这本书需要什么

在本书中，Spark 2.0与Scala 2.11，Maven和Hadoop一起使用。这是所需的基本环境，在相关章节中介绍了许多其他使用的技术。

第1章大数据科学生态系统

作为数据科学家，您无疑会非常熟悉文件处理以及可能处理大量数据的工作。但是，您一定会同意的，除了对单一类型的数据进行简单分析之外，还需要一种组织和分类数据的方法，以便可以对其进行有效管理。确实，这是伟大的数据科学家的基石。随着数据量和复杂性的增加，一致成功的方法可能是广义成功与过度拟合失败之间的区别！

本章介绍了通过大规模数据获得成功的方法和生态系统。它专注于数据科学工具和技术。它介绍了环境以及如何进行适当配置，还说明了与整体数据体系结构有关的一些非功能性注意事项。尽管现阶段几乎没有实际的数据科学，但它提供了必不可少的平台，为本书其余部分的成功铺平了道路。

在本章中，我们将涵盖以下主题：
数据管理职责
数据架构
配套工具

引入大数据生态系统

数据管理特别重要，尤其是在数据不断变化的情况下；不断变化或定期生产和更新。在这些情况下，需要一种存储，构造和审核数据的方法，以允许对模型和结果进行连续处理和完善。在这里，我们描述了如何在一个足以满足日常需求的数据体系结构上下文中，最佳地保存和组织您的数据，以便与Apache Spark和相关工具集成。

数据管理

就中期而言，即使您只打算在家玩一点数据；那么，如果没有适当的数据管理，工作往往会升级到很容易失去对自己的位置的了解，并容易出错。花时间考虑数据的组织，尤其是数据的摄取，至关重要。没有比等待长时间运行的分析完成，整理结果并生成报告更糟糕的了，只是发现您使用了错误的数据版本，或者数据不完整，缺少字段，甚至更糟的是删除了结果！

坏消息是，尽管数据管理非常重要，但在商业和非商业企业中，数据管理始终是一个被忽视的领域，几乎没有现成的解决方案可供使用。好消息是，使用本章介绍的基本构建块来进行出色的数据科学要容易得多。

数据管理职责

当我们考虑数据时，很容易忽略我们需要考虑的领域的真实范围。实际上，大多数数据“新手”都是以这种方式考虑范围的：

1.获取数据
2.将数据放置在任何地方
3.使用数据
4.丢掉数据

实际上，还有许多其他考虑，确定将哪些考虑应用于给定工件是我们的共同责任。以下数据管理构建块有助于回答或跟踪有关数据的一些重要问题：

文件完整性
数据文件是否完整？
你怎么知道的？
它是一组的一部分吗？
数据文件是否正确？
它在运输过程中被篡改了吗？
数据的完整性
数据是否符合预期？
是否所有字段都存在？
是否有足够的元数据？
数据质量是否足够？
是否有数据漂移？
调度
数据定期发送吗？
数据多久到达一次？
数据是否按时收到？
您能证明收到数据的时间吗？
需要确认吗？
模式管理
数据是结构化还是非结构化？
数据应如何解释？
可以推断出架构吗？
数据是否随时间变化？
模式可以从以前的版本发展吗？
版本管理
数据的版本是什么？
版本正确吗？
您如何处理不同版本的数据？
您怎么知道您使用的是哪个版本？
安全
数据敏感吗？
它是否包含个人身份信息（PII）？
它是否包含个人健康信息（PHI）？
它是否包含支付卡信息（PCI）？
我应该如何保护数据？
谁有权读取/写入数据？
是否需要
匿名化/消毒/混淆/加密|anonymization/sanitization/obfuscation/encryption ？
处置方式
我们如何处理数据？
我们什么时候处理数据？

如果毕竟，您仍然不相信，那么在继续使用gawk和crontab命令编写bash脚本之前，请继续阅读，您将很快发现，有一种更快，更灵活，更安全的方法可以让您从小规模开始逐步建立商业级的摄取管道！

正确的工作工具

Apache Spark是可扩展数据处理的新兴事实标准。在撰写本书时，它是最活跃的Apache Software Foundation（ASF）项目，并且具有多种可用的配套工具。每天都有新的项目出现，其中许多功能重叠。因此，需要花一些时间来了解它们的作用并决定它们是否适合使用。不幸的是，没有快速的解决方法。通常，必须根据具体情况进行特定的权衡；很少有一种万能的解决方案。因此，鼓励读者探索可用的工具并明智地选择！

本书通篇介绍了各种技术，希望它们能为读者提供一些更有用和更实用的技术，使他们可以在自己的项目中开始使用它们。此外，我们希望证明，如果代码编写得当，即使决定被证明是错误的，也可以通过巧妙地使用应用程序接口（API）（或Spark Scala中的高阶函数）来交换技术。

整体架构
让我们从数据架构的高级介绍开始：它们的作用，为什么有用，何时使用以及Apache Spark的适用范围。

数据提取--->数据科学--->数据访问
--->数据湖

一般而言，现代数据体系结构具有四个基本特征：

数据提取

数据科学

数据湖

数据访问

现在让我们对其进行介绍，以便在后面的章节中进行更详细的介绍。

数据集成

传统上，数据是在严格的规则下提取的，并根据预定的方案进行格式化。此过程称为提取，转换，加载（ETL），并且仍然是非常普遍的做法，并得到大量商业工具和某些开源产品的支持。

解压------>变换----->加载
数据源->处理管道->结构化数据库

ETL方法倾向于执行预先检查，以确保数据质量和架构一致性，从而简化后续的在线分析处理。它特别适合处理具有特定特征集的数据，即与经典实体关系模型有关的特征。但是，它并不适合所有情况。

在大数据革命期间，对结构化，半结构化和非结构化数据的需求发生了隐喻性的爆炸，从而导致创建了处理具有不同特征集的数据所需的系统。这些由短语“ 4 Vs：体积，种类，速度和准确性”定义

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

尽管传统的ETL方法在这种新的负担下苦苦挣扎，因为它们仅仅需要太多的时间来处理大量数据，或者在更改时过于僵化，因此出现了另一种方法。输入读取架构范例。在这里，数据以其原始形式（或至少非常接近）被摄取，并且标准化，验证等细节在分析处理时完成。

尽管我们在这里仅提供高层次的概述，但是这种方法非常重要，以至于在整本书中，我们将通过实现各种读时模式算法来进一步探索。我们将假设采用ELT方法进行数据提取，也就是说，我们鼓励用户方便地加载数据。这可能是每n分钟，隔夜或使用率较低时。然后，可以再次由用户决定是否通过脱机运行批处理作业来检查数据的完整性，质量等。

数据湖
数据湖是方便，无所不在的数据存储。它很有用，因为它具有许多主要优点，主要是：
可靠的存储
可扩展的数据处理能力
让我们简要地看一下每个。

可靠的储存
数据湖的基础存储实现有很多选择，其中包括Hadoop分布式文件系统（HDFS），MapR-FS和Amazon AWS S3。

在整本书中，HDFS将作为假定的存储实现。同样，在本书中，作者使用了分布式Spark设置，该设置部署在Hortonworks HDP环境中运行的另一个资源协商器（YARN）上。因此，除非另有说明，否则HDFS是所使用的技术。如果您不熟悉这些技术中的任何一种，将在本章中进一步讨论它们。无论如何，值得一提的是，Spark会本地引用HDFS位置，通过前缀file：//访问本地文件位置，并通过前缀s3a：//引用S3位置。

可扩展的数据处理能力
显然，Apache Spark将成为我们选择的数据处理平台。另外，您可能还记得，Spark通过配置适当的集群管理器，允许用户在其首选的环境（本地，独立，YARN或Mesos）中执行代码；在masterURL中。顺便说一句，可以在以下三个位置之一进行此操作：

在发出spark-submit命令时使用--master选项添加spark。

conf / spark-defaults中的master属性。

conf文件在SparkConf对象上调用setMaster方法

如果您不熟悉HDFS，或者您没有访问集群的权限，则可以使用本地文件系统运行本地Spark实例，这对于测试非常有用。但是，请注意，通常只有在群集上执行时才会出现不良行为。因此，如果您认真对待Spark，那么值得在分布式集群管理器中进行投资，为什么不尝试使用Spark独立集群模式或Amazon AWS EMR？例如，亚马逊提供了许多可负担的云计算途径，您可以在以下位置探索竞价型实例的想法：

https://aws.amazon.com/cn/ec2/spot/

数据科学平台

数据科学平台提供的服务和API使有效的数据科学得以发生，包括探索性数据分析，机器学习模型的创建和完善，图像和音频处理，自然语言处理以及文本情感分析。

这是Spark真正擅长的领域，并形成了本书其余部分的主要重点，它利用了一套强大的本地机器学习库，无与伦比的并行图处理能力和强大的社区。 Spark为数据科学提供了真正可扩展的机会。

其余各章将提供对这些领域中每个领域的见解，包括第6章，基于链接的外部数据报废，第7章，建立社区，第8章，建立推荐系统。

资料存取

数据工程师和科学家通常使用Hadoop生态系统工具（例如Apache Spark，Pig，Hive，Impala或Drill）访问数据湖中的数据。但是，有时其他用户甚至其他系统需要访问数据，而普通工具过于技术性或无法满足用户对现实世界的延迟方面的苛刻期望。
在这些情况下，通常需要将数据复制到数据集市或索引存储中，以便可以将其暴露于更传统的方法中，例如报表或仪表板。此过程通常涉及为低延迟访问创建索引和重组数据，这一过程称为数据出口。
幸运的是，Apache Spark在传统数据库，BI工具以及可视化和报告软件中具有各种各样的适配器和连接器。其中许多内容将在整本书中进行介绍。

数据技术

Hadoop刚开始时，Hadoop一词指的是HDFS和MapReduce处理范例的结合，因为这是原始论文http://research.google.com/archive/mapreduce.html的概述。从那时起，出现了许多技术来补充Hadoop，并且随着Apache YARN的发展，我们现在看到了诸如Spark之类的其他处理范例。
Hadoop现在经常被用作整个大数据软件堆栈的通俗易懂的语言，因此在此点上为本书定义该堆栈的范围是谨慎的。我们将在整本书中介绍的典型数据架构以及多种技术将详细介绍如下：

这些技术之间的关系是一个密集的话题，因为它们之间存在复杂的相互依赖性，例如，Spark依赖于GeoMesa，后者依赖于Accumulo，而后者依赖于Zookeeper和HDFS！因此，为了管理这些关系，有可用的平台，例如Cloudera或Hortonworks HDP http://hortonworks.com/products/sandbox/。这些提供了整合的用户界面和集中式配置。平台的选择是读者的选择，但是，不建议先安装一些技术然后再移至托管平台，因为遇到的版本问题将非常复杂。因此，通常更容易从一台清洁的机器开始，并事先做出决定。

我们在本书中使用的所有软件都是平台无关的，因此适合于前面描述的通用体系结构。它可以独立安装，并且在不使用被管理产品的情况下与单个或多个服务器环境一起使用相对简单。

Apache Spark的作用

在许多方面，Apache Spark是将这些组件结合在一起的粘合剂。它越来越代表着软件堆栈的中心。它与各种组件集成在一起，但是没有一个是硬接线的。实际上，甚至底层存储机制也可以换出。将此功能与利用不同处理框架的能力相结合，意味着原始Hadoop技术可以有效地成为组件，而不是强加于人的框架。我们的架构的逻辑图如下所示：

随着Spark的发展势头和广泛的行业接受度，针对各种组件的许多原始Hadoop实现已为Spark重构。因此，为了增加图片的复杂性，通常有几种可能的方式以编程方式利用任何特定组件。尤其是命令式和声明式版本，取决于是否已从原始Hadoop Java实现中移植了API。在其余各章中，我们尝试尽可能地遵循Spark精神。

配套工具

既然我们已经建立了要使用的技术堆栈，让我们描述每个组件并解释为什么它们在Spark环境中有用。本书的这一部分旨在作为参考，而不是直接阅读。如果您熟悉大多数技术，则可以刷新知识并继续进行下一部分第2章，数据获取。

Apache HDFS

Hadoop分布式文件系统（HDFS）是具有内置冗余的分布式文件系统。它经过优化，默认情况下可以在三个或更多节点上工作（尽管一个节点可以正常工作并且可以增加限制），从而可以将数据存储在复制的块中。因此，不仅文件被分成多个块，而且在任何时候都存在这些块的三个副本。这巧妙地提供了数据冗余（如果一个丢失，则仍然存在另外两个），但也提供了数据局部性。当针对HDFS运行分布式作业时，系统不仅将尝试收集为该作业输入数据所需的所有块，而且还将尝试仅使用物理上与运行该作业的服务器接近的块。因此，它可以仅使用其本地存储中的块或靠近其自身的节点上的块来减少网络带宽。实际上，这是通过将HDFS物理磁盘分配给节点以及将节点分配给机架来实现的。块以节点本地，机架本地和群集本地方法编写。所有
HDFS的指令通过名为NameNode的中央服务器传递，因此这提供了可能的中央故障点；提供NameNode冗余的方法有很多种。

此外，在多租户HDFS场景中，其中许多进程同时访问同一文件，也可以通过使用多个块来实现负载平衡。例如，如果一个文件占用一个块，则该块将被复制3次，因此有可能可以同时从三个不同的物理位置读取。尽管这看起来似乎不是一个大的胜利，但在成百上千个节点的群集上，网络IO通常是运行作业的唯一最大限制因素–作者当然在数千个必须执行作业的节点群集上经历了很多时间完全由于网络带宽已耗尽，这是由于其他大量线程需要数据而导致的等待时间的增加。

如果您正在运行笔记本电脑，要求将数据存储在本地或希望使用已经拥有的硬件，那么HDFS是一个不错的选择。

好处
以下是使用HDFS的优点：
冗余：可配置的块复制可容忍节点和磁盘故障
负载平衡：块复制意味着可以从不同的物理位置访问相同的数据
数据局部性：分析尝试访问最接近的相关物理块，从而减少网络IO。
数据平衡：当数据块变得过于群集或碎片化时，可以使用一种算法来重新平衡它们。
灵活的存储：如果需要更多空间，则可以添加更多磁盘和节点；尽管这不是一个热门过程，但是群集将需要中断才能添加这些资源
额外费用：不涉及第三方费用数据加密：隐式加密（打开时）

缺点
缺点如下：
NameNode提供了一个中心故障点。为减轻这种情况，提供了辅助和高可用性选项

群集需要基本管理，并且可能需要一些硬件工作

安装
要使用HDFS，我们应该决定是以本地，伪分布式还是完全分布式的方式运行Hadoop。对于单个服务器，伪分布式很有用，因为分析应直接从该计算机转换为任何Hadoop群集。无论如何，我们应该至少使用以下组件来安装Hadoop：
Namenode
Secondary NameNode（或HA NameNode）
datanode

Hadoop可以通过以下方式安装
http://hadoop.apache.org/releases.html。

Spark需要知道Hadoop配置的位置，尤其是以下文件：hdfs-site.xml，core-site.xml。然后在Spark配置中的配置参数HADOOP_CONF_DIR中进行设置。

HDFS将在本地可用，因此文件hdfs：// user / local / dir / text。只需使用/ user / local / dir / text即可在Spark中寻址txt。文本。

亚马逊S3
S3提取了与并行性，存储限制和安全性有关的所有问题，从而允许以非常小的成本进行非常大的并行读/写操作以及出色的服务水平协议（SLA）。如果您需要快速启动并运行，不能在本地存储数据或不知道将来的存储需求是什么，这是完美的选择。应该认识到s3n和S3a使用对象存储模型，而不是文件存储，因此存在一些折衷：

最终的一致性是一个应用程序所做的更改（创建，更新和删除），直到一些未定义的时间才可见，尽管大多数AWS区域现在都支持写后读一致性。
s3n和s3a使用非原子重命名和删除操作；因此，重命名或删除大目录所花费的时间与条目数成正比。但是，在此期间，甚至在解决了最终的一致性之前，目标文件对于其他进程仍然可以看到。

可以通过命令行工具（s3cmd）通过网页和大多数流行语言的API访问S3；它通过基本配置与Hadoop和Spark进行了本地集成。

好处
优点如下：
无限的存储容量
没有硬件考虑
可用加密（用户存储的密钥）
99.9％的可用性
冗余
缺点
缺点如下：
存储和传输数据的成本
没有数据位置
最终一致性
相对较高的延迟

spark. hadoop. fs. s3a. impl=org. apache. hadoop. fs. s3a. S3AFileSystem
spark. hadoop. fs. s3a. access. key=MyAccessKeyID
spark. hadoop. fs. s3a. secret. key=MySecretKey

如果使用HDP，您可能还需要：

apache kafka
Apache Kafka是用Scala编写的分布式消息代理，可以在Apache Software Foundation许可下使用。该项目旨在提供一个统一的，高吞吐量，低延迟的平台来处理实时数据馈送。结果实质上是一个可大规模扩展的发布-订阅消息队列，这使其对于企业基础结构处理流数据非常有价值。

好处
优点如下：
发布-订阅消息
容错的
保证交货
重播失败消息
高度可扩展的无共享架构
支持背压
低延迟
良好的Spark流集成
客户易于实施
缺点
缺点如下：
至少一次语义-无法提供完全一次的消息传递
缺乏交易经理（到目前为止）
需要Zookeeper才能操作

安装
由于Kafka是发布订阅工具，其目的是管理消息（发布者）并将其定向到相关的端点（订阅者）。这是使用代理完成的，该代理是在实施Kafka时安装的。您可以通过Hortonworks HDP平台获得Kafka，也可以从此链接http://kafka.apache.org/downloads.html单独安装Kafka。
Kafka使用Zookeeper来管理领导者选举（因为可以分发Kafka从而允许冗余），因此可以使用前面链接中的快速入门指南来设置单个节点Zookeeper实例，还可以提供客户端和使用者进行发布和发布。订阅主题，这些主题提供了消息处理的机制。

Apache Parquet
自从Hadoop诞生以来，基于列的格式（而不是基于行的格式）的想法已获得越来越多的支持。开发Parquet是为了利用压缩的，高效的柱状数据表示形式，并且在设计时考虑了复杂的嵌套数据结构；发挥Apache Dremel论文http://research.google.com/pubs/pub36632.html中讨论的算法的领导作用。 Parquet允许在每个列的级别上指定压缩方案，并且经过验证，可在实施时添加更多编码。它还被设计为在整个Hadoop生态系统中提供兼容性，并且像Avro一样，将数据模式与数据本身一起存储。

好处
优点如下：
柱状存储
高效存储
每列压缩
支持谓词下推
支持列修剪
与其他格式兼容，例如Avro
读取效率高，专为部分数据检索而设计
缺点
缺点如下：
不利于随机访问
潜在的计算密集型写入
安装
Parquet在Spark中本地可用，可以访问
直接如下：

Apache Avro
Apache Avro是最初为Hadoop开发的数据序列化框架。它使用JSON定义数据类型和协议（尽管有替代IDL），并以紧凑的二进制格式序列化数据。 Avro提供了用于持久数据的序列化格式和用于Hadoop节点之间以及从客户端程序到Hadoop服务的通信的有线格式。另一个有用的功能是它可以与数据本身一起存储数据模式，因此始终可以读取任何Avro文件，而无需引用外部源。此外，Avro支持架构演变，因此可在使用较新架构版本读取的使用较旧架构版本编写的Avro文件之间向后兼容。

因为我们在此使用Scala，Spark和Maven环境
本书中，可以将Avro导入如下：


org. apache. avro
avro
1. 7. 7

然后，需要创建一个架构并生成Scala代码以使用该架构将数据写入Avro。第3章，输入格式和架构中对此进行了详细说明。

Apache NiFi
Apache NiFi起源于美国国家安全局（NSA），在其于2014年作为其技术转让计划的一部分发布给开源。通过NiFi，您可以在一个简单的用户界面中生成可伸缩的有向图，以进行数据路由和转换。它还支持数据出处，广泛的预构建处理器以及快速高效构建新处理器的能力。它具有优先级，可调节的传送公差和背压功能，使用户可以针对特定要求调整处理器和管道，甚至允许在运行时修改流量。所有这些加在一起构成了一个非常灵活的工具，可以构建从一次性文件下载数据流到企业级ETL管道的所有内容。通常，使用NiFi建立管道和下载文件比编写快速的bash脚本要快得多，添加用于此目的的功能丰富的处理器，这非常引人注目

好处
优点如下：
广泛的处理器
轮辐架构
图形用户界面（GUI）
可扩展
简化并行处理
简化线程处理
允许运行时修改
集群冗余
缺点
缺点如下：
没有跨领域的错误处理程序
表达语言仅部分实现
流文件版本管理不足

安装
Apache NiFi可以随Hortonworks一起安装，称为Hortonworks Dataflow。也可以从Apache https://nifi.apache.org/单独安装。第2章“数据获取”中介绍了NiFi。

YARN是Hadoop 2.0的主要组件，从本质上讲，它允许Hadoop插入处理范例，而不仅限于原始MapReduce。 YARN由三个主要组件组成 the resource manager, node manager, and application manager.。进入YARN超出了本书的范围；主要要了解的是，如果我们正在运行Hadoop集群，那么可以在客户端模式下使用YARN执行我们的Spark作业，如下所示：

spark-submit --class package. Class /
--master yarn /
--deploy-mode client [options]  [app options]

好处
优点如下：
支持Spark
支持优先安排
支持数据局部性
工作历史档案
HDP开箱即用
缺点
缺点如下：
没有CPU资源控制
不支持数据沿袭

安装
YARN是作为Hadoop的一部分安装的；这可能是
Hortonworks HDP，Apache Hadoop或其他之一
供应商。无论如何，我们都应至少在Hadoop上安装
以下组件：
资源管理器
NodeManager（1个或更多）
为了确保Spark可以使用YARN，它只需要知道
纱线现场的位置。 xml，使用
Spark配置中的YARN_CONF_DIR参数。

阿帕奇·卢森（Apache Lucene）
Lucene是最初使用Java构建的索引和搜索库工具，但现在已移植到其他几种语言，包括Python。 Lucene当时产生了许多子项目，包括Mahout，Nutch和Tika。这些现在已经成为顶级Apache项目，而Solr最近又作为子项目加入了。 Lucene具有全面的功能，但是以其在问答搜索引擎和信息检索系统中的使用而闻名。
好处
优点如下：
高效的全文本搜索
可扩展
多语言支持
出色的开箱即用功能
缺点
缺点是数据库通常更适合
关系操作。
安装
Lucene可以从https://lucene.apache.org/下载，如果
您希望了解更多信息并直接与图书馆互动。
使用Lucene时，我们实际上只需要包含Lucene-
core- <版本>。我们项目中的jar。例如，当
使用Maven：


org. apache. lucene
lucene-core
6. 1. 0

Kibana
Kibana是一个分析和可视化平台，还提供图表和流数据汇总。它使用Elasticsearch为其数据源（反过来使用Lucene），因此可以大规模利用非常强大的搜索和索引功能。 Kibana可用于以多种不同方式可视化数据，包括条形图，直方图和地图。在本章结束时，我们已经简要提到过Kibana，它将在本书中广泛使用。

好处
优点如下：
大规模可视化数据
直观的界面可快速开发仪表板
缺点
缺点如下：
仅与Elasticsearch集成
Kibana版本与特定的Elasticsearch版本相关
安装
由于Kibana具有自己的Web服务器，因此可以轻松地作为独立组件安装。可以从https://www.elastic.co/downloads/kibana下载。由于Kibana需要Elasticsearch，因此也需要安装它。有关更多信息，请参见前面的链接。 Kibana配置在config / kibana中处理。 yml，如果您安装了独立版本的Elasticsearch，则无需进行任何更改，它将立即可用！

弹性搜索
Elasticsearch是基于Lucene的基于Web的搜索引擎（请参见前面）。它提供了具有多租户功能的分布式全文搜索引擎，其中包含无模式的JSON文档。它是用Java内置的，但由于其HTTP Web界面，因此可以从任何语言中使用。这对于通过网页显示的交易和/或数据密集型指令特别有用。
优点如下：
分散式
无架构
HTTP接口
缺点
缺点如下
无法执行分布式交易
缺少前端工具
安装
可以从https://www.elastic.co/downloads/elasticsearch安装Elasticsearch。为了提供对Rest API的访问，我们可以导入Maven依赖项：


org. elasticsearch
elasticsearch-spark_2. 10
2. 2. 0-m1

还有一个很棒的工具可以帮助管理Elasticsearch内容。通过https://chrome.google.com/webstore/category/extensions搜索Chrome扩展程序Sense。用
进一步的解释可以在以下网址找到：https：//www.elastic.co/blog/found-sense-a-cool-json-aware-interface-to-elasticsearch。另外，也可以在https://www.elastic.co/guide/zh/sense/current/installing.html上将其用于Kibana。

Accumulo
Accumulo是基于Google Bigtable设计的非SQL数据库，最初由美国国家安全局开发，随后于2011年发布到Apache社区。Accumulo为我们提供了通常的大数据优势，例如批量加载和并行读取，但具有一些附加功能；迭代器，用于高效的服务器和客户端的预计算，数据聚合以及最重要的是单元级安全性。 Accumulo的安全性方面使其对于企业使用非常有用，因为它在多租户环境中实现了灵活的安全性。 Accumulo由与Apache Kafka相同的方式由Apache Zookeeper提供支持，并且还利用Apache Thrift https://thrift.apache.org/来启用跨语言远程过程调用（RPC）功能。

好处
优点如下：
Google Bigtable的纯实施
单元级安全
可扩展
冗余
提供用于服务器端计算的迭代器
缺点
缺点如下：
Zookeeper在DevOps中并不普遍流行
批量关系操作并非始终是最有效的选择

安装
Accumulo可以作为Hortonworks HDP版本的一部分安装，也可以作为独立实例从https://accumulo.apache.org/安装。然后，在编写本文时，应使用安装文档配置实例。
https://accumulo.apache.org/1.7/accumulo_user_manual#_installation。
在第7章中，我们将演示Accumulo与Spark的结合使用以及一些更高级的功能，例如迭代器和InputFormats。我们还将展示如何在Elasticsearch和Accumulo之间使用数据。

在本章中，我们介绍了数据体系结构的概念，并说明了如何将职责分组为有助于在整个生命周期中管理数据的功能。我们解释说，所有数据处理都需要一定程度的尽职调查，无论这是由公司规则强制执行还是由其他方式强制执行，否则，分析及其结果可能很快失效。在确定了数据架构的范围之后，我们逐步了解了各个组件及其各自的优缺点，并解释说，我们的选择基于集体经验。确实，在选择组件时总是有选择的余地，在做出任何承诺之前，应始终仔细考虑其各个特征。在下一章中，我们将更深入地研究如何获取和捕获数据。我们将就如何将数据引入平台提出建议，并讨论与通过管道处理和处理数据有关的方面。

你可能感兴趣的:(scala,spark,基础平台,大数据)

如何合理拆分微服务微服务
**在微服务架构中，要想做到合理拆分，需要重点关注：服务边界划分、业务耦合度控制、数据隔离策略、服务自治能力、团队组织协调。它们共同决定了微服务架构的灵活度与可维护性，其中，服务边界划分是最基础且最关键的一步。它要求我们从业务领域出发，将高度聚合、密切相关的功能抽离成单独服务，避免粗放的“大而全”式切分。在实际落地时，应当以业务语义、数据交互频率等为出发点，力求服务粒度既不会过细导致管理成本飙升，
C# WPF 基础知识学习(一) 埃菲尔铁塔_CV算法 c#wpf 学习人工智能图像处理计算机视觉
一、WPF简介WindowsPresentationFoundation（WPF）是微软推出的一款用于构建用户界面的框架，它为开发Windows桌面应用程序提供了统一的编程模型、语言和框架。WPF将用户界面的设计与业务逻辑分离开来，采用了XAML（可扩展应用程序标记语言）来描述界面元素，使得界面设计更加直观和灵活。与传统的WindowsForms相比，WPF在图形渲染、动画效果、数据绑定等方面具有
密码学：网络安全的基石与未来安全
在数字化时代，网络安全已成为全球关注的焦点。无论是个人隐私的保护，还是国家关键基础设施的安全，都离不开密码学这一核心技术。密码学不仅是信息安全的基石，更是现代社会中数据保密性、完整性和可用性的守护者。本文将从密码学的基本原理出发，结合最新技术发展，探讨其在网络安全中的核心作用。一、密码学的基本原理密码学的核心目标是通过数学方法保护信息的机密性、完整性和真实性。它主要分为两大领域：对称加密和非对称加
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
【MySQL基础-3】SQL语言详解：定义、分类、注意事项与注释 AllenBright #MySQL mysql sql
SQL（StructuredQueryLanguage，结构化查询语言）是用于管理和操作关系型数据库的标准编程语言。无论是查询数据、插入新记录、更新数据还是删除数据，SQL都是与数据库交互的核心工具。本文将深入探讨SQL语言的定义、分类、注意事项以及注释的使用，帮助你全面掌握这一强大的数据库操作语言。1.什么是SQL语言？SQL是一种专门用于管理关系型数据库的编程语言。它允许用户执行以下操作：查询
最近较火的RunnerGo 与Jmeter优劣势分析
最近有一款较火的测试产品RunnerGo，它是一个基于go语言研发的开源测试平台。在这里我想从性能测试方面、结构方面以及功能方面对比两款产品。性能方面：Runner基于go语言研发，相对于jmeter来说更轻量级。所以性能测试方面RunnerGo应该是优于jmeter的这里我做了个压测对比，真实对比一下：一条使用查看新闻的场景：六个接口，使用并发模式，20的并发，执行10分钟。相同的配置下进行压测
tksheet：强大的Python Tkinter表格组件江连日Silver
tksheet：强大的PythonTkinter表格组件tksheetPython3.6+tkintertablewidgetfordisplayingtabulardata项目地址:https://gitcode.com/gh_mirrors/tk/tksheet项目基础介绍与编程语言tksheet是一个基于Python的Tkinter库开发的高性能表格控件，专为展示和编辑大量的tabular数
外包项目的三大来源渠道及注意事项后端
外包项目的三大来源渠道及注意事项在上一篇文章中，我们介绍了什么是外包以及外包的基本模式。今天，让我们深入探讨外包项目的主要来源渠道及其特点。一、朋友渠道特点：关系基础公司小伙伴推荐熟人介绍客户邀请合作优势：信任度高沟通成本低合作较为顺畅风险提示：避免因私人关系影响专业判断需要明确划分公私界限保持适当的业务距离二、家人渠道特点：亲朋帮忙情感因素强责任感较重注意事项：优势信任度最高沟通零障碍合作意愿强
为什么程序员需要学习数字电路 Vitalia 理论基础程序人生学习开发语言数字电路
在编程的世界里，我们通常关注的是算法、数据结构、框架和设计模式等软件层面的知识。然而，数字电路作为计算机硬件的核心基础，对程序员来说同样重要。掌握数字电路不仅能帮助我们更好地理解计算机的底层原理，还能在实际开发中解决一些棘手的问题。本文将通过理论和实例，探讨程序员学习数字电路的必要性。1.数字电路与计算机的关系计算机的核心是中央处理器（CPU），而CPU的本质是由大量的数字电路组成的。数字电路通过
20道超经典的自动化测试面试题软件测试雪儿软件测试面试软件测试面试
担心面试的时候被问到自动化测试？嗯，你担心的没错！确实会被经常问到！现在应聘软件测试工程师的岗位，几乎所有的公司都要求会自动化测试！那么，在面试的时候哪些问题会被面试官经常问到？哪些问题是面试官真正关心的？下面通过20道经典自动化测试面试题。让你能够在面试的时候轻松应对，也让你在学习自动化测试的时候明白应该关注哪些内容，而不仅仅只是会调用接口模拟输入和点击操作！基础题1、web自动化时，定位元素的
养生鲜知酒世界语意合™ 花间流风琴语言学习编程实战100讲几何学情感分析矩阵
养生鲜知酒世界语意合™介绍世界语意合™：无极养生鲜知酒™低代码爬虫插件生成平台，一切人文美篇都含共同的特点：鲜醇如酒，回味悠长，水不在深有龙则灵，山不在高有仙则灵，吐纳健身，诵致养生，气质达人，和气生财，平易近人，和悦泛函，慧极必伤，情深不寿，阳明心学，温文如玉，谦谦君子，神童晏殊启智音律宝典。琴生生物机械科技工业研究所国医学院医疗力量中心。云藏山鹰社会科学概论报告天下才气共一斗，云藏山鹰独占八分
java实现腾讯短信云平台发送短信 AAAhxz001 java
1.首先在腾讯云控制台建立一个应用，（腾讯有活动，免费的一百条短信）我这里取名“随机”点击“随机”进入2.点击进入后可以看到相关信息，密码和AppID3.这是具体代码实现类publicclassTextDemo{publicstaticvoidmain(String[]args){execute();}privatestaticStringoperation="/industrySMS/sendS
自动化游戏测试揭秘：如何解放双手，高效提升游戏质量？软件测试自动化游戏
引言随着游戏行业的快速发展，游戏测试的重要性日益凸显。从传统的手动测试到如今的自动化测试，测试方法不断演进，以适应日益复杂的游戏场景。面对多平台、多设备的兼容性挑战，以及大量的游戏逻辑、UI、网络、多玩家交互等测试需求，如何通过自动化手段高效保证游戏质量？本文将深入探讨自动化游戏测试的关键技术、工具及实践策略。一、为什么需要自动化游戏测试？相比传统的手动测试，自动化游戏测试能在以下方面带来巨大优势
热修复框架Tinker与Robust原理剖析 Ya-Jun android
热修复框架Tinker与Robust原理剖析一、热修复技术概述1.1什么是热修复热修复（HotFix）是Android平台上的一种动态修复机制，它允许应用在不重新发布版本的情况下，动态修复线上bug。这种技术对于快速修复线上问题、降低用户流失率具有重要意义。1.2热修复的应用场景紧急bug修复功能动态更新A/B测试动态功能控制1.3主流热修复方案对比方案优点缺点适用场景Tinker支持全量更新、性
腾讯云发送短信验证码 pmsyn 腾讯云云计算短信验证码
1、在腾讯云平台中开通短信服务2、发送短信2.1引用jar包com.tencentcloudapitencentcloud-sdk-java-sms3.1.10432.2发送短信内容：publicSendResultsend(SMDatadata)throwsException{SendResultsendResult=newSendResult();try{//实例化一个认证对象，入参需要传入腾
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
【QT教程】QT6硬件数据库编程 QT硬件数据库 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 c++QT教程
QT6硬件数据库编程使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QT6硬件数据库编程基础1.1QT6数据库引擎概述1.1.1QT6数据库引擎概述
深度解析AI智能助手系统架构：数据接入到平台管理的全景指南 AI大模型-搬运工人工智能系统架构大语言模型深度学习自然语言处理 AI智能助手大模型
在数字化转型的大潮中，AI智能助手在帮助企业优化运营、提高决策效率、增强用户体验方面发挥着不可替代的作用。本篇文章将带您深入了解一个典型的AI智能助手系统架构，并提供每个模块的具体实现方案，包括数据接入、模型配置、平台管理等核心模块，帮助企业更好地构建智能化业务流程。一、AI智能助手的核心功能及实现方案AI智能助手的核心功能包括自然语言问答、图表可视化、多维钻取、导出与收藏、需求理解与过程验证、用
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
Flutter 常用组件大全笔沫拾光 flutter
Flutter常用组件大全Flutter提供了丰富的组件来构建UI，以下是常见的组件，按功能类别分类。1️⃣基础布局组件组件作用示例Container盒子容器，支持装饰、边距、大小Container(width:100,height:100,color:Colors.red)Padding内边距Padding(padding:EdgeInsets.all(10),child:Text("Hello
树莓科技集团董事长：第五代产业园运营模式的深度剖析与展望树莓集团科技人工智能百度物联网大数据
第五代产业园运营模式，以创新为核心驱动，强调数字化、网络化和资源整合。树莓科技集团在这一领域具有代表性，其运营模式值得深入剖析。核心特征数字化转型：第五代产业园高度重视数字化技术的应用，通过构建数字化平台，实现园区内企业、资源、信息的互联互通。并网化运营：树莓集团在全国28个省市布局产业园，形成网络化运营，促进资源共享和协同发展。全产业链整合：充分发挥全产业链资源整合优势，为入园企业提供全方位服务
python的一些基础知识学习勇敢一点♂ python 学习
列表（list）和元组（tuple）列表和元组，都是一个可以放置任意数据类型的有序集合，比如里面可以同时包含int和string类型都是有序的列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素。元组是静态的，长度大小固定，无法增加删减或者改变常规操作关于赋值，list可以很轻松的根据索引赋值，但是tuple不可以listA=[1,2,3,4]listA[3]=10print(listA
《Web 应用项目开发》课程心得体会：从理论到实战，开启 Web 开发新征程 m0_74824091 前端
在信息技术飞速发展的当下，Web应用已然渗透到生活的方方面面，从日常网购、社交娱乐，到在线办公、学习平台，无一不是Web应用的成果。怀着对互联网技术的热忱与憧憬，我踏入了《Web应用项目开发》这门课程，历经数月的沉浸式学习与实践，收获远超预期，犹如经历一场脱胎换骨的蜕变，以下便是我在这门课程中的全面心得体会。夯实基础：Web技术初相识课程伊始，仿若踏入一片未知的技术丛林，HTML、CSS和Java
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
2025.3.14python-基础语法总结（容器） De_Yh python 开发语言
一、列表（List）文档描述：可变序列，支持增删改查元素可以是任意类型支持索引、切片、拼接、重复等操作核心操作：python#创建与修改L=[1,2,3]L.append(4)#尾部添加L.insert(1,"a")#插入元素L.extend([5,6])#合并列表L[0]="changed"#直接修改delL[1]#删除元素文档强调特性：有序（依赖索引访问）支持重复元素内存连续存储（适合高频修改
# Java开发环境配置指南：JDK环境变量详细设置小蛋6g java 开发语言
Java开发环境的搭建是每位初学者的必经之路，而正确配置环境变量是保证开发工具正常运行的关键。本文将详细介绍Windows系统下JDK环境变量的配置方法，帮助新手快速完成基础设置。---一、准备工作1.已成功安装JDK（推荐JDK8或11等LTS版本）2.确认JDK安装路径（默认路径示例：`C:\ProgramFiles\Java\jdk-20.0.1`）>提示：安装时建议自定义路径避免空格和中文
Web 开发的“三件套” zhangpeng455547940 Web开发 react native react.js javascript
HTML：定义内容结构。CSS：控制样式布局。JavaScript：实现动态行为和复杂逻辑。JavaScript应用场景前端开发：操作DOM、处理用户事件、实现动画等。后端开发：通过Node.js构建服务器端应用。跨平台开发：Electron（桌面应用）、ReactNative（移动端）等。
HMML——3D AI Coding的基础语言 AIGC5D-Longan 人工智能
编程语言（如Python、Java、C++等），作为2D编程的语言，也是AI开发的主力工具。2D编程语言内容呈现和交互，与3D世界、物理世界的高维复杂性之间的割裂日益凸显。HMML（超多元空间标记语言HyperMultspaceMarkupLanguage），是新的3D编程语言，也是3DAICoding的基础语言。3DAICoding的诞生，标志编程语言首次实现与人类多维认知的深度对齐。通过HMM
HR SaaS平台排行榜：细数2025年中国最具商业价值的十大HR SaaS平台 weixin_54980836 大数据人工智能
在当今竞争激烈且瞬息万变的商业环境中，企业数字化转型已不再是可选项，而是生存与发展的必经之路。人力资源管理作为企业运营的核心支柱之一，正经历着前所未有的深刻变革。传统的HR管理模式已逐渐暴露出效率低下、数据整合困难、决策支持不足等问题，难以满足现代企业对精准、高效、智能人力资源管理的需求。在此背景下，HRSaaS系统应运而生，成为企业优化薪酬管理、提升人力资源效率、实现数字化转型的关键工具。本文将
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p