cuyi7076

IBM InfoSphere Guardium的大数据安全性和审计

总览

大数据嗡嗡声一直集中在支持极端容量，速度和多样性的基础架构上，以及该基础架构支持的实时分析功能。即使像Hadoop这样的大数据环境相对较新，事实也是如此，大数据环境中的数据安全问题对于预先解决至关重要。在有数据的地方，有可能发生隐私泄露，未经授权的访问或特权用户的不当访问。

V9.0 GPU 50 for Hadoop的新增功能是什么？

其实很多！借助最新的GPU，InfoSphere Guardium已将其支持扩展到更多基于Hadoop的系统：

Hortonworks数据平台1.2
Greenplum HD 1.2

该补丁程序还支持更高版本的InfoSphere BigInsights（2.1）和Cloudera Hadoop。请注意，BigInsights 2.1和更高版本中的Guardium代理包括对监视HBase事件的支持。有关这些平台对InfoSphere Guardium支持的更多信息，请参阅“ 相关主题”部分中描述的数据表。

应在大数据环境和更传统的数据管理体系结构中强制执行合规性要求，并且没有借口削弱技术的安全性只是因为该技术是日新月异且在不断发展。实际上，随着大数据环境吸收更多数据，组织将面临保存数据的存储库的重大风险和威胁。

如果您负责组织的数据安全，则可能需要回答以下问题：

谁在运行特定的大数据请求？他们正在运行哪些map-reduce作业？他们是要下载所有敏感数据，还是为了了解您的客户而进行的常规营销查询？
是否存在异常数量的文件权限异常，可能是由黑客通过算法尝试获取敏感数据而引起的？
这些作业是否是访问数据的授权程序列表的一部分？还是开发了一些您以前不知道的新应用程序？

您需要的是能够将大数据应用程序和分析集成到现有的数据安全基础结构中，而不是依赖于本地编写的脚本和监视器，因为这些脚本和监视器可能会很费力，容易出错并且容易被滥用。

本文探讨了如何扩展IBM InfoSphere Guardium V9（一种全面的数据活动监视和遵从性解决方案），以包括针对Hadoop生态系统的访问监视和报告。

尽管本文概述了InfoSphere Guardium，但并未介绍如何安装和配置InfoSphere Guardium Collector。它将描述如何配置InfoSphere Guardium来监视受支持的Hadoop活动，并将其发送到InfoSphere Guardium Collector，以供安全分析师进行报告。您将看到包含开箱即用报告的示例，以帮助您快速入门。

简而言之，InfoSphere Guardium

IBM InfoSphere Guardium解决方案通过轻量级软件探针连续监视数据库事务，如图1所示。

图1. InfoSphere Guardium数据活动监视

这些探针（在软件窃听中称为S-TAP）在操作系统内核级别监视所有数据库事务，包括特权用户的事务，而无需依赖数据库审核日志，从而确保职责分离。 S-TAP也不需要对数据库或其应用程序进行任何更改。

探针将事务转发到网络上的强化收集器（设备），在此将它们与先前定义的策略进行比较以检测违规情况。系统可以响应各种基于策略的操作，包括生成警报。

InfoSphere Guardium支持各种各样的部署，以支持非常大的且地理分布的基础架构。由于本文勉强介绍了InfoSphere Guardium的功能，因此您可以查看“ 相关主题”部分，以获取有关InfoSphere Guardium功能的更多信息的链接。请注意，并非所有功能都可用于所有数据源。

使用InfoSphere Guardium进行Hadoop监视的好处

通过提供有针对性的，可操作的信息，使用InfoSphere Guardium可以大大简化您的审计准备路径。您可以想象，如果您当前的Hadoop审计准备计划是基于压缩日志数据并希望您不再需要它，那么仅从及时性的角度来看，您可能将无法满足许多审计要求。取证分析无疑会很耗时，并且需要使用自产脚本，这些脚本会占用资源，而您宁愿花钱在Hadoop上创造业务优势。

借助InfoSphere Guardium，许多繁重的工作都将由您完成。您定义安全策略，这些安全策略指定需要保留哪些数据以及如何对违反策略的行为做出React。数据事件直接写入InfoSphere Guardium收集器，即使是特权用户也没有机会访问该数据并隐藏其轨迹。开箱即用的报告可帮助您快速启动并运行Hadoop监视，并且可以轻松自定义这些报告以符合您的审核要求。

InfoSphere Guardium S-TAP最初旨在实现低开销的性能。毕竟，S-TAP还用于监视产品数据库环境。使用Hadoop，您将不太可能看到3%以上的开销，这对于大多数Hadoop工作负载而言将是不明显的。

最后，InfoSphere Guardium提供了从用户界面到存储的整个Hadoop堆栈的监视功能，如图2所示。

图2.整个Hadoop堆栈中数据活动监视的重要性

为什么这很重要？即使Hadoop中的许多活动分解为MapReduce和HDFS，在该级别上，您也可能无法分辨出堆栈中较高级别的用户实际上是在试图做什么，或者甚至是该用户是谁。它类似于显示一堆磁盘段I / O操作，而不是显示数据库的审计跟踪。因此，通过提供不同级别的监视，您更有可能了解活动，并且能够审核直接通过堆栈较低点进入的活动。

Hadoop活动监控

可以监视的事件包括：

会话和用户信息。
HDFS操作–命令（cat，tail，chmod，chown，expunge等）。
MapReduce作业-作业，操作，权限。
诸如授权失败之类的异常。
Hive / HBase查询-更改，计数，创建，删除，获取，放置，列出等。

以下示例描述了如何在InfoSphere Guardium报告中显示一些简单的Hadoop命令。

术语

如果您是InfoSphere Guardium的新手，您可能会惊讶地发现报表和策略规则中偶尔使用了关系数据库术语。即使未将SQL用于文件系统数据，但使用通用术语仍使Guardium能够提供跨数据库活动视图。根据您的首选项自定义报告列标题和内容非常容易。

HBase：以下是在HBase中创建的：

create 'test_hbase', 'test_col' 。

InfoSphere Guardium将显示流到HBase的实际命令，如图3所示。

图3. HBase报告

HDFS：以下是Hadoop中的简单-ls命令：

hadoop fs –ls

图4是InfoSphere Guardium报告中的输出。

图4. HDFS ls命令

您可以看到它被隐藏为两个不同的命令，以获取列表和关联的文件信息。

这种看似简单的活动监视的背后是强大而灵活的基础结构，用于策略配置和报告。例如，在本文后面，您将学习如何创建一个策略，该策略将记录一个事件，以在未知用户访问敏感数据时向您发出警报。您还可以创建审核报告，以帮助您检测何时新的或未知的应用程序正在访问Hadoop数据。

IBM InfoSphere BigInsights的快速入门活动监视

IBM InfoSphere BigInsights包含一项称为Guardium Proxy的集成功能，用于读取日志消息并将其发送到InfoSphere Guardium进行分析和报告。使用代理，BigInsights将消息从Hadoop日志发送到InfoSphere Guardium收集器。

代理的优点包括：

易于安装和运行。无需安装S-TAP或配置端口。您只需在NameNode上启用代理，即可开始使用。
因为代理使用Apache日志数据作为消息发送到InfoSphere Guardium，所以从这些消息中过滤掉的噪音更少，例如状态和心跳信息。
Guardium对BigInsights的新版本的支持不存在延迟，以利用消息协议更改的优势。

限制：由于Hadoop并未将异常记录到其日志中，因此无法将异常发送到InfoSphere Guardium。如果需要异常报告，则需要实施S-TAP。此外，尽管您会看到来自Hive的基础MapReduce或HDFS消息，但不支持监视Hive查询。

如果您有兴趣开始使用InfoSphere BigInsights中的Guardium代理，请参阅附录A ，其中包含用于为Hadoop服务启用代理的配置说明。

先决条件

以下部分描述了InfoSphere Guardium和基于Hadoop的系统的需求。

InfoSphere Guardium安全性和合规性解决方案

IBM InfoSphere Guardium解决方案如下：

硬件产品–在IBM提供的物理设备上交付的完全配置的软件解决方案。
软件产品–作为软件映像提供的解决方案，您可以直接或作为虚拟设备部署在自己的硬件上。

要监视Hadoop环境，您必须具有至少具有补丁2且最好具有GPU补丁50的InfoSphere Guardium Appliance V9.0（硬件或软件）。该设备应配置为收集器。您还将需要InfoSphere Guardium Standard Activity Monitor for Hadoop软件权利。在尝试监视Hadoop之前，请确保您检查IBM支持站点以获取可能需要的其他补丁程序。

随着系统的发展，您还可以获得配置为Central Manager和Aggregator的设备，这些设备可通过一个基于Web的控制台对多个收集器进行集中管理，从而有效地从多个收集器创建联合系统。您可以使用它来集中管理安全策略和设备设置，例如归档计划，补丁程序安装，用户管理等。它还汇总来自多个收集器的原始数据和报告，以生成整体的企业级审核报告。

本文不介绍IBM InfoSphere Guardium设备的安装和配置，而是假定您至少有一个设备连接到网络上的Hadoop集群。

受支持的基于Hadoop的系统

请参阅IBM支持站点上的InfoSphere Guardium系统需求信息，以获取InfoSphere BigInsights，Cloudera，Greenplum HD和Hortonworks的受支持的Hadoop发行版的受支持发行版本的更新。

注意：对于IBM InfoSphere Big Insights，IBM InfoSphere Guardium也支持Cloudera上的覆盖安装。

配置数据活动监视

安装和配置所需的步骤如下：

规划 –确保您对Hadoop群集的网络体系结构有充分的了解，包括IP地址和相关的端口号。
在适当的Hadoop节点上安装S-TAP并配置检查引擎。
通过创建和查看活动报告来验证正在监视活动。
安装安全策略。

计划

规划步骤对于成功将InfoSphere Guardium与Hadoop集成至关重要。以下部分提供了该体系结构的高级概述，以使您了解所需的知识。

建议：对于初始部署，请考虑仅从支持特定业务需求的最简单配置开始，然后从那里进行扩展。例如，仅从监视HDFS和MapReduce的要求开始，验证配置，然后根据需要扩展为包括Hive和HBase。

图5显示了InfoSphere Guardium提供的在集群中特别需要安装OS特定的S-TAP的位置，以实现完整的监视范围。

图5.监视Hadoop堆栈所需的STAP

IBM InfoSphere Guardium提供了一个集中式解决方案，可使用Guardium Installation Manager安装和更新多个S-TAP，从而使S-TAP管理更简单，更自动化。

注意：对于从节点，仅HBase Region Server才需要S-TAP来监视插入（HBase放置）。

在相关节点上安装特定于操作系统的S-TAP之后，可以通过定义所谓的S-TAP检查引擎来配置S-TAP监视的端口。这些检查引擎还具有与之关联的特定监视协议。 S-TAP截取网络数据包，进行复制，并进行一些分析和分析，然后将信息发送到InfoSphere Guardium Collector，在此处对其进行进一步的分析，分析并将其存储在InfoSphere Guardium Collector本地数据库中。

在进行下一步之前，请查看以下内容：

确保您正在运行受支持的基于Hadoop的系统。
确保您知道将要从Hadoop集群接收收集的流量的InfoSphere Guardium Collector的IP地址。
确保您知道需要S-TAP的服务器的IP地址。
根据表1和表2中所示的信息，写下要监视的端口以及它们适用于哪些主机。本文的端口设置基于Hadoop默认端口，这些端口通常在发行版中相同。您的配置可能有所不同。

表1.要监视的Hadoop服务端口

服务	港口
HDFS名称节点	8020、50470
适用于Cloudera Hue（NameNode）的HDFS Thrift插件	10090
MapReduce作业跟踪器	8021、9290和50030
HBase主站	60000和60010
HBase地区	60020
HTTP端口（用于WebHDFS）	50070
HBase Thrift插件	9090
蜂巢服务器	10000
蜂蜡服务器	8002
Cloudera Manager代理	9001

安装S-TAP并配置检查引擎

S-TAP是特定于操作系统的，因此您需要为每个适当的节点安装Red Hat或SUSE Linux S-TAP。该过程在InfoSphere Guardium S-TAP帮助书中有很好的记录，也可以使用InfoSphere Guardium Installation Manager或通过非交互式安装过程来完成，该过程使您可以使用同一命令在许多节点上进行安装。

接下来，您需要配置适用于受监视节点和服务的检查引擎。检查引擎是您在其中指定用于监视的协议（Hadoop）以及定义要监视的端口的位置。表1显示了默认使用的端口的摘录，InfoSphere Guardium可以监视这些端口。您的端口可能不同。

表2显示了用于配置本文的Hadoop群集的信息，该信息基于默认的Hadoop端口。

表2.监视以配置Hadoop集群的Hadoop服务端口

检查引擎。	协议	端口范围。	KTAP DB Real端口
HDFS，作业跟踪器，蜂蜡服务器	哈多普	8000-8021	8021
MapReduce Master和Thrift插件	哈多普	9000-9291	929升
Hive的Hive服务器和HDFS Thrift插件	哈多普	10000-10090	10090
HDFS名称节点	哈多普	50010-50069	50069
HDFS名称节点	哈多普	50071-50470	50470
HBase主站	哈多普	60000-60010	60010
HBase地区	哈多普	60020-60020	60020升
WebHDFS	HTTP	50070	50070

建议：您可以为每个服务器指定多个检查引擎。您应该在协议相同的情况下执行此操作，并且要避免为每个检查引擎配置太大的端口范围。最佳做法是不配置不需要的许多端口，因为这会给InfoSphere Guardium收集器组件带来额外的开销，这将需要分析不相关的流量。但是，为简单起见，您可能需要在某些检查引擎上包括有意义的端口范围。

您可以从用户界面添加检查引擎： 管理控制台 > 本地分接头 > S-TAP控制 > 添加检查引擎 。

或者，您可以使用API create_stap_inspection_engine。有关可用于使用默认端口创建检查引擎的API命令示例，请参阅附录B。

图6显示了一些检查引擎定义后的一些示例。

图6. Hadoop某些检查引擎的样本

您可以在S-TAP帮助手册中阅读有关检查引擎配置字段的更多信息，该手册可以在线找到。但是，以下是一些关键字段的摘要。

协议：被监视的数据源的类型（Hadoop）。这些选项可作为下拉菜单使用。
端口范围 ：为此检查引擎监视的端口范围 。如前所述，请尽可能限制此范围。对于本文，适用的端口分为紧密对应的组，例如9000范围或50000范围。
K-TAP实际端口 ：仅应将此参数设置为该检查引擎范围内的最后一个端口。如果仅定义了一个端口，则将K-TAP实际端口设置为相同。
客户端IP地址/掩码 ：每个检查引擎监视一个或多个客户端和服务器IP地址之间的流量。该字段用作定义和限制要监视的客户端的筛选器。例如，您可能有一些不需要审核的受信任客户端，并且可以提前过滤掉这些客户端，这可以减少收集器上的总体负载。 IP地址是一个位置，掩码用作通配符，可让您定义IP地址范围。掩码255.255.255.255（无零位）仅标识IP地址指定的单个地址。在本文的情况下，客户端和掩码都使用0.0.0.0，因此将监视所有客户端。
连接到IP ：S-TAP用于连接到受监视数据源的IP地址。对于Hadoop，您可以使用默认值127.0.0.1。
进程名称 ：对于Hadoop配置，不需要此名称。

验证活动是否受到监视

以管理员身份，导航到InfoSphere Guardium Web控制台的“ 系统视图”选项卡，并确保Hadoop集群的S-TAP处于活动状态并显示绿色，这表示S-TAP已连接到InfoSphere Guardium收集器。图7显示了一台主机的外观。

图7. S-TAP状态监视器

在确认在所有适用的节点上正确配置了S-TAP之后，您应该已经捕获了系统上正在运行的所有工作。您可以运行shell命令或示例wordcount作业来验证您是否正在查看数据。在这两种情况下，您都将需要使用InfoSphere Guardium细化报告（可从用户的“ 查看”选项卡获得），或者创建自己的报告来查看活动。

InfoSphere Guardium随附的Hadoop报告中介绍了有关Hadoop报告的更多详细信息。为了进行验证，本文将介绍如何使用在系统中分配了用户角色的安全管理员可以使用的向下钻取报告。

当您以用户身份登录并单击View选项卡时，您将看到一个与图8所示非常相似的图形。双击该图形可深入查看详细信息。

图8.深入细节

数据有很多路径。图9显示了一个向下钻取的示例。

图9.细化样本

每当您单击报告中的一行时，都会有一个菜单选项供您选择要查看的下一个报告级别。

InfoSphere Guardium随附的Hadoop报告

InfoSphere Guardium包含几个针对Hadoop的现成报告，包括以下内容：

MapReduce活动。
未经授权的MapReduce作业。
色相/蜂蜡活动。
HDFS，HBase和Hive活动。
异常报告。

如果您以用户身份登录，则可以通过单击“ 视图”选项卡找到预定义的报告。在左侧导航窗格中，单击Hadoop ，然后在此处列出报告。

如果您以管理员身份登录，则需要将报告添加到控制台。以下步骤假定您已在控制台上定义了“ 我的新报告”选项卡，并且已以管理员身份登录。

导航到“ 工具” > “报表构建” > “报表生成器” 。
在报告标题部分，使用下拉菜单找到其中一个报告，例如Hadoop-Hue / Beeswax报告，然后单击搜索。
在报告搜索结果窗口中，单击Add to My New Reports按钮，如图10所示。
图10.将报告添加到名为“我的新报告”的窗格中
现在，您可以使用Hue在Beeswax中运行命令并查看报告。例如，在本文中，输入了以下Hive命令，如图11所示。
图11.在Beeswax中提交查询
转到“ 色相/蜂蜡”报告，您可能会看到“未找到数据” 。这是因为您需要指定一些运行时参数来告诉系统要显示的内容。为此，单击铅笔图标以自定义报告查询，如图12所示。
图12.在Beeswax中提交查询
为查询和日期添加一个时间段（取决于您的工作量，可能要选择一个较小的值，可能是几小时或一天），并为SQL和Table_Name字段的LIKE字段添加百分号或其他搜索参数，如图13所示。
图13.为Hue / Beeswax报告指定运行时参数
现在，您应该看到报告中出现了一些数据，如图14所示。
图14.色相/蜂蜡报告
现在对MapReduce报告执行相同的步骤（如果您是管理员）：
1. 导航到“ 工具” > “报表构建” > “报表生成器” 。
2. 搜索MapReduce报告。
3. 添加到报告窗格。
4. 编辑报告以添加运行时参数。
运行MapReduce作业。本文使用了Cloudera中的示例单词计数程序。运行wordcount的语法是： bin/hadoop jar hadoop-*-examples.jar wordcount in-dir out-dir 。
对于本文，运行了以下命令： hadoop jar hadoop-0.20.2-cdh3u4-examples.jar wordcount /user/svoruga /user/svoruga/wc100 。您可以看到一个类似于图15所示的报告。
图15. MapReduce报告

（查看图15的大图。）
如您所见，对于本文来说，查询参数是经过自定义的，以指定仅在报告中返回在消息（ Full SQL ）中出现svoruga和word％count的活动。

故障排除

InfoSphere Guardium Hue / Beeswax报告假定使用Thrift消息格式和MySQL数据库。如果使用MySQL，但Hue / Beeswax报告仍不显示数据，则可能需要配置Beeswax以使用端口8002，如下所示，该端口是Thrift用于本文系统示例的端口。

导航到Hue .ini文件：
- 对于CDH3： /etc/hue/hue-beeswax.ini 。
- 对于CDH4 /etc/hue/hue/ini ，其中-hadoop hadoop *examples.jar “ *位于/user/lib/hadoop目录中。替换为正确的jar文件。
  in-dir是输入文件所在的HDFS目录。
  out-dir是将放置输出文件的HDFS目录。
取消注释以下行：
beeswax_server_port=8002
使用以下命令停止并重新启动色相：
- /etc/init.d/hue stop
- /etc/init.d/hue start

安装安全策略

在InfoSphere Guardium中，安全策略包含一组有序的规则，这些规则集将应用于观察到的客户端和服务器之间的流量。组合一个或多个规则以创建策略。对于本文中的Hadoop安全策略，定义了访问规则，这些规则是有助于减少要记录到InfoSphere Guardium收集器的流量的规则。

建议：不要修改样本策略。而是，创建一个克隆并将其用作修改的基础。

要访问Hadoop策略并创建克隆，请执行以下操作。

以管理员身份登录，然后导航到“ 工具” >“ 配置和控制” >“ 策略构建器” 。
在“ 策略查找器”中 ，选择“ Hadoop策略” ，然后单击“ 克隆”按钮。
输入策略的新名称，然后单击“ 保存” 。

要安装策略，请执行以下操作。

以管理员身份登录，然后转到管理控制台 > 配置 > 策略安装。
选择您创建的Hadoop策略克隆，然后选择适当的安装操作。有关策略安装以及拥有多个策略的含义的更多信息，请参见联机帮助。

Hadoop策略的规则如图16所示。单击加号以查看更多详细信息。您可以通过单击铅笔图标来编辑规则。

图16.样本Hadoop策略中的规则

以下是策略中每个规则的摘要。

访问规则：低关注度对象：允许
图17显示了规则定义。

图17. Hadoop的低兴趣对象规则

以下是此政策中涉及的两个主要项目。
- 对一组对象（例如用户首选项）的定义不太可能引起关注。如果单击组构建器图标，则可以看到属于HadoopSkipObjects组的对象，如图18所示。
  图18. Hadoop的低兴趣对象规则
  
  您可以根据需要修改该组。
- 允许操作意味着将不会为这些对象记录违反策略的情况，也不会考虑对它们进行进一步分析。
访问规则：低利率命令：允许
与上面的规则类似，但专门用于命令。
访问规则：基于服务器IP的过滤器：日志完整详细信息
使用此规则，您可以从使用同一Guardium Collector的所有非Hadoop服务器中过滤活动。

重要提示：您必须修改Not Hadoop Servers组，以包括要过滤掉的任何服务器的所有IP。如果没有这样的服务器，则输入一个虚拟IP，但不要输入0.0.0.0。如果该组中没有任何内容，则您的报告将不起作用。

你可以做的很酷的事情

以下是您可以使用InfoSphere Guardium进行的一些关键操作，以帮助您满足Hadoop的审核和合规性要求。本节介绍了回答本文开头提出的问题的方法。

以前没有获得访问敏感数据权限的授权吗？
是否有新的应用程序/作业正在访问系统？
是否存在异常数量的文件权限错误？

告诉我未经授权的用户何时访问敏感数据

您可以使用许多不同的规则来创建策略，以帮助您强制执行审核要求。

提示：如果将任何规则添加到Hadoop策略克隆中，请确保上一条规则已选择“ 继续到下一条规则” 。否则，您的新规则可能永远不会得到评估。

图19显示了一个规则，其中两个组的定义如下。

已知的Hadoop用户
已知的敏感数据对象/文件

图19.用于访问敏感文件的示例策略规则

该规则对已知用户具有否定性，这意味着，如果不属于该已知组的用户访问那些敏感文件，则将记录该信息，并且您可以在事件报告中看到这些事件，以进行进一步调查。如果事实证明该访问是合法的，则可以将该用户添加到已知组中。

告诉我新的MapReduce作业何时使用系统

许多企业担心跟踪访问其数据的新应用程序，自动报告可以帮助您做到这一点。 InfoSphere Guardium提供了未经授权的MapReduce作业报告，您可以对其进行自定义，以帮助您确定何时有新的MapReduce作业进入系统。

您可以安排此报告定期运行，作为在后台运行的审核过程的一部分。这使您可以在新作业进入系统时得到通知，以便可以对其进行适当的检查并适当地添加到授权的作业列表中。

设置此报告需要一些配置。您需要创建和自定义一个名为Hadoop授权作业列表的组。您将需要：

用系统中已知和已批准作业的列表创建并填充该组。（ 注意：对于9.0 GPU 50，系统随附了Hadoop授权作业列表。您只需填充它即可。）
将角色分配给该组，以便组织中的适当人员可以在构建报告中查看和使用该组。
自定义Hadoop未经授权的MapReduce作业报告，以将该组作为运行时参数包括在内。

以下是有关如何配置组的详细步骤：

在管理控制台中，转到“ 工具” >“ 配置和控制” >“ 组构建器” 。或者，如果您以用户身份登录，请转至“ 监视/审计” >“ 构建报告” >“ 组构建器” ，然后单击“ 下一步” 。
在Create New Group字段中，将Public指定为Application Type，为其指定所需的名称（例如Hadoop Authorized Job List ），然后从Group Type Description的下拉列表中选择OBJECTS ，如图20所示。添加按钮。
图20.命名新组
在“管理成员”窗格中，在“ 创建和添加新成员”字段中输入MapReduce作业名称，然后单击“ 添加”将该成员添加到组中。继续添加名称，如图21所示。添加MapReduce作业名称后，单击“上一步”按钮。
图21.用授权作业填充组
In the Group Builder, find your group in the Modify Existing Group list and then click the Roles button as shown in Figure 22.
Figure 22. Associate roles with the group
Select the roles you want to be able to use this group. We have simply selected All Roles , as shown in Figure 23. Click the Apply button.
Figure 23. Indicate which roles can use this group

Now you have finished with the task of creating the Hadoop Authorized Job List group, and you are ready to move to the next task, which is to associate it with the report.

As described in the Hadoop reports included with InfoSphere Guardium section, if you are logged in as a user, you can find the predefined reports by clicking the View tab. From the left navigation pane, click Hadoop, and the reports are listed there.
Click on Hadoop – Unauthorized MapReduce Jobs . It will likely show No data found. Click on the pencil icon to customize this report, as shown in Figure 24.
Figure 24. Customize the report
Select the group name from the list, as shown in Figure 25. Make sure the date parameters cover a time period when you know you will see at least a small set of results to validate that the report is working. Then click the Update button.
Figure 25. Add the group to the report runtime parameters
From the left navigation, click on the Hadoop – Unauthorized MapReduce Jobs report again. It should be populated with data from any reports that are not in your authorized job group. An extract of the report is shown in Figure 26, where you can see that a job named PiEstimator is shown because it was not on the authorized list of jobs.
Figure 26. Report includes activity from jobs not in the authorized group

Tell me if there is an exceptional number of file permission errors

InfoSphere Guardium includes out-of-the-box exception reporting for Hadoop. For example, if you are logged in as a user, you can go to View > Hadoop > Hadoop - Exception Report to see the out-of-the-box report, similar to what is shown in Figure 27.

Figure 27. Sample Hadoop exception report

You can also create an alert based on the same query that is used for the report. With an alert, you can have an email sent whenever a threshold for a specific condition, such as file permission exceptions, goes above a certain limit.

You can also choose to log the alert as a policy violation, which will put this alert on the Incident Management tab of the InfoSphere Guardium web console.

Here are the high-level steps to create the exceptions query and to enable it in an alert.

Navigate to the Alert Builder:
- For an administrator, go to Tools > Config and Control > Alert Builder .
- For a user, go to Protect > Correlation Alert > Alert Builder .
From the Alert Finder, click New .
In the Query Definition section of the Add Alert screen, select Hadoop – Exception Report from the pull-down menu, as shown in Figure 28, and fill out the rest of the alert requirements.
Figure 28. Use exception report query to build your alert

Figure 29 is an example of an alert that was created for this article that specifies an exception of 101 for file permission exceptions.

Figure 29. Alert builder

Notice that the alerts are logged as a policy violation so that any alerts that are triggered also appear from the Incident Management tab. Also, notice at the bottom of the example, the administrator named David Roz will get at least one email when the alert is triggered.

结论

We hope you've enjoyed this tour through InfoSphere Guardium for securing Hadoop environments. If you are using or evaluating Hadoop and are considering a security strategy around its deployment, we think the information provided in this article can help you think about what you need and how InfoSphere Guardium can help. Existing Guardium users can easily extend their current data security and audit processes to include Hadoop.

致谢

The authors would like to extend their gratitude to the following people without whom this article would never have seen the light of day:

David Rozenblat, for many hours helping us build reports and policies, and for his management support.
Joe DiPietro, for giving us the example business problems to solve.
Ury Segal, for technical direction.

Appendix A: Configuring the Guardium proxy in IBM InfoSphere BigInsights

This appendix describes the steps to enable the Guardium Proxy in IBM InfoSphere BigInsights to send copies of relevant log messages to InfoSphere Guardium.

Figure 30 shows you the architecture of the solution.

Figure 30. Log messages are sent to the Guardium Proxy and then forwarded to the Guardium Collector

Enabling the integration between InfoSphere BigInsights and InfoSphere Guardium is much simpler as of BigInsights 2.0. You enable the Guardium Proxy at BigInsights installation time (BigInsights 2.0 and later). Logging events are sent over a socket connection. Port 16015 is used for this socket connection. The proxy then forwards those messages to the InfoSphere Guardium collector (default port 16016) which parses and stores those messages in the Guardium internal tables for reporting, alerting, and so on.

The screenshot below is an excerpt from the InfoSphere BigInsights 2.1 installation panel in which you specify the port addresses of the proxy, the Guardium collector, and the host names for the collector and the node on which you run the proxy (usually the name node).

Figure 31. Excerpt from BigInsights installation panel

You can find details of the integration in the IBM InfoSphere BigInsights Information Center (see Related topics ).

Validate the configuration

You can test the configuration by submitting a job, including a sample wordcount job, and seeing the results in the InfoSphere Guardium reports.

Through your BigInsights web console, submit a wordcount job. See the BigInsights information center in the Related topics section for more information about how to do this.

Log in to the InfoSphere Guardium web console as a user and select one of the Hadoop reports, such as BigInsights - MapReduce. Figure 26 shows you an excerpt from a MapReduce report for BigInsights when the proxy is used.

Figure 32. Partial MapReduce report for BigInsights

(View a larger version of Figure 26.)

You can see information about permissions in the Full SQL section of the report. You can also see that the report includes information about the name of the job, the user name who submitted the job, and even the jar file name of the job. This information is parsed out for you from the full message, and because it appears as a field in the report, you can do things such as create alerts on those fields. See this section of the article for more details on customizing reports.

Appendix B: Sample GuardAPI command to configure inspection engines

The GuardAPI provides access to InfoSphere Guardium functionality from the command line to enable you to automate repetitive tasks. To run these commands you must log in with one of the CLI (command line interface) accounts and have been granted the role of admin or CLI. For more information about the API, see the InfoSphere Guardium Appendices online help book.

Listing 1 shows the commands that were used to create the inspection engines via the API in this article.

Listing 1. Sample grdapi commands to configure inspection engines in our sample environment

#hdfs job tracker, hdfs name node beeswax server 
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=8021 portMax=8021 portMin=8000 stapHost=
                
#Mapreduce job tracker, cloudera agent and thrift plugin
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=9291 portMax=9291 portMin=9000 stapHost= 
                
#hive server, thrift plugin
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=10090 portMax=10090 portMin=10000 stapHost= 
                
#HDFS name node ports
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=50069 portMax=50069 portMin=50010 stapHost= 

#HDFS name node ports
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=50470 portMax=50470 portMin=50071 stapHost= 

#WebHDFS
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HTTP 
KtapDbPort=50070 portMax=50070 portMin=50070 stapHost=
                
#HBase region servers
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
KtapDbPort=60010 portMax=60010 portMin=60000 stapHost=

You will need to ensure that your inspection engine maps appropriately to the Hadoop node that has the corresponding services installed on that node. In this case, it was a simple one-node configuration, so the inspection engines were grouped by like port number. Your configuration will likely be more complex than this.

Appendix C. Using Guardium command line interface (CLI) to filter Hadoop noise

InfoSphere Guardium has a rich command line interface. You can use the CLI to directly configure the Collector's analyzer component to filter out Hadoop noise rather than using the security policy by using the store gdm_analyzer_rule new command to specify a specific Hadoop application and pattern to exclude. The example in Listing 2 shows use of the command to filter out HBase getServerRegion messages.

Listing 2. CLI command to modify the collector's filtering

store gdm_analyzer_rule new
Please enter rule description (optional): HDP
Please enter rule type (required): 5
Please enter rule acdtion (optional. Default to 0):
Please enter active flag (optional. Default to 1):
Please enter DB protocol (required): 25
Please enter server IP (optional):
Please enter server IP mask (optional. Default to 255.255.255.255):
Please enter service name (optional):
Please enter pattern (optional): getServerRegion
Please enter format (optional): 1

The options of interest include the following.

Rule type: Specify 5 for Hadoop exclusion rule.
Rule action: Keep the defaults.
DB Protocol: Specify '25 for Hadoop.
Pattern: Enter the exact name and case of the message pattern you would like to exclude.
Format: Enter the code for the Hadoop service to exclude. Values are:
0 - HDFS
1 - HBase
2 - Hadoop IPC
3 - Job Tracker

翻译自: https://www.ibm.com/developerworks/data/library/techarticle/dm-1210bigdatasecurity/index.html

你可能感兴趣的:(大数据,hadoop,数据库,java,分布式)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag