Slaytanic

Hadoop运维记录系列(十八)

之前为了练习英语用英文写的这个博客，然后被编辑置为转载了，所以想想还是翻译过来比较好。

原文发表于 https://xianglei.tech 确实是我自己原创的。英文很烂，所以才需要练习。

使用Cloudera Manager启用Kerberos安全增强的Hadoop集群(包括一步步安装和配置kerberos)以及kerberos基本原理

目前我工作于AdMaster，某个全球五百强的大企业是我们的深度客户，我为其提供大数据底层平台的技术支持。他们的要求是使用正版的Cloudera Manager来进行集群的管理和操作，约定版本为5.10，这个后续会成为坑中之一，以后的博客我会讲述这个故事。同时他们要求使用Kerberos来进行安全性管理，说实话，我对Kerberos的集群一点好感也没有，但是花钱的是大爷，我没辙。所以上周我用Cloudera Manager辅助搭建了一个Kerberos的Hadoop集群，然后这个是一篇使用Cloudera Manager来搭建安全增加集群的记录。首先，我们需要一个可以跑的Hadoop集群，而且已经提前装好了Kerberos的KDC和其他clients

1. 安装KDC服务器
只需要在一台服务器上运行下面这句话，KDC只安装于一台独立的服务器上

sudo yum -y install krb5-server krb5-libs krb5-workstation krb5-auth-dialog openldap-clients

这个命令会安装KDC Server和krb5-workstation，这是kerberos的client，里面包含了很多有用的命令

2. 修改 /var/kerberos/krb5kdc/kdc.conf

kdcdefaults] kdc_ports = 88
 kdc_tcp_ports = 88
 
[realms]
 PG.COM = {
  #master_key_type = aes256-cts
  acl_file = /var/kerberos/krb5kdc/kadm5.acl
  dict_file = /usr/share/dict/words
  admin_keytab = /var/kerberos/krb5kdc/kadm5.keytab
  supported_enctypes = aes256-cts:normal aes128-cts:normal des3-hmac-sha1:normal arcfour-hmac:normal des-hmac-sha1:normal des-cbc-md5:normal des-cbc-crc:normal
  max_renewable_life = 7d
 }

把EXAMPLE.COM修改成PG.COM
增加 add max_renewable_life = 7d 意味着7天，或者更长时间，也可以使用4w表示4周

3. 修改/etc/krb5.conf

libdefaults]default_realm = PG.COM
dns_lookup_kdc = false
dns_lookup_realm = false
ticket_lifetime = 259200
renew_lifetime = 604800
forwardable = true
default_tgs_enctypes = rc4-hmac
default_tkt_enctypes = rc4-hmac
permitted_enctypes = rc4-hmac
udp_preference_limit = 1
kdc_timeout = 3000
[realms]
 PG.COM = {
  kdc = pg-dmp-master2.hadoop
  admin_server = pg-dmp-master2.hadoop
 }

EXAMPLE.COM 徐改成 PG.COM 并且在 [realms] 里面, kdc 指向到安装了KDC的服务器已经安装了kadmin的服务器

4. 创建这个realm

kdb5_util create -s -r PG.COM

这会创建一个叫做PG.COM的工作realm，Kerberos允许同时存在管理多个realm

5. 在KDC服务器上创建管理员用户的pricipal

kadmin.local -q "addprinc root/admin"

我在Linux的root账号下使用 root/admin 作为管理员用户，作为admin用户，你可以使用不同于linux的单独的密码，注意，这和linux的root并不是同一个账号，所以，你不用担心你的linux root用户密码会改变。 root/admin只存在于kerberos的数据库中，它和linux的root是两个分开独立的账号

6. 编辑 /var/kerberos/kadm.acl

*/[email protected]

这个用来定义哪些人是PG.COM这个realm的管理员，这句话意味着，凡是挂着/[email protected]的所有用户都是管理员，只要你添加了这个账号。

7. 检查所有的Kerberos配置文件，确保没有错误

/etc/krb5.conf
/var/kerberos/krb5kdc/krb.conf
/var/kerberos/krb5kdc/kadm.acl

8. 然后启动KDC和Kadmin服务

service krb5kdc start
service kadmin start

9. 然后登录到集群的其他节点，运行以下命令

yum install krb5-workstation krb5-libs krb5-auth-dialog openldap-clients cyrus-sasl-plain cyrus-sasl-gssapi

在所有节点上安装kerberos的客户端

然后，回到CLoudera Manager，点击集群，操作，在下拉菜单找到启用kerberos或启用安全。然后所有选项打钩，下一步，下一步，下一步，一直到完事。

所有步骤完成之后，你就可以使用kerberos增强的hadoop集群了

这里有几个在安装安全集群中可能会遇到的问题

我如何添加一个新的用户pricipal?

kadmin.local -q "addprinc [email protected]"

需要注意的是，当你想添加了一个普通用户到集群时，你需要在Kadmin的服务器上运行上面的命令，并且，[email protected]是一个常规用户，如果你想添加一个管理员用户，你需要写成username/[email protected]，/admin是你在kadm.acl里面定义的。有时候你需要增加的用户需要包含主机名，那么就写成username/[email protected]，FQDN意思是完整的主机名，比如xianglei/[email protected].

我如何管理HDFS或YARN，我的意思是，我如何使用hdfs或者yarn用户来管理集群？

好吧，由于Cloudera Manager会自动创建诸如hdfs，yarn，hbase等用户，并且这些用户都是nologin且没有任何密码的，在kerberos里面也是用-randkey然后xst直接创建keytab的。同时这些用户都是Hadoop的管理用户所以你不能直接用以下命令来向KDC请求授权ticket。正常用户都是用kinit username，并且输入密码来验证授权的，但是hadoop的这些账户不可以。

# kinit hdfs
kinit: Client not found in Kerberos database while getting initial credentials
# kinit [email protected]
kinit: Client not found in Kerberos database while getting initial credentials

但是你可以像这样使用keytab来请求ticket

 kinit -kt hdfs.keytab hdfs/[email protected]

current_server是你当前登录的服务器的完整主机名，和你想访问或管理HDFS或YARN的用户名。

我使用计算Pi来进行冒烟测试，但是失败了，我已经在KDC数据库里新加了一个用户了？

17/04/24 11:18:35 INFO mapreduce.Job: Job job_1493003216756_0004 running in uber mode : false
17/04/24 11:18:35 INFO mapreduce.Job:  map 0% reduce 0%
17/04/24 11:18:35 INFO mapreduce.Job: Job job_1493003216756_0004 failed with state FAILED due to: Application application_1493003216756_0004 failed 2 times due to AM Container for appattempt_1493003216756_0004_000002 exited with  exitCode: -1000
For more detailed output, check application tracking page:http://pg-dmp-master1.hadoop:8088/proxy/application_1493003216756_0004/Then, click on links to logs of each attempt.
Diagnostics: Application application_1493003216756_0004 initialization failed (exitCode=255) with output: main : command provided 0
main : run as user is dmp
main : requested yarn user is dmp
User dmp not found

Failing this attempt. Failing the application.
17/04/24 11:18:35 INFO mapreduce.Job: Counters: 0
Job Finished in 1.094 seconds
java.io.FileNotFoundException: File does not exist: hdfs://PG-dmp-HA/user/dmp/QuasiMonteCarlo_1493003913376_864529226/out/reduce-out
        at org.apache.hadoop.hdfs.DistributedFileSystem$20.doCall(DistributedFileSystem.java:1257)
        at org.apache.hadoop.hdfs.DistributedFileSystem$20.doCall(DistributedFileSystem.java:1249)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1249)
        at org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1817)
        at org.apache.hadoop.io.SequenceFile$Reader.(SequenceFile.java:1841)
        at org.apache.hadoop.examples.QuasiMonteCarlo.estimatePi(QuasiMonteCarlo.java:314)
        at org.apache.hadoop.examples.QuasiMonteCarlo.run(QuasiMonteCarlo.java:354)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
        at org.apache.hadoop.examples.QuasiMonteCarlo.main(QuasiMonteCarlo.java:363)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:71)
        at org.apache.hadoop.util.ProgramDriver.run(ProgramDriver.java:144)
        at org.apache.hadoop.examples.ExampleDriver.main(ExampleDriver.java:74)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

在一个非安全的集群里，Hadoop会把计算用的container分发到集群的所有节点上，并且用已经存在的账号或替代账号例如yarn或mapred用户来启动这些container。但是在一个安全集群里，container必须使用你提交的用户名来分发和启动，所以，这个错误是由于你仅仅添加了KDC里面的dmp用户这个pricipal，而没有在所有节点建立dmp账户。所以container的执行器无法启动AM或者Mapper或Reducer。所以很简单，你需要在所有节点运行以下命令。

useradd dmp

在集群的所有节点上增加linux用户账号有另外一个快捷的办法，那就是通过LDAP，这样可以替代大量的手工操作，当然，一些自动化运维工具也可以。

最后，我们来了解以下kerberos的基本理论

对于Kerberos来说，一个客户端要访问一个服务，需要经过以下三个步骤
– 验证
– 授权
– 服务请求

客户端先发送一个票证批准票Ticket-Granting Ticket (TGT)给AS服务，就是以后经常会在报错里看到的tgt

AS检查数据库来验证client
– 验证通常也可以通过LDAP或Actice Directory来做
– 如果合法, AS 会发还一个 Ticket/Granting Ticket (TGT) 给 client

client拿到这个TGT以后，会用这个TGT来向服务请求服务器申请一个服务ticket
– 一个服务ticket是用来验证client可以访问哪些服务的

TGS来验证client是否被允许使用它所请求的服务
– 如果访问被批准，TGS会发还给client一个服务票据

Client会用这些票据来访问需要的服务
– 服务会跟client验证这些服务票据的合法性

所以你知道为何起名叫Kerberos了吧，三首地狱看门狗。三方验证授权，互不干涉，三权分立。

kinit 程序是用来想Kerberos申请ticket的
klist 用来查看当前的用户
kdestroy 用来删除你当前使用的票据

( 图片与说明来源于Cloudera管理员认证培训课程，版权属于Cloudera。)

python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
Hadoop HA 格式化NameNode 顺序凡许真 hadoop 大数据分布式 HA
文章目录前言一、启动JournalNode二、格式化NameNode1.执行格式化命令2.启动namenode3.执行格式化命令4.启动namenode其他前言记录搭建HadoopHA架构时格式化namenode问题一、启动JournalNode分别启动JournalNode，命令如下hadoop-daemon.shstartjournalnode二、格式化NameNode1.执行格式化命令找其中
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
**LLM Gateway：您的智能对话门户** 芮奕滢Kirby
LLMGateway：您的智能对话门户llm-gatewayGatewayforsecure&reliablecommunicationswithOpenAIandotherLLMproviders项目地址:https://gitcode.com/gh_mirrors/ll/llm-gateway在人工智能和自然语言处理的浪潮中，LLMGateway以其卓越的设计与功能脱颖而出，为开发者和用户提供
华为云 oracle rac 稳定性,Oracle 11g RAC之HAIP相关问题总结安幕华为云 oracle rac 稳定性
1文档概要环境：RHEL6.4+GI11.2.0.4+Oracle11.2.0.4对有关HAIP相关问题的总结，包括禁用／启用HAIP，修改ASM资源的依赖关系，修改cluster_interconnects参数等。2禁用／启用HAIP2.1禁用／启用HAIP资源禁用HAIP资源：root用户执行@allnodes#/opt/app/11.2.0/grid/bin/crsctlmodifyreso
python实现dbscan 怎么就重名了算法 python 开发语言
python实现dbscan原理DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如
error: Metrics API not available 喝醉酒的小白 K8s 云原生
目录解决方案11.**确认MetricsServer是否安装**2.**安装MetricsServer**方法1：通过`kubectlapply`安装方法2：通过Helm安装3.**检查MetricsServer的运行状态**镜像问题证书问题解决方法1.**允许InsecureSkipVerify**2.**验证更新**3.**查看日志**长期解决方法1.**更新Kubelet的证书**2.**使
SSH隧道连接(基于linux) 小熊同学哦网络安全 ssh linux 运维
引言SecureShell（SSH）是一种网络协议，用于在不安全的网络中为网络服务提供安全的传输。SSH协议主要用来进行远程登录，管理服务器，传输文件等。本文将详细介绍SSH的工作原理、配置方法以及常见问题的解决方法，帮助读者更好地理解和使用SSH。1.SSH的基本概念1.1什么是SSH？SSH（SecureShell）是一种加密的网络协议，用于安全地连接到远程计算机。它提供了安全的通信通道，可以
OceanBase 重启方法 Livedba oceanbase dba 数据库
OceanBase服务使用obd重启查看OB服务名admin@server070oceanbase-ce]$obdclusterlist+--------------------------------------------------------+|ClusterList|+------+-------------------------------+-----------------+|Na
window10下编译hadoop报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7: huangxgc hadoop hadoop windows
Windows10下buildhadoop2.7.3报错：Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:run(dist)onprojecthadoop-hdf
GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis 分析原理与应用... weixin_30294709 python 数据库人工智能
R批量做GSEA分析还没有官方的包，但是clusterprofiler可以做，它调用了最新的gfsea包。GeneSetTestingforRNA-seq-fgsea教程RNA-seq是利器，大部分做实验的老板手下都有大量转录组数据，所以RNA-seq的分析需求应该是很大的（大部分的生信从业人员应该都差不多要沾边吧）。普通的转录组套路并不多，差异表达基因、富集分析、WGCNAnetwork以及一些
vscode通过ssh连接github仓库（git+ssh+github+vscode详细步骤） en你好 vscode ssh github git
vscode如何通过ssh连接github仓库（详细步骤）文章目录vscode如何通过ssh连接github仓库（详细步骤）前言1.ssh2.github一、安装Git二、获取ssh密钥三、在github配置ssh密钥四、在vscode上添加远程仓库总结前言首先我们先来了解一下什么是ssh和github1.sshSSH（SecureShell）是一种网络协议，用于在不安全的网络中安全地传输数据和执
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
深入MapReduce——从MRv1到Yarn 黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入我们前面篇章有提到，和MapReduce的论文不太一样。在Hadoop1.0实现里，每一个MapReduce的任务并没有一个独立的master进程，而是直接让调度系统承担了所有的worker的master的角色，这就是Hadoop1.0里的JobTracker。在Hadoop1.0里，MapReduce论文里面的worker就是TaskTracker，用来执行map和reduce的任务。而分配
Openwrt路由搭建pptp-server操作说明 wellnw Openwrt openwrt
ssh登录到路由后台使用putty或者SecureCRT软件安装PPTP软件包opkgupdateopkginstallpptpdkmod-nf-nathelper-extrakmod-mppe防火配置#Configurekernelparameterscat>/etc/sysctl.confnet.netfilter.nf_conntrack_helper=1EOF/etc/init.d/sys
Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构大数据王小皮深入浅出Yarn架构与实现架构 hadoop 大数据 yarn java
一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的，HDFS负责存储，MR负责计算。一）MRv1的问题耦合度高：MR中的jobTracker同时负责资源管理和作业控制两个功能，互相制约。可靠性差：管理节点是单机的，有单点故障的问题。资源利用率低：基于slot的资源分配模型。机器会将资源划分成若干相同大小的slot，并划定哪些是mapslot、哪些是reduceslot。无法支持多种计
【YARN】yarn 基础知识整理——hadoop1.0与hadoop2.0区别、yarn总结时间的美景 Hadoop Yarn hadoop hadoop1 hadoop2 大数据
文章目录1.hadoop1.0和hadoop2.0区别1.1hadoop1.01.1.1HDFS1.1.2Mapreduce1.2hadoop2.01.2.1HDFS1.2.2Yarn/MapReduce22.Yarn2.1Yarn(YetAnotherResourceNegotiator)概述2.2Yarn的优点2.3Yarn重要概念2.3.1ResourceManager2.3.2NodeMa
搭建Hadoop与Hive环境达达玲玲 hadoop hive 大数据
当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
ubuntu ssh连接linux系统,在Ubuntu 18.04系统中启用SSH登录的方法乔隰 ubuntu ssh连接linux系统
简介SecureShell(SSH)是Linux系统管理中的经常要用到的一种远程访问技术。在Ubuntu18.04系统仓库中，已经收录了同为开源的OpenSSH，我们可以用它来为系统开启SSH访问功能。在Ubuntu18.04系统中启用SSH登录的具体方法一、打开终端，输入以下命令安装OpenSSH服务：sudoapt-getinstallopenssh-server二、修改“/etc/ssh/s
记服务器遭遇ssh攻击及应对过程 sunhao06 建站服务器 ssh 安全
前几天登录服务器一看，短短十几个小时的时间有七千多次ssh错误登录记录，毫无疑问，有人在对我进行ssh远程暴库攻击。利用命令grep-o'[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'/var/log/secure|sort|uniq-c可以看到每个ip的访问次数（其实图没截完，还有很多），可以看到这个人应该有很多“肉鸡”来对别人进行
Ambari 2.7.5+HDP3.1.5离线安装详细教程（附安装包） Toroidals 大数据组件安装部署教程 Ambari-2.7.5 HDP3.1.5 安装包 ambari hdp
一.准备工作系统：centos7.6（推荐使用：redhat7、redhat-ppc7、ubuntu14、ubuntu16、ubuntu18）Ambari版本：2.7.5HDP版本：3.1.5主机：系统ip主机名称主机名内存Ambariservermysqlhttpd服务centos7.6192.168.112.143cluster01.toroidal.comcluster018G√√cento
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
kafka开启kerberos 蘑菇丁 debian 运维
一、基本环境准备创建票据创建Kerberos主体（Principal）：使用kadmin.local或kadmin命令为Zookeeper和Kafka服务创建Kerberos主体。例如：注意有几台机器创建几个kadmin.local-q"addprinc-randkeyzookeeper/[email protected]"kadmin.local-q"addprinc-rand
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
ansible批量生产kerberos票据，并批量分发到所有其他主机脚本蘑菇丁 ansible hadoop 学习笔记 eclipse java ide
-name:ConfigureKerberosforHadoopUsershosts:hadoop_serversbecome:nogather_facts:novars:kerberos_server:hadoop1.xuexi.comkeytab_file_path:/home/hadoop/keys/hadoop.keytabprincipals:-nn/-dn/-yarn/-starroc
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

Hadoop运维记录系列(十八)

你可能感兴趣的:(secure,cluster,hadoop,hadoop)