从入门到精通 - Fayson带你玩转CDH

Fayson保持每天推一篇文章,本文随之每天更新。

以下所有文章均为超链接,可以直接点击文章名跳转。

还没附上超链接的文章是还没上传的,会再后续更新后陆续补上

1.规划设计

1.1.on-premise部署规划

0001-《CDH网络要求(Lenovo参考架构)》

0062-《如何为Hadoop集群选择正确的硬件》

0158-《如何给Hadoop集群划分角色》

1.2.on private cloud部署规划

0200- 《如何在VMware上部署Hadoop》

1.3.on public cloud部署规划

0195- 《公有云中的Hadoop》

2.安装/升级/卸载

2.1.安装

0002-《CENTOS7.2安装CDH5.10和Kudu1.2》

0024-《CENTOS6.5安装CDH5.12.1(一)》

0025-《CENTOS6.5安装CDH5.12.1(二)》

0030-《如何在CDH中安装Kudu&Spark2&Kafka》

0072-《CDH安装前置准备》

0073-《CentOS6.5安装CDH5.13》

0167-《如何在Redhat7.3安装CDH5.14》

0270- 《如何在Redhat7.4安装CDH6.0.0_beta1》

0317- 《如何在Redhat7.4安装CDH5.15》

0377- 《如何在Redhat7.4安装CDH6.0》

0470- 《0470-如何在Redhat7.4安装CDH5.16.1》

0491- 《0491-如何在Redhat7.4安装CDH6.1》

《0549-6.1-如何在SUSE12 SP3安装CDH6.1》

《0610-6.2.0-如何在Redhat7.4安装CDH6.2》

《0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)》

《0720-5.10.0-如何在RedHat7.2使用rpm安装CDH(有CM)》

《0721-5.10.0-CM接管rpm方式安装的无CM的CDH集群》

《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》

《0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)》

《0724-6.2.0-CM接管rpm方式安装的无CM的CDH集群》

《0728-6.3.0-如何在Redhat7.4安装CDH6.3》

《0733-7.0.3-如何在Redhat7.6中安装CDP DC7.0.3》

2.2.一键安装

计划中…

2.3.升级

0009-《如何升级Cloudera Manager和CDH》

0095-《如何通过CM升级Kafka0.11及Spark2.2》

0171- 《如何使用Cloudera Manager升级Spark2.1版本至Spark2.2》

0284- 《CDH集群跨多版本滚动升级》

《0594-6.1.0-如何从CDH6.1.0升级到CDH6.2.0》

2.4.迁移

0007-《如何迁移Cloudera Manager节点》

2.5.卸载

0008-《如何卸载CDH(附一键卸载github源码)》

《0609-6.1.0-如何卸载CDH6.1》

《0621-6.2.0-如何卸载CDH6.2》

《0725-5.16.2-如何卸载CDH5.16.2》

3.Cloudera Manager

3.1.产品介绍

0053-《CDH5.13和CM5.13的新功能》

0160-《CDH5.14和CM5.14的新功能》

0216- 《Cloudera Manager管理控制台》

0217- 《Cloudera Manager首页》

0269- 《Cloudera Enterprise 6 Beta发布》

0274- 《CDH5弃用的项目》

0303- 《CDH5.15和CM5.15的新功能》

0336- 《Kudu1.7的新功能》

0365- 《关于CDH相关服务启动用户的说明》

0376- 《Cloudera Enterprise 6正式发布》

0427- 《CDH6中的第三方库》

0444- 《Cloudera产品支持生命周期策略》

0466- 《0466-CDH5.16.1和CM5.16.1的新功能》

0487- 《0487-CDH6.1的新功能》

0488- 《0488-Cloudera Manager6.1的新功能》

0509- 《0509-深入分析CDH的安装目录》

《0585-Cloudera Enterprise 6.2.0发布》

《0589-Cloudera Manager6.2的新功能》

《0593-CDH5与CDH6对比》

《0595-CDH6.2的新功能》

《0603-Cloudera Flow Management和Cloudera Edge Management正式发布》

《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

《0682-Cloudera Enterprise 6.3.0发布》

《0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续》

《0702-Cloudera Streams Management正式GA》

《0717-6.3.0-Cloudera Manager 6.3的新功能》

《0718-6.3.0-CDH6.3的新功能》

《0732-Cloudera Data Center7.0今天正式GA》

《CSP2.0-什么是CSM-01》

《0735-什么是Cloudera Management Service - 1》

《0743-Cloudera Enterprise 6.3.3发布》

3.2.扩容

0080-《如何在CDH集群中加入异构设备》

0089-《如何给CDH集群增加Gateway节点》

0110-《如何给Kerberos环境下的CDH集群添加Gateway节点》

0112-《如何在非Kerberos环境下对CDH进行扩容》

0126-《如何为Kerberos环境的CDH集群在线扩容数据节点》

0344- 《如何Redhat7的CDH集群中扩容增加Redhat6的节点》

《0461-CDH6.0扩容异常分析》

《0567-6.1.0-非Kerberos环境下集群外跨操作系统的Gateway节点配置》

《0571-5.16.1-Redhat7的CDH集群外配置Kerberos环境SUSE12的Gateway节点》

0297- 《如何在CDH集群外配置非Kerberos环境的Gateway节点》

0306- 《如何在CDH集群外配置Kerberos环境的Gateway节点》

3.3.减容

0115-《如何使用Cloudera Manager在线为集群减容》

3.4.使用

0003-《如何在CDH中使用LZO压缩》

0036-《如何通过CM API优雅的获取元数据库密码》

0040-《如何重置Cloudera Manager的admin密码》

0088-《如何将CDH集群JAVA升级至JDK8》

0090-《如何将CDH从企业版降级为免费版》

0091-《如何将Kerberos环境下CDH集群JAVA升级至JDK8》

0096-《如何使用Cloudera Manager启用HDFS的HA》

0098-《如何使用Cloudera Manager禁用HDFS HA》

0100-《如何使用Cloudera Manager启用YARN的HA》

0104-《如何使用Cloudera Manager禁用YARN的HA》

0117-《如何修改CDH集群的DataNoe节点HOSTNAME》

0163-《如何修改CDH集群的IP地址》

0187- 《如何降级Cloudera Manager和CDH》

0271- 《如何修改Kerberos的CDH集群的HOSTNAME》

0300- 《如何在CDH集群中为数据节点热插拔硬盘》

0311- 《如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境》

0314- 《如何在CDH集群外配置Kerberos环境的Spark2和Kafka客户端环境》

0332- 《如何修改CDH集群元数据库地址》

0349- 《如何迁移CDH的opt目录》

0392- 《CDH集群升级JDK8后CM服务的JDK版本指定分析》

0400- 《如何修改Cloudera Manager的时区》

0442- 《如何使用Cloudera Manger自定义部署Parcel包》

0446- 《如何在Kerberos环境下修改启用HA的CDH集群HOSTNAME》

0449- 《如何在Kerberos环境的CDH集群外跨OS版本中在指定目录配置HDFS的Gateway节点》

0456- 《如何使用Cloudera Manager为Hadoop服务角色启用远程JMX访问》

0457- 《0457-如何使用Cloudera Manager手动收集诊断包》

0486- 《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》

0497- 《0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8》

0515- 《0515-如何对Cloudera  Manager的数据库密码进行脱敏》

0517- 《0517-如何在CDH5中使用单用户模式》

0520- 《0520-如何使用非root用户启动CM的Server和Agent服务》

《0541-6.1.0-如何为Cloudera Manager设置反向代理》

《0545-Cloudera Manager中Entryopy警告处理》

《0546-6.1-使用Cloudera Manager API启停组件说明》

《0547-CM Server和Agent服务停止脚本说明》

《0548-5.13.1-如何使用普通用户管理CM server和agent服务》

《0551-6.1-普通用户配置kill CDH集群进程权限》

《0591-5.16.1-如何通过CM的API 获取集群告警信息》

《0597-5.16.1-如何在CM界面自定义图表》

《0605-5.16.1-CM告警SNMP中DateAndTime类型解析》

《0629-6.2-如何使用CM API接口获取集群所有节点内存和磁盘使用情况》

《0638-6.1.0-Cloudera Manager配置TLS》

《0642-6.2-如何在CM界面创建触发器》

《0654-6.2.0-如何通过CM API获取集群事件并入库到MySQL》

《0707-如何安装Grafana并使用Cloudera Manager datasource插件》

《0730-5.16.2-如何禁用CDH中的静态资源池》

3.5.异常分析

0023-《HOSTS配置问题导致集群异常故障分析》

0034-《CM启动报InnoDB engine not found分析》

0044-《CDH高可用集群误删NameNode故障恢复》

0086-《Cloudera Manager Server服务在RedHat7状态显示异常分析》

0170- 《Cloudera Manager分发Parcel异常分析》

0196- 《CDH内存调拨过度警告分析》

0350- 《Redhat7.4安装CDH6.0_beta1时分发Parcel异常分析》

0378- 《Cloudera Agent服务异常分析》

0379- 《CM部署客户端配置失败异常分析》

0476- 《0476-Cloudera Agent服务tmpfs文件系统cm_processes空间不足分析》

0519-《0519-如何解决Cloudera Manager主机页面出现重复主机异常》

《0565-6.1.0-NFS异常导致Host Monitor及Agent服务错误》

《0577-5.16.1-使用Cloudera Manager配置自定义csd目录异常》

《0587-6.1.0-CM 管理界面中Impala 的查看SQL查询详细异常问题分析》

《0601-6.1.0-解除授权后的机器重新加入集群异常分析》

《0615-5.16.1-如何修改Cloudera Manager中图表查询的时间序列限制数》

《0637-5.16.1-CDH集群中var目录占用空间大问题分析》

《0669-6.2.0-集群中部分节点hadoop命令无法使用问题分析》

《0705-5.16.2-HDFS文件浏览器异常分析》

4.Navigator

4.1.Navigator安装

0197- 《Cloudera Navigator介绍与安装》

4.2.Navigator使用

0203- 《Navigator的使用》

0205- 《Cloudera Navigator异常分析》

0396- 《Navigator发布审计数据到Kafka并使用Flume入HBase》

0399- 《如何合理的设置Navigator Metadata Server的Heap》

《0655-6.2.0-CDH6.2安装Navigator无法访问异常分析》

《0698-6.2.0-Navigator审计日志查看对应用户的操作》

5.数据科学

5.1.基础环境

0012-《什么是数据科学工作台?为什么数据科学家需要它?》

0038-《如何在CDH集群安装Anaconda&搭建Python私有源》

0049-《什么是sparklyr》

0050-《如何在Redhat中配置R环境》

0051-《如何在Redhat中安装R的包及搭建R的私有源》

0052-《如何使用R连接Hive与Impala》

0057-《PySpark数据类型转换异常分析》

0118-《如何在CDH集群上部署Python3运行环境及运行Python作业》

0334- 《CDH集群升级Python3异常问题分析》

0339- 《Python3环境通过JDBC访问非Kerberos环境的Hive》

0340- 《Python3通过JDBC访问非Kerberos环境的Impala》

0473- 《0473-如何使用Python3访问Kerberos环境的Hive和Impala》

0490- 《0490-如何为GPU环境编译CUDA9.2的TensorFlow1.8与1.12》

0499- 《0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习》

《0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业》

5.2.CDSW

5.2.1.安装/升级/卸载

0037-《如何在Windows Server2008搭建DNS服务并配置泛域名解析》

0047-《如何利用Dnsmasq构建小型集群的本地DNS服务器》

0077-《如何在Windows Server2012搭建DNS服务并配置泛域名解析》

0078-《如何在CDH5.13中安装CDSW1.2》

0172- 《如何在RedHat6上使用Bind搭建DNS服务》

0174- 《如何在RedHat7上使用Bind搭建DNS服务》

0323- 《如何在CDH5.14中安装CDSW1.3》

0325- 《如何在CDH5.15中安装CDSW1.4》

0390- 《如何通过CM升级CDSW1.2.2至1.4》

0478- 《0478-如何在CDH5.16.1中安装CDSW1.4.2》

《0573-5.16.1-如何将CDSW从1.4.2升级到1.5》

《0574-5.16.1-CDSW1.4升级1.5版本db-migrate镜像启动失败问题解决》

《0584-5.16.1-如何卸载CDSW1.5》

《0586-5.16.1-如何在CDH5.16.1中安装CDSW1.5》

《0600-6.1.0-如何在CDH6.1中安装CDSW1.5》

《0602-6.1.0-如何卸载CDSW1.5》

《0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5》

《0668-6.2.0-如何在CDH6.2.0上卸载CDSW1.5》

5.2.2.产品介绍

0063-《CDSW1.2的新功能》

0165-《CDSW1.3的新功能》

0304- 《如何在CDSW中使用GPU运行深度学习》

0313- 《CDSW1.4的新功能》

0355- 《Hadoop之上的模型训练 - CDSW1.4新功能模块》

0357- 《Hadoop之上的模型部署 - CDSW1.4新功能模块》

《0544-CDSW1.5的新功能》

《CDSW1.6的新特性》

《0677-在CDSW1.6中使用你喜爱的编辑器》

《0716-1.6.0-CDSW1.6的新功能》

5.2.3.使用

0042-《如何在CDSW中使用R绘制直方图》

0054-《如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业》

0055-《如何使用CDSW在CDH中分布式运行所有R代码》

0059-《如何基于CDSW基础镜像定制Docker》

0151-《如何使用Nginx实现CDSW的跨网段访问》

0156-《如何修改CDSW服务的DNS和HOSTNAME》

0159-《如何在CDSW上运行TensorFlow》

0161-《如何在CDSW中定制Docker镜像》

0175- 《如何在CDSW上创建Git工程》

0265- 《如何在CDSW上创建Git工程并提交代码》

0327- 《如何在CDH中使用PySpark分布式运行GridSearch算法》

0331- 《如何在CDSW上分布式运行GridSearch算法》

0333- 《如何在CDSW上调试失败或卡住的Spark应用》

0347- 《后台查找CDSW中用户的审计日志》

0350- 《如何通过CM将CDSW从1.3升级至1.4》

0356- 《CDSW1.4的Experiments功能使用》

0358- 《CDSW1.4的Models功能-创建和部署模型(QuickStart)》

0359- 《模型训练和部署-Iris数据集》

0393- 《如何为CDSW的数据目录扩容》

0430- 《如何修改CDSW会话的时区》

0489- 《0489-CDSW中用户Session访问外部数据目录》

0502- 《0502-CDSW中访问Kerberos环境下的Kafka》

《0580-5.16.1-通过CDSW API获取所有用户的Project详细信息》

《0581-5.16.1-关于CDSW监控指标API接口描述》

《0582-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(keytab认证)》

《0583-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(密码认证)》

《0646-6.1.1-如何查看CDSW中其它用户创建的Public工程》

《0649-6.1.1-在C6集群中CDSW的Terminal执行hadoop命令异常分析》

《0662-6.2.0-CDSW集成Active Directory后登录异常分析》

《0663-6.2.0-通过Nginx获取CDSW的登录信息》

《0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志》

《0672-5.16.1-CDSW中Run Experiments异常分析》

《0673-6.2.0-通过Nginx获取CDSW的登录信息(续)》

《0679-6.2.0-通过Nginx获取CDSW的登录信息-续-2》

《0683-6.2.0-通过Nginx获取CDSW的登录信息-续-3》

《0690-TensorFlow之车牌识别案例》

《0689-1.4.0-CDSW目录迁移变更技术手册》

《0691-1.4.0-GPU环境下CDSW运行TensorFlow案例》

《0714-1.5.0-CDSW数据库登录失败异常分析》

《0729-6.3.0-如何修改CDSW1.6中Docker服务的默认网关》

《0736-1.6.1-如何配置CDSW使用本地的Pycharm》

《0737-1.6.1-CDSW分布式计算》

《0739-CDSW本地数据目录权限问题》

《0740-1.6.1-CDSW中定制docker无法使用Jupyter Notebook问题》

6.元数据库

6.1.MySQL

0029-《如何实现CDH元数据库MySQL的主备》

0058-《如何在CDH集群的非元数据库节点安装MySQL5.7.12》

0134-《如何实现CDH元数据库MySQL的主主互备》

0135-《如何实现CDH元数据库MySQL的高可用》

0136-《如何修改CM及CDH元数据库配置》

《0618-6.1.1-如何在CDH6集群内节点安装MySQL5.7.22》

《0619-MySQL5.7.22主从配置》

《0694-5.10.2–如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0695-5.10.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

《0708-5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0709-5.16.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

《0710-6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0711-6.3.0-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

7.Hadoop组件

7.1.Hive

0004-《Hive表字段Comment中文乱码》

0010-《Hive多分隔符支持示例》

0011-《如何在Hive&Impala中使用UDF》

0014-《Hive中的Timestamp类型日期与Impala中显示不一致分析》

0026-《Hive使用十六进制分隔符异常分析》

0043-《如何在CDH中使用HPLSQL实现存储过程》

0083-《如何使用HAProxy实现HiveServer2负载均衡》

0084-《如何使用Zookeeper实现HiveServer2的HA》

0099-《如何使用java代码通过JDBC连接Hive(附github源码)》

0102-《Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)》

0143- 《Hive事务管理避坑指南》

0144-《Hive Load本地数据文件异常分析》

0146-《如何向Hive表加载数据》

0149-《如何使用java代码通过JDBC访问Sentry环境下的Hive》

0180- 《Hive与Impala的关键字》

0181- 《如何在Kerberos环境下使用Haproxy实现HiveServer2负载均衡》

0190- 《如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句》

0204- 《如何编译及使用hive-testbench生成Hive基准测试数据》

0210- 《使用Hive SQL插入动态分区的Parquet表OOM异常分析》

0240- 《如何使用HAProxy实现HiveServer2服务的LDAP和Kerberos认证负载均衡》

0246- 《在同时使用Hive+Sentry,因HMS死锁导致的高并发写入工作负载时,查询速度缓慢或者停滞》

0247- 《Parquet格式表重命名列名后Hive查询列数据显示NULL异常分析》

0249- 《如何在CDH集群中安装Hive2.3.3》

0250- 《如何在Hive中生成Parquet表》

0261- 《如何强制Hive使用指定时区而非操作系统时区》

0263- 《Hive2.2.0如何与CDH集群中的Spark1.6集成》

0315- 《如何为Hive2启用Kerberos认证》

0343- 《HiveServer2服务异常日志分析》

0364- 《如何使用Nginx实现HiveServer2负载均衡》

0375- 《非Kerberos环境下Hive2.2.0 On Tez集成》

0381- 《如何编译适用于CDH的Tez版本并集成Kerberos环境的Hive2》

0401- 《Hive CLI禁用补充说明》

0407- 《如何在Beeline中使用自定义变量》

0428- 《如何为Hive CLI运行时指定日志目录》

0435- 《Hive创建外部表CSV数据中列含有逗号问题处理》

0436- 《如何在Hive中使用Map类型》

0437- 《如何在Hive中使用Struct类型》

0447- 《答应我,别在CDH5中使用ORC好吗》

0448- 《Hive作业产生的临时数据占用HDFS空间大问题处理》

0458- 《0458-Hive数据类型校验问题分析》

0472- 《0472-Hive中TimeStamp精度问题分析》

0496- 《0496-使用Parquet矢量化为Hive加速》

0505- 《0505-使用Apache Hive3实现跨数据库的联邦查询》

0507- 《0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决》

0514- 《0514-Hive On Spark无法创建Spark Client问题分析》

0516- 《0516-如何查看Hive中某个角色所有已授权的组》

《0537-5.15.0-查询Parquet格式表异常问题》

《0556-6.1.0-Hive On Spark修改作业临时配置文件生成目录》

《0572-5.16.1-Hive中decimal类型字段.0结尾数据显示异常问题处理》

《0607-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表》

《0608-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表(续)》

《0631-6.2-如何确认一个Parquet文件是否被压缩》

《0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析》

《0650-6.2.0-通过UDF实现Hive&Impala的中文拼音排序》

《0653-5.16.1-Hive Staging目录占用大量HDFS空间问题分析》

《0656-6.2.0-如何配置Haproxy高可用》

《0659-6.2.0-Hive处理JSON格式数据》

《0665-6.2.0-如何在CDH中配置HMS高可用》

《0671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2》

《0687-5.16.1-Hive分桶问题》

《0738-6.2.0-如何在Hive中使用多分隔符》

7.2.Impala

0039-《如何使用Python Impyla客户端连接Hive和Impala》

0070-《如何使用Beeline连接Impala》

0081-《如何使用Nginx实现Impala负载均衡》

0082-《如何使用HAProxy实现Impala的负载均衡》

0097-《如何使用java代码通过JDBC连接Impala(附Github源码)》

0113-《Impala升级为Apache顶级项目》

0124-《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》

0131-《如何在Kerberos的Linux上安装及配置Impala的ODBC驱动》

0147-《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》

0154-《如何在Impala中实现拉链表》

0162-《使用Java代码通过JDBC连接只启用Sentry的Impala异常分析》

0206- 《Impala的Short-Circuit Reads》

0224- 《Hive与Impala对VARCHAR/CHAR存放中文字符解析不一致问题分析》

0242- 《Impala TPC-DS基准测试》

0248- 《如何在Impala中使用Parquet表》

0275- 《当Impala碰到由Hive生成的timestamp数据》

0276- 《由Impala-3316导致的并发查询缓慢问题》

0277- 《Impala并发查询缓慢问题解决方案》

0312- 《如何在Kerberos环境下使用Spark2通过JDBC访问Impala》

0326- 《如何为Impala Daemon服务配置Executor和Coordinator角色》

0337- 《Impala最佳实践》

0397- 《Python2使用Impyla访问集成OpenLDAP并启用Sentry的Impala服务》

0405- 《如何使用Impala合并小文件》

0433- 《Kerberos环境下Impala Daemon在CDH5.15版本中KRPC端口27000异常分析》

0440- 《如何启用Impala的动态资源池》

0441- 《Impala动态资源池及放置规则使用》

0518-《0518-如何在Impala中使用UDF获取SessionId》

《0680-5.16.1-impala-shell导出数据存在中文异常问题》

7.3.HBase

0045-《Cloudera Labs中的Phoenix》

0066-《如何使用Java连接Kerberos的HBase》

0071-《如何在CDH中使用HBase快照》

0046-《如何在CDH中使用Phoenix》

0254- 《如何使用HBase存储文本文件》

0258- 《如何使用HBase存储图片》

0266- 《如何使用Java调用HBase的 Endpoint Coprocessor》

0268- 《如何开发HBase Endpoint类型的Coprocessor以及部署使用》

0307- 《如何使用Phoenix在CDH的HBase中创建二级索引》

0308- 《如何在CDH5.14.2中安装Phoenix4.14.0》

0321- 《如何在CDH中使用HBase的ACLs进行授权》

0322- 《如何在CDH中使用HBase的Quotas设置资源请求限制》

0346- 《使用Spark通过BulkLoad快速导入数据到HBase》

0454- 《如何使用Java访问非Kerberos环境的HBase》

《0539-5.15.0-HBase-Spark无法在Spark2编译通过问题解决》

《0540-5.15.0-Spark2使用HBase-Spark访问HBase》

《0674-5.16.2-如何在CDH5中使用Phoenix4.14.1》

《0676-5.16.2-Apache Phoenix for CDH》

《0693-6.2.0-如何将Hive数据导入HBase》

《0712-6.2.0-HBase快照异常》

《0713-6.2.0-HBase的Thrift Server启动问题》

7.4.Hue

0056-《如何重置Hue用户密码》

0152-《如何在Hue中配置已启用SSL的HttpFS服务》

0153-《Hue禁止用户下载数据问题分析》

0164-《如何在Hue中配置HiveServer2的负载均衡》

0168-《如何在Hue中配置Impala的负载均衡》

0236- 《Hue中无法删除用户异常分析》

0241- 《如何开启Hue的Debug模式》

0251- 《如何在Hue中集成配置Hive2.3.3服务》

0328- 《如何在退出Hue后关闭Spark会话》

0395- 《在Kerberos环境下Hue与HBase集成》

0402- 《如何修改Hue的时区》

0408- 《如何在Hue中集成第三方Web应用》

0422- 《如何为Hue添加自定义Banner》

0431- 《如何在Hue中添加Spark Notebook》

0450- 《如何在Hue中调优Impala和Hive查询》

0475- 《0475-如何统一Hue和Oozie的时区》

0498- 《0498-Hue Sqoop1的编辑器中执行Sqoop作业失败问题分析》

0506- 《0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala》

《0536-5.15.0-如何使用Hue集成RDBMS数据库》

《0635-5.16.1-Hue集成HBase出现Api Error异常分析》

0636- 《6.1.1-Hue上SQL查询结果显示不全异常分析》

《0640-6.1.1-Hue上SQL查询结果显示不全异常分析-补充》

《0647-6.1.1-Hue集成HBase出现Api Error异常分析(续)》

《0681-6.2.0-如何在HDFS自动创建用户主目录》

7.5.Sqoop

0121-《Sqoop抽取Hive Parquet表数据到MySQL异常分析》

0193- 《如何使用Sqoop2》

0342- 《Sqoop抽数到Hive表异常分析》

0348- 《Sqoop抽数到Hive表异常分析(之二)》

0425- 《如何清理Sqoop脚本产生的临时编译目录》

《0657-6.2.0-Sqoop导入Parquet文件Hive查询为null问题》

7.6.Solr

0103-《如何使用Java代码访问CDH的Solr服务》

0114-《如何使用Hue通过数据文件创建Collections》

0252- 《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》

0253- 《如何使用Flume准实时建立Solr的全文索引》

0256- 《如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引》

0293- 《如何在Kerberos下使用Solr》

0301- 《使用命令行创建collection时Sentry给Solr赋权的问题》

0504- 《0504-使用Pulse为数据管道实现主动告警》

《0700-6.2.0-使用Solr7对多种格式文件建立全文索引》

《0701-6.2.0-使用Solr7对结构化csv文件建立全文索引》

《0703-6.2.0-使用Sentry为Solr进行赋权》

7.7.Oozie

0060-《如何使用Hue创建Spark1和Spark2的Oozie工作流》

0061-《如何使用Hue创建Spark2的Oozie工作流(补充)》

0075-《如何在Hue中创建Ssh的Oozie工作流》

0119-《如何使用Hue上创建一个完整Oozie工作流》

0120-《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》

0123-《Hue中使用Oozie创建Shell工作流在脚本中切换不同用户》

0132-《使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析》

0133-《在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析》

0184- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》

0185- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》

0186- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流》

0188- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业》

0189- 《如何启用Oozie的HA》

0194- 《如何使用Oozie API接口向Kerberos集群提交Java程序》

0202- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业》

0207- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业》

0296- 《如何在Oozie中创建有依赖的WorkFlow》

0462- 《0462-如何在Hue中创建Shell Action工作流续》

《0535-5.15.0-Oozie中创建Ssh Action指定ssh端口号》

《0590-6.1.0-C6升级过程中Oozie共享库的问题分析》

7.8.HDFS

0068-《如何在CDH集群使用HDFS快照》

0105-《如何使用Java代码访问HDFS.docx》

0125-《如何在集群外节点跨网段向HDFS写数据》

0130-《如何将HDFS文件系统挂载到Linux本地文件系统》

0148-《如何为HttpFS服务配置SSL》

0209- 《JournalNode的edits目录没有格式化异常分析》

0243- 《Slow ReadProcessor&Error Slow BlockReceiver错误日志分析》

0262- 《HDFS部署最佳实践》

0264- 《如何修改启用了高可用HDFS的NameService ID》

0292- 《如何使用Java API访问HDFS为目录设置配额》

0341- 《集群JournalNode服务重启导致NameNode挂掉分析》

0360- 《NameNode Metadata备份和恢复最佳实践》

0403- 《如何在Hadoop中处理小文件》

0409- 《如何指定Hadoop命令行日志输出级别》

0432- 《什么是HDFS的纠删码》

0434- 《如何在CDH6.0中使用纠删码》

0443- 《CM上HDFS容量显示与实际命令不一致问题分析》

0451- 《如何使用Scala代码访问Kerberos环境的HDFS》

0455- 《如何在Hadoop中处理小文件-续》

0460- 《0460-HDFS纠删码的机架感知》

0464- 《0464-如何离线分析HDFS的FsImage查找集群小文件》

0482- 《0482-HDFS上一次检查点异常分析》

0494- 《0494-如何恢复HDFS中节点正常解除授权丢失的数据》

0508- 《0508-如何使用Hadoop的Archive处理小文件》

0512- 《0512-使用Python访问Kerberos环境下的HDFS》

0521- 《0521-Hadoop命令无法访问HDFS路径诡异问题解决》

《0524-6.1-如何使用Cloudera Manager启用HDFS的HA》

《0525-6.1-如何使用Cloudera Manager禁用HDFS的HA》

《0526-6.1-如果你不小心删了一个NameNode1》

《0527-6.1-如果你不小心删了一个NameNode2》

《0528-6.1-如何迁移NameNode相关角色》

《0530-6.1-如何只是迁移NameNode或JournalNode》

《0531-6.1-如何手动迁移JournalNode》

《0532-6.1-如果你的NameNode服务器坏了并且无法恢复》

《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》

《0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别》

《0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统》

《0616-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统(续)》

《0630-6.2-什么是HDFS ACL》

《0658-5.16.1-如何使用CM设置HDFS目录配额》

《0675-6.2.0-什么是HDFS分层存储》

《0678-6.2.0-如何在CDH中使用HDFS分层存储》

《0692-5.16.1-外部客户端跨网段访问Hadoop集群方式(续)》

《0704-5.16.2-如何使用Hive合并小文件》

《0731-6.3.0-关于HDFS ACL的32个条目限制说明》

7.9.Kudu

0020-《使用JDBC向Kudu表插入中文字符-双引号的秘密》

0021-《使用JDBC向Kudu表插入中文字符-cast的秘密》

0085-《如何在Kudu1.5中使用Sentry授权》

0128-《如何迁移Kudu1.2的WAL和Data目录》

0267- 《如何使用Java API访问CDH的Kudu》

0452- 《如何使用Java代码访问Kerberos环境下的Kudu》

《0538-5.15.0-Spark2 KuduContext访问Kudu》

《0611-5.16.1-Kudu表执行COMPUTE STATS 命令异常分析》

7.10.Kafka

0022-《如何永久删除Kafka的Topic》

0065-《如何通过Cloudera Manager为Kafka启用Kerberos及使用》

0069-《如何使用Java连接Kerberos的Kafka》

0324- 《如何在CDH中为Kafka设置流量配额》

0362- 《如何查看Kafka的Topic消费情况》

0363- 《如何在Spark Streaming应用中使用Kudu管理Kafka的Offset》

0370- 《如何实现Kafka的Partition重分配》

0374- 《如何在CDH集群中部署Kafka Manager》

0383- 《如何通过CM升级CDK至3.1.0(Kafka-1.0.1)》

0404- 《如何规划设置Kafka Broker的heap size》

0500- 《0500-使用Python2访问Kerberos环境下的Kafka》

0501- 《0501-使用Python访问Kerberos环境下的Kafka(二)》

《0542-6.1.0-非安全环境下Kafka管理工具Kafka Eagle安装使用》

《0543-5.15.0-Kerberos环境下Kafka管理工具Kafka Eagle安装使用》

《0726-6.3.0-如何在CDH6.3中安装Streams Messaging Manager(SMM)》

《0471-Oracle Goldengate实时复制Oracle数据到CDH Kafka》

7.11.YARN

0019-《Yarn的JobHistory目录权限问题导致MapReduce作业异常》

0107-《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》

0108-《如何使用hadoop命令向CDH集群提交MapReduce作业》

0109-《如何使用java命令从非集群节点向CDH集群提交MapReduce作业》

0129-《如何在HDFS上查看YARN历史作业运行日志》

0291- 《如何使用Cloudera Manager设置使用YARN队列的ACL》

0353- 《如何使用curl命令调用CM的API动态配置Yarn资源池》

0354- 《如何使用Java调用CM的API动态配置Yarn资源池》

0369- 《如何在CDH中配置YARN动态资源池的计划规则》

0421- 《如何在不重启Yarn服务的情况下启用DEBUG日志记录》

0426- 《如何在Cloudera Manager中配置Yarn放置规则》

《0529-5.15.0-这次玩儿大了,找不回了》

《0533-6.1-如何使用Cloudera Manager启用YARN的HA》

《0534-6.1-如何使用Cloudera Manager禁用YARN的HA》

《0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析》

《0606-6.1.0-NodeManager丢失文件启动失败异常分析》

《0620-5.16.1-如何设置MR作业的Map或Reduce日志级别》

《0652-5.16.1-目录挂载点nosuid参数导致NodeManage启动失败异常分析》

7.12.Spark

0016-《Avro序列化&反序列化和Spark读取Avro数据》

0017-《Spark的HistoryServer不能查看到所有历史作业分析》

0041-《如何使用Intellij搭建Spark开发环境》

0064-《如何通过Cloudera Manager配置Spark1和Spark2的运行环境》

0079-《如何在CDH中启用Spark Thrift》

0176- 《Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs》

0177- 《如何编译Livy并在非Kerberos环境的CDH集群中安装》

0178- 《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》

0182- 《如何在Kerberos环境的CDH集群部署Livy》

0183- 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》

0278- 《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》

0280- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》

0281- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》

0285- 《如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer》

0373- 《如何指定Spark2作业中Driver和Executor使用指定范围内端口》

0438- 《如何指定Spark1作业中Driver和Executor使用指定范围内端口》

0445- 《如何为Spark应用启用Kerberos的Debug日志》

0483- 《0483-如何指定PySpark的Python运行环境》

0485- 《0485-如何在代码中指定PySpark的Python运行环境》

0510- 《0510-Spark应用访问Hive报错异常分析》

《0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析》

《0643-Spark SQL Thrift简介》

《0644-5.16.1-如何在CDH5中使用Spark2.4 Thrift》

《0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了》

7.13.Zookeeper

0006-《Zookeeper指标分析》

0101-《Kerberos环境下删除ZooKeeper服务注册信息问题分析》

0239- 《集群启用Kerberos后对Zookeeper的Znode操作异常分析》

0381- 《如何通过CM迁移Zookeeper服务》

7.14.NiFi

《0622-什么是Apache NiFi》

《0623-6.2.0-如何在CDH中安装CFM》

《0624-6.2.0-NiFi处理器介绍与实操》

《0625-6.2.0-Hello NiFi-第一个NiFi例子》

7.15.Flink

《0727-6.3.0-在CDH上运行你的第一个Flink例子》

8.多租户

8.1.静态资源管理

计划中…

8.2.动态资源管理/YARN

计划中…

8.3.动态资源管理/Impala

计划中…

8.4.安全

8.4.1.认证

8.4.1.1.Kerberos

0005-《Windows Kerberos客户端配置并访问CDH》

0027-《如何在CDH集群启用Kerberos》

0087-《如何配置Kerberos服务的高可用》

0173- 《如何在Redhat7.3的CDH5.14中启用Kerberos》

0271- 《如何禁用CDH集群Kerberos》

0273- 《如何在CDH6.0.0-beta1中启用Kerberos》

0319- 《如何在Redhat7.4的CDH5.15中启用Kerberos》

0345- 《如何将CDH集群的KDC从RedHat7迁移到RedHat6》

0389- 《如何在CDH6.0中启用Kerberos》

0477- 《0477-如何在Redhat7.4的CDH5.16.1中启用Kerberos》

0495- 《0495-如何在CDH6.1中启用Kerberos》

《0552-5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析》

《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》

《0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题(续)》

《0555-6.1.0-使用Python并发访问认证和非认证集群》

《0578-5.15.1-Kerberos环境下Java应用程序认证超时异常分析》

《0579-5.15.1-Java 应用程序中修改Kerberos ticket_lifetime参数无效异常分析》

《0592-5.16.1-如何配置Kerberos高可用》

《0596-6.2.0-如何在CDH6.2中禁用Kerberos》

《0614-5.16.1-同一OS用户并行Shell脚本中kinit不同的Principal串掉问题分析》

《0627-如何跳过HiveServer2 WebUI的Kerberos验证》

《0628-6.2-如何在CDH6.2中启用Kerberos》

《0641-5.16.1-如何禁用CDH5.16.1的Kerberos》

《0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件》

《0706-6.2.0-Windows Kerberos客户端配置并访问CDH》

《0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业(续)》

8.4.1.2.OpenLDAP

0137-《1.如何在CentOS6.5安装OpenLDAP并配置客户端》

0138-《2.OpenLDAP集成SSH登录并使用SSSD同步用户》

0139-《3.如何实现OpenLDAP的主主同步》

0140-《4. 如何为Hive配置OpenLDAP认证》

0141-《5.如何为Impala配置OpenLDAP认证》

0142-《6.如何为Hue配置OpenLDAP认证》

0150-《7.如何在OpenLDAP中实现将一个用户添加到多个组》

0166-《如何集成OpenLDAP+Sentry.docx》

0226- 《1.如何在RedHat7上安装OpenLDA并配置客户端》

0227- 《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》

0229- 《3.如何RedHat7上实现OpenLDAP的主主同步》

0233- 《4.如何为Hive集成RedHat7的OpenLDAP认证》

0234- 《5.如何为Impala集成Redhat7的OpenLDAP认证》

0235- 《6.如何为Hue集成RedHat7的OpenLDAP认证》

0237- 《7.如何在RedHat7的OpenLDAP中实现将一个用户添加到多个组》

0238- 《8.如何使用RedHat7的OpenLDAP和Sentry权限集成》

0361- 《9.如何为Navigator集成RedHat7的OpenLDAP认证》

0367- 《10.如何在OpenLDAP启用MemberOf》

0368- 《11.如何为CDSW集成RedHat7的OpenLDAP认证》

0371- 《12.OpenLDAP管理工具Phpldapadmin的安装及使用》

0386- 《13.一键添加OpenLDAP用户及Kerberos账号》

0424- 《14.如何为Cloudera Manager集成OpenLDAP认证》

0492- 《OpenLDAP管理工具之LDAP Admin》

《0626-如何监控OpenLDAP主主同步状态》

《0688-6.2.0-特殊用户名在Hue和YARN中测试》

8.4.1.3.AD

0410- 《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》

0411- 《02-Active Directory安装证书服务并配置》

0412- 《03-Active Directory的使用与验证》

0413- 《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》

0414- 《05-如何为Hive集成AD认证》

0415- 《06-如何为Impala集成AD认证》

0416- 《07-如何为Hue集成AD认证》

0417- 《08-如何为Navigator集成Active Directory认证》

0418- 《09-如何为CDSW集成Active Directory认证》

0419- 《如何将CDH中集成的RedHat7版Kerberos切换至Active Directory的Kerberos认证》

0420- 《如何为CDH集成Active Directory的Kerberos认证》

0423- 《11-如何为Cloudera Manager集成Active Directory认证》

8.4.1.4.FreeIPA

《0558-01-如何在Redhat7上安装FreeIPA》

《0559-02-如何在Redhat7上安装FreeIPA的客户端》

《0560-03-如何使用root用户重置FreeIPA admin密码》

《0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证》

《0562-05-5.15.0-如何为Hive集成FreeIPA的用户认证》

《0563-06-如何在FreeIPA上管理域名解析》

《0566-07-5.15.0-如何为Impala集成FreeIPA的用户认证》

8.4.1.5.SAML

0191- 《如何使用Shibboleth搭建IDP服务并集成OpenLDAP》

0192- 《如何使用SAML配置Cloudera Manager的身份验证》

0199- 《如何使用SAML配置CDSW的身份验证》

8.4.2.授权

0015-《如何使用Sentry管理Hive外部表权限》

0028-《如何在CDH未启用认证的情况下安装及使用Sentry》

0031-《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》

0032-《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》

0033-《如何在Hue中使用Sentry》

0035-《如何使用Sentry管理Hive外部表(补充)》

0067-《Sentry赋予server1权限给hive以外用户时ACL不同步问题分析》

0074-《如何在启用Sentry的CDH集群中使用UDF》

0155-《如何查看集成Sentry后Hive作业的真实用户》

0208- 《如何使用Sentry实现Hive/Impala的数据脱敏》

0225- 《如何使用Sentry通过视图实现Impala的行级授权》

0279- 《如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制》

0294- 《如何使用Sentry为Solr赋权》

0298- 《如何使用Sentry为Kafka赋权》

0304- 《如何在Hue中使用Sentry为Solr赋权》

0406- 《如何使用Sentry管理Hive仓库目录外的其他目录的acl同步》

0439- 《Hive启用Sentry后如何限制用户提交Yarn资源池》

0493- 《0493-如何在Sentry中使用WITH GRANT OPTION命令》

《0568-普通用户在Sentry中使用show roles 命令查看失败异常分析》

《0569-5.15.1-开启Sentry后LOAD DATA异常分析》

《0575-5.16.1-Hive中只有create权限却能查看到非自己创建表的异常》

《0576-6.1.0-Hive Comment中文乱码补充》

《0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析》

《0633-6.2.0-什么是Apache Sentry》

《0634-6.2.0-如何在CDH中安装Sentry服务》

《0648-6.2.0-配置Senty服务》

《0651-6.2.0-启用Sentry后Impala执行SQL失败问题分析》

《660-6.2.0-无法在启用Sentry的集群中使用TRANSFORM问题分析》

《0664-6.2.0-用户有CREATE权限建表后但无HDFS文件的ACL访问权限异常分析》

《0715-6.2.0-用户有CREATE权限建表后无HDFS文件的ACL访问权限异常分析》

《0741-什么是Apache Ranger - 1》

《0742-什么是Apache Ranger - 2》

《0745-什么是Apache Ranger - 3》

8.4.3.加密

0092-《什么是HDFS透明加密》

0111-《如何在CDH实现HDFS透明加密》

8.4.4.审计

计划中…

8.5.集群资源使用报告

0157-《如何在CM中启用YARN的使用率报告》

9.灾备

9.1.介绍

0244- 《如何部署active-active的Hadoop集群》

9.2.HDFS

0013-《如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据》

《0661-6.2.0-Hadoop数据备份与恢复》

9.3.HBase

0076-《如何使用HBase快照实现跨集群全量与增量数据迁移》

10.运维

10.1.监控

0211- 《Cloudera Manager监控介绍》

0212- 《Cloudera Manager的时间轴》

0213- 《Cloudera Manager的运行状况测试》

0218- 《使用Cloudera Manager查看集群,服务,角色和主机的图表》

0289- 《如何使用Cloudera Manager监控服务》

10.2.告警

0259- 《如何通过Cloudera Manager配置使用SNMP方式转发告警》

0372- 《CM告警SNMP对接补充》

0394- 《如何为CDH集群配置警报邮箱》

《0523-5.15-为Cloudera Manager配置自定义告警脚本》

11.外部工具集成

11.1.Tableau

0093-《如何安装Tableau并连接CDH的Hive/Impala》

0094-《如何通过Tableau连接Kerberos的Hive/Impala》

11.2.SAS

0198- 《如何安装SAS并配置连接Hive/Impala》

《0696-5.16.1-如何使用SAS连接CDH5.16.1集群的Hive和Impala》

《0697-6.2.0-如何使用SAS连接CDH6.2.0集群的Hive和Impala》

11.3.Azkaban

0214- 《如何编译安装Azkaban服务》

0215- 《如何编译Azkaban插件》

0219- 《如何在Azkaban中安装HDFS插件以及与CDH集成》

0222- 《如何在Azkaban安装插件(二)》

0223- 《Azkaban的使用及Command作业创建》

11.4.SmartBI

0257- 《如何安装SmartBI并连接到Impala》

11.5.StreamSets

0220- 《如何在CDH中安装和使用StreamSets》

0231- 《如何使用StreamSets从MySQL增量更新数据到Hive》

0232- 《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》

0255- 《如何使用StreamSets实时采集Kafka并入库Kudu》

0282- 《如何使用StreamSets实现MySQL中变化数据实时写入HBase》

0299- 《如何使用StreamSets实时采集Kafka数据并写入Hive表》

0302 -《如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表》

0320- 《如何使用StreamSets实现Oracle中变化数据实时写入Kudu》

《0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu》

11.6.Kylin

0260- 《如何在CDH中部署及使用Kylin》

0295- 《如何在启用Kerberos的CDH中部署及使用Kylin》

11.7.Presto

0316- 《如何在CDH集群中部署Presto》

0318- 《如何为Presto集成Kerberos环境下的Hive》

11.8.Juypter

0382- 《如何在非安全的CDH集群中部署Jupyter并集成Spark2》

0384- 《如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2》

0385- 《JupyterHub与OpenLDAP集成》

0391- 《Jupyter Notebook与Livy集成》

0398- 《JupyterLab的安装及使用》

11.9.Livy+Zeppelin

0387- 《如何打包Livy和Zeppelin的Parcel包》

0389- 《如何在CM中使用Parcel包部署Livy及验证》

0393- 《如何在CM中使用Parcel包部署Zeppelin及使用》

11.10.SQL开发工具

0459- 《0459-如何使用SQuirreL通过JDBC连接CDH的Hive(方式一)》

0463- 《0463-如何使用SQuirreL通过JDBC连接CDH的Hive(方式二)》

0465- 《0465-如何使用SQuirreL访问Kerberos环境下的Hive》

0467- 《Hadoop SQL客户端工具之Dbeaver安装及使用》

0468- 《0468-如何使用DBeaver访问Kerberos环境下的Hive》

0469- 《0469-如何使用DBeaver访问Kerberos环境下的Impala》

《0557-6.1.0-Kerberos环境下SQL客户端DBeaver配置异常分析》

0474- 《0474-如何使用SQL Developer访问Hive》

11.11.Airflow

《0612-如何在RedHat7.4上安装airflow》

《0613-Airflow集成自动生成DAG插件》

11.12.Nginx

《0684-如何配置Nginx高可用》

12.应用场景

12.1.实时

0116-《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》

0122-《非Kerberos环境下Kafka数据到Flume进Hive表》

0145-《如何使用Spark Streaming读取HBase的数据并写入到HDFS》

0283- 《SparkStreaming读Kafka数据写HBase》
0286- 《SparkStreaming读Kafka数据写Kudu》

0287- 《如何使用Flume采集Kafka数据写入Kudu》

0288- 《如何使用Flume采集Kafka数据写入HBase》

0290- 《如何在Kerberos环境下使用Flume采集Kafka数据写入HBase》

0309- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》

0310- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HBase》

0330- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Hive》

0335- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS》

0338-《Spark2Streaming读Kafka并写入到HBase》

0352- 《Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu》

13.基准测试

0245- 《如何使用HiBench进行基准测试》

0201- 《如何编译及使用TPC-DS生成测试数据》

14.HDP

0048- 《Hortonworks联合Jethro扩充其数据仓库解决方案》

0222- 《如何在Centos7.2安装HDP2.6》

0230- 《Hortonworks去年第四季度以及全年财报》

0329- 《Hortonworks正式发布HDP3.0》

0429- 《如何在Redhat7.4安装HDP3.0.1》

0479- 《0479-如何禁用HDP2.6.5的HDFS HA》

0480- 《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》

0481- 《0481-如何从HDP2.6.5原地升级到CDH6.0.1》

15.转载

《刘汨春:AI大数据在企业全链业务中的应用和价值(上)》

《HDFS添加 NFS Gateway 角色实例启动失败问题及解决办法》

《近期文章内容预告》

《安装CDSW数据磁盘初始化异常问题分析》

《安装CDSW数据磁盘初始化异常问题分析》

《重庆某项目生产集群扩容问题总结及复盘》

《如何为CDH集群配置机架感知》

《HDFS运行Balancer失败及问题解决办法》

《如何为服务器硬盘配置RAID或JBOD模式》

《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》
《如何使用Sentry为包含特殊字符的用户组授权》

《如何为Hadoop集群服务器绑定双万兆网卡》

《如何使用Shell脚本判断HDFS文件/目录是否存在》

《由MasterProcWals状态日志过多导致的HBase Master重启失败问题》

《聊聊个人对安装部署CDH集群前置准备的理解》

《CDH集群安装YARN无法正常启动及解决办法》

《LDAP用户组信息异常导致Sentry授权失效问题分析》

《HDFS Federation(联邦)简介》

《如何禁止Namenode格式化》

《如何通过CM为HDFS启用Federation》

《如何通过CM禁用Federation》

《回顾·基于Impala平台打造交互查询系统》

《Spark Streaming VS Flink》

《30PB数据1年内迁移到Spark,eBay的经验有何可借鉴之处?》

《潘国庆:如何实现端对端的 exactly once?》

《Spark2.4的新功能》

《杭州造云记》

《首发 | OceanBase 2.0 重磅发布,全面降低金融业务向分布式架构转型的技术风险》

《Cloudera与Hortonworks合并》

《两大数据平台Cloudera和Hortonworks宣布合并,计划创建首个企业数据云》

《重磅!Cloudera、Hortonworks 合并 !免费的好日子不多了》

《大新闻!Elasticsearch上市!》

《大数据凉了?No,流式计算浪潮才刚刚开始!》

《YARN 资源调度那些事儿》

《SparkSQL 在有赞的实践》

《Flink 在有赞实时计算的实践》

《有赞大数据平台安全建设实践》

《人工智障 2 : 你看到的AI与智能无关》

《Spark Streaming 在数据平台日志解析功能的应用》

《HBase 写吞吐场景资源消耗量化分析及优化》

《Druid 在有赞的实践》

《HBase 读流程解析与优化的最佳实践》

《Flume 在有赞大数据的实践》

《Druid Segment Balance 及其代价计算函数分析》

《浅析 Spark Shuffle 内存使用》

《重磅 | Apache Spark 社区期待的 Delta Lake 开源了》

《解读2018:13家开源框架谁能统一流计算?》

《从Storm到Flink,有赞五年实时计算效率提升实践》

《0643-转载-余利华:网易大数据平台架构实践分享》

《【生活现场】从洗袜子到hbase存储原理解析》

《OLAP 分析已死?真的真的么?!》

《DataX在有赞大数据平台的实践》

《我是如何成为Apache Kudu committer & PMC的?》

《Zeppelin: 让大数据插上机器学习的翅膀》

《你为什么还在用存储过程?》

《你是一直认为 count(1) 比 count(*) 效率高么?》

《从这个角度,我终于理解为什么需要Kafka这样的东西了!》

《干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用》

《Apache Druid 0.15.0版本发布》

《Cloudera对开源的承诺》

《Cloudera独家回应:Hadoop到底怎么了?》

《微博基于ClickHouse灵活监控百亿流量下的业务指标》

《史上最全-mysql迁移到clickhouse的5种办法》

《SQL on Hadoop在快手大数据平台的实践与优化》

《YuniKorn:一个通用的资源调度程序》

《HDFS Router-based Federation》

《Hive在DB-Engine的排名已经超过Teradata》

《独家|手把手教你赋能Jupyter Notebooks!(附代码)》

《快手 HBase 在千亿级用户特征数据分析中的应用与实践》

《一步一步理解Impala query profile(一)》

《一步一步理解Impala query profile(二)》

《一步一步理解 Impala query profile(三)》

16.其他

0018- 《大数据售前的中年危机》

0059- 《工程师的一天》

0106- 《总用户数破1000,后台数据公布》

0179- 《Fayson给大家拜年》

0221- 《冲上云霄》

0228- 《Cloudera去年第四季度以及全年财报》

0259- 《如何在DELL R730服务器上使用U盘安装linux操作系统》

0366- 《周年庆》

《简单说一下ClickHouse》

0453- 《Java收费,Hadoop怎么办?》

《【简报】CDH和HDP的合并提前终止反垄断法的等待期》

0484- 《0484-Cloudera和Hortonworks合并后面临的选择》

0503- 《Cloudera与Hortonworks合并完成》

0511- 《0511-正式合并完成后Cloudera推出新的大数据平台CDP》

0513- 《0513-开源软件如何统治世界》

0516- 《融资数千万的小象科技了解一下》

《0522-Confluent获D轮融资1.25亿,估值25亿》

《Fayson给大家拜年》

《新年》

《Hadoop已死,Hadoop万岁》

17.转载

《刘汨春:AI大数据在企业全链业务中的应用和价值(上)》

《HDFS添加 NFS Gateway 角色实例启动失败问题及解决办法》

《近期文章内容预告》

《安装CDSW数据磁盘初始化异常问题分析》

《安装CDSW数据磁盘初始化异常问题分析》

《重庆某项目生产集群扩容问题总结及复盘》

《如何为CDH集群配置机架感知》

《HDFS运行Balancer失败及问题解决办法》

《如何为服务器硬盘配置RAID或JBOD模式》

《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》
《如何使用Sentry为包含特殊字符的用户组授权》

《如何为Hadoop集群服务器绑定双万兆网卡》

《如何使用Shell脚本判断HDFS文件/目录是否存在》

《由MasterProcWals状态日志过多导致的HBase Master重启失败问题》

《聊聊个人对安装部署CDH集群前置准备的理解》

《CDH集群安装YARN无法正常启动及解决办法》

《LDAP用户组信息异常导致Sentry授权失效问题分析》

《HDFS Federation(联邦)简介》

《如何禁止Namenode格式化》

《如何通过CM为HDFS启用Federation》

《如何通过CM禁用Federation》

《回顾·基于Impala平台打造交互查询系统》

《Spark Streaming VS Flink》

《30PB数据1年内迁移到Spark,eBay的经验有何可借鉴之处?》

《潘国庆:如何实现端对端的 exactly once?》

《Spark2.4的新功能》

《杭州造云记》

《首发 | OceanBase 2.0 重磅发布,全面降低金融业务向分布式架构转型的技术风险》

《Cloudera与Hortonworks合并》

《两大数据平台Cloudera和Hortonworks宣布合并,计划创建首个企业数据云》

《重磅!Cloudera、Hortonworks 合并 !免费的好日子不多了》

《大新闻!Elasticsearch上市!》

《大数据凉了?No,流式计算浪潮才刚刚开始!》

《YARN 资源调度那些事儿》

《SparkSQL 在有赞的实践》

《Flink 在有赞实时计算的实践》

《有赞大数据平台安全建设实践》

《人工智障 2 : 你看到的AI与智能无关》

《Spark Streaming 在数据平台日志解析功能的应用》

《HBase 写吞吐场景资源消耗量化分析及优化》

《Druid 在有赞的实践》

《HBase 读流程解析与优化的最佳实践》

《Flume 在有赞大数据的实践》

《Druid Segment Balance 及其代价计算函数分析》

《浅析 Spark Shuffle 内存使用》

《重磅 | Apache Spark 社区期待的 Delta Lake 开源了》

《解读2018:13家开源框架谁能统一流计算?》

《从Storm到Flink,有赞五年实时计算效率提升实践》

《0643-转载-余利华:网易大数据平台架构实践分享》

《【生活现场】从洗袜子到hbase存储原理解析》

《OLAP 分析已死?真的真的么?!》

《DataX在有赞大数据平台的实践》

《我是如何成为Apache Kudu committer & PMC的?》

《Zeppelin: 让大数据插上机器学习的翅膀》

《你为什么还在用存储过程?》

《你是一直认为 count(1) 比 count(*) 效率高么?》

《从这个角度,我终于理解为什么需要Kafka这样的东西了!》

《干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用》

《Apache Druid 0.15.0版本发布》

《Cloudera对开源的承诺》

《Cloudera独家回应:Hadoop到底怎么了?》

《微博基于ClickHouse灵活监控百亿流量下的业务指标》

《史上最全-mysql迁移到clickhouse的5种办法》

《SQL on Hadoop在快手大数据平台的实践与优化》

《YuniKorn:一个通用的资源调度程序》

《HDFS Router-based Federation》

《Hive在DB-Engine的排名已经超过Teradata》

《独家|手把手教你赋能Jupyter Notebooks!(附代码)》

《快手 HBase 在千亿级用户特征数据分析中的应用与实践》

《Hadoop 对象存储 Ozone》

《Kafka异地双活深度讲解 - Mirrormaker V2》

《Apache Submarine》

《Impala查询卡顿分析案例》

《如何对CDH集群中的Impala打印线程堆栈》

《Delta Lake - 数据湖的数据可靠性》

《Impala元数据简介》

《一步一步理解Impala query profile(一)》

《一步一步理解Impala query profile(二)》

《一步一步理解 Impala query profile(三)》

《HBase Bulkload 实践探讨》

《接着!!大数据入门实用技术栈全在这里了》

《最新消息!Cloudera 全球发行版正式集成 Apache Flink》

《从开发到生产上线,如何确定集群大小?》

《Hive 终于等来了 Flink》

《一步一步理解 Impala query profile(四)》

《Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!》

《PySpark工作原理》

《0747-5.16.2-YARN日志聚合目录说明》

Fayson的github:

https://github.com/fayson/cdhproject

你可能感兴趣的:(Hadoop实操)