Hadoop_SC

从入门到精通 - Fayson带你玩转CDH

Fayson保持每天推一篇文章，本文随之每天更新。

以下所有文章均为超链接，可以直接点击文章名跳转。

还没附上超链接的文章是还没上传的，会再后续更新后陆续补上

1.规划设计

1.1.on-premise部署规划

0001-《CDH网络要求(Lenovo参考架构)》

0062-《如何为Hadoop集群选择正确的硬件》

0158-《如何给Hadoop集群划分角色》

1.2.on private cloud部署规划

0200- 《如何在VMware上部署Hadoop》

1.3.on public cloud部署规划

0195- 《公有云中的Hadoop》

2.安装/升级/卸载

2.1.安装

0002-《CENTOS7.2安装CDH5.10和Kudu1.2》

0024-《CENTOS6.5安装CDH5.12.1(一)》

0025-《CENTOS6.5安装CDH5.12.1(二)》

0030-《如何在CDH中安装Kudu&Spark2&Kafka》

0072-《CDH安装前置准备》

0073-《CentOS6.5安装CDH5.13》

0167-《如何在Redhat7.3安装CDH5.14》

0270- 《如何在Redhat7.4安装CDH6.0.0_beta1》

0317- 《如何在Redhat7.4安装CDH5.15》

0377- 《如何在Redhat7.4安装CDH6.0》

0470- 《0470-如何在Redhat7.4安装CDH5.16.1》

0491- 《0491-如何在Redhat7.4安装CDH6.1》

《0549-6.1-如何在SUSE12 SP3安装CDH6.1》

《0610-6.2.0-如何在Redhat7.4安装CDH6.2》

《0719-5.10.0-如何在RedHat7.2使用rpm安装CDH(无CM)》

《0720-5.10.0-如何在RedHat7.2使用rpm安装CDH(有CM)》

《0721-5.10.0-CM接管rpm方式安装的无CM的CDH集群》

《0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)》

《0723-6.2.0-如何在RedHat7.2使用rpm安装CDH(有CM)》

《0724-6.2.0-CM接管rpm方式安装的无CM的CDH集群》

《0728-6.3.0-如何在Redhat7.4安装CDH6.3》

《0733-7.0.3-如何在Redhat7.6中安装CDP DC7.0.3》

2.2.一键安装

计划中…

2.3.升级

0009-《如何升级Cloudera Manager和CDH》

0095-《如何通过CM升级Kafka0.11及Spark2.2》

0171- 《如何使用Cloudera Manager升级Spark2.1版本至Spark2.2》

0284- 《CDH集群跨多版本滚动升级》

《0594-6.1.0-如何从CDH6.1.0升级到CDH6.2.0》

2.4.迁移

0007-《如何迁移Cloudera Manager节点》

2.5.卸载

0008-《如何卸载CDH(附一键卸载github源码)》

《0609-6.1.0-如何卸载CDH6.1》

《0621-6.2.0-如何卸载CDH6.2》

《0725-5.16.2-如何卸载CDH5.16.2》

3.Cloudera Manager

3.1.产品介绍

0053-《CDH5.13和CM5.13的新功能》

0160-《CDH5.14和CM5.14的新功能》

0216- 《Cloudera Manager管理控制台》

0217- 《Cloudera Manager首页》

0269- 《Cloudera Enterprise 6 Beta发布》

0274- 《CDH5弃用的项目》

0303- 《CDH5.15和CM5.15的新功能》

0336- 《Kudu1.7的新功能》

0365- 《关于CDH相关服务启动用户的说明》

0376- 《Cloudera Enterprise 6正式发布》

0427- 《CDH6中的第三方库》

0444- 《Cloudera产品支持生命周期策略》

0466- 《0466-CDH5.16.1和CM5.16.1的新功能》

0487- 《0487-CDH6.1的新功能》

0488- 《0488-Cloudera Manager6.1的新功能》

0509- 《0509-深入分析CDH的安装目录》

《0585-Cloudera Enterprise 6.2.0发布》

《0589-Cloudera Manager6.2的新功能》

《0593-CDH5与CDH6对比》

《0595-CDH6.2的新功能》

《0603-Cloudera Flow Management和Cloudera Edge Management正式发布》

《0667-6.2.0-什么是Cloudera虚拟私有集群和SDX》

《0682-Cloudera Enterprise 6.3.0发布》

《0685-6.2.0-什么是Cloudera虚拟私有集群和SDX-续》

《0702-Cloudera Streams Management正式GA》

《0717-6.3.0-Cloudera Manager 6.3的新功能》

《0718-6.3.0-CDH6.3的新功能》

《0732-Cloudera Data Center7.0今天正式GA》

《CSP2.0-什么是CSM-01》

《0735-什么是Cloudera Management Service - 1》

《0743-Cloudera Enterprise 6.3.3发布》

3.2.扩容

0080-《如何在CDH集群中加入异构设备》

0089-《如何给CDH集群增加Gateway节点》

0110-《如何给Kerberos环境下的CDH集群添加Gateway节点》

0112-《如何在非Kerberos环境下对CDH进行扩容》

0126-《如何为Kerberos环境的CDH集群在线扩容数据节点》

0344- 《如何Redhat7的CDH集群中扩容增加Redhat6的节点》

《0461-CDH6.0扩容异常分析》

《0567-6.1.0-非Kerberos环境下集群外跨操作系统的Gateway节点配置》

《0571-5.16.1-Redhat7的CDH集群外配置Kerberos环境SUSE12的Gateway节点》

0297- 《如何在CDH集群外配置非Kerberos环境的Gateway节点》

0306- 《如何在CDH集群外配置Kerberos环境的Gateway节点》

3.3.减容

0115-《如何使用Cloudera Manager在线为集群减容》

3.4.使用

0003-《如何在CDH中使用LZO压缩》

0036-《如何通过CM API优雅的获取元数据库密码》

0040-《如何重置Cloudera Manager的admin密码》

0088-《如何将CDH集群JAVA升级至JDK8》

0090-《如何将CDH从企业版降级为免费版》

0091-《如何将Kerberos环境下CDH集群JAVA升级至JDK8》

0096-《如何使用Cloudera Manager启用HDFS的HA》

0098-《如何使用Cloudera Manager禁用HDFS HA》

0100-《如何使用Cloudera Manager启用YARN的HA》

0104-《如何使用Cloudera Manager禁用YARN的HA》

0117-《如何修改CDH集群的DataNoe节点HOSTNAME》

0163-《如何修改CDH集群的IP地址》

0187- 《如何降级Cloudera Manager和CDH》

0271- 《如何修改Kerberos的CDH集群的HOSTNAME》

0300- 《如何在CDH集群中为数据节点热插拔硬盘》

0311- 《如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境》

0314- 《如何在CDH集群外配置Kerberos环境的Spark2和Kafka客户端环境》

0332- 《如何修改CDH集群元数据库地址》

0349- 《如何迁移CDH的opt目录》

0392- 《CDH集群升级JDK8后CM服务的JDK版本指定分析》

0400- 《如何修改Cloudera Manager的时区》

0442- 《如何使用Cloudera Manger自定义部署Parcel包》

0446- 《如何在Kerberos环境下修改启用HA的CDH集群HOSTNAME》

0449- 《如何在Kerberos环境的CDH集群外跨OS版本中在指定目录配置HDFS的Gateway节点》

0456- 《如何使用Cloudera Manager为Hadoop服务角色启用远程JMX访问》

0457- 《0457-如何使用Cloudera Manager手动收集诊断包》

0486- 《0486-如何将Kerberos的CDH5.16.1从Oracle JDK 1.8迁移至OpenJDK 1.8》

0497- 《0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8》

0515- 《0515-如何对Cloudera Manager的数据库密码进行脱敏》

0517- 《0517-如何在CDH5中使用单用户模式》

0520- 《0520-如何使用非root用户启动CM的Server和Agent服务》

《0541-6.1.0-如何为Cloudera Manager设置反向代理》

《0545-Cloudera Manager中Entryopy警告处理》

《0546-6.1-使用Cloudera Manager API启停组件说明》

《0547-CM Server和Agent服务停止脚本说明》

《0548-5.13.1-如何使用普通用户管理CM server和agent服务》

《0551-6.1-普通用户配置kill CDH集群进程权限》

《0591-5.16.1-如何通过CM的API 获取集群告警信息》

《0597-5.16.1-如何在CM界面自定义图表》

《0605-5.16.1-CM告警SNMP中DateAndTime类型解析》

《0629-6.2-如何使用CM API接口获取集群所有节点内存和磁盘使用情况》

《0638-6.1.0-Cloudera Manager配置TLS》

《0642-6.2-如何在CM界面创建触发器》

《0654-6.2.0-如何通过CM API获取集群事件并入库到MySQL》

《0707-如何安装Grafana并使用Cloudera Manager datasource插件》

《0730-5.16.2-如何禁用CDH中的静态资源池》

3.5.异常分析

0023-《HOSTS配置问题导致集群异常故障分析》

0034-《CM启动报InnoDB engine not found分析》

0044-《CDH高可用集群误删NameNode故障恢复》

0086-《Cloudera Manager Server服务在RedHat7状态显示异常分析》

0170- 《Cloudera Manager分发Parcel异常分析》

0196- 《CDH内存调拨过度警告分析》

0350- 《Redhat7.4安装CDH6.0_beta1时分发Parcel异常分析》

0378- 《Cloudera Agent服务异常分析》

0379- 《CM部署客户端配置失败异常分析》

0476- 《0476-Cloudera Agent服务tmpfs文件系统cm_processes空间不足分析》

0519-《0519-如何解决Cloudera Manager主机页面出现重复主机异常》

《0565-6.1.0-NFS异常导致Host Monitor及Agent服务错误》

《0577-5.16.1-使用Cloudera Manager配置自定义csd目录异常》

《0587-6.1.0-CM 管理界面中Impala 的查看SQL查询详细异常问题分析》

《0601-6.1.0-解除授权后的机器重新加入集群异常分析》

《0615-5.16.1-如何修改Cloudera Manager中图表查询的时间序列限制数》

《0637-5.16.1-CDH集群中var目录占用空间大问题分析》

《0669-6.2.0-集群中部分节点hadoop命令无法使用问题分析》

《0705-5.16.2-HDFS文件浏览器异常分析》

4.Navigator

4.1.Navigator安装

0197- 《Cloudera Navigator介绍与安装》

4.2.Navigator使用

0203- 《Navigator的使用》

0205- 《Cloudera Navigator异常分析》

0396- 《Navigator发布审计数据到Kafka并使用Flume入HBase》

0399- 《如何合理的设置Navigator Metadata Server的Heap》

《0655-6.2.0-CDH6.2安装Navigator无法访问异常分析》

《0698-6.2.0-Navigator审计日志查看对应用户的操作》

5.数据科学

5.1.基础环境

0012-《什么是数据科学工作台？为什么数据科学家需要它？》

0038-《如何在CDH集群安装Anaconda&搭建Python私有源》

0049-《什么是sparklyr》

0050-《如何在Redhat中配置R环境》

0051-《如何在Redhat中安装R的包及搭建R的私有源》

0052-《如何使用R连接Hive与Impala》

0057-《PySpark数据类型转换异常分析》

0118-《如何在CDH集群上部署Python3运行环境及运行Python作业》

0334- 《CDH集群升级Python3异常问题分析》

0339- 《Python3环境通过JDBC访问非Kerberos环境的Hive》

0340- 《Python3通过JDBC访问非Kerberos环境的Impala》

0473- 《0473-如何使用Python3访问Kerberos环境的Hive和Impala》

0490- 《0490-如何为GPU环境编译CUDA9.2的TensorFlow1.8与1.12》

0499- 《0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习》

《0570-如何在CDH集群上部署Python3.6.1环境及运行Pyspark作业》

5.2.CDSW

5.2.1.安装/升级/卸载

0037-《如何在Windows Server2008搭建DNS服务并配置泛域名解析》

0047-《如何利用Dnsmasq构建小型集群的本地DNS服务器》

0077-《如何在Windows Server2012搭建DNS服务并配置泛域名解析》

0078-《如何在CDH5.13中安装CDSW1.2》

0172- 《如何在RedHat6上使用Bind搭建DNS服务》

0174- 《如何在RedHat7上使用Bind搭建DNS服务》

0323- 《如何在CDH5.14中安装CDSW1.3》

0325- 《如何在CDH5.15中安装CDSW1.4》

0390- 《如何通过CM升级CDSW1.2.2至1.4》

0478- 《0478-如何在CDH5.16.1中安装CDSW1.4.2》

《0573-5.16.1-如何将CDSW从1.4.2升级到1.5》

《0574-5.16.1-CDSW1.4升级1.5版本db-migrate镜像启动失败问题解决》

《0584-5.16.1-如何卸载CDSW1.5》

《0586-5.16.1-如何在CDH5.16.1中安装CDSW1.5》

《0600-6.1.0-如何在CDH6.1中安装CDSW1.5》

《0602-6.1.0-如何卸载CDSW1.5》

《0666-6.2.0-如何在CDH6.2.0上安装CDSW1.5》

《0668-6.2.0-如何在CDH6.2.0上卸载CDSW1.5》

5.2.2.产品介绍

0063-《CDSW1.2的新功能》

0165-《CDSW1.3的新功能》

0304- 《如何在CDSW中使用GPU运行深度学习》

0313- 《CDSW1.4的新功能》

0355- 《Hadoop之上的模型训练 - CDSW1.4新功能模块》

0357- 《Hadoop之上的模型部署 - CDSW1.4新功能模块》

《0544-CDSW1.5的新功能》

《CDSW1.6的新特性》

《0677-在CDSW1.6中使用你喜爱的编辑器》

《0716-1.6.0-CDSW1.6的新功能》

5.2.3.使用

0042-《如何在CDSW中使用R绘制直方图》

0054-《如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业》

0055-《如何使用CDSW在CDH中分布式运行所有R代码》

0059-《如何基于CDSW基础镜像定制Docker》

0151-《如何使用Nginx实现CDSW的跨网段访问》

0156-《如何修改CDSW服务的DNS和HOSTNAME》

0159-《如何在CDSW上运行TensorFlow》

0161-《如何在CDSW中定制Docker镜像》

0175- 《如何在CDSW上创建Git工程》

0265- 《如何在CDSW上创建Git工程并提交代码》

0327- 《如何在CDH中使用PySpark分布式运行GridSearch算法》

0331- 《如何在CDSW上分布式运行GridSearch算法》

0333- 《如何在CDSW上调试失败或卡住的Spark应用》

0347- 《后台查找CDSW中用户的审计日志》

0350- 《如何通过CM将CDSW从1.3升级至1.4》

0356- 《CDSW1.4的Experiments功能使用》

0358- 《CDSW1.4的Models功能-创建和部署模型(QuickStart)》

0359- 《模型训练和部署-Iris数据集》

0393- 《如何为CDSW的数据目录扩容》

0430- 《如何修改CDSW会话的时区》

0489- 《0489-CDSW中用户Session访问外部数据目录》

0502- 《0502-CDSW中访问Kerberos环境下的Kafka》

《0580-5.16.1-通过CDSW API获取所有用户的Project详细信息》

《0581-5.16.1-关于CDSW监控指标API接口描述》

《0582-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(keytab认证)》

《0583-5.16.1-1.4.2-后台脚本无感知为CDSW用户绑定Kerberos账号(密码认证)》

《0646-6.1.1-如何查看CDSW中其它用户创建的Public工程》

《0649-6.1.1-在C6集群中CDSW的Terminal执行hadoop命令异常分析》

《0662-6.2.0-CDSW集成Active Directory后登录异常分析》

《0663-6.2.0-通过Nginx获取CDSW的登录信息》

《0670-6.2.0-如何获取CDSW中每个Session输出的LiveLog日志》

《0672-5.16.1-CDSW中Run Experiments异常分析》

《0673-6.2.0-通过Nginx获取CDSW的登录信息(续)》

《0679-6.2.0-通过Nginx获取CDSW的登录信息-续-2》

《0683-6.2.0-通过Nginx获取CDSW的登录信息-续-3》

《0690-TensorFlow之车牌识别案例》

《0689-1.4.0-CDSW目录迁移变更技术手册》

《0691-1.4.0-GPU环境下CDSW运行TensorFlow案例》

《0714-1.5.0-CDSW数据库登录失败异常分析》

《0729-6.3.0-如何修改CDSW1.6中Docker服务的默认网关》

《0736-1.6.1-如何配置CDSW使用本地的Pycharm》

《0737-1.6.1-CDSW分布式计算》

《0739-CDSW本地数据目录权限问题》

《0740-1.6.1-CDSW中定制docker无法使用Jupyter Notebook问题》

6.元数据库

6.1.MySQL

0029-《如何实现CDH元数据库MySQL的主备》

0058-《如何在CDH集群的非元数据库节点安装MySQL5.7.12》

0134-《如何实现CDH元数据库MySQL的主主互备》

0135-《如何实现CDH元数据库MySQL的高可用》

0136-《如何修改CM及CDH元数据库配置》

《0618-6.1.1-如何在CDH6集群内节点安装MySQL5.7.22》

《0619-MySQL5.7.22主从配置》

《0694-5.10.2–如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0695-5.10.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

《0708-5.16.2-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0709-5.16.2-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

《0710-6.3.0-如何将CM内嵌PostgreSQL服务迁移至外部PostgreSQL服务》

《0711-6.3.0-如何将CM的外部PostgreSQL数据库迁移至MySQL服务》

7.Hadoop组件

7.1.Hive

0004-《Hive表字段Comment中文乱码》

0010-《Hive多分隔符支持示例》

0011-《如何在Hive&Impala中使用UDF》

0014-《Hive中的Timestamp类型日期与Impala中显示不一致分析》

0026-《Hive使用十六进制分隔符异常分析》

0043-《如何在CDH中使用HPLSQL实现存储过程》

0083-《如何使用HAProxy实现HiveServer2负载均衡》

0084-《如何使用Zookeeper实现HiveServer2的HA》

0099-《如何使用java代码通过JDBC连接Hive(附github源码)》

0102-《Hive中的Timestamp类型日期与Impala中显示不一致分析（补充）》

0143- 《Hive事务管理避坑指南》

0144-《Hive Load本地数据文件异常分析》

0146-《如何向Hive表加载数据》

0149-《如何使用java代码通过JDBC访问Sentry环境下的Hive》

0180- 《Hive与Impala的关键字》

0181- 《如何在Kerberos环境下使用Haproxy实现HiveServer2负载均衡》

0190- 《如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句》

0204- 《如何编译及使用hive-testbench生成Hive基准测试数据》

0210- 《使用Hive SQL插入动态分区的Parquet表OOM异常分析》

0240- 《如何使用HAProxy实现HiveServer2服务的LDAP和Kerberos认证负载均衡》

0246- 《在同时使用Hive+Sentry,因HMS死锁导致的高并发写入工作负载时,查询速度缓慢或者停滞》

0247- 《Parquet格式表重命名列名后Hive查询列数据显示NULL异常分析》

0249- 《如何在CDH集群中安装Hive2.3.3》

0250- 《如何在Hive中生成Parquet表》

0261- 《如何强制Hive使用指定时区而非操作系统时区》

0263- 《Hive2.2.0如何与CDH集群中的Spark1.6集成》

0315- 《如何为Hive2启用Kerberos认证》

0343- 《HiveServer2服务异常日志分析》

0364- 《如何使用Nginx实现HiveServer2负载均衡》

0375- 《非Kerberos环境下Hive2.2.0 On Tez集成》

0381- 《如何编译适用于CDH的Tez版本并集成Kerberos环境的Hive2》

0401- 《Hive CLI禁用补充说明》

0407- 《如何在Beeline中使用自定义变量》

0428- 《如何为Hive CLI运行时指定日志目录》

0435- 《Hive创建外部表CSV数据中列含有逗号问题处理》

0436- 《如何在Hive中使用Map类型》

0437- 《如何在Hive中使用Struct类型》

0447- 《答应我，别在CDH5中使用ORC好吗》

0448- 《Hive作业产生的临时数据占用HDFS空间大问题处理》

0458- 《0458-Hive数据类型校验问题分析》

0472- 《0472-Hive中TimeStamp精度问题分析》

0496- 《0496-使用Parquet矢量化为Hive加速》

0505- 《0505-使用Apache Hive3实现跨数据库的联邦查询》

0507- 《0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决》

0514- 《0514-Hive On Spark无法创建Spark Client问题分析》

0516- 《0516-如何查看Hive中某个角色所有已授权的组》

《0537-5.15.0-查询Parquet格式表异常问题》

《0556-6.1.0-Hive On Spark修改作业临时配置文件生成目录》

《0572-5.16.1-Hive中decimal类型字段.0结尾数据显示异常问题处理》

《0607-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表》

《0608-6.1.0-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表（续）》

《0631-6.2-如何确认一个Parquet文件是否被压缩》

《0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析》

《0650-6.2.0-通过UDF实现Hive&Impala的中文拼音排序》

《0653-5.16.1-Hive Staging目录占用大量HDFS空间问题分析》

《0656-6.2.0-如何配置Haproxy高可用》

《0659-6.2.0-Hive处理JSON格式数据》

《0665-6.2.0-如何在CDH中配置HMS高可用》

《0671-6.2.0-如何将CDH5.12的Hive元数据迁移到CDH6.2》

《0687-5.16.1-Hive分桶问题》

《0738-6.2.0-如何在Hive中使用多分隔符》

7.2.Impala

0039-《如何使用Python Impyla客户端连接Hive和Impala》

0070-《如何使用Beeline连接Impala》

0081-《如何使用Nginx实现Impala负载均衡》

0082-《如何使用HAProxy实现Impala的负载均衡》

0097-《如何使用java代码通过JDBC连接Impala(附Github源码)》

0113-《Impala升级为Apache顶级项目》

0124-《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》

0131-《如何在Kerberos的Linux上安装及配置Impala的ODBC驱动》

0147-《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》

0154-《如何在Impala中实现拉链表》

0162-《使用Java代码通过JDBC连接只启用Sentry的Impala异常分析》

0206- 《Impala的Short-Circuit Reads》

0224- 《Hive与Impala对VARCHAR/CHAR存放中文字符解析不一致问题分析》

0242- 《Impala TPC-DS基准测试》

0248- 《如何在Impala中使用Parquet表》

0275- 《当Impala碰到由Hive生成的timestamp数据》

0276- 《由Impala-3316导致的并发查询缓慢问题》

0277- 《Impala并发查询缓慢问题解决方案》

0312- 《如何在Kerberos环境下使用Spark2通过JDBC访问Impala》

0326- 《如何为Impala Daemon服务配置Executor和Coordinator角色》

0337- 《Impala最佳实践》

0397- 《Python2使用Impyla访问集成OpenLDAP并启用Sentry的Impala服务》

0405- 《如何使用Impala合并小文件》

0433- 《Kerberos环境下Impala Daemon在CDH5.15版本中KRPC端口27000异常分析》

0440- 《如何启用Impala的动态资源池》

0441- 《Impala动态资源池及放置规则使用》

0518-《0518-如何在Impala中使用UDF获取SessionId》

《0680-5.16.1-impala-shell导出数据存在中文异常问题》

7.3.HBase

0045-《Cloudera Labs中的Phoenix》

0066-《如何使用Java连接Kerberos的HBase》

0071-《如何在CDH中使用HBase快照》

0046-《如何在CDH中使用Phoenix》

0254- 《如何使用HBase存储文本文件》

0258- 《如何使用HBase存储图片》

0266- 《如何使用Java调用HBase的 Endpoint Coprocessor》

0268- 《如何开发HBase Endpoint类型的Coprocessor以及部署使用》

0307- 《如何使用Phoenix在CDH的HBase中创建二级索引》

0308- 《如何在CDH5.14.2中安装Phoenix4.14.0》

0321- 《如何在CDH中使用HBase的ACLs进行授权》

0322- 《如何在CDH中使用HBase的Quotas设置资源请求限制》

0346- 《使用Spark通过BulkLoad快速导入数据到HBase》

0454- 《如何使用Java访问非Kerberos环境的HBase》

《0539-5.15.0-HBase-Spark无法在Spark2编译通过问题解决》

《0540-5.15.0-Spark2使用HBase-Spark访问HBase》

《0674-5.16.2-如何在CDH5中使用Phoenix4.14.1》

《0676-5.16.2-Apache Phoenix for CDH》

《0693-6.2.0-如何将Hive数据导入HBase》

《0712-6.2.0-HBase快照异常》

《0713-6.2.0-HBase的Thrift Server启动问题》

7.4.Hue

0056-《如何重置Hue用户密码》

0152-《如何在Hue中配置已启用SSL的HttpFS服务》

0153-《Hue禁止用户下载数据问题分析》

0164-《如何在Hue中配置HiveServer2的负载均衡》

0168-《如何在Hue中配置Impala的负载均衡》

0236- 《Hue中无法删除用户异常分析》

0241- 《如何开启Hue的Debug模式》

0251- 《如何在Hue中集成配置Hive2.3.3服务》

0328- 《如何在退出Hue后关闭Spark会话》

0395- 《在Kerberos环境下Hue与HBase集成》

0402- 《如何修改Hue的时区》

0408- 《如何在Hue中集成第三方Web应用》

0422- 《如何为Hue添加自定义Banner》

0431- 《如何在Hue中添加Spark Notebook》

0450- 《如何在Hue中调优Impala和Hive查询》

0475- 《0475-如何统一Hue和Oozie的时区》

0498- 《0498-Hue Sqoop1的编辑器中执行Sqoop作业失败问题分析》

0506- 《0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala》

《0536-5.15.0-如何使用Hue集成RDBMS数据库》

《0635-5.16.1-Hue集成HBase出现Api Error异常分析》

0636- 《6.1.1-Hue上SQL查询结果显示不全异常分析》

《0640-6.1.1-Hue上SQL查询结果显示不全异常分析-补充》

《0647-6.1.1-Hue集成HBase出现Api Error异常分析(续)》

《0681-6.2.0-如何在HDFS自动创建用户主目录》

7.5.Sqoop

0121-《Sqoop抽取Hive Parquet表数据到MySQL异常分析》

0193- 《如何使用Sqoop2》

0342- 《Sqoop抽数到Hive表异常分析》

0348- 《Sqoop抽数到Hive表异常分析(之二)》

0425- 《如何清理Sqoop脚本产生的临时编译目录》

《0657-6.2.0-Sqoop导入Parquet文件Hive查询为null问题》

7.6.Solr

0103-《如何使用Java代码访问CDH的Solr服务》

0114-《如何使用Hue通过数据文件创建Collections》

0252- 《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》

0253- 《如何使用Flume准实时建立Solr的全文索引》

0256- 《如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引》

0293- 《如何在Kerberos下使用Solr》

0301- 《使用命令行创建collection时Sentry给Solr赋权的问题》

0504- 《0504-使用Pulse为数据管道实现主动告警》

《0700-6.2.0-使用Solr7对多种格式文件建立全文索引》

《0701-6.2.0-使用Solr7对结构化csv文件建立全文索引》

《0703-6.2.0-使用Sentry为Solr进行赋权》

7.7.Oozie

0060-《如何使用Hue创建Spark1和Spark2的Oozie工作流》

0061-《如何使用Hue创建Spark2的Oozie工作流（补充）》

0075-《如何在Hue中创建Ssh的Oozie工作流》

0119-《如何使用Hue上创建一个完整Oozie工作流》

0120-《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》

0123-《Hue中使用Oozie创建Shell工作流在脚本中切换不同用户》

0132-《使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析》

0133-《在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析》

0184- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》

0185- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》

0186- 《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流》

0188- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业》

0189- 《如何启用Oozie的HA》

0194- 《如何使用Oozie API接口向Kerberos集群提交Java程序》

0202- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业》

0207- 《如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业》

0296- 《如何在Oozie中创建有依赖的WorkFlow》

0462- 《0462-如何在Hue中创建Shell Action工作流续》

《0535-5.15.0-Oozie中创建Ssh Action指定ssh端口号》

《0590-6.1.0-C6升级过程中Oozie共享库的问题分析》

7.8.HDFS

0068-《如何在CDH集群使用HDFS快照》

0105-《如何使用Java代码访问HDFS.docx》

0125-《如何在集群外节点跨网段向HDFS写数据》

0130-《如何将HDFS文件系统挂载到Linux本地文件系统》

0148-《如何为HttpFS服务配置SSL》

0209- 《JournalNode的edits目录没有格式化异常分析》

0243- 《Slow ReadProcessor&Error Slow BlockReceiver错误日志分析》

0262- 《HDFS部署最佳实践》

0264- 《如何修改启用了高可用HDFS的NameService ID》

0292- 《如何使用Java API访问HDFS为目录设置配额》

0341- 《集群JournalNode服务重启导致NameNode挂掉分析》

0360- 《NameNode Metadata备份和恢复最佳实践》

0403- 《如何在Hadoop中处理小文件》

0409- 《如何指定Hadoop命令行日志输出级别》

0432- 《什么是HDFS的纠删码》

0434- 《如何在CDH6.0中使用纠删码》

0443- 《CM上HDFS容量显示与实际命令不一致问题分析》

0451- 《如何使用Scala代码访问Kerberos环境的HDFS》

0455- 《如何在Hadoop中处理小文件-续》

0460- 《0460-HDFS纠删码的机架感知》

0464- 《0464-如何离线分析HDFS的FsImage查找集群小文件》

0482- 《0482-HDFS上一次检查点异常分析》

0494- 《0494-如何恢复HDFS中节点正常解除授权丢失的数据》

0508- 《0508-如何使用Hadoop的Archive处理小文件》

0512- 《0512-使用Python访问Kerberos环境下的HDFS》

0521- 《0521-Hadoop命令无法访问HDFS路径诡异问题解决》

《0524-6.1-如何使用Cloudera Manager启用HDFS的HA》

《0525-6.1-如何使用Cloudera Manager禁用HDFS的HA》

《0526-6.1-如果你不小心删了一个NameNode1》

《0527-6.1-如果你不小心删了一个NameNode2》

《0528-6.1-如何迁移NameNode相关角色》

《0530-6.1-如何只是迁移NameNode或JournalNode》

《0531-6.1-如何手动迁移JournalNode》

《0532-6.1-如果你的NameNode服务器坏了并且无法恢复》

《0550-6.1-如何将普通用户增加到HDFS的超级用户组supergroup》

《0564-6.1.0-HDFS超级用户(Superuser)和HDFS管理员(Administrator)的区别》

《0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统》

《0616-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统(续)》

《0630-6.2-什么是HDFS ACL》

《0658-5.16.1-如何使用CM设置HDFS目录配额》

《0675-6.2.0-什么是HDFS分层存储》

《0678-6.2.0-如何在CDH中使用HDFS分层存储》

《0692-5.16.1-外部客户端跨网段访问Hadoop集群方式(续)》

《0704-5.16.2-如何使用Hive合并小文件》

《0731-6.3.0-关于HDFS ACL的32个条目限制说明》

7.9.Kudu

0020-《使用JDBC向Kudu表插入中文字符-双引号的秘密》

0021-《使用JDBC向Kudu表插入中文字符-cast的秘密》

0085-《如何在Kudu1.5中使用Sentry授权》

0128-《如何迁移Kudu1.2的WAL和Data目录》

0267- 《如何使用Java API访问CDH的Kudu》

0452- 《如何使用Java代码访问Kerberos环境下的Kudu》

《0538-5.15.0-Spark2 KuduContext访问Kudu》

《0611-5.16.1-Kudu表执行COMPUTE STATS 命令异常分析》

7.10.Kafka

0022-《如何永久删除Kafka的Topic》

0065-《如何通过Cloudera Manager为Kafka启用Kerberos及使用》

0069-《如何使用Java连接Kerberos的Kafka》

0324- 《如何在CDH中为Kafka设置流量配额》

0362- 《如何查看Kafka的Topic消费情况》

0363- 《如何在Spark Streaming应用中使用Kudu管理Kafka的Offset》

0370- 《如何实现Kafka的Partition重分配》

0374- 《如何在CDH集群中部署Kafka Manager》

0383- 《如何通过CM升级CDK至3.1.0(Kafka-1.0.1)》

0404- 《如何规划设置Kafka Broker的heap size》

0500- 《0500-使用Python2访问Kerberos环境下的Kafka》

0501- 《0501-使用Python访问Kerberos环境下的Kafka(二)》

《0542-6.1.0-非安全环境下Kafka管理工具Kafka Eagle安装使用》

《0543-5.15.0-Kerberos环境下Kafka管理工具Kafka Eagle安装使用》

《0726-6.3.0-如何在CDH6.3中安装Streams Messaging Manager(SMM)》

《0471-Oracle Goldengate实时复制Oracle数据到CDH Kafka》

7.11.YARN

0019-《Yarn的JobHistory目录权限问题导致MapReduce作业异常》

0107-《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》

0108-《如何使用hadoop命令向CDH集群提交MapReduce作业》

0109-《如何使用java命令从非集群节点向CDH集群提交MapReduce作业》

0129-《如何在HDFS上查看YARN历史作业运行日志》

0291- 《如何使用Cloudera Manager设置使用YARN队列的ACL》

0353- 《如何使用curl命令调用CM的API动态配置Yarn资源池》

0354- 《如何使用Java调用CM的API动态配置Yarn资源池》

0369- 《如何在CDH中配置YARN动态资源池的计划规则》

0421- 《如何在不重启Yarn服务的情况下启用DEBUG日志记录》

0426- 《如何在Cloudera Manager中配置Yarn放置规则》

《0529-5.15.0-这次玩儿大了，找不回了》

《0533-6.1-如何使用Cloudera Manager启用YARN的HA》

《0534-6.1-如何使用Cloudera Manager禁用YARN的HA》

《0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析》

《0606-6.1.0-NodeManager丢失文件启动失败异常分析》

《0620-5.16.1-如何设置MR作业的Map或Reduce日志级别》

《0652-5.16.1-目录挂载点nosuid参数导致NodeManage启动失败异常分析》

7.12.Spark

0016-《Avro序列化&反序列化和Spark读取Avro数据》

0017-《Spark的HistoryServer不能查看到所有历史作业分析》

0041-《如何使用Intellij搭建Spark开发环境》

0064-《如何通过Cloudera Manager配置Spark1和Spark2的运行环境》

0079-《如何在CDH中启用Spark Thrift》

0176- 《Livy，基于Apache Spark的开源REST服务，加入Cloudera Labs》

0177- 《如何编译Livy并在非Kerberos环境的CDH集群中安装》

0178- 《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》

0182- 《如何在Kerberos环境的CDH集群部署Livy》

0183- 《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》

0278- 《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》

0280- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》

0281- 《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端》

0285- 《如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer》

0373- 《如何指定Spark2作业中Driver和Executor使用指定范围内端口》

0438- 《如何指定Spark1作业中Driver和Executor使用指定范围内端口》

0445- 《如何为Spark应用启用Kerberos的Debug日志》

0483- 《0483-如何指定PySpark的Python运行环境》

0485- 《0485-如何在代码中指定PySpark的Python运行环境》

0510- 《0510-Spark应用访问Hive报错异常分析》

《0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析》

《0643-Spark SQL Thrift简介》

《0644-5.16.1-如何在CDH5中使用Spark2.4 Thrift》

《0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了》

7.13.Zookeeper

0006-《Zookeeper指标分析》

0101-《Kerberos环境下删除ZooKeeper服务注册信息问题分析》

0239- 《集群启用Kerberos后对Zookeeper的Znode操作异常分析》

0381- 《如何通过CM迁移Zookeeper服务》

7.14.NiFi

《0622-什么是Apache NiFi》

《0623-6.2.0-如何在CDH中安装CFM》

《0624-6.2.0-NiFi处理器介绍与实操》

《0625-6.2.0-Hello NiFi-第一个NiFi例子》

7.15.Flink

《0727-6.3.0-在CDH上运行你的第一个Flink例子》

8.多租户

8.1.静态资源管理

计划中…

8.2.动态资源管理/YARN

计划中…

8.3.动态资源管理/Impala

计划中…

8.4.安全

8.4.1.认证

8.4.1.1.Kerberos

0005-《Windows Kerberos客户端配置并访问CDH》

0027-《如何在CDH集群启用Kerberos》

0087-《如何配置Kerberos服务的高可用》

0173- 《如何在Redhat7.3的CDH5.14中启用Kerberos》

0271- 《如何禁用CDH集群Kerberos》

0273- 《如何在CDH6.0.0-beta1中启用Kerberos》

0319- 《如何在Redhat7.4的CDH5.15中启用Kerberos》

0345- 《如何将CDH集群的KDC从RedHat7迁移到RedHat6》

0389- 《如何在CDH6.0中启用Kerberos》

0477- 《0477-如何在Redhat7.4的CDH5.16.1中启用Kerberos》

0495- 《0495-如何在CDH6.1中启用Kerberos》

《0552-5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析》

《0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群》

《0554-6.1.0-同一java进程中同时访问认证和非认证集群的问题（续）》

《0555-6.1.0-使用Python并发访问认证和非认证集群》

《0578-5.15.1-Kerberos环境下Java应用程序认证超时异常分析》

《0579-5.15.1-Java 应用程序中修改Kerberos ticket_lifetime参数无效异常分析》

《0592-5.16.1-如何配置Kerberos高可用》

《0596-6.2.0-如何在CDH6.2中禁用Kerberos》

《0614-5.16.1-同一OS用户并行Shell脚本中kinit不同的Principal串掉问题分析》

《0627-如何跳过HiveServer2 WebUI的Kerberos验证》

《0628-6.2-如何在CDH6.2中启用Kerberos》

《0641-5.16.1-如何禁用CDH5.16.1的Kerberos》

《0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件》

《0706-6.2.0-Windows Kerberos客户端配置并访问CDH》

《0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）》

8.4.1.2.OpenLDAP

0137-《1.如何在CentOS6.5安装OpenLDAP并配置客户端》

0138-《2.OpenLDAP集成SSH登录并使用SSSD同步用户》

0139-《3.如何实现OpenLDAP的主主同步》

0140-《4. 如何为Hive配置OpenLDAP认证》

0141-《5.如何为Impala配置OpenLDAP认证》

0142-《6.如何为Hue配置OpenLDAP认证》

0150-《7.如何在OpenLDAP中实现将一个用户添加到多个组》

0166-《如何集成OpenLDAP+Sentry.docx》

0226- 《1.如何在RedHat7上安装OpenLDA并配置客户端》

0227- 《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》

0229- 《3.如何RedHat7上实现OpenLDAP的主主同步》

0233- 《4.如何为Hive集成RedHat7的OpenLDAP认证》

0234- 《5.如何为Impala集成Redhat7的OpenLDAP认证》

0235- 《6.如何为Hue集成RedHat7的OpenLDAP认证》

0237- 《7.如何在RedHat7的OpenLDAP中实现将一个用户添加到多个组》

0238- 《8.如何使用RedHat7的OpenLDAP和Sentry权限集成》

0361- 《9.如何为Navigator集成RedHat7的OpenLDAP认证》

0367- 《10.如何在OpenLDAP启用MemberOf》

0368- 《11.如何为CDSW集成RedHat7的OpenLDAP认证》

0371- 《12.OpenLDAP管理工具Phpldapadmin的安装及使用》

0386- 《13.一键添加OpenLDAP用户及Kerberos账号》

0424- 《14.如何为Cloudera Manager集成OpenLDAP认证》

0492- 《OpenLDAP管理工具之LDAP Admin》

《0626-如何监控OpenLDAP主主同步状态》

《0688-6.2.0-特殊用户名在Hue和YARN中测试》

8.4.1.3.AD

0410- 《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》

0411- 《02-Active Directory安装证书服务并配置》

0412- 《03-Active Directory的使用与验证》

0413- 《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》

0414- 《05-如何为Hive集成AD认证》

0415- 《06-如何为Impala集成AD认证》

0416- 《07-如何为Hue集成AD认证》

0417- 《08-如何为Navigator集成Active Directory认证》

0418- 《09-如何为CDSW集成Active Directory认证》

0419- 《如何将CDH中集成的RedHat7版Kerberos切换至Active Directory的Kerberos认证》

0420- 《如何为CDH集成Active Directory的Kerberos认证》

0423- 《11-如何为Cloudera Manager集成Active Directory认证》

8.4.1.4.FreeIPA

《0558-01-如何在Redhat7上安装FreeIPA》

《0559-02-如何在Redhat7上安装FreeIPA的客户端》

《0560-03-如何使用root用户重置FreeIPA admin密码》

《0561-04-如何将CDH集成的KDC迁移至FreeIPA的Kerberos认证》

《0562-05-5.15.0-如何为Hive集成FreeIPA的用户认证》

《0563-06-如何在FreeIPA上管理域名解析》

《0566-07-5.15.0-如何为Impala集成FreeIPA的用户认证》

8.4.1.5.SAML

0191- 《如何使用Shibboleth搭建IDP服务并集成OpenLDAP》

0192- 《如何使用SAML配置Cloudera Manager的身份验证》

0199- 《如何使用SAML配置CDSW的身份验证》

8.4.2.授权

0015-《如何使用Sentry管理Hive外部表权限》

0028-《如何在CDH未启用认证的情况下安装及使用Sentry》

0031-《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》

0032-《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》

0033-《如何在Hue中使用Sentry》

0035-《如何使用Sentry管理Hive外部表（补充）》

0067-《Sentry赋予server1权限给hive以外用户时ACL不同步问题分析》

0074-《如何在启用Sentry的CDH集群中使用UDF》

0155-《如何查看集成Sentry后Hive作业的真实用户》

0208- 《如何使用Sentry实现Hive/Impala的数据脱敏》

0225- 《如何使用Sentry通过视图实现Impala的行级授权》

0279- 《如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制》

0294- 《如何使用Sentry为Solr赋权》

0298- 《如何使用Sentry为Kafka赋权》

0304- 《如何在Hue中使用Sentry为Solr赋权》

0406- 《如何使用Sentry管理Hive仓库目录外的其他目录的acl同步》

0439- 《Hive启用Sentry后如何限制用户提交Yarn资源池》

0493- 《0493-如何在Sentry中使用WITH GRANT OPTION命令》

《0568-普通用户在Sentry中使用show roles 命令查看失败异常分析》

《0569-5.15.1-开启Sentry后LOAD DATA异常分析》

《0575-5.16.1-Hive中只有create权限却能查看到非自己创建表的异常》

《0576-6.1.0-Hive Comment中文乱码补充》

《0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析》

《0633-6.2.0-什么是Apache Sentry》

《0634-6.2.0-如何在CDH中安装Sentry服务》

《0648-6.2.0-配置Senty服务》

《0651-6.2.0-启用Sentry后Impala执行SQL失败问题分析》

《660-6.2.0-无法在启用Sentry的集群中使用TRANSFORM问题分析》

《0664-6.2.0-用户有CREATE权限建表后但无HDFS文件的ACL访问权限异常分析》

《0715-6.2.0-用户有CREATE权限建表后无HDFS文件的ACL访问权限异常分析》

《0741-什么是Apache Ranger - 1》

《0742-什么是Apache Ranger - 2》

《0745-什么是Apache Ranger - 3》

8.4.3.加密

0092-《什么是HDFS透明加密》

0111-《如何在CDH实现HDFS透明加密》

8.4.4.审计

计划中…

8.5.集群资源使用报告

0157-《如何在CM中启用YARN的使用率报告》

9.灾备

9.1.介绍

0244- 《如何部署active-active的Hadoop集群》

9.2.HDFS

0013-《如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据》

《0661-6.2.0-Hadoop数据备份与恢复》

9.3.HBase

0076-《如何使用HBase快照实现跨集群全量与增量数据迁移》

10.运维

10.1.监控

0211- 《Cloudera Manager监控介绍》

0212- 《Cloudera Manager的时间轴》

0213- 《Cloudera Manager的运行状况测试》

0218- 《使用Cloudera Manager查看集群，服务，角色和主机的图表》

0289- 《如何使用Cloudera Manager监控服务》

10.2.告警

0259- 《如何通过Cloudera Manager配置使用SNMP方式转发告警》

0372- 《CM告警SNMP对接补充》

0394- 《如何为CDH集群配置警报邮箱》

《0523-5.15-为Cloudera Manager配置自定义告警脚本》

11.外部工具集成

11.1.Tableau

0093-《如何安装Tableau并连接CDH的Hive/Impala》

0094-《如何通过Tableau连接Kerberos的Hive/Impala》

11.2.SAS

0198- 《如何安装SAS并配置连接Hive/Impala》

《0696-5.16.1-如何使用SAS连接CDH5.16.1集群的Hive和Impala》

《0697-6.2.0-如何使用SAS连接CDH6.2.0集群的Hive和Impala》

11.3.Azkaban

0214- 《如何编译安装Azkaban服务》

0215- 《如何编译Azkaban插件》

0219- 《如何在Azkaban中安装HDFS插件以及与CDH集成》

0222- 《如何在Azkaban安装插件(二)》

0223- 《Azkaban的使用及Command作业创建》

11.4.SmartBI

0257- 《如何安装SmartBI并连接到Impala》

11.5.StreamSets

0220- 《如何在CDH中安装和使用StreamSets》

0231- 《如何使用StreamSets从MySQL增量更新数据到Hive》

0232- 《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》

0255- 《如何使用StreamSets实时采集Kafka并入库Kudu》

0282- 《如何使用StreamSets实现MySQL中变化数据实时写入HBase》

0299- 《如何使用StreamSets实时采集Kafka数据并写入Hive表》

0302 -《如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表》

0320- 《如何使用StreamSets实现Oracle中变化数据实时写入Kudu》

《0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu》

11.6.Kylin

0260- 《如何在CDH中部署及使用Kylin》

0295- 《如何在启用Kerberos的CDH中部署及使用Kylin》

11.7.Presto

0316- 《如何在CDH集群中部署Presto》

0318- 《如何为Presto集成Kerberos环境下的Hive》

11.8.Juypter

0382- 《如何在非安全的CDH集群中部署Jupyter并集成Spark2》

0384- 《如何在非安全的CDH集群中部署多用户JupyterHub服务并集成Spark2》

0385- 《JupyterHub与OpenLDAP集成》

0391- 《Jupyter Notebook与Livy集成》

0398- 《JupyterLab的安装及使用》

11.9.Livy+Zeppelin

0387- 《如何打包Livy和Zeppelin的Parcel包》

0389- 《如何在CM中使用Parcel包部署Livy及验证》

0393- 《如何在CM中使用Parcel包部署Zeppelin及使用》

11.10.SQL开发工具

0459- 《0459-如何使用SQuirreL通过JDBC连接CDH的Hive（方式一）》

0463- 《0463-如何使用SQuirreL通过JDBC连接CDH的Hive（方式二）》

0465- 《0465-如何使用SQuirreL访问Kerberos环境下的Hive》

0467- 《Hadoop SQL客户端工具之Dbeaver安装及使用》

0468- 《0468-如何使用DBeaver访问Kerberos环境下的Hive》

0469- 《0469-如何使用DBeaver访问Kerberos环境下的Impala》

《0557-6.1.0-Kerberos环境下SQL客户端DBeaver配置异常分析》

0474- 《0474-如何使用SQL Developer访问Hive》

11.11.Airflow

《0612-如何在RedHat7.4上安装airflow》

《0613-Airflow集成自动生成DAG插件》

11.12.Nginx

《0684-如何配置Nginx高可用》

12.应用场景

12.1.实时

0116-《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》

0122-《非Kerberos环境下Kafka数据到Flume进Hive表》

0145-《如何使用Spark Streaming读取HBase的数据并写入到HDFS》

0283- 《SparkStreaming读Kafka数据写HBase》
0286- 《SparkStreaming读Kafka数据写Kudu》

0287- 《如何使用Flume采集Kafka数据写入Kudu》

0288- 《如何使用Flume采集Kafka数据写入HBase》

0290- 《如何在Kerberos环境下使用Flume采集Kafka数据写入HBase》

0309- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu》

0310- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HBase》

0330- 《Spark2Streaming读Kerberos环境的Kafka并写数据到Hive》

0335- 《Spark2Streaming读Kerberos环境的Kafka并写数据到HDFS》

0338-《Spark2Streaming读Kafka并写入到HBase》

0352- 《Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu》

13.基准测试

0245- 《如何使用HiBench进行基准测试》

0201- 《如何编译及使用TPC-DS生成测试数据》

14.HDP

0048- 《Hortonworks联合Jethro扩充其数据仓库解决方案》

0222- 《如何在Centos7.2安装HDP2.6》

0230- 《Hortonworks去年第四季度以及全年财报》

0329- 《Hortonworks正式发布HDP3.0》

0429- 《如何在Redhat7.4安装HDP3.0.1》

0479- 《0479-如何禁用HDP2.6.5的HDFS HA》

0480- 《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》

0481- 《0481-如何从HDP2.6.5原地升级到CDH6.0.1》

15.转载

《刘汨春：AI大数据在企业全链业务中的应用和价值（上）》

《HDFS添加 NFS Gateway 角色实例启动失败问题及解决办法》

《近期文章内容预告》

《安装CDSW数据磁盘初始化异常问题分析》

《重庆某项目生产集群扩容问题总结及复盘》

《如何为CDH集群配置机架感知》

《HDFS运行Balancer失败及问题解决办法》

《如何为服务器硬盘配置RAID或JBOD模式》

《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》
《如何使用Sentry为包含特殊字符的用户组授权》

《如何为Hadoop集群服务器绑定双万兆网卡》

《如何使用Shell脚本判断HDFS文件/目录是否存在》

《由MasterProcWals状态日志过多导致的HBase Master重启失败问题》

《聊聊个人对安装部署CDH集群前置准备的理解》

《CDH集群安装YARN无法正常启动及解决办法》

《LDAP用户组信息异常导致Sentry授权失效问题分析》

《HDFS Federation（联邦）简介》

《如何禁止Namenode格式化》

《如何通过CM为HDFS启用Federation》

《如何通过CM禁用Federation》

《回顾·基于Impala平台打造交互查询系统》

《Spark Streaming VS Flink》

《30PB数据1年内迁移到Spark，eBay的经验有何可借鉴之处？》

《潘国庆：如何实现端对端的 exactly once？》

《Spark2.4的新功能》

《杭州造云记》

《首发 | OceanBase 2.0 重磅发布，全面降低金融业务向分布式架构转型的技术风险》

《Cloudera与Hortonworks合并》

《两大数据平台Cloudera和Hortonworks宣布合并，计划创建首个企业数据云》

《重磅！Cloudera、Hortonworks 合并！免费的好日子不多了》

《大新闻！Elasticsearch上市！》

《大数据凉了？No，流式计算浪潮才刚刚开始！》

《YARN 资源调度那些事儿》

《SparkSQL 在有赞的实践》

《Flink 在有赞实时计算的实践》

《有赞大数据平台安全建设实践》

《人工智障 2 : 你看到的AI与智能无关》

《Spark Streaming 在数据平台日志解析功能的应用》

《HBase 写吞吐场景资源消耗量化分析及优化》

《Druid 在有赞的实践》

《HBase 读流程解析与优化的最佳实践》

《Flume 在有赞大数据的实践》

《Druid Segment Balance 及其代价计算函数分析》

《浅析 Spark Shuffle 内存使用》

《重磅 | Apache Spark 社区期待的 Delta Lake 开源了》

《解读2018：13家开源框架谁能统一流计算？》

《从Storm到Flink，有赞五年实时计算效率提升实践》

《0643-转载-余利华：网易大数据平台架构实践分享》

《【生活现场】从洗袜子到hbase存储原理解析》

《OLAP 分析已死？真的真的么？!》

《DataX在有赞大数据平台的实践》

《我是如何成为Apache Kudu committer & PMC的？》

《Zeppelin: 让大数据插上机器学习的翅膀》

《你为什么还在用存储过程？》

《你是一直认为 count(1) 比 count(*) 效率高么？》

《从这个角度，我终于理解为什么需要Kafka这样的东西了!》

《干货 | 每天十亿级数据更新，秒出查询结果，ClickHouse在携程酒店的应用》

《Apache Druid 0.15.0版本发布》

《Cloudera对开源的承诺》

《Cloudera独家回应：Hadoop到底怎么了？》

《微博基于ClickHouse灵活监控百亿流量下的业务指标》

《史上最全-mysql迁移到clickhouse的5种办法》

《SQL on Hadoop在快手大数据平台的实践与优化》

《YuniKorn：一个通用的资源调度程序》

《HDFS Router-based Federation》

《Hive在DB-Engine的排名已经超过Teradata》

《独家｜手把手教你赋能Jupyter Notebooks！（附代码）》

《快手 HBase 在千亿级用户特征数据分析中的应用与实践》

《一步一步理解Impala query profile（一）》

《一步一步理解Impala query profile（二）》

《一步一步理解 Impala query profile（三）》

16.其他

0018- 《大数据售前的中年危机》

0059- 《工程师的一天》

0106- 《总用户数破1000，后台数据公布》

0179- 《Fayson给大家拜年》

0221- 《冲上云霄》

0228- 《Cloudera去年第四季度以及全年财报》

0259- 《如何在DELL R730服务器上使用U盘安装linux操作系统》

0366- 《周年庆》

《简单说一下ClickHouse》

0453- 《Java收费，Hadoop怎么办？》

《【简报】CDH和HDP的合并提前终止反垄断法的等待期》

0484- 《0484-Cloudera和Hortonworks合并后面临的选择》

0503- 《Cloudera与Hortonworks合并完成》

0511- 《0511-正式合并完成后Cloudera推出新的大数据平台CDP》

0513- 《0513-开源软件如何统治世界》

0516- 《融资数千万的小象科技了解一下》

《0522-Confluent获D轮融资1.25亿，估值25亿》

《Fayson给大家拜年》

《新年》

《Hadoop已死，Hadoop万岁》

17.转载

《刘汨春：AI大数据在企业全链业务中的应用和价值（上）》

《HDFS添加 NFS Gateway 角色实例启动失败问题及解决办法》

《近期文章内容预告》

《安装CDSW数据磁盘初始化异常问题分析》

《重庆某项目生产集群扩容问题总结及复盘》

《如何为CDH集群配置机架感知》

《HDFS运行Balancer失败及问题解决办法》

《如何为服务器硬盘配置RAID或JBOD模式》

《如何在HP dl380 Gen9服务器上安装Redhat 7.2并配置软RAID》
《如何使用Sentry为包含特殊字符的用户组授权》

《如何为Hadoop集群服务器绑定双万兆网卡》

《如何使用Shell脚本判断HDFS文件/目录是否存在》

《由MasterProcWals状态日志过多导致的HBase Master重启失败问题》

《聊聊个人对安装部署CDH集群前置准备的理解》

《CDH集群安装YARN无法正常启动及解决办法》

《LDAP用户组信息异常导致Sentry授权失效问题分析》

《HDFS Federation（联邦）简介》

《如何禁止Namenode格式化》

《如何通过CM为HDFS启用Federation》

《如何通过CM禁用Federation》

《回顾·基于Impala平台打造交互查询系统》

《Spark Streaming VS Flink》

《30PB数据1年内迁移到Spark，eBay的经验有何可借鉴之处？》

《潘国庆：如何实现端对端的 exactly once？》

《Spark2.4的新功能》

《杭州造云记》

《首发 | OceanBase 2.0 重磅发布，全面降低金融业务向分布式架构转型的技术风险》

《Cloudera与Hortonworks合并》

《两大数据平台Cloudera和Hortonworks宣布合并，计划创建首个企业数据云》

《重磅！Cloudera、Hortonworks 合并！免费的好日子不多了》

《大新闻！Elasticsearch上市！》

《大数据凉了？No，流式计算浪潮才刚刚开始！》

《YARN 资源调度那些事儿》

《SparkSQL 在有赞的实践》

《Flink 在有赞实时计算的实践》

《有赞大数据平台安全建设实践》

《人工智障 2 : 你看到的AI与智能无关》

《Spark Streaming 在数据平台日志解析功能的应用》

《HBase 写吞吐场景资源消耗量化分析及优化》

《Druid 在有赞的实践》

《HBase 读流程解析与优化的最佳实践》

《Flume 在有赞大数据的实践》

《Druid Segment Balance 及其代价计算函数分析》

《浅析 Spark Shuffle 内存使用》

《重磅 | Apache Spark 社区期待的 Delta Lake 开源了》

《解读2018：13家开源框架谁能统一流计算？》

《从Storm到Flink，有赞五年实时计算效率提升实践》

《0643-转载-余利华：网易大数据平台架构实践分享》

《【生活现场】从洗袜子到hbase存储原理解析》

《OLAP 分析已死？真的真的么？!》

《DataX在有赞大数据平台的实践》

《我是如何成为Apache Kudu committer & PMC的？》

《Zeppelin: 让大数据插上机器学习的翅膀》

《你为什么还在用存储过程？》

《你是一直认为 count(1) 比 count(*) 效率高么？》

《从这个角度，我终于理解为什么需要Kafka这样的东西了!》

《干货 | 每天十亿级数据更新，秒出查询结果，ClickHouse在携程酒店的应用》

《Apache Druid 0.15.0版本发布》

《Cloudera对开源的承诺》

《Cloudera独家回应：Hadoop到底怎么了？》

《微博基于ClickHouse灵活监控百亿流量下的业务指标》

《史上最全-mysql迁移到clickhouse的5种办法》

《SQL on Hadoop在快手大数据平台的实践与优化》

《YuniKorn：一个通用的资源调度程序》

《HDFS Router-based Federation》

《Hive在DB-Engine的排名已经超过Teradata》

《独家｜手把手教你赋能Jupyter Notebooks！（附代码）》

《快手 HBase 在千亿级用户特征数据分析中的应用与实践》

《Hadoop 对象存储 Ozone》

《Kafka异地双活深度讲解 - Mirrormaker V2》

《Apache Submarine》

《Impala查询卡顿分析案例》

《如何对CDH集群中的Impala打印线程堆栈》

《Delta Lake - 数据湖的数据可靠性》

《Impala元数据简介》

《一步一步理解Impala query profile（一）》

《一步一步理解Impala query profile（二）》

《一步一步理解 Impala query profile（三）》

《HBase Bulkload 实践探讨》

《接着！！大数据入门实用技术栈全在这里了》

《最新消息！Cloudera 全球发行版正式集成 Apache Flink》

《从开发到生产上线，如何确定集群大小?》

《Hive 终于等来了 Flink》

《一步一步理解 Impala query profile（四）》

《Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！》

《PySpark工作原理》

《0747-5.16.2-YARN日志聚合目录说明》

Fayson的github：

https://github.com/fayson/cdhproject

你可能感兴趣的:(Hadoop实操)

node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
钟汉良日记：自媒体写作要向古代拜师学艺的人取经钟汉良日记
2022年9月8日周四晴朗的天前几天晚上，和实操班的学员谈了很多为什么要写日记的原因。前后两个多小时，推荐了好几本书，隔了一天再回忆竟然不能把所有的书籍都列出来。是自己年龄大了，记忆力衰退了？我觉得不是。而是谈话这种氛围，比起文字写作更容易激发我们的潜能。一些灵光乍现的想法，会在那种特别融洽的时候突然涌现出来。有的想法和总结，你平时就是绞尽脑汁也想不出来，但就是在那种你侃侃而谈的时候，思想会像流水
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
2023-01-08 d8f93a389a3c
走进心时代马上一年了，这一年中上了三次线上实操班和三次导师班课，六月份上了一次线下导师班。如果要问实操班和导师班有什么不同，有哪些不一样的收获？我的感觉是实操班更多的是方法，遇到问题可以直接拿来用的，是技术层面的。导师班是修个人成长的、向内的、寻根问底的，解决我们为什么会在生活中遇到的这样那样的问题，原因出在哪里。通过一次次的学习，改变我的认知，又重建了认知，打破了固有思维的墙，窗户纸层层的被捅破
外卖会员卡项目怎么做？外卖会员卡项目实操讲解鲸天千流微信小程序
外卖会员卡项目实操外卖会员卡项目是吃喝玩乐集于一身的一款平台，它是提供个性化优惠，积分，储值及其他服务的一项推广计划，简单来说就是你通过推广外卖会员卡获得佣金，用户通过你的会员卡获得更多的优惠与权益，从而实现互利互赢。简单来说就是小程序推广功能：领外卖优惠券，看电影，交话费，打车等一系列都可以省钱，用户只要在小程序里消费，都可以拿到一笔官定的佣金。项目详细讲说：一、小程序中有什么优惠的地方可以吸引
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
《输出力》——输出实操1 根本不酷璇
一、少量输入之后，立即输出二、“诵《诗》三百，授之以政，不达；使于四方，不能专对；虽多，亦奚以为？”三、将经典语录自然融入闲谈中。在透露自己学识的时候，不要刻意炫技，一定要不漏声色的。今天读到34页
开微信公众号怎么赚钱？解析盈利策略与实操指南氧惠_飞智666999
微信公众号成为了人们获取信息、交流思想的重要平台。越来越多的人选择开设自己的微信公众号，希望通过这一平台实现个人价值或创造经济效益。那么，开微信公众号怎么赚钱呢？本文将为您详细解析微信公众号的盈利策略与实操指南。公众号流量主就找善士导师（shanshi2024）公众号：「善士笔记」主理人，《我的亲身经历，四个月公众号流量主从0到日入过万！》公司旗下管理800+公众号矩阵账号。代表案例如：爸妈领域、
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
年薪80w起！零成本快速入门大模型指南 AI产品经理语言模型人工智能自然语言处理机器学习
今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点AI大模型。他们有的是想正式转到一些新兴的AI行业，需要系统的学习训练。更多的是想跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。这也可以理解，ChatGPT推出仅一年半的时间，就将生成式AI推向主流。从谷歌到亚马逊，从百度到阿里，几乎所有科技巨头都在布局AI，也直接影响到了招聘市场，大模型相关的岗位数量多了不少，年薪甚
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Linux实操篇_实用指令_压缩和解压类指令 Shaw_Young
压缩和解压缩类gzip/gunzip指令gzip用于压缩文件,gunzip用于解压的基本语法语法功能描述gzip文件压缩文件,只能将文件压缩成为*.gz文件gunzip文件.gz解压缩文件命令应用实例案例1:gzip压缩,将/home下的hello.txt文件进行压缩[root@localhosthome]#gziphello.txt案例2:gunzip压缩,将/home下的hello.txt.g
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
Python浏览器指纹反爬详解（包含案例）——blog10 总得跑一个 python 网络爬虫 selenium
目录概述案例实操目标分析补充开始由此可以得到方法一：直接从api拿数据方法二：伪装selenium.webdriver测试测试用HTML如下：爬取失败——分析与思考改进最后附上使用selenium破解目标网站浏览器指纹的完整代码：觉得有帮助的小伙伴还请点个关注概述浏览器指纹是由浏览器类型、版本号、操作系统、屏幕分辨率、时区、插件、字体等信息组合而成的唯一标识，可以用于区分不同的用户。通过比对请求中
东3.6工作日报王少东0206
东3.6工作日报：1~今天我觉得最有意义的事就是：下午开小组会，大家对我们制定OKR进度评价达到54%，接下来就是大家的实操和进一步培训，可能时间有点赶，情况有点特殊，但是大家都在尽全力做好它吧。2~学习心得:今天分享新的书《复杂》，樊登总结非常好：“对于我们每个人个人的成长。就是你自己这一生事实上也是一个复杂的过程。你与其去做那么多的计算，算计，你不如把你能做的事尽量地做好，然后不断的自我更新迭
《原则》中五步骤实操钱晓缺
有明确的目标a．排列优先顺序：尽管你几乎可以得到你想要的任何东西，但你不可能得到你想要的所有东西。b．不要混淆目标和欲望。c．调和你的目标和欲望，以明确你在生活中真正想要的东西d．不要把成功的装饰误认为成功本身。e．永远不要因为你觉得某个目标无法实现就否决它。f．谨记伟大的期望创造伟大的能力。g．如果你拥有灵活性并自我归责，那么几乎没有什么能阻止你成功。h．知道如何对待挫折和知道如何前进一样重要。
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本