Mr XZY

大数据基础--习题整理(2)

习题二

1、下列哪些业务场景中，可以使用Reducer充当Combiner使用？（多选）（ abc ）
A、sum求和 B、max求最大值 C、count求计数 D、avg求平均

2、下列关于配置机架感知的相关描述是正确的？（多选）（ acd ）
A、如果一个机架出问题，不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点

3、Client端上传文件的时候下列描述哪些是错误的？（多选）（ acd ）
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功

4、Flume agent由哪些组件构成（多选）（ abc ）
A、Source B、Channel C、Sink D、Spool

5、Spark 支持的分布式部署方式有哪些（多选） ( abc )
A、standalone B、spark on mesos C、spark on YARN D、Spark on local

6、下列哪些是 RDD 的缓存方法（多选） ( ab )
A、persist() B、Cache() C、Memory() D、Map（）

7、Rowkey设计的原则，下列哪些选项的描述是正确的？（多选）（ abc ）
A、尽量保证越短越好
B、可以使用汉字
C、可以使用字符串
D、本身是无序的

8、HBase性能优化包含下面的哪些选项？（多选）（abcd ）
A、读优化 B、写优化 C、配置优化 D、JVM优化

9、下列哪个属性是hdfs-site.xml中的配置？a
A、dfs.replication
B、fs.defaultFS
C、mapreduce.framework.name
D、yarn.resourcemanager.address

10、以下哪种不是Hive支持的数据类型？d
A、Struct B、Int C、Map D、Long

11、以下哪个不是HDFS的守护进程？c
A、secondarynamenode B、datanode C、mrappmaster/yarnchild D、namenode

12、如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？d
A、200 B、40000 C、400 D、1200

13、Hadoop-2.6.5集群中的HDFS的默认的副本块的个数是？c
A、1 B、2 C、3 D、4

14、Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是？c
A、32M B、64M C、128M D、256M

15、下面关于使用hive的描述中不正确的是？d
A、hive中的join查询只支持等值链接，不支持非等值连接
B、hive的表一共有两种类型，内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改

16、下面关于使用hive的描述中不正确的是？d
A、hive中的join查询只支持等值链接，不支持非等值连接
B、hive的表一共有两种类型，内部表和外部表
C、hive默认仓库路径为/user/hive/warehouse/
D、hive支持数据删除和修改

17、HDFS集群中的namenode职责不包括？c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

18、关于HDFS集群中的DataNode的描述不正确的是？ac
A、DataNode之间都是独立的，相互之间不会有通信
B、存储客户端上传的数据的数据块
C、一个DataNode上存储的所有数据块可以有相同的
D、响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑

19、HDFS集群中的DataNode的主要职责是？c
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

20、MapReduce的Shuffle过程中哪个操作是最后做的？ d
A、溢写 B、分区 C、排序 D、合并

21、下面关于MapReduce的描述中正确的是？d
A、MapReduce程序必须包含Mapper和Reducer
B、MapReduce程序的MapTask可以任意指定
C、MapReduce程序的ReduceTask可以任意指定
D、MapReduce程序的默认数据读取组件是TextInputFormat

22、MapReduce编程模型中以下组件哪个是最后执行的？ c
A、Mapper B、Partitioner C、Reducer D、RecordReader

23、在MapReduce中，哪个组件是用户不指定也不会有默认的？ a
A、Combiner B、OutputFormat C、Partitioner D、InputFormat

24、下列哪种类型的文件不是HDFS集群的元数据存储格式？d
A、fsimage B、edits C、edits_inprogress D、blk_000003425

25、YARN的调度算法不包括以下哪种？d
A、FIFO Scheduler B、Fair Scheduler C、Capacity Scheduler D、Stack Scheduler

26、关于SecondaryNameNode哪项是正确的？c
A、它是NameNode的热备
B、它对内存没有要求
C、它对目的是帮助NameNode合并编辑日志，减少NameNode的负担和冷启动时的加载时间
D、SecondaryNameNode应与NameNode部署到一个节点

27、下列关于使用MapReduce编程模型实现SQL中的join操作错误的是？c
A、ReduceJoin可以实现内链接，也能实现各种外连接
B、ReduceJoin的join操作是在MapReduce程序中的reducer阶段完成的
C、MapJoin也适合各种join场景，也能实现内连接和各种外链接
D、MapJoin不会产生数据倾斜

28、下列哪种业务场景中，不能直接使用Reducer充当Combiner使用？d
A、sum求和B、max求最大值C、count求计数D、avg求平均

29、下列关于配置机架感知的相关描述哪项不正确？b
A、如果一个机架出问题，不会影响数据读写和正确性
B、写入数据的时候多个副本会写到不同机架的 DataNode 中
C、MapReduce 会根据机架的拓扑获取离自己比较近的数据块
D、数据块的第一个副本会优先考虑存储在客户端所在节点

30、Client端上传文件的时候下列哪项正确？ b
A、数据经过 NameNode 传递给 DataNode
B、Client端将文件切分为 Block，依次上传
C、Client只上传数据到一台DataNode，然后由NameNode负责Block复制
D、Client如果上传的时候没有上传成功指定的副本数，则整次上传不成功

31、下列关于HDFS的描述正确的是？c
A、如果 NameNode 宕机，SecondaryNameNode 会接替它使集群继续工作
B、HDFS集群支持数据的随机读写
C、NameNode磁盘元数据不保存Block的位置信息
D、DataNode通过长连接与NameNode保持通信

32、一个MapReduce程序中的MapTask的个数由什么决定？c
A、输入的总文件数
B、客户端程序设置的mapTask的个数
C、FileInputFormat.getSplits(JobContext job)计算出的逻辑切片的数量
D、输入的总文件大小/数据块大小

33、以下描述错误的是？d
A、SequenceFile可以用来作为小文件的合并存储容器
B、TextInputFormat的key是LongWritable类型的
C、CombineFileInputFormat是抽象类
D、TextInputFormat的key是指该记录在文件中的行号

34、以下关于新旧 MapReduce API 的描述错误的是？b
A、新API放在org.apache.hadoop.mapreduce包中，而旧API则是放在org.apache.hadoop.mapred中
B、新API倾向于使用接口方式，而旧API倾向于使用抽象类
C、新API使用Configuration，而旧API使用JobConf来传递配置信息
D、新API可以使用Job对象来提交作业

35、以下描述错误的是？d
A、输入分片InputSplit其实是对数据的引用
B、MultipleInputs可以设置多个数据源以及它们对应的输入格式
C、可以通过重载isSplitable()方法来避免文件分片
D、ReduceTask需要等到所有的map输出都复制完才进行Merge

36、以下哪个组件可以指定对key进行Reduce分发的策略？c
A、RecordReader B、Combiner C、Partitioner D、FileInputFormat

37、执行一个job，如果这个job的输出路径已经存在，那么程序会？c
A、覆盖这个输出路径
B、抛出警告，但是能够继续执行
C、抛出一个异常，然后退出
D、创建一个新的输出路径

38、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？c
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写

39、Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是？d
A、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改

40、关于HDFS的文件写入，正确的是？c
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份分别存放
D、复制的文件块默认都存在同一机架的多个不同节点上
41、HBase来源于哪篇博文？ c
A 、The Google File System B、MapReduce C、BigTableD、 Chubby

41、下面对HBase的描述哪些是正确的？（多选） bcd
A、不是开源的
B、是面向列的
C 、是分布式的
D 、是一种NoSQL数据库

42、HBase依靠（）存储底层数据 a
A、 HDFS B、Hadoop C、Memory D、MapReduce

43、HBase依赖（）提供消息通信机制 a
A 、Zookeeper B、 Chubby C、 RPC D、 Socket

44、HBase依赖（）提供强大的计算能力 d
A 、Zookeeper B 、Chubby C 、RPC D 、MapReduce

45、MapReduce与HBase的关系，哪些描述是正确的？（多选） bc
A、两者不可或缺，MapReduce是HBase可以正常运行的保证
B 、两者不是强关联关系，没有MapReduce，HBase可以正常运行
C 、MapReduce可以直接访问HBase
D 、它们之间没有任何关系

46、下面哪些选项正确描述了HBase的特性？（多选） abcd
A 高可靠性B 高性能C 面向列D可伸缩
47、Spark 的四大组件下面哪个不是 d
A、Spark Streaming B.、Mlib C、 Graphx D、Spark R

48、下面哪个端口不是 spark 自带服务的端口 b
A、8080 B、4040 C、8090 D、18080

49、spark 1.4 版本的最大变化 b
A 、spark sql Release 版本 B 、引入 Spark R C 、DataFrame D、支持动态资源分配

50、Spark Job 默认的调度模式 a
A、 FIFO B、 FAIR C、无 D 运行时指定

51、哪个不是本地模式运行的个条件 d
A 、spark.localExecution.enabled=true B、显式指定本地运行 C 、finalStage 无父 Stage D、partition默认值

52、下面哪个不是 RDD 的特点 c
A.、可分区 B、可序列化 C、可修改 D、可持久化

53、关于广播变量，下面哪个是错误的 d
A、任何函数调用 B、是只读的 C、存储在各个节点 D、存储在磁盘或 HDFS

54、关于累加器，下面哪个是错误的 d
A、支持加法 B、支持数值类型 C、可并行 D、不支持自定义类型

55、Spark 支持的分布式部署方式中哪个是错误的 d
A 、standalone B、spark on mesos C、spark on YARN D、Spark on local

56、Stage 的 Task 的数量由什么决定 a
A、Partition B、Job C、Stage D、TaskScheduler

57、下面哪个操作是窄依赖 b
A 、join B、 filter C、group D、sort

58、下面哪个操作肯定是宽依赖 c
A、map B、 flatMap C、 reduceByKey D、 sample

【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
jdbc连接数据库步骤oracle,jdbc连接oracle数据库的步骤 weixin_39726044
使用E-MapReduce集群sqoop组件同步云外Oracle数据库数据到集群hiveE-MapReduce集群sqoop组件可以同步数据库的数据到集群里，不同的数据库源网络配置有一些差异网络配置。最常用的场景是从rdsmysql同步数据，最近也有用户询问如何同步云外专有Oracle数据库数据到hive。云外专有数据库需要集群所有节点通过公网访问，要创建VPC网络，使用VPC网络...文章鸿初2
spark为什么比mapreduce快？京东云开发者 spark mapreduce 大数据
作者：京东零售吴化斌spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所以shuffle次数不能减少所以总结spark比ma
Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因快乐骑行^_^ Kafka Kafka系列记录一次源头数据库刷数据造成数据丢失的原因
Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因一、背景二、查看topic日志信息三、结论四、解决方法一、背景源头数据库在很短的时间内刷了大量的数据，部分数据在hdfs丢失了理论上debezium数据采集不会丢失，就需要排查数据链路某个节点是否有数据丢失。数据链路是：debezium——kafka——flume——hdfs根据经验定位数据在kafka侧丢失，下一面进一步确认是否数据在
使用宝塔大家Java项目遇到的问题 LOVE_DDZ JAVA Spring-Boot java spring boot 开发语言
记录一下使用宝塔大家Java项目遇到的问题：1.没有那个文件或目录/var/tmp/springboot/vhost/scripts/system-service.sh:没有那个文件或目录Feb2811:13:01hadoop05spring_system-service:/bin/bash:/var/tmp/springboot/vhost/scripts/system-service.sh:没
Spark 运行问题 java.lang.NoSuchMethodError 解决方案 @飞往你的山 spark scala
一般情况，出现这种问题是因为scala和spark的版本不匹配，需要重新下载两者相匹配的版本。File-ProjectStructure-Libraies-“+”-java选择spark目录下jars文件夹Maven项目，pom.xml文件中添加Spark依赖，需要联网下载，或者本地库中已经下载好依赖包2.3.3org.apache.sparkspark-core_2.11${spark.vers
Python酷库之旅-第三方库Pandas(011) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习与成长
目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6-3、结果输出26、pandas.HDFStore.select函数26-1、语法26-2、参数26-3、功能26-4、返回值26-5、说明26-6、用法26-6-1、数据准备26-6-2、代码示例
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
Anaconda配置tensorflow-gpu教程 rubisco214 tensorflow 人工智能 python
最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU）打开Nvidia控制面板，左上角帮助-系统信息-组件NVCUDA64.DLL后面的NVIDIACUDA12.1就是你的显卡支持的CUDA版本，去CUDA官网CUDAToolkitArchive|N
linux压缩解压文件夹命令 zip unzip 和 tar luoluosheng07 linux linux 运维服务器
1.zip和unzip（处理.zip文件）压缩文件夹zip-r压缩包名.zip文件夹名-r:递归压缩子目录内容。示例：zip-rmyarchive.zipmydir解压文件unzip压缩包名.zip-d目标目录-d:指定解压目录（默认当前目录）。示例：unzipmyarchive.zip-d/path/to/extract查看压缩包内容unzip-l压缩包名.zip2.tar（处理.tar、.ta
python 一小时教程 wsf_123456 python Python 编程 C C#C++
1序言面向读者本文适合有经验的程序员尽快进入Python2.x世界.特别地,如果你掌握Java和Javascript,不用1小时你就可以用Python快速流畅地写有用的Python程序.Python3.x用户请参考:http://www.cnitblog.com/yunshichen/archive/2009/04/01/55924.html(由于Django不支持python3,所以为了你的发展
HIVE 面试题总结小余真旺财 Hive hive
Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。一、Hive架构用户接口：CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：元数据包括：表名、表所属的数据库（默
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
hivePB级迁移方案我要用代码向我喜欢的女孩表白数据库 bigdata-大数据专栏 hive
1、评估磁盘空间大小、调整副本数、设置heapsize大小2、distcp-i-skipcrccheck源端到目标端，迁移3、元数据迁移，建表，替换location地址，或者导出db4、表分区修复5、配置增量T-1迁移或者T-26、校验历史分区脚本，表结构，大小，文件数7、根据ditcp不对的，进行补数脚本，删分区，重拉8、任务校验，客户跑完任务后，校验指定分区的count数和内容的md59、任务
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
linux 打包解压命令 luoluosheng07 linux linux 服务器运维
1.Linux打包和解压命令打包命令tar命令是最常用的打包工具，可以用来创建归档文件。创建一个名为archive.tar的tar包：tar-cvfarchive.tar/path/to/directory/这里：c表示创建新的归档文件。v表示在打包过程中显示文件。f指定归档文件的名称。zip命令用于创建zip格式的压缩文件。zip-rarchive.zip/path/to/directory/这
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

大数据基础--习题整理(2)

习题二

你可能感兴趣的:(spark,hdfs,hadoop,hive)