远陌

大数据学习笔记1000条

笔记汇总

1. Zookeeper用于集群主备切换。

2. YARN让集群具备更好的扩展性。

3. Spark没有存储能力。

4. Spark的Master负责集群的资源管理，Slave用于执行计算任务。

5. Hadoop从2.x开始，把存储和计算分离开来，形成两个相对独立的子集群：HDFS和YARN，MapReduce依附于YARN来运行。

6. YARN可以为符合YARN编程接口需求的集群提供调度服务。

7. YARN：

ResourceManager 一主多备

NodeManager 一般与DataNode部署在一起。

8. 单机硬件配置会严重影响集群的性能。

9. 初始化集群机器环境：创建账号、安装JDK、设置时间同步。

10. Zookeeper的部署最简单，其节点数必为奇数。

11. ZK两个端口，前者是链接Leader后者是用于竞选。

12. 部署Spark StandLone集群：

1. SSH无密码登录

2. 复制解压Spark

3. 编写配置文件分发到所有节点

13. Hadoop2.x以上支持双机热备。

14. Standlone模式只支持简单的固定资源分配策略。

15. YARN统一为集群上的所有计算负载分配资源，可以避免资源分配的混乱无序。

16. Spark程序由Master还是YARN来调度执行，是由Spark程序在提交时决定的。

17. YARN两种调度模式：

Yarn-cluster 模式，用于生产

Yarn-client 模式，用于交互

18. Spark计算都是围绕RDD进行的。

19. Spark在运行时，一般RDD操作会为每个RDD分区运行一个job。

20. Job最简单的理解，它对应一个java线程。

21. Spark所有基于文件的生产RDD方法，都支持目录、压缩文件和通配符。

22. RDD是Spark的核心抽象，所有计算都围绕RDD进行。

23. RDD操作分为两类：

Transformation 转换

Action 动作

24. 所有Transformation都是Lazy模式，先记录计算方式，Driver返回结果时开始计算。

25. RDD的Transformation实际计算只在Action返回结果时才进行，或者持久化。

26. Spark严重依赖传递函数类型的参数。

27. 从Driver分发各个节点过程：

Job执行：

1. 在Driver节点上序列化代码

2. 传送至各个计算节点

3. 在计算节点上反序列化4. 执行

28. Scala function支持序列化。

29. Spark的核心是RDD，而RDD是分布式计算的。

30. Spark会将Job运行所有依赖的变量、方法、（闭包）全部打包在一起序列化。

31. RDD操作的禁忌，不能嵌套调用。

32. Action操作输出不再是RDD，返回值Driver程序。

33. Spark集群上的资源主要是CPU core数量和物理内存。

34. 在程序运行时，每个core对应一个线程。

35. Standlone模式下由Spark集群中的master节点进行资源调度。

36. Spark调度两类：

1. spark程序见的调度（主）

2. spark程序内部的调度

37. 用户编写的spark程序称为Driver程序。

38. 每个驱动程序都有一个SparkContext对象，担负着与集群沟通的职责。

39. 集群管理器负责集群的资源调度。

40. 执行器，每个spark程序在每个节点上启动的一个进程。

41. 一次RDD Action对应一次job。

42. Stage，job在执行过程中被分为多个阶段。

43. Task，在执行器上执行的最小单位。

44. Spark程序间的调度：

静态分配（主）

动态分配

45. 所有集群管理器都支持静态资源分配。

46. 当spark为多用户服务时，需要配置spark程序内部的调度。

47. 不同线程提交的job可以并行执行。

48. 默认spark的调度器以FIFO方式运行Job。

49. 公平调度还支持对多个Job进行分组，分组称为调度池。

50. Spark性能优势，很大一部分原因是内存和缓存。

51. RDD持久化可以多次利用，性能提高10倍以上。

52. Spark提供两类共享变量——广播变量和计数器。

53. 广播变量是一个只读变量，在所有节点上都是一份缓存。

54. 计数器只能增加，用于技术和求和。

55. 容错机制是分布式系统的一个重要能力。

56. DAG：有向无环图的计算任务集合。

57. 分布式系统经常需要做检查点。

58. RDD也是一个DAG，每一个RDD都会记住创建该数据需要哪些操作——血统。

59. RDD依赖：

窄依赖 —— 父分区对应一个子分区

宽依赖 —— 父分区对应多个子分区

60. Spark提供了预写日志（journal），先将数据写入支持容错的文件系统中。

61. Spark master容错：

Standalone ——Zookeeper

单点 ——本地重启

62. Slave节点失效：

1. Work异常停止

2. 执行器异常停止

3. Driver异常退出

63. 监控管理：

1. Web界面

2. Metrics

3. 外部系统

64. Web界面：

1. 调度器stage，Task列表

2. RDD大小和内存文件统计情况

3. 环境信息

4. 正在执行的执行器信息

65. Standlone模式的集群管理器有自己的web界面。

66. Web界面表格的头部都支持点击排序。

67. Spark程序一般都是由脚本bin/spark-submit来提交的。

68. RDD特点：

1. RDD是只读的

2. RDD可指定缓存在内存中

3. RDD可以通过重新计算得到

69. RDD核心属性：

1. 一个分区列表

2. 一个依赖列表

3. 一个名为compute的计算函数

4. 分区器

5. 计算各分区是优先的位置列表

70. Action不可以在RDD Tranformation内部调用。

71. Transformation只是建立在计算关系，而action才是实际的执行者——触发者

72. Spark.local.dir用于shuffle。

73. SparkContext是spark程序最主要的入口。

74. 每个jvm只允许启动一个sparkContext。

75. DAG是最高层级的调度，每个job对应一个DAG。

76. RunJob，提交RDD Action 操作，是所有调度执行的入口。

77. sparkContext在初始化时，创建了DAG调度与task调度来负责RDD Action操作的调度执行。

78. 任务提交时，不是按Job的先后顺序提交的，而是倒序的。

79. 仅对依赖类型是shuffle Dependency的RDD操作创建Stage。

80. DAG在调度室，对于在相同节点上进行的Task计算会合并为一个Stage。

81. 各stage之间以shuffle为分界线。

82. Spark SQL是spark的一个子模块，专门用于处理结构化数据。

83. Spark SQL的最大优势是性能非常高。

84. Spark SQL与Apache Hive基本完全兼容。

85. Spark SQL提供领域API，并且提供专门的数据结构抽象DataFrame。

86. Spark SQL支持非常多的数据源：Hive、Avro、Jdbc、Json等，而且统一访问。

87. Spark SQL两种使用：

1. SQL引擎

2. API 操作

88. 分布式SQL引擎，两种运行方式：

1. JDBC/ODBC Server

2. Spark SQL 命令行

89. Spark SQL相关的所有函数，都在SqlContext或它子类中。

90. DataFrame创建：

1. 使用反射的方法从RDD创建DataFrame

2. 使用程序动态从RDD创建DataFrame

3. 从其他数据源生产DataFrame

91. DataFrame支持许多特殊的操作，称为领域编程语言或领域API。

92. DataFrame注册成表，然后使用纯SQL来访问。

93. Parquet是一种大数据计算中最常用的列式存储格式。

94. 数据源类型的名称一般是全称。

95. 优化是非常重要的环节，需要不断积累经验。

96. Catalyst（催化剂）是Spark SQL执行有限优化器的代号，最核心部分。

97. Catalyst最主要的数据结构是树。

98. 所有优化都是基于规则的。

99. Catalyst优化：

1. 分析阶段

2. 逻辑优化阶段

3. 物理优化阶段

4. 代码优化阶段

100. Spark的性能基本上与数量大小保持线性关系。

101. Spark Streaming接收实时数据，按日期将数据划分为成多批次（Batch），按批次提交个核心计算。

102. Spark Streaming使用的数据抽象是DStream。

103. DStream内部是连续的RDD序列。

104. Sprak Streaming 3种输入DStream：

1. 基本型

2. 高级型

3. 自定义

105. 高级类型的输入DStream并不是由Spark提供。

106. 使用数据源时，要注意可靠性。

107. DStream操作：

1. Transformation操作

2. Output操作类似RDD Action

108. Transform提供直接操作DStream内部RDD的方法。

109. Spark Streaming提供专门的状态更新方法。

110. 设置数据的滑动窗口，将数个原始DStream合并成一个窗口DStream。

111. 窗口（Window）通过连个参数确定：1）窗口长度、2）滑动区间。

112. Output操作将DStream结果输出到外部系统。

113. DStream可以序列化到内存。

114. 窗口函数和updateStateBykey默认会自动持久化。

115. 网络按收数据，默认持久化两个节点上，保证容错。

116. DStream基础属性：

1. 依赖的在DStream列表

2. 生产RDD的时间

3. Complete计算函数

117. RDD是只读的，可重复计算的分布式数据集。

118. SparkStreaming大部分数据来自网络。

119. 流式计算过程：

输入数据流>>数据接收>>数据计算>>结果输出。

120. 结果输出操作本身提供至少一次级别的容错性能。

121. Spark提供了检查点功能，用户定期记录中间状态。

122. 检查点是有代价的，需要存储数据至存储系统。

123. Spark性能调优两个方向:

1. 每个批次的处理时间尽可能短

2. 收到数据后，尽可能快地处理

124. Storm是开源免费的分布式实时计算系统。

125. Storm的核心数据抽象是tuple，是命名的值列表。

126. Spark Streaming粗粒度，storm更细粒度些。

127. 核心数据抽象的不同导致计算模式上的本质却别。

128. Weblog分析的典型的流式实时应用场景。

129. ZK以Fast Paxos算法为基础。

130. ZK在分布式系统中协作多任务。

131. Hbase是一个通常与Hadoop一起使用的数据库。

132. Kafka是一个基于发布-订阅模型的消息系统。

133. Solr是一个企业级的搜索平台。

134. ZK不适合用作海量数据存储。

135. 分布式系统中的进程通信有两种选择：直接通过网络进行信息交换，或读写某些共享存储。

136. ZK使用共享存储模型来实现应用间的协作和同步原语。

137. 网络通信是分布式系统中并发设计的基础。

138. 分布式系统需注意：

1. 消息延迟 ——传输

2. 处理器性能——计算

3. 时钟偏移 ——时钟

139. 数据中心通常使用大量统一的硬件。

140. 主-从架构：主节点负责跟踪从节点状态和任务的有效性，并分配任务到节点。

141. 主-从模式必解决三个关键问题：

1. 主节点崩溃

2. 从节点崩溃

3. 通信故障

142. ZK因故障出现连个及以上主节点称为脑裂（split-brain）。

143. 主-从架构的需求：

1. 主节点选举

2. 崩溃检测

3. 组成员关系管理

4. 元数据管理

144. ZK：Paxos算法和虚拟同步技术。

145. Znode Zookeeper 操作和维护一个小型的数据节点。

146. Znode类型决定了znode节点的行为方式。

147. Znode节点分持久节点和临时节点。

148. Znode4中类型：

1. 持久化（persist）

2. 临时的

3. 持久有序的

4. 临时有序的

149. 通知机制是单次触发的操作。

150. 每一个znode都有一个版本号，它随着每次数据变化而自增。

151. ZK服务器端两种模式：1）独立模式、2）仲裁模式。

152. 对ZK集合执行请求需要建立会话。

153. 会话请求以FIFO顺序执行。

154. 会话状态：

1. Connecting

2. Connected

3. Closed

4. Not connected

155. Server两个端口，第一个用作通讯，第二个用于选举。

156. ZK的API围绕ZK的句柄（handle）而构建。

157. 为了从ZK接收通知，我们需要实现监视点（watcher）。

158. 监视点和通知形成了一个通用机制。

159. 当一个监视点被一个事件触发时，就会产生一个通知。

160. Redis是一个内存数据库，基于键值对存储。

161. Redis是REmoteDictionaryServer（远程字典服务器）简写。

162. Redis支持键值数据类型：

1. 字符串类型

2. 散列类型

3. 列表类型

4. 集合类型

5. 有序集合类型

163. 数据在Redis和程序中存储类似。

164. Redis数据库中的所有数据都存储在内存中。

165. Redis可以在一秒中读写上十万个键值（普通自己本）。

166. Redis提供数据持久化到硬盘。

167. Redis可用做缓存、队列系统。

168. Redis可以为每个键设置生存时间，过时自动删除。

169. Redis可以限定数据占用的最大内存空间。

170. Redis还支持“发布/订阅”的消息模式。

171. Redis支持阻塞式读取。

172. Kill Redis 进程的PID也可正常退出，Redis有处理。

173. 每个数据类型Redis-cli的展现结果都不同。

174. Redis默认支持16个数据库，以数字命令。

175. Redis不支持自定义数据库的名字，每个数据库以编号命名。

176. Redis密码只有一个。

177. FLUSH ALL 命令清空Redis所有数据。

178. 一个Redis最好对应一个程序。

179. Redis 0号数据库用于生产，1号数据库用于测试。

180. Select n 切换数据库。

181. Keys命令需要遍历Redis中的所有键，不建议生产用。

182. Exict key 返回 1/0。

183. Del key返回键值个数，不支持通配符。

184. Type命名用来获取键值的数据类型。

185. LPOSH命令的作用是指定列表型键中增加一个元素。

186. Redis能存储任何形式的字符串。

187. Redis INCR命令让当前键值递增。

188. 原子操作取“原子”的“不可拆分”的意思，最下执行单元。

189. Redis数据类型不支持数据类型嵌套。

190. 散列类型适合存储：使用对象类别和ID构成键名，使用字段表示对象属性。

191. Redis不要求每个键都依据此结构存储。

192. Hset命令用来赋值，Hget用于取值。

193. Hset插入返回1，更新返回0。

194. Hset命令用于散列类型，set用于字符串类型。

195. Hmset处理多个字段。

196. HgetAll所有字段和字段值。

197. Hexists用于判断一字段是否存在。

198. HsetNX key field value 当字段不存在时赋值。

199. Hinrby key field increment 增加数字。

200. Hdel key field 删除字段。

201. 列表类型（List）可以存储一个有序的字符串列表。

202. 列表类型内部是使用双向链表实现的。

203. 借助列表类型，Redis还可以作为队列使用。

204. 向列表两端增加元素：

LPUSH KEY VALUE [. . .]

PPUSH KEY VALUE[. . .]

返回长度

205. 从列表两端弹出元素：

LPOP KEY

RPOP KEY

206. 获取列表中元素的个数 llen key。

207. 获取列表中指定值：LREM KEY count value。

208. Redis集合类型内部使用散列表实现的。

209. 增加和删除元素：

Sadd key member [. . .]]

Srem key member [. . .]]

210. Smembers命令返回集合中所有元素。

211. 集合间运算：

1. Sdiff key [key . . .] ——差集

2. Sinter key [. . . ] ——交集

3. Sunion . . . ——并集

212. 有序集合是Redis最高级的类型。

213. Redis中的事务是一组命令的集合。

214. 事务：要么全执行，要么全不执行。

215. Redis不支持回滚功能。

216. Watch命令可以监控一个或多个键。

217. Redis可以用expire命令设置一个键的过期时间。

218. TTL命令查看剩余时间-2删除，-1永久。

219. Persist取消过期。

220. Redis可限制最大内存。

221. LRU算法即“最近最少使用”。

222. 有序集合常见的使用场景是大数据排序。

223. 对有序集合类型排序是会忽略元素的分类。

224. Sort默认按照从下到大排序，用desc逆序。

225. Sort通过alpha参数实现按照字典，顺序排序非数字元素。

226. Sort支持limit返回指定参数。

227. 参考键值相同时，Redis会按照元素本身大小排序。

228. 有个N个Get参数，每个元素返回的结果就有N行。

229. Get会返回元素本身的值。

230. Store参数常用来结合expire缓存排序结果。

231. Sort是Redis中最强大最复杂的命令之一。

232. 通知的过程可以借助任务队列来实现。

233. 任务队列好处：1）松耦合，2）易于扩展。

234. 当列表中没有元素BRPOP会一直阻塞住连接。

235. BRPOP命令按收两个参数键名，超时时间，单位秒。

236. 如果多个键都有元素则从左向右顺序取实现优先。

237. 发布者发布消息的命令是PUBLISH。

238. 订阅频道的命令是SUBSCRIBE，可用的多个订阅。

239. 进入订阅状态后客户端可能收到了3种类型的恢复。

240. PUSH SCRIBE命令订阅指定的规则。

241. 客户端和Redis使用TCP协议连接。

242. Redis的底层通信协议对管道提供了支持。

243. 精简键名和键值是最直观的减少内存暂用的方式。

244. 允许开发者使用LUA语言编写脚本传到Redis中执行。

245. LUA脚本好处：1）减少网络开销、2）原子操作、3）复用。

246. ——eval参数是告诉Redis-clli读取并运行后面的LUA脚本。

247. LUA号称性能最高的脚本。

248. LUA脚本很容易和C/C++交互。

249. LUA是一个动态类型语言。

250. 表类型是LUA语言中唯一的数据结构。

251. 函数在LUA中是一等值。

252. 全局变量只有Nil和非Nil的区别。

253. 在Redis脚本中不能使用全局变量。

254. 声明局部变量的方法为local变量。

255. 多行注释：——[[ ]]。

256. LUA支持多重赋值。

257. LUA有5类操作符：

1. 数学操作符

2. 比较操作符

3. 逻辑操作符

4. 链接操作符

5. 取长度操作符

258. LUA if 语句 if .. then .. elseif ..then..else..end。

259. LUA支持while，repeat和for循环语句。

260. For语句中的循环变量是局部变量。

261. LUA约定数组的索引从1开始。

262. Paris是LUA内置的函数，实现类似迭代器的功能。

263. Pairs用来遍历非数组的表。

264. 函数的定义为：function(参数列表) 函数体 end。

265. …实现可变参数。

266. LUA中return和break用于跳出循环。

267. 编写Redis脚本的目的就是读写Redis的数据。

268. LUA脚本使用Redis，call函数调用Redis命令。

269. EVALHA命令允许开发者通过脚本。

270. Script kill命令可以终止当前脚本的运行。

271. Redis支持两种方式的持久化，一种是RDB方式，另一种是AOF方式。

272. Redis提供了复制（replication）功能，自动同步数据库。

273. 在复制概念中，数据库分为两类：master/slave。

274. Slave of 参数指向主数据库，进行同步数据。

275. 通过复制可以实现读写分离，以提高服务器的负载能力。

276. Master用于写，slave用于读，适合读多写收的场景。

277. 哨兵的作用就是监控Redis系统的运行状态：

1. 监控主/从是否正常

2. 当出现故障时，从升为主

278. 哨兵是一个独立的进程。

279. 哨兵从独立进程的方式对一个主从系统进行监控。

280. Redis 3.0版本支持集群。

281. 生产环境运行时不能运行外界直连Redis。

282. Bing 127.0.0.1只运行本机访问。

283. Redis支持在配置文件中奖命令重命名。

284. 如果希望直接禁用某个命令可以将命令重命名成XXX。

285. Redis通信协议是Redis客户端与Redis间交流的语言。

286. Redis两种通信协议：

1. 二进制安全的统一请求协议

2. telnet程序中输入的简单协议

287. 哨兵提供了命令可以通过主数据库的名字获取当前系统的主数据库的地址和端口号。

288. 一个哨兵可以同时监控多个Redis主从系统。

289. 多个哨兵也可以同时监控同一个Redis主从系统。

290. MapReduce两阶段：Map阶段和Reduce阶段。

291. 每个阶段都以键值对作为输入和输出。

292. Map阶段的输入时NCDN原始数据。

293. 键是相对稳健起始位置的偏移量。

294. Mapper类是一个泛型，四个参数：

1. 输入键

2. 输入值

3. 输出键

4. 输出值

295. Hadoop本身提供了一套可优化网络序列化传输的基本类型：

LongWritable 相对于 Java 的Long

Text 相对于String

IntWritable相对于Integer

296. Map()方法提供了context实例用于输出内容的写入。

297. Job对象指定作业执行规范。

298. 构造Job对象后，需要指定输入和输出数据的路径。

299. 在调试MapReduce作业时，知道作业ID和任务ID是非常有用的。

300. 虚类相对接口更有利于扩展。

301. MapReduce作业（Job）是客户端要执行的一个工作单元：它包括输入数据，MapReduce程序和配置信息。

302. Hadoop将作业分成若干个小任务（Task）来执行，器中包括两类任务：Map和Reduce。

303. 作业（Job）由一个Jobtracker及一系列tasktracker控制执行过程。

304. Hadoop将MapReduce的输入数据划分成等长的小数据块称为“切片”。

305. Hadoop为每一个切片构建一个map任务。

306. 切片越细，负载平衡越好。

307. HDFS的块大小默认是64MB。

308. 数据本地化优化——输入数据在本地节点运行map。

309. 数据通过网络传输到map任务节点，效率明显降低。

310. Map任务将其输出写入本地硬盘，而非HDFS，因为map的输出是中间结果，Job完成自动删除。

311. 单个reduce任务的输入通常来自于所有map的输出。

312. 每个reduce任务的输入来自多个mao任务，所以中间过程称为shuffle（混洗）。

313. Shuffle对总执行时间的影响非常大。

314. 集群上的可用带宽限制了MapReduce作业的数量。

315. Hadoop允许用户针对map任务的输出指定一个combiner。

316. Combiner的规则制约值可用的函数类型。

317. Combiner是通过Reducer类来定义的。

318. Hadoop Streaming 使用Unix标准流作为Hadoop和应用程序之间的接口。

319. Streaming天生适合用于文件处理。

320. HDFS以流式数据访问模式来存储超大文件。

321. 一次写入，多次读取是高效的访问模式。

322. HDFS中的文件可能只有一个writer。

323. HDFS的块大，目的为最小化寻址开销。

324. HDFS集群有两类节点：管理者-工作者模式运行。

325. Namenode管理文件系统的命名空间。

326. 客户端代表用户通过与namenode和datanode交互。

327. Datanode是文件系统的工作节点。

328. 在联邦环境下每个namenode维护一个命名空间卷。

329. HDFS的权限模式与POSIX非常相似。

330. 用户空间文件系统允许整合式一个Unix系统。

331. 从Hadoop文件系统读取文件，最简单使用Java.net.url。

332. Filesystem是一个通用的文件系统API。

333. Seek()方法是一个相对高开销的操作，需要慎重使用。

334. Filestatus封装了文件系统中文件和目录的元数据。

335. Hadoop通配符与Unix bach的相同。

336. Hadoop无法自行定义网络拓扑结构。

337. 文件系统的一致模型描述了文件读/写的数据可见性。

338. HDFS提供了一个方法来使所有缓存与数据节点强行同步。

339. HDFS中关闭文件其实还隐含执行syn（）方法。

340. Flume是一个将大规模数据导入HDFS的工具——典型应用从另外一个系统收集日志数据。

341. Flume提供了不同数据级别的数据投递可靠性。

342. Sqoop是将数据从结构化存储批量导入HDFS。——数据库。

343. Distcp是作为一个MapReduce作业来实现的。

344. 每个文件均按块方式存储，每个块的元数据存储在namenode的内存中。

345. Hadoop存储小文件效率非常低。

346. Hadoop存档文件可以使用MapReduce的输入。

347. Hadoop自带一套原子操作用于数据I/O操作。

348. HDFS会对写入的存储数据计算校验和，并在读取数据时验证校验和。

349. Datanode负责在收到数据后存储该数据及其验证校验和。

350. 客户端成功验证一个数据块后，datanode更新日志。

351. Datanode定期验证所有数据块。

352. Hadoop的LocalFile Systen执行客户端的校验和验证。

353. 校验的计算代价是相当低的。

354. LocalFileSystem通过checksumFileSystem来完成自己的任务。

355. 文件压缩两大好处：存储和传输。

356. 序列化两大领域常见：进程间通信和存储。

357. Writable两个方法：dataoutput/datainput。

358. RawComParator允许其实现直接比较数据流中的记录。

359. Writable类对java基本类型提供封装。

360. Text是针对URT-8序列的writable类。

361. Text类的find()方法返回字节偏移量。

362. 多数情况下需要将Text对象换成String对象。

363. BytesWritable是对二进制数据数组的封装。

364. NullWritable是writable的特殊类型，序列化长度为0.

365. Nulwritable不读也不写，只当占位符。

366. NullWritable可以用作在SequenceFile中的键。

367. ObjectWritable是对Java基本类型的一个通用封装。

368. 由于writable是MapReduce数据路径的核心，所有调整二进制表示对性能产生显著效果。

369. 适当重写一个类，会更加适应我们的需求。

370. IDL——接口定义语言。

371. Avro是一个独立于编程语言的数据序列化系统。

372. Avro模式通常用于Json来写，数据通常采用二进制格式来编码。

373. Avro为序列化和反序列化提供了API。

374. Avro数据文件时可切分的，适合MapReduce快速处理。

375. Avro语言互相操作性。

376. Avro定义了对象的排列顺序。

377. Hadoop配置后添加的资源文件属性会覆盖之前定义的属性。

378. MRUnit是一个测试库。

379. 测试驱动程序：

1. 使用本地作业运行器

2. 使用一个mini集群来运行它

380. Mini集群广泛应用于Hadoop自带的自动测试包中。

381. Hadoop_CLASSPATH是一项客户端的设置。

382. 为了启动作业，我们需要运行驱动程序。

383. Job上的waitforCompletion()方法启动作业并检查进展情况。

384. 作业ID的格式包含两部分：

1. Jobtracker开始时间

2. 唯一标识增量计数器

385. 任务属于作业，任务ID通过替换作业ID的作业前缀为任务前缀，然后加上一个后缀表示哪个作业类的任务。

386. Hadoop的web界面用来浏览作业信息。

387. 作业历史包括已完成作业的时间和配置信息。

388. 每个reducer产生一个输出文件。

389. 最经典的调试方法，打印语句来调试程序。

390. 任务页面包括一些看作业总任务细节的链接。

391. 针对不同用户，Hadoop在不同的地方生产日志。

392. Hadoop允许分析作业中的一部分任务。

393. Jobcontrol的实例表示一个作业的运行图。

394. Ooize中，工作流是一个有动作节点和控制节点组成的DAG。

395. 每个工作都必须有一个start节点和一个end节点。

396. Oozie提供了一组与工作流交互的函数。

397. 工作流应用由工作流定义和所有运行所需的资源。

398. 运行MapReduce作业：

1. Job对象上的submit（）

2. Waitforcompletion（）

399. 客户端，提交MapReduce作业。

400. Jobtracker，运行作业划分后的任务。

401. Jobsummiter作业提交过程：

1. 箱Jobtracker请求一个新的作业ID

2. 检查作业的输出说明

3. 计算作业的输入分片

4. 将运行作业所需的资源复制到Jobtracker文件系统中。

5. 告知Jobtracker作业，准备执行。

402. 心跳向Jobtracker表明tasktracker是否还存活。

403. MapReduce 1 ：

1. 作业的提交

2. 作业的初始化

3. 任务的分配

4. 任务的执行

5. 进度和状态的更新

6. 作业完成

404. YARN (Yet Another Resource Negotiator)。

405. YARN将Jobtracker的职能划分为多个独立的实体。

406. YARN将两种角色划分为两个独立的守护进程：

1. 资源管理器

2. 应用管理器

407. YARN设计的精妙之处在于不同的YARN应用可以在同一个集群共存。

408. MapReduce确保每个reducer的输入都是按键排序的。

409. 系统执行排序的过程称为shuffle。

410. Shuffle属于不断被优化和改进的代码的一部分。

411. Shuffle是MapReduce的“心脏”是奇迹发生的地方。

412. 每个map任务都有一个环形内存缓冲区用于存储任务的输出。

413. Hadoop设置作业配置参数作为streaming程序的环境变量。

414. MapReduce模型将作业分解成任务，然而并行地运行任务。

415. Hadoop MapReduce 使用一个提交协议来确保作业和任务都完成功或失败。

416. Hadoop在他们自己的Java虚拟机上运行任务，以区别其他正在运行的任务。

417. 计数器是收集作业统计信息的有效手段之一。

418. Hadoop为每个作业维护若干内置计数器，以描述多项指标。

419. 任务计数器由其任务维护，并定期发送给tasktracker再有tasktracker发送给Jobtracker。

420. 作业计数器由Jobtracker维护。

421. 计数器由一个java枚举（enum）类型来定义。

422. 计数器是全局的。

423. 排序是MapReduce的核心技术。

424. MapReduce能够执行大型数据集键的“链接”操作。

425. “边数据”是作业所需的额外的只读数据。

426. RAID —— 磁盘阵列

427. HDFS无需使用RAID的冗余机制。

428. Hadoop部分代码需在Unix环境下执行。

429. Namenode和Jobtracker最好分别放在不同机器中。

430. Hadoop集群架构通常包含两级网络拓扑。

431. 为了达到Hadoop的最佳性能，配置Hadoop系统以让其了解网络拓扑状况旧极为关键。

432. HDFS和MapReduce可安装同一系统的不同位置。

433. Hadoop控制脚本依赖SSH来执行针对整个集群的操作。

434. 集群的每个Hadoop节点都各自保存一系列配置文件。

435. Hadoop也支持为所有master和worker机器采用同一套配置文件。

436. 为每一机器类维护单独的配置文件。

437. 同步所有机器上的配置文件极具挑战性。

438. Hadoop内置一些脚本来运行指令，在集群内启动和终止守护进程。

439. MapReduce控制脚本不使用masters文件。

440. Namenode在内存中保存整个命名空间中的所有文件元数据和块元数据。

441. Hadoop为各个守护进程分配1GB内存。

442. 在一个tasktracker上能够同时运行的任务数取决于一台机器有多少个处理器。

443. Hadoop守护进程一般同时运行RPC和HTTP两个服务器。

444. 各个datanode运行TCP/IP服务器以支持块传输。

445. YARN是运行MapReduce的下一代架构。

446. YARN有一个作业历史服务器和一个web应用程序代理服务器。

447. YARN更加精细化管理内存。

448. YARN守护进程运行一个或多个RPC和HTTP服务。

449. Kerberos获取服务：

1. 认证

2. 授权

3. 服务请求

450. Hadoop使用委托令牌来支持后续认证访问。

451. Whirr使用SSH与云端的机器通信。

452. Pig为大型数据集的处理提供了更高层的抽象。

453. Pig提供了一套更强大的数据变换操作。

454. Pig Latin程序由一系列的操作式变换组成。

455. Pig是一种探索大规模数据集的脚本语言。

456. MapReduce的一个缺点是开发周期太长。

457. Pig提供了多个命令来检查和处理程序中已有的数据结构。

458. Pig被设计为可扩展的，处理路径中几乎每个部分都可以定制。

459. Pig是作为一个客户端应用程序运行的。

460. Pig两种模式：本地和MapReduce。

461. Grunt是与Pig进行交互的外壳程序（shell）。

462. 在MapReduce模式下，Pig翻译成MapReduce作业。

463. Pig发布版本只和特定的Hadoop版本对应。

464. 三种执行Pig程序方法：

1. 脚本

2. Grunt

3. 嵌入式方法

465. 创建一个精简的数据集是一门艺术。

466. Pig Latin是一种数据流编程语言，而SQL是一种声明式编程语言。

467. 一个Pig Latin程序由一组语句构成。

468. Pig Latin并美欧正式的语言定义。

469. 在Pig Latin程序执行时，每个命令按次序进行解析。

470. Hive是一个构建在Hadoop上的数据仓库框架。

471. Hive一般在工作站上运行。

472. Hive把数据组织为表。

473. 元数据（如表模式）存储在metastore数据库中。

474. Hive外壳环境是我们交互的主要方式。

475. HiveQL是Hive的查询语言。

476. Hive操作表而Pig直接操作数据集。

477. HiveQL大小写不敏感。

478. 用-e选项在行嵌入命令，不用加分号。

479. 在Hive的仓库目录中，表存储为目录。

480. Metastore包含两部分：服务和后台数据的存储。

481. 对于独立的metastore，mysql是一种很受欢迎的选择。

482. Hive把表组织成“分区”。

483. 桶为表加上了额外的结构。

484. 每个桶就是表（分式）目录里的一个文件。

485. Hive从两个维度对表的存储进行管理：行格式和文件格式。

486. 视图是一种用select语句定义的“虚表”。

487. Hbase是一个在HDFS上开发的面向列的分布式数据库。

488. 数据模型：

1. 应用把数据存放在带标签的表中

2. 表中行的键也是字节数组

3. 行中的列被分成“列族”

4. 一个表的列族必须预先给出

5. 所有列族成员都一起存放在文件系统中。

489. HBase自动把表水平分成“区域”，每个区域由表中行的子集构成。

490. HBase依赖于Zookeeper。

491. HBase通过Hadoop文件系统API来持久化存储数据。

492. HBase有Java开发。

493. Hbase是一个分布式的，面向列的数据存储系统。

494. HBase有一个高效的批量加载工具。

495. Sqoop将结构化存储器抽取到Hadoop中。

496. Sqoop有java开发。

497. Hive不支持事务。

498. Hive是最适合数据仓库应用程序的。

499. Hive和Mysql提供的SQL方言最接近。

500. Map操作会将集合中的元素从一种形式转换成另一种形式。

501. MapReduce计算框架中的输入和输出的基本数据结构是键-值对。

502. Hadoop神奇的一部分在于sort和shuffle过程。

503. Hive驱动计算的“语言”是一XML形式编码的。

504. Hive通过和Jobtracker通信来初始化MapReduce任务（Job）。

505. Metastore（元数据存储）是一个独立的关系型数据库。

506. Pig常用于ETL（数据抽取、数据转换、数据装载）。

507. Hadoop团队通常会将Hive和Pig结合使用。

508. Hive无法提供数据库特性（如行级别更新，快速查询响应和支持事务）。

509. HBase的设计灵感来自goole的bigTable。

510. HBase面向列存储，列组成列族。

511. HBase对每个列保留多个版本。

512. HBase使用HDFS来持久化存储数据。

513. 将程序设计成驱动，比较方便移植。

514. HBase没有提供SQL语言。

515. Hadoop面向批处理系统。

516. CLI是我们使用Hive的最常用方式。

517. Jobtracker管理着Job，而HDFS则由namenode管理。

518. 元数据存储中存储了表的模式和分区信息等元数据。

519. Hive会将输出写到标准输出中。

520. –e执行字符串包含的命令。

521. –s去掉ok。

522. –f执行文件。

523. 如果查询中的表名和这个例子并不相关，我们有时候会使用src。

524. 用户可以使用上下键来滚动查询历史命令。

525. 用！执行bash shell命令。

526. Hive Cli 可执行Hadoop的dfs命令。

527. Hive本身提供了不同时区互相转换的内置函数。

528. Hive中的列支持使用strct、map和arry集合数据类型。

529. Hive中并没有键的概念。

530. Hive不会再数据加载时进行验证，而是在查询时进行。

531. Hive中数据库的概念本质上仅仅是表的一个目录式命名空间。

532. Hive会为每个数据接库创建一个目录。

533. 数据库的文件目录名是以.db结尾。

534. Hive中并没有嵌套数据库的概念。

535. Hive不允许用户删除一个包含有表的数据库。

536. Hive会自动增加两个表属性：last_modified_by|last_modified_time。

537. Hive总是将创建的表的目录放置在这个所属的数据库目录之后。

538. Show tables命令可以列举出所有的表。

539. 管理表（内布表）不方便和其他工作共享数据。

540. Exte Nal告诉Hive这个表示外部表。

541. Location 告诉Hive数据位于哪个路径下。

542. 因为表示外部的，所以Hive并非人为其完全拥有这份数据。

543. 有些Hive QL并不使用外部表。

544. 分区字段，表现得旧和普通的字段一样。

545. 对数据进行分区，也许最重要的原因是为了更快地查询。

546. 通过show partitions命令查看表中存在的所有分区。

547. Hive没有行级操作。

548. Hive通常指定的路径应该是一个目录，而不是单独的文件。

549. Hive要求源文件和目标文件以及目录应该在同一个文件系统中。

550. 指定overwrite关键字，目标文件之前存在的会被删除。

551. Hive并不会验证用户装载的数据和表的模式是否匹配。

552. Hive会验证文件格式是否和表结构定义的一致。

553. INSERT语句允许用户通过查询语句向目标表中插入数据。

554. 静态分区键必须出现在动态分区键之前。

555. Hive中没有临时表的概念。

556. Select是sql中的射影算子。

557. 可用正则来选举我们想要的列。

558. Float和double相比较会出现问题。

559. RLike可用正则指定匹配条件。

560. Hive目前不支持on中的or。

561. 视图可以允许保存一个查询并像对待表一样对这查询进行操作。

562. Hive值有有限的索引功能。

563. Bitmap索引普遍应用于排重后值较少的列。

564. Hive中分区的功能是非常有用的。

565. 每个task都是一个新的Jvm实例，都需要开启和销毁的开销。

566. 分区提供一个隔离数据和优化查询的便遍历的方式。

567. 分桶是将数据集分解或更容易管理的若干部分的另一种技术。

568. Hive提供了serde抽象，其用于从输入中提取数据。

569. 一个serDe通常是从左向右进行解析的。

570. Hive提供了一个列式SerDe来以混合列式格式存储信息。

571. Hive中通常使用“UDF”来表示任意的函数（用户自定义函数）。

572. Streaming提供了另一种处理数据的方式。

573. Hive中文件格式间具有明显的差异。

574. Hive文本文件格式选择和记录格式是对应的。

575. SequenceFile可以在块级别和记录级别进行压缩。

576. 对于列式存储而言，进行压缩通常会非常高效。

577. Hive功能强大的一个方面体现在不同的存储格式间转换数据非常地简单。

578. SerD是序列化/反序列化的简写形式。

579. Hive引擎使用定义的InputFormat来读取一行数据记录。

580. Thrift是一个软件框架，其用于跨语言的服务开发。

581. HiveServer使用Thrift提供服务。

582. 存储处理程序是一个结合InputFormat、OutPutFormat、SerDe和Hive需要使用的特定的代码。

583. 存储处理程序负责从底层存储系统中读取或写入数据。

584. Hadoop起源于Apache Nutch的子项目。

585. HBase弥补了Hadoop只能离线批处理的不足。

586. HBase能够存储小文件，提供海量数据的随机检查。

587. 大数据强调3v特征：即Volume（量级）、Varity（种类）和Velocity（速度）。

588. 结构优化，质量提高，是一种实现实质性的跨越式的进程。

589. NoSQL是Not only SQL，泛指非关系型数据库。

590. NoSQL的实现具有两个特征：使用硬盘和把随机存储器作存储载体。

591. NoSQL的Cache是记录级的，是一种粗粒度的Cache。

592. NoSQL无须事先为要存储的数据建立字段，随时可以存储自定义的数据格式。

593. HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库。

594. HBase是NoSQL数据库。

595. HBase可以通过行健（RowKey）检索数据，仅支持单行事务，主要用于存储非结构化和半结构化的松散数据。

596. HBase的单表可以有百亿行，百万列。

597. HBase是面向列的存储和权限控制，并支持列独立检索。

598. HBase严重依赖Hadoop的HDFS组件。

599. MapReduce可以直接访问HBase。

600. HBase中最重要的访问方式是原生Java API。

601. 客户端Client是整个HBase系统的入口。

602. HMaster主要负责Table和Region的管理工作。

603. HRegionServer主要负责响应用户I/O请求。

604. HStore存储是HBase存储的核心。

605. HStore两部分：Memstore和StoreFile。

606. 当StoreFile文件增长到一定阀值，会触发CompCut。

607. HBase的同一个表的记录可以有不一样的列。

608. HBase中最基本的单元是列。

609. 每一个行的行健是唯一的。

610. HBase中的表有若干行，每行有很多列，列中的值有多个版本，每个版本的值称为一个单元格，单元格存不同的列值。

611. HBase称为无模式数据库的原因是HBase的表没有列定义，没有类型。

612. 创建连接是一项非常消耗资源的工作。

613. HBase为我们提供了一个连接池。

614. 行键是按字段排序由低到高存储在表中。

615. HBase中行键是唯一的索引。

616. HBase中的列族是一些列的集合。

617. 一个列族中所有列成员有着相同的前缀。

618. 一个列族的成员在文件系统上都是存储在一起的。

619. 在创建表的时候至少指定一个列族。

620. 修改列族要先停用表。

621. HBase中的单元格由行键、列族、列、时间戳唯一确定。

622. 单元格的内容是不可分别的字节数组。

623. 每个单元格都保存着同一份数据的多个版本。

624. 时间戳是64位的整数。

625. HBase对数据模型4个操作包括：Get、Put、Scan和Delete。

626. 多用户多线程对统一行的读写操作都不会影响该行数据的原子性。

627. Get方法获取数据时，HBase返回的结果包含所有匹配的单元格数据。

628. Result实例中包含列族、列限定符和时间戳等。

629. Put操作要么向表增加新行，要么更新行。

630. Put操作每次都会发起一次到服务器的RPC操作。

631. HBase客户端有一个缓冲区，大大提高写入性能。

632. HBase提供compare-and-set先检查，再执行。

633. HBase没有update操作。

634. Scan操作允许多行特定属性迭代。

635. HBase的Delete操作可以指定删除某个列族或者某个列，或某时间更早的数据。

636. HBase的Delete操作并不是真正地从磁盘删除数据。

637. RowKey、Column、Version组合在一起称为HBase的一个单元格。

638. Version用一个长整型表示（时间）。

639. Get是在Scan的基础上实现的。

640. 一个put操作会为一个Cell创建一个版本，默认使用当前时间戳。

641. 删除操作的实现是创建一个墓碑标记。

642. Get和Scan操作返回的是经过排序的数据。

643. 返回的数据首选按行字典序排序，其次是列族、然后是列修饰符，最后的时间戳逆序。

644. 获取列族的完整列名的唯一方法是处理所有行。

645. HBase不支持连接查询，即Join查询。

646. ICV（HBase计数器）操作发送在RegionServer上。

647. 事务特性ACID，如HBase这种NoSQL数据库仅提供对行级别的原子性。

648. HBase不是一个具备完整ACID特性的数据库。

649. HBase中一个表的数据会被划分成很多的Region。

650. 刚刚穿件的表只有一个Region。

651. 每一个Region由一个RegionServer管理。

652. 每个Region包含起始RowKey的记录，不包含结束RowKey的记录。

653. Region的拆分与转移是由HBase自动完成。

654. CAP原理是数据库软件的理论基础。

655. HBase为了扩展性和性能考虑，弱化了事务性。

656. RowKey是不可分割的字节数，按字典排序由低到高存储在表中。

657. RowKey决定了访问HBase表时可以得到的性能。

658. Region基于Rowkey为一个区间的行提供服务。

659. Hfile在硬盘上存储有序的行。

660. HBase只能在RowKey上建立索引。

661. RowKey优化：

1. 字典排序

2. 进行散列

3. 尽量短

662. 列族是一些列的集合。

663. 一个列族的所有列成员有着相同的前缀。

664. 列族的前缀必须是可输出的字符。

665. 列族必须在表建立的时候声明，列在用户随时可以创建。

666. 在物理上，一个列族的成员在文件系统上都存储在一起。

667. Flush和Compaction操作式针对一个Region的。

668. 考虑Flush性能，列族数量越少越好。

669. HFile数据块大小可以在列族层次设置。

670. 数据块索引存储每个HFile数据块的起始键。

671. 布隆过滤器（Bloom Filter）允许对存储在每个数据块的数据做一个反向测验。

672. HFile可以被压缩并存放在HDFS上。

673. HBase的每个单元格只维护三个时间版本。

674. CRUD操作式HTable最基本的功能，其中的每类方法都包含多种实现。

675. Java客户端有两种查询数据的方式：单行读和扫描读。

676. 每类操作的不同实现方法应用在不同的场景下。

677. HBaseAdmin类是HBase数据库的管理入口类。

678. Scan类中的主要实现方法可以划分成三类：

1. 添加列或列族

2. 设置查询属性

3. 查看属性信息

679. 整个删除过程分为三步：

1. 初始化Table实例

2. 构造实体类Delete，Delete封装行键、列族或列名

3. 执行删除

680. HBase提供了若干封装类用于“无缝”连接MapReduce。

681. 从HBase表汇总读取数据，使用MapReduce计算完成之后，将数据存储到其他介质中。

682. NoSQL不使用SQL作为查询语言。

683. 创建外部表适用于某表HBase已经存在，但在Hive中没有相关信息。

684. 字符串类型是Redis中最基本的数据类型。

685. 所有Redis命令都是原子操作。

686. Redis提供了4个命令可以直接对二进制位进行操作。

687. Redis是采用字典结构以键值对的形式存储数据的。

688. 一个散列类型键可以包含至多2的32次方减去1个字段。

689. 散列类型适合存储对象。

690. 大数据所面对的问题是：一是存储，二是计算。

691. 大数据的定义是发现潜在规律和趋势。

692. 谷歌三大论文：1）GFS、2）MapReduce、3）BigTable。

693. Hadoop是一个批处理系统，不擅长实时计算。

694. YARN是通用的资源管理系统。

695. 机器学习算法通常需要对同一个数据集合进行多次迭代计算。

696. RDD弹性分布式数据集（Resillient Distributed DataSet）。

697. Spark支持检查点（checkpoint）的容错机制。

698. RDD支持的方法：

1. 转换（Traansformation） ——生产新的RDD

2. 动作（Action） ——返回一个非RDD

699. Spark没有存储能力，仅做数据仓库。

700. MapReduce依附于Yarn来运行。

701. Zookeeper的节点必须是奇数个。

702. Standalone模式下，集群可以容许某一个或多个工作节点失效。

703. Hadoop：HDFS、MapReduce、YARN。

704. Spark可以单独使用HDFS或YARN。

705. 由YARN统一负载分配资源科避免分配混乱。

706. Spark程序由master还是YARN来调度执行，是由spark程序在提交时决定的。

707. 只有在交互需求是才使用yarn-client方式。

708. 切片，本地模式默认去CPU的核算。

709. 每个Job的执行，都会经历序列化，网络传输，反序列化和运行的过程。

710. 在序列化是，spark会将Job运行所依赖的变量、方法（称为闭包）全部打包在一起。

711. 如果RDD多次迭代，可将其持久化。

712. 在Zookeeper模式下，恢复期间新任务无法提交。

713. RDD特点：1）只读、2）可缓存、3）可以通过重新计算得到。

714. Kafk是一个分布式、分区、重复提交的日志服务。

715. Kafka掌管的类别消息叫做主题（topics）。

716. 生产者发布消息到kafka主题中。

717. 消费者订阅主题以及处理发布的消息。

718. Kafka每个服务器叫做broker。

719. 主题是一个类别或者被发布消息的名称。

720. Kafka集群根据时间保留消息，而不是是否被消费。

721. 消费者可以随时添加和移除。

722. 生产者发布数据到他们选定的主题上。

723. 消费者、消息处理通常有两种模式。：队列和发布-订阅。

724. 在队列模式中，一组消费者可能从服务器读取消息，每个消息被其中一个消费者消费。

725. 在发布-订阅模式中：消费者是广播到全部的消费者中。

726. 消费者用一个消费组名称来标识自己。

727. Kafka能够提供顺序保证并在一组消费者处理过程中均衡负载。

728. Kafka可以替换传统的消息代理。

729. Kafka可以媲美传统的消息系统例如：ActiveMQ和RabitMQ。

730. Kafka通常用于操作监测数据的处理。

731. Kafka作为日志聚合的一种解决方案。

732. Zookeeper典型应用场景：配置文件的管理，集群管理，分布式队列，同步锁leader选举，队列管理等。

733. Zookeeper是分布式服务框架。

734. dataMonitor类是本程序Zookeeper逻辑的核心。

735. Zookeeper是一个基于观察者模式设计的分布式服务管理框架。

736. 分布式应用中通常需要有一套完整的命名规则。

737. Netty高性能的NIO框架。

738. Netty快速开发高性能，高可靠性的网络服务器和客户端程序。

739. Netty是一个网络通信框架。

740. NIO是一个面向块的I/O系统。

741. NIO核心对象：缓冲区（Buffer），通道（Channel），选择器（Selecter）。

742. 在NIO库中，所有数据都是用缓冲处理的。

743. Netty是事件驱动的。

744. Git是一个开源的分布式版本控制系统。

745. Kafka系统的角色：

1. Borker：一台kafka服务器就是一个broker。

2. Topic：可以理解为一个MQ消息队列的名字。

746. Java程序设计语言、虚拟机、API类库统称JDK。

747. Jdk是用于支持Java程序开发的最小环境。

748. JRE是支持Java程序运行的标准环境。

749. Java技术体系可分为4个平台：Java Card、Me、Se、EE。

750. Hadoop每个切片构建一个map任务。

751. Map输出是中间结果，reduce产出最终输出结果。

752. 集群上的带宽限制了MapReduce的作业的数量。

753. HDFS中fsck指令可以显示块信息。

754. Namenode之间需要通过高可用的共享存储实现编辑日志的共享。

755. Datanode需要同时向连个namenode发送数据块处理报告。

756. 超级用户是namenode进程的标识。

757. Seek（）方法是一个相对高开销的操作。

758. FileSystem是一个通用的文件系统Api。

759. HDFS只允许对一个打开的文件顺序写入，或者在现有文件的末尾追加数据。

760. FileStatus封装了文件系统中问价和目录的元数据。

761. 过滤器有path表示，只能作用域文件名。

762. Hadoop无法自行第一网络拓扑结构。

763. DFSoutputstream将写入分成一个个的数据包，并写入内部队列，称为“数据队列”。

764. 文件系统的一致模型描述了文件读/写的数据可见性。

765. HDFS为性能牺牲了一些Posix要求（可移植操作系统接口）。

766. HDFS提供一个方法来使所有缓存与数据节点强行同步。

767. Flume是一个将大规模流数据导入HDFS的工具。

768. Flume节点允许以任何拓扑方式进行组织。

769. 当一个字段中包含多个类型时，ObjectWritable非常有用。

770. Avro是一个独立于编程语言的数据序列化系统。

771. Avro模式通常用Json来写，数据通常采用二进制格式来编码。

772. Avro数据文件时可切分的，适合MapReduce快速处理。

773. SeQuenceFile是可以看做小文件的容器。

774. MapFile是已经排序过的SequenceFile，它有索引，所以可以按键查找。

775. Hadoop提供了钩子（hook）来辅助分析过程。

776. Mini集群广泛应用于Hadoop自带的自动测试包中。

777. 作业历史包括已完成作业的时间和配置信息。

778. MapReduce任务日志可以从web界面访问。

779. 复杂的作业通常是增加更多的作业，而不是增加作业的复杂度。

780. Jobcontrol的实例表示一个作业的运行图。

781. 在Ooize中，工作流是一个由动作（action）节点和控制流节点组成的DAG。

782. Ooize提供了一组与工作流交互的函数。

783. TaskRunner启动了一个新的Jvm里运行每个任务。

784. YARN将Jobtracker的职能划分多个独立的实体。

785. YARN集群上可以运行不同版本的MapReduce。

786. 每个map任务都有一个环形内存缓存区用于存储任务的输出。

787. 在本地作业运行器上运行时，只支持0个或1个reduce。

788. 一个输入切片（split）就是一个由单个map操作来处理的输入块。

789. 切片并不包含数据本身，而是指向数据的引用。

790. Jobtracker使用其存储位置信息来调度map任务从而在tasktracker上处理这些切片数据。

791. Reduce输入的键一定是有序的。

792. Hadoop为每个作业维护若干内置计数器，以描述多项指标。

793. 任务计数器由其关联任务维护，并定期发送给tasktracker，再有tasktracker发送给Jobtracker。

794. “边数据”是作业所需的额外的只读数据。

795. Hadoop还为mapper和reduce提供了一个包含了常用函数的库。

796. Hadoop使用dfs。Mapred，rpc和jvm四个上下文根。

797. FileContext将度量写到一个本地文件中。

798. Ganglia是一个针对超大规模的开源的分布式监控系统。

799. Hadoop包括多个托管bean（MBean），可以将hadoop度量发布给支持JMX的应用。

800. Didtcp是一个理想的备份工具。

801. HDFS能够容忍datanode故障，但这并不意味着允许随意终止datanode。

802. Shell for（（i0;i

803. Break n跳出几层循环。

804. For I in {1 .. 4}。

805. Unset 删除一个元素。

806. Nohup 保持后台允许。

807. >覆盖，>>追加。

808. 0、1、2标准输入正确，错误输出。

809. Ls >/de/null 深渊。

810. Linux默认无回收站。

811. –e执行转义字符。

812. Fsimage：元数据镜像文件。

813. 目前HDFS不支持断点续传。

814. 最后块不足够，则按实际打下存储。

815. HAR是一个目录结构。

816. Namenode两种状态：Active和standly。

817. Namenode同步数据通过Journanodes集群。

818. Namenode切换，自动和手工切换。

819. MapReduce是分布式并行计算模型，用于解决海量数据问题。

820. Hive操作流程：

1. 提交SQL 交给驱动

2. 驱动编译解析相关字段

3. 去metastore查询相关信息

4. 编译返回信息，发给驱动

5. 驱动发一个执行计划

6. DDLS对数据库表操作

7. 吧Job交给Jobtracker让tasktracker执行

8. 完成Job返回数据信息，找namenode查数据

9. Dfs ops直接和namenode交互

821. Hive dfs ls 查看hadoop系统。

822. Hive无删除语句，用replace实现。

823. Replace很危险，不建议使用。

824. Hive删字段，大多数情况重建表。

825. 桶表时对数据进行哈希取值，然后放到不同文件中存储。

826. 桶表应用于抽样查询，加载文件分文件存储。

827. 使用视图可以降低查询复杂度。

828. 索引是对数记录偏移量。

829. 分区字段字段建索引。

830. 建索引会引发MapReduce计算。

831. 装载数据：1）本地文件加载方式，2）查询装载。

832. 动态分区加载方式。

833. Hive是读模式。

834. RDBMS是写模式。

835. Hive不支持对单行操作，只支持覆盖和追加。

836. 每个HStore对应了Table中的一个列族的存储。

837. HStore是HBase存储的核心：HFile、memstore。

838. HLog用于数据还原。

839. HFile是不定长的。

840. CSV是逗号分隔符的文件。

841. Hive分析HBase，只要表映射即可。

842. 列族优化：

1. 随机查询：数据块越少，索引越大，占用内存也越大

2. 顺序查询：更好的顺序扫描需要更大的数据块

843. 布隆：有问题反馈，无问题不反馈。

844. HBase删除数据时先标记合并删除。

845. HBase热点优化，创建分区。

846. Solr可以实现全文搜索。

847. Solr可以方便实现站内搜索功能。

848. Solr是通过http协议处理搜索和查询请求。

849. Solr是一个索引库。

850. 线性的访问磁盘，很多时候比随机访问内存块。

851. Kafka将数据分段，为每个段建立索引。

852. 索引分两部分：offset和position。

853. Storm处理高频数据和大规模数据。

854. Storm由用户自定义处流程。

855. Stream ——一列火车。

856. Tuple ——一节车厢。

857. 数据 ——乘客。

858. Bolt ——对tuple中数据进行处理中间站。

859. Spout ——源头，相当于火车的始发站。

860. Toplogy ——轨道。

861. Storm 主-从结构。

862. 主节点：nimbus，负责分发代码，分配任务。

863. 从节点：supervisor，负责产生worker，执行任务。

864. Storm集群的运行依赖于Zookeeper。

865. Executor是一个被worker进程启动的单独线程。

866. Task是最终运行spout或bolt中代码的执行单元。

867. Slots就是work进程。

868. 将数据按类型分组。

869. Storm流分组：1）随机负载均衡，2）字段类型分组。

870. Work挂掉，storm会重新启动一个进程，数据不会丢失。

871. Storm不支持HA（目前）。

872. 每个work都有一个ack/fail确认机制。

873. Trident是对storm进行封装的一个框架。

874. ES也是对Luncene的封装，天生为分布式而生。

875. ES基于Restful接口。

876. Hadoop RPC调用是基于Probobuf实现的。

877. Client protocol定义了所有由客户端发起的，由namenode响应的操作：

1. HDFS文件读相关的操作

2. HDFS文件写以及追加写的相关操作

3. 管理HDFS命名空间（namenode）的相关操作

4. 系统问题与管理相关的操作

5. 快照相关操作

6. 缓存相关操作

7. 其他

878. FileSystem：

1. HDFS文件读操作

2. HDFS文件写与追加操作

3. 命名空间的管理操作

879. DFSAdmin：对系统问题管理相关操作。

880. 处于安全模式（safemode）中的namenode不接受客户端对命名空间的修改操作，只读。

881. 刚刚启动的namenode直接自动进入安全模式。

882. 必须在安全模式的两个操作：

1. ‘-savenamespace’用于将整个命名空间保存到新的fsimage文件中

2. ‘-rolledits’则会触发重置editlog文件

883. Refreshnodes()方法会触发namenode刷新数据节点列表。

884. Findizeupgrade()和rollingupgrade()操作都是与namenode升级相关。

885. 快照保存了一个实践点上HDFS摸个路径中所有数据的拷贝。

886. 快照可以将失效的集群回滚到之前一个正常的时间点上。

887. 创建快照之前，先开启目录的快照功能。

888. HDFS 2.3版本添加了集中式缓存管理功能：

1. Cache directive：表示要被缓存到内存的文件或目录

2. Cache pool：用于管理一系列的cache directive类似于命名空间

889. Datanode使用DatanodeProtocol接口与namenode握手注册，发送心跳进行全量以及增量的数据汇报。

890. DatanodeProtocol三种方法类型：

1. Datanode启动相关

2. 心跳相关

3. 数据块读写相关

891. Datnode启动操作会与namenode进行四次交互：

1. 与namenode握手

2. 注册上的datanode

3. 汇报数据块

4. 缓存所有数据块

892. 分布式系统的节点之间大多采用心跳维护节点的健康状态。

893. InterDatanodeProtocol（DN与DN之间接口），主要用于租约恢复操作。

894. 客户端打开一个文件进行写操作是，首先获取租约，并定期更新租约。

895. NamenodeProtocol定义了第二namenode与namenode之间的接口。

896. HDFS除了RPC调用还定义了流式接口（TCP/HTTP）。

897. Hadoop RPC不足以支持大文件读写。

898. HDFS客户端读取一个HDFS文件流程：

1. 打开HDFS文件

2. 从namenode获取datanode地址

3. 连接到datanode读取数据块

4. 关闭输入流

899. 数据块的应答包中不仅包含了数据，还包含了校验值。

900. HDFS客户端写入一个HDFS文件的流程：

1. 创建文件

2. 建立数据流管道

3. 通过数据流管道写入数据

4. 关闭输入流并提交文件

901. HDFS追加文件流程：

1. 打开已有的HDFS文件

2. 建立数据流管道

3. 通过数据流管道写入数据

4. 关闭输入流并提交文件

902. 对于命名空间的一致性，两个namenode都需要与一组独立运行的节点（Journalnode，JNS）通信。

903. ZKFailovercontroller负责维护HA。

904. RPC（Remote Procedure Call protocol），远程过程调用协议。

905. Hadoop RPC框架底层采用Java NIO，Java动态代理以及protobuf等。

906. RPC框架：

1. 通信模块

2. 客户端stub程序

3. 服务器端stub程序

4. 请求程序

5. 服务程序

907. 客户端的stub可以看作是一个代理对象。

908. Hadoop RPC 框架的使用抽象：

1. 定义RPC协议

2. 实现RPC协议

3. 客户端获取代理对象

4. 服务端启动并构造RPC servers

909. Namenode：

1. 文件系统目录树管理

2. 数据块以及数据节点管理

3. 租约管理：namenode给予租约持有者在规定时间内拥有文件权限的合同

4. 缓存管理

5. Fsnamesystem

Namenode的启动和停止

910. HDFS文件系统的命名空间是以/为根的整个目录树，是通过FSDirectory类来管理的。

911. HDFS中文件与目录都被当做系统目录树的一个INode节点。

912. HDFS会将命名空间保存到namenode的本地系统上一个叫fsimage的文件汇总。

913. FSDirectory维护者文件系统目录树的节点。

914. INode get方法：

1. Username

2. Groupnode

3. Fspermission

4. Allfeature：安全相关

5. Modification

6. Accesstime

7. Sattrfeature：扩展属性

915. HDFS的检查点机制会定时将editlog文件与fsimage文件合并以产生新的fsimage文件。

916. 非HA，检查点操作由secondary namenode来执行。

917. Namenode维护着HDFS中连个最重要的关系：

1. HDFS文件系统的目录树以及文件的数据块索引

2. 数据块和数据节点的对应关系

918. 当namenode发生错误并今夕了Active与standly切换时，多余的副本不能直接删除，先汇报再从队列中移除。

919. 数据块副本状态：

1. 正常副本

2. 损坏副本

3. 多余副本

4. 等待删除副本

5. 等待删除副本

6. 等待复制副本

7. 正在复制副本

8. 推迟操作副本

920. 数据副本的删除情况：

1. 数据块所属的HDFS文件被删除

2. 数据块的副本数量多于配置表

3. 副本被namenode标记损坏副本

921. 在HDFS中，客户端写文件时需要先从租约管理器中申请一个租约。

922. Namenode启动时会首先加载命名空间镜像并合并编辑日志。

923. 预防脑裂，HDFS提供三个级别的隔离机制：

1. 共享存储隔离

2. 客户端隔离

3. Datanode隔离

924. HA管理命令的执行是由HAAdmin为负责的。

925. Namenode三个类：

1. Namenode类

2. nameNode Rpcserver

3. FSNamesystem类

926. 块池：一个块池由属于同一个命名空间的所有数据块组成。

927. 命名空间卷：一个namenode管理的命名空间以及它对应的块池一起被称为命名空间卷。

928. 每个块池都是一个独立的数据块集合。

929. Datanode从逻辑上可切分几个模块：

1. 数据层

2. 逻辑层：向NN汇报，心跳，扫描损坏数据块

3. 服务器

930. Datanode升级需要考虑：

1. 版本兼容性问题

2. 升级消耗的硬盘空间问题

3. 回滚要求

931. Datanode两个管理功能：

1. 管理与组织磁盘存储目录

2. 管理与组织数据块及其元数据文件

932. Storedirectory：

1. 获取文件夹相关

2. 加锁/解锁

3. 存储状态恢复

933. 集中式缓存由分布在datanode上的对外内存组成，同时被namenode统一管理。

934. 数据包：

1. 数据包头

2. 校验数据

3. 实际数据

935. Java NIO零拷贝模式。

936. Datanode扫描器同期验证datanode上存储的数据块正确性。

937. HDFS目前提供三个客户端接口：

1. distributedFileSystem

2. FSShell

3. DFSAdmin

938. DFSClient是用户使用HDFS各项功能的起点。

939. HDFS管理员通过DFSAdmin工具管理与配置HDFS。

940. HDFS目前实现的读操作有三个层次：

1. 网络读：socket

2. 短路读：同一节点

3. 零拷贝读：缓存转换

941. Shuffle和sort阶段负责执行两个主要动作：

1. 决定哪个reducer接收map输出的键值对（切片）

2. 并确定传输给reducer的键值对是进行排序的

942. MapReduce是基于批处理的框架，不适合实时访问数据。

943. Hadoop配置文件：

1. Hadoop-env.sh ——设置环境变量

2. Core-site.xml ——系统级的Hadoop配置项

3. Hdfs-site.xml ——HDFS配置

4. Mapred-site.xml ——HDFS设置

5. Master ——Hadoop的master主机列表

6. Slaves ——Hadoop的slave主机地址列表

944. Flume四个组件：

1. Nodes ——flume数据路径

2. Agents ——从本地主机上收集流数据

3. Collectors ——汇总来自代理的数据

4. Master——执行配置管理任务

945. Flume以Avro Json格式写数据。

946. Agent数据接收器是Agent数据源的目的地。

947. Flume数据源：

1. Text ——处理一次的文本文件，每次处理一行

2. Tail ——为加入文件的每行生产一个事件

3. Multitail ——tail工具支持多文件处理

4. Syslogudp ——处理syslogUDP消息

5. syslogTcp ——处理sysLogTcp消息

6. execperiodic ——任意命令定期执行，整个输出是一个事件

7. execstream ——执行任意指令，每行是一个独立事件

8. exec ——定期执行任意指令并确定整个输出的每行事件

9. scribe ——处理scrive collection 系统生产的数据

948. Collector数据接收器支持多种事件输入格式：

1. Syslog ——输出类似syslog格式的事件

2. Log4j ——输出类似Hadoop log4j 格式的事件

3. avroJson——输出进过Avro编码的json格式的数据

4. avrodata ——输出经过avro二进制编码的数据

5. debug ——仅在调试时使用

6. raw——只输出事件本身，不包含元数据

949. spark编程模型是弹性分布式数据集，他是MapReduce模型的扩展和延伸。

950. RDD记录血统，而不是真正数据。

951. Spark四类操作：

1. 创建操作：用于RDD创建工作

2. 转换操作：RDD变换成新的RDD

3. 控制操作：RDD持久化

4. 行为操作：能够触发spark运行的操作

952. 调度器安装DAG进行计算，并最终得到目标RDD。

953. RDD模型将计算分解为多个相互独立的细粒度任务。

954. Spark中提供了通用接口来抽象每个RDD

1. 分区信息：它们是数据集的最小分片

2. 依赖关系：指向其父RDD

3. 函数：基于RDD计算方法

4. 划分策略和数据位置的元数据

955. RDD操作中用户可以使用Partition方法获取RDD划分的分区数。

956. Spark中RDD计算是以分区为单位的。

957. Spark默认连个划分器：哈希分区和范围分区。

958. Hadoop中的每一个HDFS数据块都称为一个RDD分区。

959. Map/mapPartitions作用每个元素，每个分区。

960. Checkpoint将切断与该RDD之前的依赖关系。

961. Spark基本概念：

1. Application ——用户编写的spark应用程序

2. Driver ——application的main创建sparkContext

3. Cluster manager ——指在集群上获取资源的外部服务

4. Standlone ——spark原生的资源管理

5. Hadoop YARN

6. Worl ——工作节点

7. Master ——总控进程

8. Executor ——执行进程

962. Spark定义了通信框架接口，这些接口实现中调用netty的具体方法。

963. Shuffle写有基于哈希和排序两种方式。

964. Clustermanager提供了资源的分配和管理。

965. 资源分配和调度的基本单位是container。

966. 在YARN中，每个application实例都有一个application master进程。

967. Application master是application启动的第一个容器，它负责和resourceManager打交道并请求资源。

968. Spark SQL执行过程：

1. 词法和语法解析

2. 绑定

3. 优化4. 执行

969. Spark 提供了两种方式将RDD转换成DataFrame：

1. 通过定义 case class ，使用反射推断schema

2. 通过编程接口，定义schema，并应用到RDD上

970. YARN拆分Jobtracker的两大职责：资源管理，作业调度/监控：

1. 全局的resource Manager

2. 每个应用对应的Application Master

971. Resource Manager拥有为系统中的所有应用的资源分配的决定权。

972. Container为应用程序授予在特定主机上使用资源全权利。

973. YARN三种调度器：

1. FIFO调度器

2. Capacity调度器

3. Fair调度器

974. Storm一个work进程执行的是一个topplpgy的子集。

975. Executor是一个被work进程启动的单独线程。

976. Work之间通信是通过Netty进行通信的。

977. Stream grouping：

1. Shuffle ——随机分组

2. Fields ——按字段分组

3. All ——广播发送

4. Non ——随机分配

5. Diret ——直接分组

978. Task是运行spout或bolt中的线程。

979. Strom的核心：

1. 主节点 ——Nimbus

2. 工作节点——supervisor

3. 协调器——Zookeeper

4. 工作进程——worker

5. 任务线程——task

980. Storm三大应用：

1. 信息流处理

2. 持续计算

3. 分布式远程调用

981. 提交一个Topology之后，storm创建spout/bolt实例big进行序列化。

982. 流是一个分布式并行创建和处理的无界的连续元组。

983. Storm数据传输利用的是zmq开源的消息传递框架。

984. Topology是由stream grouping链接起来的spout和bolt节点网络。

985. Tupe可以理解成键值对，即Fields和values。

986. Tuple的asked，faild都由spout发出并维护的。

987. 本地模式：storm用一个进程红的线程模拟所有spout/bolt。

988. Nimbus和supervisor之间的通信依赖Zookeeper完成。

989. 用户画像是一个实际用户的虚拟代表，如年龄，性别等。

990. 在机器学习中，对象是指含有一组特征的行变量。

991. 行变量的集合最容易构造的结构就是表。

992. Hadoop有三种令牌：

1. 委托令牌

2. 块访问令牌

3. 作业令牌

993. 对事物运动这种不确定性（随机性）的度量就是概率论。

994. 大数据4V：

1. Volume ——数据体量大

2. Variety ——数据类型繁多

3. Velocity ——处理速度快

4. Value ——商业价值高

995. 移动互联网产生了和客户紧密拥绑的大数据。

996. 在互联网这个产业链中，谁掌握了用户，谁的天下。

997. 消费者的注意力和使用习惯去了哪里，钱就会流向哪里。

998. 体验的产生是一个艺术的过程。

999. 大数据的目标是定位。

1000. 建立一个学习型企业架构。

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj