【大数据开发】第25页

腾讯位置 - 逆地址解析（结尾附视频）

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-01-28 20:04

腾讯位置 - 地址解析

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-01-28 01:57

精通MySQL之架构篇

今天给大家分享的是大数据开发基础部分MySQL的第一篇，老刘讲点和别人不一样的内容！

LLand520·2021-01-26 20:18

精通MySQL之架构篇

老刘是即将找工作的研究生，自学大数据开发，一路走来，感慨颇深，网上大数据的资料良莠不齐，于是想写一份详细的大数据开发指南。

努力的老刘·2021-01-26 11:29

大数据开发-生产中遇到的10个致命问题

生产环境版本Hive:1.2.1,Spark:2.3.21.insertoverwritedirectory不会覆盖数据注意，生成结果是目录，生成目录里面的不同文件名不会被覆盖，因此很容易出现数据double或者没有覆盖到数据的问题，比如数据分片原始结果如下：/mytable/000000_0/mytable/000000_1/mytable/000000_2/mytable/000000_3##

·2021-01-25 14:38

腾讯位置 - 关键词输入提示（结尾附视频）

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-01-24 12:38

腾讯位置 - 地点搜索（结尾附视频）

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-01-23 22:54

Canal：同步mysql增量数据工具，一篇详解核心知识点

老刘是一名即将找工作的研二学生，写博客一方面是总结大数据开发的知识点，一方面是希望能够帮助伙伴让自学从此不求人。

努力的老刘·2021-01-22 11:51

2020大数据开发实习面经(阿里 360 腾讯字节)

我是末流985本科大三生，找一个大数据方向的实习。因为没有课了，所以可以实习六个月左右。阿里时间：2020年3月26日一面阿里一面的时候，刚刚开始复习。PythonJava等等都还没看。只看了下大数据相关的知识。凉的明明白白。写一道算法题，旋转数组求最小值（剑指offer面试题11）。当时只记得是二分查找，没写出来。问下JavaGC（不会）问下PythonGIL(不会)非常感谢这位老师，面试之后就

AntiTopQuark·2021-01-21 21:48

图数据库 Nebula Graph 在 Boss 直聘的应用

NebulaGraph官方博客：https://nebula-graph.com.cn/posts/nebula-graph-risk-control-boss-zhipin/摘要：在本文中，BOSS直聘大数据开发工程师主要分享一些他们内部的技术指标和选型

NebulaGraph·2021-01-20 12:33

高途课堂 -大数据开发工程师面筋

自我介绍1.1为什么离职？详细聊具体项目3，数仓建模理论数仓分层好处及坏处一、模型分层缓冲数据模型BDM源业务系统数据的快照，保存细节数据，按天分区，会保持最近一段时间数据。一般情况下，每个BDM表对应着源业务系统的一个表或者一个日志文件，数据结构与线上基本是对应的。绝大多数的数据快照是经过增量抽取策略抽过来了，对于不支持增量抽取策略或者数据量极少的表采用全量抽取的策略。基础数据模型FDM基础数据

Cold丶kl·2021-01-19 14:10

大数据开发之Hive优化篇1-Hive 优化概述

备注:Hive版本2.1.1文章目录一.Hive的实现原理二Hive优化2.1选择合理的存储格式和压缩格式2.2MRJob优化2.3Join优化2.3.1MapJoin优化2.3.2SMBJoin优化2.4数据倾斜2.5Hive的优化配置参数一.Hive的实现原理Hive的编译器将HQL转换成一组操作符(Operator)操作符是Hive的最小处理单元每个操作符代表一道HDFS操作或者MRJob作

只是甲·2021-01-19 09:28

大数据开发-Spark-闭包的理解

1.从Scala中理解闭包闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数：valmultiplier=(i:Int)=>i*10函数体内有一个变量i，它作为函数的一个参数。如下面的另一段代码：valmultiplier=(i:Int)=>i*factor在multiplier中有两个变量：i和

Hoult丶吴邪·2021-01-18 13:18

大数据开发之Hive篇20-Hive的高级特性

备注:Hive版本2.1.1文章目录一.HiveACIDandTransactions二.HiveonTez三.HiveonSpark四.HCatalog参考这个blog介绍Hive的高级特性1）HiveACIDandTransactions2）HiveonTez3）HiveonSpark4）HCatalog一.HiveACIDandTransactionsHive0.14版本开始支持ACID历史

只是甲·2021-01-18 09:57

大数据开发-Spark-共享变量之累加器和广播变量

Spark累加器与广播变量一、简介在Spark中，提供了两种类型的共享变量：累加器(accumulator)与广播变量(broadcastvariable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和，如果在集群模式中使用下面的代码进行计算，会发现执行结果并非预期：varcounter=0val

Hoult丶吴邪·2021-01-18 02:40

大数据开发-Spark-RDD的持久化和缓存

1.RDD缓存机制cache,persistSpark速度非常快的一个原因是RDD支持缓存。成功缓存后，如果之后的操作使用到了该数据集，则直接从缓存中获取。虽然缓存也有丢失的风险，但是由于RDD之间的依赖关系，如果某个分区的缓存数据丢失，只需要重新计算该分区即可。涉及到的算子：persist、cache、unpersist；都是Transformation缓存是将计算结果写入不同的介质，用户定义可

Hoult丶吴邪·2021-01-18 02:40

大数据开发-Spark-共享变量之累加器和广播变量

Spark累加器与广播变量一、简介在Spark中，提供了两种类型的共享变量：累加器(accumulator)与广播变量(broadcastvariable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和，如果在集群模式中使用下面的代码进行计算，会发现执行结果并非预期：varcounter=0val

Hoult丶吴邪·2021-01-18 02:31

大数据开发-Spark-RDD的持久化和缓存

1.RDD缓存机制cache,persistSpark速度非常快的一个原因是RDD支持缓存。成功缓存后，如果之后的操作使用到了该数据集，则直接从缓存中获取。虽然缓存也有丢失的风险，但是由于RDD之间的依赖关系，如果某个分区的缓存数据丢失，只需要重新计算该分区即可。涉及到的算子：persist、cache、unpersist；都是Transformation缓存是将计算结果写入不同的介质，用户定义可

Hoult丶吴邪·2021-01-18 02:00

HBase的架构设计为什么这么厉害!

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望能够帮助和自己一样自学编程的伙伴。

努力的老刘·2021-01-15 19:52

大数据开发之Hive篇19-Hive分区表详解

备注:Hive版本2.1.1文章目录一.Hive分区表概述二.静态分区2.1单分区测试2.2多分区测试三.动态分区3.1动态分区测试3.2动态分区和静态分区混合使用四.分区的其它操作4.1恢复分区4.2归档分区4.3交换分区参考一.Hive分区表概述数据分区的概念以及存在很久了，通常使用分区来水平分散压力，将数据从物理上移到和使用最频繁的用户更近的地方，以及实现其目的。hive中有分区表的概念，我

只是甲·2021-01-15 09:11

大数据开发之Hive篇18-Hive的回收站

备注:Hive版本2.1.1一.模拟误删表误删除了这张表hive>>droptableods_fact_sale_orc;OK二.从回收站恢复表查看回收表[root@hp1~]#hadoopfs-ls/user/root/.Trash/Current/user/hive/warehouse/test.dbFound2itemsdrwxrwxrwt-roothive02020-12-0219:18/

只是甲·2021-01-14 11:17

大数据开发-Spark-一文理解常见RDD

1.五个基本PropertiesAlistofpartitionsAfunctionforcomputingeachsplitAlistofdependenciesonotherRDDsOptionally,aPartitionerforkey-valueRDDs(e.g.tosaythattheRDDishash-partitioned)Optionally,alistofpreferredlo

Hoult丶吴邪·2021-01-12 04:55

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境

立个坑，教程后续补上，当然这不是最重要的，如果你仅仅想有个环境可以测试，只需要下面三步1.gitclonehttps://github.com/hulichao/docker-bigdata`2.安装docker和docker-compose,然后cddocker-bigdata&&docker-compose-fdocker-compose-devup-d``3.启动集群登入docker环境，然

Hoult丶吴邪·2021-01-12 04:24

大数据开发-从Scala到Akka并发编程

1.递归实现瓶盖，瓶子换酒瓶的算法1.1需求描述每瓶啤酒2元，3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒？（不允许借啤酒）思路：利用递归算法，一次性买完，然后递归算出瓶盖和空瓶能换的啤酒数1.2代码实现defextralPeer(bot:Int,cap:Int):Int={valcount=bot/3+cap/5if(count{println("masterrunning..

Hoult丶吴邪·2021-01-12 04:52

大数据开发-Spark-一文理解Spark中的Stage,Executor,Driver...

1.引言吧阿西吧，对于Spark新手来说，首先对于Spark的运行机制不了解，往往跟你交流的时候，互相都不知道在说什么，比如部署模式和运行模式，可能都混为一谈，对于有一定开发经验的老手，即使知道运行机制，可能在表述上，对Spark的各种术语也不是很懂，因此理解Spark术语，是Spark开发者之间沟通的必要之路，本文从Spark的运行机制开始，到WordCount案例来理解Spark中的各种术语。

Hoult丶吴邪·2021-01-12 04:52

大数据开发-Spark调优常用手段

Spark调优spark调优常见手段，在生产中常常会遇到各种各样的问题，有事前原因，有事中原因，也有不规范原因，spark调优总结下来可以从下面几个点来调优。1.分配更多的资源分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第

Hoult丶吴邪·2021-01-12 04:51

大数据开发-Scala-类型检查与模式匹配详解

0.前言类型检查和类型转换在每个语言里面都有对应实现，比如Java中的instanceof和isInstance，当然Scala语言也有，但是相对于其他语言，Scala为了简化开发，产生了强大的模式匹配，其原理和Java中的switch-case很类似，但是其匹配能力更强，不仅仅可以匹配值，匹配类型，也可以进行类匹配，还可以进行前缀类匹配，而且在Spark源码中大量使用了模式匹配，另外的就是隐式转

Hoult丶吴邪·2021-01-12 04:51

大数据开发-Scala 下划线的多种场景

1.简述Scala的下划线在各种语法中几乎都要插一脚，其目的是代表某些特殊场合或者简化代码，不必去想命名该怎么取。下面介绍几种下划线的使用场合2._有哪些使用方式2.1初始化变量跟Java类似，成员变量未初始化会给一个默认值，Scala中也一样，只可以初始化成员变量，但是需要利用_来特别说明，要注意的是_如果初始化为null要特别指明变量的类型，否则变量类型就是Null,初始化只针对var而不能是

Hoult丶吴邪·2021-01-12 04:50

大数据开发-Spark-一文理解常见RDD

1.五个基本PropertiesAlistofpartitionsAfunctionforcomputingeachsplitAlistofdependenciesonotherRDDsOptionally,aPartitionerforkey-valueRDDs(e.g.tosaythattheRDDishash-partitioned)Optionally,alistofpreferredlo

Hoult丶吴邪·2021-01-12 04:16

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境

立个坑，教程后续补上，当然这不是最重要的，如果你仅仅想有个环境可以测试，只需要下面三步1.gitclonehttps://github.com/hulichao/docker-bigdata`2.安装docker和docker-compose,然后cddocker-bigdata&&docker-compose-fdocker-compose-devup-d``3.启动集群登入docker环境，然

Hoult丶吴邪·2021-01-12 04:15

带你了解分布式系统的数据一致性问题

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望能够帮助和自己一样自学编程的伙伴。

努力的老刘·2021-01-10 20:36

大数据技术核心框架最强知识体系总结||（2021版）（含面试题）

hadoop框架Hadoop是大数据开发的重要框架，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储

张心情·2021-01-09 23:28

大数据开发环境搭建番外及总结：Redis和Anaconda环境的安装搭建

采用的阿里天池赛的一个电商数据集，然后基于大数据的Lambda架构，实现离线和在线相结合的实时推荐系统)，这样可以熟悉一下真实环境中的推荐系统流程，但是这里面需要大数据的开发环境，所以这里的这个系列是记录自己搭建大数据开发环境的整个过程

Miracle8070·2021-01-09 11:57

大数据开发环境搭建系列六：Kafka和flume的安装和环境搭建

采用的阿里天池赛的一个电商数据集，然后基于大数据的Lambda架构，实现离线和在线相结合的实时推荐系统)，这样可以熟悉一下真实环境中的推荐系统流程，但是这里面需要大数据的开发环境，所以这里的这个系列是记录自己搭建大数据开发环境的整个过程

Miracle8070·2021-01-08 17:08

大数据开发之Hive篇15-Hive之hpl/sql编程

备注:Hive版本2.1.1文章目录一.HPL/SQL概述二.HPL/SQL测试案例2.1测试执行简单sql2.2测试函数和循环2.3测试include套用存储过程2.4测试package2.4测试游标2.5测试游标2参考一.HPL/SQL概述Hive2.0版本开始，已经有了Hive存储过程的解决方案（HPL/SQL–ProceduralSQLonhadoop）。该解决方案不仅支持Hive，还支持

只是甲·2021-01-08 09:44

SpringCloud学习笔记(八)----消息驱动Stream、链路追踪Sleuth

如果后端开发使用消息中间件RabbitMQ，而大数据开发使用Kafka，那么一个项目中就存在多个消息中间件，对于程序员来说，不好进行切换、维护、开发。

冬瓜闯世界·2021-01-07 00:01

大数据开发环境搭建系列二：Hadoop集群环境搭建

采用的阿里天池赛的一个电商数据集，然后基于大数据的Lambda架构，实现离线和在线相结合的实时推荐系统)，这样可以熟悉一下真实环境中的推荐系统流程，但是这里面需要大数据的开发环境，所以这里的这个系列是记录自己搭建大数据开发环境的整个过程

Miracle8070·2021-01-06 22:44

慕课网大数据开发工程师课程

download:大数据开发工程师【完结】本套大数据课程中的技术体系包含目前主流的Hadoop、Spark、Flink三大技术生态圈，涵盖了企业中最常见的技术组件，可以满足大家在公司中的工作需求Q:这套课程要学多久

sdfdsfdsfasd·2021-01-05 02:19

大数据开发和大数据分析师到底有何区别？怎么分辨？

大数据开发和大数据分析师到底有何区别？数据工程师建设和优化系统，专注于解决分析方面的问题；大数据分析师从事行业数据搜集、整理、分析，并依据数据做出行业研究、评估和预测。两只之间有着本质的差别。

学Python的安娴·2021-01-04 22:05

初始java

java程序的注释java编码规范java可以做什么客户端ClientC/Sserver银行软件，商场结算软件浏览器BrowserB/S京东商城，淘宝网，易趣网移动端M/SAndroidAPP高速运算和存储大数据开发

pgwwq007·2021-01-04 13:08

Java Web后端技术 (下) - 3.MyBatis 复杂映射&配置文件深入

前言：这段时间在拉勾学大数据开发，现在学到JavaWeb后端技术，收获颇深。之前没记笔记，学习效率低很多。

朱李寒水·2021-01-02 18:58

SparkStreaming推测机制：面试被问遇到什么问题，说这个显水平！

背景老刘最近晚上会刷刷牛客网的大数据开发面经，总是会看到一个高频的面试题，那就是你在学习过程中遇到过什么问题吗？

努力的老刘·2021-01-02 15:28

3t studio 导出数据_玩转大数据开发工具--上下全篇

为了降低大数据应用开发的门槛，简化开发过程，星环随TranswarpDataHub5.0开发出了大数据开发套件TranswarpStudio。

罅天·2021-01-02 09:16

突破性能瓶颈！ElasticSearch百亿级数据检索优化案例

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！大数据真好玩点击右侧关注，大数据真好玩！

王知无-大数据技术与架构·2021-01-01 17:52

数据湖VS数据仓库？湖仓一体了解一下

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！大数据真好玩点击右侧关注，大数据真好玩！

王知无(import_bigdata)·2020-12-31 23:17

大数据面试3分钟自我介绍_大数据开发工程师面试主要面试内容

大数据近年来，发展如火如荼，很多人都选择学习大数据专业或者转行大数据，大数据里又包含很多就业岗位，那么，我们在面试大数据开发工程师时，需要面试哪些内容呢。一起来看看！

诗和远方越远越脏·2020-12-31 12:27

python开发岗位职责_大数据系列之大数据开发工程师

继续介绍大数据系列岗位的要求，今天是“最热门”的岗位大数据开发工程师，之所以说热门主要是基于2个原因，一是因为很多应届生或者想转入大数据行业的同学，都是期望从事“大数据开发”这一定位不是很清晰的岗位；

weixin_39569076·2020-12-30 15:59

我与CSDN的2020

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2020-12-28 14:59

浅谈大数据任务调度平台

谈到大数据，避免不了hadoop,hive,spark这些基础套件，但是在整个大数据开发的时候，我们面对的基本上都是数据开发平台和任务调度系统。

北方~·2020-12-28 13:35

大数据开发-从Scala到Akka并发编程

1.递归实现瓶盖，瓶子换酒瓶的算法1.1需求描述每瓶啤酒2元，3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒？（不允许借啤酒）思路：利用递归算法，一次性买完，然后递归算出瓶盖和空瓶能换的啤酒数1.2代码实现defextralPeer(bot:Int,cap:Int):Int={valcount=bot/3+cap/5if(count{println("masterrunning..

Hoult丶吴邪·2020-12-28 12:02

推荐频道

【大数据开发】

腾讯位置 - 逆地址解析（结尾附视频）

腾讯位置 - 地址解析

精通MySQL之架构篇

精通MySQL之架构篇

大数据开发-生产中遇到的10个致命问题

腾讯位置 - 关键词输入提示（结尾附视频）

腾讯位置 - 地点搜索（结尾附视频）

Canal：同步mysql增量数据工具，一篇详解核心知识点

2020大数据开发实习面经(阿里 360 腾讯 字节)

图数据库 Nebula Graph 在 Boss 直聘的应用

高途课堂 -大数据开发工程师 面筋

大数据开发之Hive优化篇1-Hive 优化概述

大数据开发-Spark-闭包的理解

大数据开发之Hive篇20-Hive的高级特性

大数据开发-Spark-共享变量之累加器和广播变量

大数据开发-Spark-RDD的持久化和缓存

大数据开发-Spark-共享变量之累加器和广播变量

大数据开发-Spark-RDD的持久化和缓存

HBase的架构设计为什么这么厉害!

大数据开发之Hive篇19-Hive分区表详解

大数据开发之Hive篇18-Hive的回收站

大数据开发-Spark-一文理解常见RDD

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境

大数据开发-从Scala到Akka并发编程

大数据开发-Spark-一文理解Spark中的Stage,Executor,Driver...

大数据开发-Spark调优常用手段

大数据开发-Scala-类型检查与模式匹配详解

大数据开发-Scala 下划线的多种场景

大数据开发-Spark-一文理解常见RDD

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境

带你了解分布式系统的数据一致性问题

大数据技术核心框架最强知识体系总结||（2021版）（含面试题）

大数据开发环境搭建番外及总结：Redis和Anaconda环境的安装搭建

大数据开发环境搭建系列六：Kafka和flume的安装和环境搭建

大数据开发之Hive篇15-Hive之hpl/sql编程

SpringCloud学习笔记(八)----消息驱动Stream、链路追踪Sleuth

大数据开发环境搭建系列二：Hadoop集群环境搭建

慕课网大数据开发工程师课程

大数据开发和大数据分析师到底有何区别？怎么分辨？

初始java

Java Web后端技术 (下) - 3.MyBatis 复杂映射&配置文件深入

SparkStreaming推测机制：面试被问遇到什么问题，说这个显水平！

3t studio 导出数据_玩转大数据开发工具--上下全篇

突破性能瓶颈！ElasticSearch百亿级数据检索优化案例

数据湖VS数据仓库？湖仓一体了解一下

大数据面试3分钟自我介绍_大数据开发工程师面试主要面试内容

python开发岗位职责_大数据系列之大数据开发工程师

我与CSDN的2020

浅谈大数据任务调度平台

大数据开发-从Scala到Akka并发编程

2020大数据开发实习面经(阿里 360 腾讯字节)

高途课堂 -大数据开发工程师面筋