A大数据开发第22页

想学习编程，我是如何入坑python的？

0基础不用怕，从0到1轻松教你入门Pythonpython系统学习流线图，教你一步一步学会python成为一名做大数据开发的女程序员，并不是二狗进入大学时的第一目标。

燕山588·2021-11-05 16:46

大数据开发之Hive解析Json数组

在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平大数据培训台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。Hive自带的json解析函数get_json_object•语法：get_json_object(json_string,'$.key')•说明：解析json的字符串j

·2021-11-05 11:34

大数据开发基础之HDFS参数调优步骤分享

1.NameNode数据目录dfs.name.dir,dfs.namenode.name.dir指定一个本地文件系统路径，决定NN在何处存放fsimage和editlog文件。可以通过逗号分隔指定多个路径.目前我们的产线环境只配大数据培训置了一个目录，并存放在了做了RAID1或RAID5的磁盘上。2.DataNode数据目录dfs.data.dir,dfs.datanode.data.dir指定D

·2021-11-04 11:14

大数据开发之数据仓库架构分析

概述架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策大数据培训系统的数据流程。业务需求回答了要做什么，架构就是回答怎么做的问题。架构的价值数据仓库架构数据仓库的核心功能从源系统抽取数据，通过清洗、转换、标准化，将数据加载到BI平台，进而满足业务用户的数据分析和决策支持。数据仓库架构包含三个部分：数据架构、应用程序架构、底层设

·2021-11-03 11:10

大数据开发之HDFS的API操作过程

创建maven工程并导入jar包clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.hadoophadoop-client2.6.0-mr1-cdh5.14.0org.apache.hadoophadoop-common2.6.0-cdh5.14.0org.apache.hadoophadoop

·2021-10-28 11:08

大数据开发之Hadoop集群安装教程

配置文件的修改注意：以下所有操作都在node01主机进行。1.1hadoop-env.sh1、介绍文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的，即使我们当前的系统中设置了JAVA_HOME，它也是不认识的，因为Hadoop即使是在本机上执行，它也是把当前的执行环境当成远程服务器。2、配置cd/export/server/hadoop-3.0.0/etc/hadoo

·2021-10-27 12:55

JuiceFS 如何帮助趣头条超大规模 HDFS 降负载

王海胜，趣头条大数据工程师，10年互联网工作经验，曾在eBay、唯品会等公司从事大数据开发相关工作，有丰富的大数据落地经验。

·2021-10-26 18:08

大数据开发之Spark 基础入门学习

·2021-10-26 11:59

大数据开发之Spark入门

什么是Spark?·大数据的电花火石。·Spark类似于MapReduce的低延迟的交互式计算框架。·Spark是UCBerkeleyAMPLab开发的是一种计算框架，分布式资源工作交由集群管理软件（Mesos、YARN）。·Spark是处理海量数据的快速通用引擎大数据培训。Spark发展历程·Hadoop在2003年从Nutch发展到Lucene，在Yahoo成长，进入Apache孵化，2008

·2021-10-25 12:04

大数据开发工程师目录

阶段一：走进大数据第1周学好大数据先攻克Linux在步入大数据殿堂之前，先带领大家快速掌握大数据的必备技能：Linux的操作使用，为后面学习大数据技术打下坚实基础。课程安排：1、掌握Linux虚拟机的安装和配置2、使用ScecureCRT连接Linux虚拟机3、掌握Linux中常见高级命令(vi、wc、sort、date、jps、kill等命令)的使用4、掌握Linux中三剑客(grep、sed、

EventQL·2021-10-22 10:31

大数据开发之Spark SQL/Hive实用函数分享

字符串函数1.concat对字符串进行拼接：concat(str1,str2,...,strN)，参数：str1、str2...是要进行拼接的字符串。--returntheconcatenationofstr1、str2、...,strN--SparkSQLselectconcat('Spark','SQL');2.concat_ws在拼接的字符串中间添加某种分隔符：concat_ws(sep,[

·2021-10-21 10:27

大数据开发之Yarn和Spark UI界面获取的方法

一、Yarn以获取Yarn界面队列信息为例：1.接口（HTTPRequest）http://ip:port/ws/v1/cluster/...ip和port：YarnResourceManageractive节点的ip地址和端口号2.请求方式GET3.ResponseHeaderHTTP/1.1200OKContent-Type:application/jsonTransfer-Encoding:

·2021-10-19 11:46

大数据开发Linux系统入门之netstat 命令学习

netstat命令用于显示与IP、TCP、UDP和ICMP协议相关的统计数据，一般用于检验本机各端口的网络连接情况。netstat是在内核中访问网络及相关信息的程序，大数据培训它能提供TCP连接，TCP和UDP监听，进程内存管理的相关报告。如果你的计算机有时候接收到的数据报导致出错数据或故障，你不必感到奇怪，TCP/IP可以容许这些类型的错误，并能够自动重发数据报。但如果累计的出错情况数目占到所接

·2021-10-14 10:51

大数据开发中相关HDFS的这几个问题应该知道

1.Namenode的安全模式？安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。2.哪些情况下，Namenode会进入安全模式？a.Namenode发现集群中的block丢失率达到一定比例时（默认0.01%），大数据培训Namenode就会进入安全模式，在安全模式下，客户端不能对任何数据进行操作，只能查看元数据信息b.在hdfs

·2021-10-13 12:19

大数据开发中HBase高级特性和rowkey设计分析

大数据培训学习过程中，经常会使用到HBase高级特性，在阐述HBase高级特性和热点问题处理前，首先回顾一下HBase的特点：分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[]，主要用来处理结构化和半结构化数据，底层数据存储基于hdfs。同时，HBase和传统数据库一样提供了事务的概念，但是HBase的事务是行级事务，可以保证行级数据的原子性、一致性、隔离性以及持久性。布隆过滤器

·2021-10-12 10:23

大数据开发技术之Spark RDD详解与依赖关系

RDD（ResilientDistributedDatasets）弹性的分布式数据集，又称Sparkcore，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。RDD是一个很抽象的概念，不易于理解，但是要想学好Spark，必须要掌握RDD，熟悉它的编程模型，这是学习Spark其他组件的基础大数据培训。•Resilient（弹性的）提到大数据必提分布式，而在大规模的分布式集群中，

·2021-10-11 10:03

大数据开发之如何处理Kafka集群消息积压问题

通常情况下，企业中会采取轮询或者随机的方式，通过Kafka的producer向Kafka集群生产数据，来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下，如果我们针对要处理的topic数据量等因素，设计出合理的Kafka分区数量。大数据培训对于一些实时任务，比如SparkStreaming/Structured-Streaming、Flink和Kafka集成的应用，消费端不

·2021-10-09 12:52

大数据开发技术之如何将数据导入到HBase

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。大数据培训具体到我们实际的项目需求中，有一个典型的场景，通常会将Hive中的部分数据，比如热数据，存入到HBase中，进行冷热分离处理。我们采用Spark读取Hive表数据存入HBase中，这里主要有两种方式：通过HBas

·2021-10-08 11:24

CTO 200W，C++ 大数据杭州独角兽高薪招聘

150-200W现金，财富自由机会；杭州独角兽，大数据开发专家，开发方向,70-110W；REACT前端40-80W；软件架构师50-90W;GIS工程师40-80W；

·2021-10-03 20:01

2021年超全超详细的最新大数据开发面试题，附答案解析 – 过往记忆

文章目录1Hadoop1.11.请说下HDFS读写流程1.22.HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办1.33.HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办1.44.NameNode在启动的时候会做哪些操作1.55.SecondaryNameNode了解吗，它的工作机制是怎样的1.66.SecondaryNameNode不能恢复NameNode的全部数据

·2021-09-25 10:00

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

本文作者是37手游大数据开发徐润柏，介绍了37手游为何选择Flink作为计算引擎，并如何基于FlinkCDC+Hudi构建新的湖仓一体方案，主要内容包括：FlinkCDC基本知识介绍Hudi基本知识介绍

·2021-09-24 11:36

大数据开发技术之Spark Job物理执行解析

一个复杂job逻辑执行图：代码贴在本章最后。给定这样一个复杂数据依赖图，如何合理划分stage，并未确定task的类型和个数？一个直观想法是将前后关联的RDDs组成一个stage，大数据培训每个箭头生成一个task。对于两个RDD聚合成一个RDD的情况，这三个RDD组成一个stage。这样虽然可以解决问题，但显然效率不高。除了效率问题，这个想法还有一个更严重的问题：大量中间数据需要存储。对于tas

·2021-09-24 10:59

大数据开发涉及到的技术分类有哪些

大数据培训开发本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理，从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、应用等多方面的技术，根据大数据的处理过程，可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。大数据采集技术大数据

·2021-09-16 14:16

大数据开发工程师

download：大数据开发工程师代码自动生成mybatis-generator-maven-plugin的idea自动生成插件org.mybatis.generatormybatis-generator-maven-plugin1.3.2D

·2021-09-10 21:26

大数据开发基础入门与项目实战（二）Java Web数据可视化之4.Linux基本操作命令和功能

文章目录前言1.常用Linux命令的基本使用（1）Linux常用快捷键（2）命令格式及帮助手册使用（3）切换目录的命令（4）展示目录的命令（5）创建目录和删除目录（6）创建文件和删除文件（7）复制与剪切命令（8）cat查看文件命令（9）more和less命令查看文件（10）head命令和tail命令查看文件（11）重定向输出符号（12）管道符及逻辑控制&&（13）history查看历史命令2.打包

cutercorley·2021-09-08 21:10

大数据开发基础入门与项目实战（二）Java Web数据可视化之3.Linux概述、安装和结构

文章目录前言1.Linux概述（1）Linux简介（2）Linux的应用领域及版本介绍2.安装Linux（1）VMWare的安装（2）使用VMWare构建虚拟机器（3）安装CentOS操作系统（4）配置静态IP（5）给虚拟机设置快照（6）客户端连接工具的介绍和使用3.Linux结构（1）Linux组成（2）Linux目录结构总结前言本文主要介绍了Linux的概述、安装和结构，主要包括Linux概述

cutercorley·2021-09-07 22:29

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统

文章目录前言1.HDFS特点2.命令行和API操作HDFS（1）Shell命令行客户端（2）API客户端连接HDFS的两种方式（3）API客户端上传下载文件（4）API客户端文件详情及文件类型判断（5）API客户端IO流操作（6）API客户端IO流的seek读取3.HDFS读写机制解析4.HDFS元数据管理机制（1）Namenode、Fsimage及Edits编辑日志（2）2NN及CheckPoi

cutercorley·2021-09-04 21:36

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建

文章目录前言1.大数据简介（1）知识体系（2）大数据定义及应用场景（3）大数据发展趋势及从业人员发展路线2.Hadoop简介3.Hadoop的重要组成4.ApacheHadoop完全分布式集群搭建（1）虚拟机环境准备（2）环境变量配置（3）集群规划实施（4）编写集群分发脚本（5）集群启动Ⅰ单节点启动Ⅱ集群群起Ⅲ集群停止（6）集群测试（7）历史日志服务器配置总结前言本文主要介绍了Hadoop简介及A

cutercorley·2021-09-03 22:51

Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路

介绍现在比较流行的大数据数据可视化都是大屏，有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案，但是在国内还是小公司比较多，本人50年大数据开发经验，精通数据可视化，曾经处理过百万亿级别的数据

haochengxu2022·2021-08-14 17:58

阿里云 MaxCompute 2021-7 月刊

·2021-08-10 15:19

数栈技术分享前端篇：TS，看你哪里逃~

数栈是—站式大数据开发平台，我们在github和gitee上有一个有趣的开源项目：FlinkX，FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，也可以采集实时变化的数据，

·2021-08-09 19:15

大数据开发-Go-新手常遇问题

真正在工作中用Go的时间不久，所以也作为新手，总结了一些常见的问题和坑Go中指针使用注意点//1.空指针反向引用不合法packagemainfuncmain(){varp*int=nil*p=0}//inWindows:stopsonlywith://runtimeerror:invalidmemoryaddressornilpointerdereference//2.文字或者常量引用也不合法co

·2021-08-08 19:00

《一站式大数据开发治理DataWorks使用宝典》

简介：零基础入门大数据开发治理，上手DataWorks10大模块DataWorks官方入门电子书出版啦，零基础入门大数据开发治理，全面了解DataWorks十大功能模块，快速上手DataWorks核心功能

·2021-07-30 17:19

企业级大数据平台建设参考(续集)

另外你还可以参考：《企业级一站式大数据开发平台理论及实践》《ApacheSpark在海致大数据平台中优化实践》《快手大数据平台服务化实践》常规的大数据平台架构方案

王知无(import_bigdata)·2021-07-30 08:00

外部工具连接SaaS模式云数据仓库MaxCompute实战：商业BI分析工具篇

MaxCompute是面向分析的企业级SaaS模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，帮助企业和大数据开发者经济并高效的分析处理海量数据

·2021-07-29 17:29

2021阿里巴巴大数据技术公开课第一季：外部工具连接SaaS模式云数仓MaxCompute实战

MaxCompute是面向分析的企业级SaaS模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，帮助企业和大数据开发者经济并高效的分析处理海量数据

·2021-07-29 14:16

大数据之 Hadoop-5-HDFS

一、HDFS简介HDFS（HadoopDistributedFileSystem）是Hadoop项目的核心子项目，在大数据开发中通过分布式计算对海量数据进行存储与管理。

·2021-07-27 19:12

大数据【学习计划 or 复习计划】根据【云和 + 达内 + 千锋】课程内容整理

云和第一阶段：大数据开发语言基础主要内容核心能力培养基本程序逻辑、面向对象深入、异常处理机制、常用类、集合&泛型、多线程、MySQL基础、远程仓库、DDL/DCL/DML/DQL、SQL优化、批量处理事务

シ風·2021-07-26 13:37

Hadoop 学习系列（一）之Hadoop伪分布式环境搭建

原文地址：http://pengtuo.tech/2018/09/04/hadoop-pseudo-distributed/以这篇文章开启大数据开发系列教程更新，本人也是努力学习中1.环境要求首先Java

PeTu·2021-06-27 10:06

【Mac大数据开发】第五篇-分布式集群和免密登陆

1.集群配置此前使用的是伪分布式的单机模式，本篇使用分布式的集群配置。配置方案如下：bigdata1bigdata2bigdata3HDFSNameNodeSecondaryNameNodeDataNodeDataNodeDataNodeYARNnodeManagerResourceMangerNodeManagernodeManager修改对应的配置文件即可。同时更改hadoop的/etc目录下

irving_yuan·2021-06-25 23:29

HIVE Sql 笛卡尔积关联导致查询过慢问题优化

大数据开发过程中可能会遇到关键词或敏感词匹配这种场景，具体来说会有两张表：a表：包含content字段，数据量在百万级b表：包含word字段，数据量为数万条，都是要匹配的敏感词目标需求是把含有敏感词content

soaring0121·2021-06-25 11:35

【Mac大数据开发】第四篇-Hadoop安装和配置(伪分布式集群)

1.Hadoop的安装下载Hadoop安装包，通过scp（或其他指令方式）发送到虚拟机上，并进行解压安装。修改环境变量vi/etc/profileexportJAVA_HOME="/opt/jdk1.8.0_211"exportHADOOP_HOME="/opt/hadoop-2.8.4"#hadoop安装目录exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME

irving_yuan·2021-06-25 04:58

学计算机的为什么还不如我这个文科生

我一直在想，我这个学汉语言的大数据开发工程师，到底比别人强在哪里？遇到一个写论文的计算机毕业生，跟我那时候在培训班一样，计算机毕业的学生，学习写代码对别人依赖很强。没有人提醒，就不会自己思考。

云想飘飘·2021-06-22 00:01

【就业】数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师各路人才薪资怎么样？

yoku酱·2021-06-21 20:36

你了解“数据挖掘吗”

大数据目前分三个方向：①、大数据开发方向②、数据挖掘、数据分析&机器学习方向③、大数据运维&云计算方向那么你了解数据挖掘吗？

banana很香蕉·2021-06-20 22:39

学计算机的为什么还不如我这个文科生

我一直在想，我这个学汉语言的大数据开发工程师，到底比别人强在哪里？遇到一个写论文的计算机毕业生，跟我那时候在培训班一样，计算机毕业的学生，学习写代码对别人依赖很强。没有人提醒，就不会自己思考。

云想飘飘·2021-06-20 20:45

会大数据开发，究竟有多牛

2015年，国务院印发了《促进大数据发展行动纲要》，旨在系统部署大数据发展工作。阿里创始人马云也曾提到，未来的时代将不是IT时代，而是DT时代。可见，大数据无论是在国家战略上，还是在大佬眼中，其重要性已到达空前的位置。大数据应用广泛，其爆发的巨大商机，使得像GE、西门子、谷歌、微软、IBM等国际互联网巨头全力布局大数据。例如，谷歌通过收购CaskData来进一步加强他的大数据分析能力；GE、西门子

金光闪闪耶·2021-06-19 23:19

大数据开发实战：离线大数据处理的主要技术--Hive,概念，SQL，Hive数据库

1、Hive出现背景Hive是Facebook开发并贡献给Hadoop开源社区的。它是建立在Hadoop体系架构上的一层SQL抽象，使得数据相关人员使用他们最为熟悉的SQL语言就可以进行海量数据的处理、分析和统计工作，而不是必须掌握Java等编程语言和具备开发MapReduce程序的能力。HiveSQL实际上先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行计划，并按照该

金光闪闪耶·2021-06-19 21:44

大数据开发-Spark Join原理详解

数据分析中将两个数据集进行Join操作是很常见的场景。在Spark的物理计划阶段，Spark的JoinSelection类会根据Joinhints策略、Join表的大小、Join是等值Join还是不等值以及参与Join的key是否可以排序等条件来选择最终的Join策略，最后Spark会利用选择好的Join策略执行最终的计算。当前Spark一共支持五种Join策略：Broadcasthashjoin

·2021-06-18 22:52

大数据开发工程师（偏数仓开发岗中/高级）面试经验分享（2021）

一、个人硬性条件如下：面试岗位：大数据开发工程师（偏数据仓库开发，中高级）编程经验：6年所在城市：西北地区省会城市二、面试流程一般开头先介绍自己以及自己的工作经历，概述相关知识储备。

resin_404·2021-06-17 15:18

推荐频道

A大数据开发

想学习编程，我是如何入坑python的？

大数据开发之Hive解析Json数组

大数据开发基础之HDFS参数调优步骤分享

大数据开发之数据仓库架构分析

大数据开发之HDFS的API操作过程

大数据开发之Hadoop集群安装教程

JuiceFS 如何帮助趣头条超大规模 HDFS 降负载

大数据开发之Spark 基础入门学习

大数据开发之Spark入门

大数据开发工程师目录

大数据开发之Spark SQL/Hive实用函数分享

大数据开发之Yarn和Spark UI界面获取的方法

大数据开发Linux系统入门之netstat 命令学习

大数据开发中相关HDFS的这几个问题应该知道

大数据开发中HBase高级特性和rowkey设计分析

大数据开发技术之Spark RDD详解与依赖关系

大数据开发之如何处理Kafka集群消息积压问题

大数据开发技术之如何将数据导入到HBase

CTO 200W，C++ 大数据 杭州独角兽高薪招聘

2021年超全超详细的最新大数据开发面试题，附答案解析 – 过往记忆

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

大数据开发技术之Spark Job物理执行解析

大数据开发涉及到的技术分类有哪些

大数据开发工程师

大数据开发基础入门与项目实战（二）Java Web数据可视化之4.Linux基本操作命令和功能

大数据开发基础入门与项目实战（二）Java Web数据可视化之3.Linux概述、安装和结构

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建

Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路

阿里云 MaxCompute 2021-7 月刊

数栈技术分享前端篇：TS，看你哪里逃~

大数据开发-Go-新手常遇问题

《一站式大数据开发治理DataWorks使用宝典》

企业级大数据平台建设参考(续集)

外部工具连接SaaS模式云数据仓库MaxCompute实战：商业BI分析工具篇

2021阿里巴巴大数据技术公开课第一季：外部工具连接SaaS模式云数仓MaxCompute实战

大数据之 Hadoop-5-HDFS

大数据【学习计划 or 复习计划】根据【云和 + 达内 + 千锋】课程内容整理

Hadoop 学习系列（一）之Hadoop伪分布式环境搭建

【Mac大数据开发】第五篇-分布式集群和免密登陆

HIVE Sql 笛卡尔积关联导致查询过慢问题优化

【Mac大数据开发】第四篇-Hadoop安装和配置(伪分布式集群)

学计算机的为什么还不如我这个文科生

【就业】数据分析师、大数据开发、Hadoop开发工程师、数据挖掘、算法工程师各路人才薪资怎么样？

你了解“数据挖掘吗”

学计算机的为什么还不如我这个文科生

会大数据开发，究竟有多牛

大数据开发实战：离线大数据处理的主要技术--Hive,概念，SQL，Hive数据库

大数据开发-Spark Join原理详解

大数据开发工程师（偏数仓开发岗中/高级）面试经验分享（2021）

CTO 200W，C++ 大数据杭州独角兽高薪招聘