E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
A大数据开发
想学习编程,我是如何入坑python的?
0基础不用怕,从0到1轻松教你入门Pythonpython系统学习流线图,教你一步一步学会python成为一名做
大数据开发
的女程序员,并不是二狗进入大学时的第一目标。
燕山588
·
2021-11-05 16:46
python
程序员
编程
python
开发语言
后端
pycharm
爬虫
大数据开发
之Hive解析Json数组
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平大数据培训台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。Hive自带的json解析函数get_json_object•语法:get_json_object(json_string,'$.key')•说明:解析json的字符串j
·
2021-11-05 11:34
大数据hivejson
大数据开发
基础之HDFS参数调优步骤分享
1.NameNode数据目录dfs.name.dir,dfs.namenode.name.dir指定一个本地文件系统路径,决定NN在何处存放fsimage和editlog文件。可以通过逗号分隔指定多个路径.目前我们的产线环境只配大数据培训置了一个目录,并存放在了做了RAID1或RAID5的磁盘上。2.DataNode数据目录dfs.data.dir,dfs.datanode.data.dir指定D
·
2021-11-04 11:14
大数据hdfs
大数据开发
之数据仓库架构分析
概述架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策大数据培训系统的数据流程。业务需求回答了要做什么,架构就是回答怎么做的问题。架构的价值数据仓库架构数据仓库的核心功能从源系统抽取数据,通过清洗、转换、标准化,将数据加载到BI平台,进而满足业务用户的数据分析和决策支持。数据仓库架构包含三个部分:数据架构、应用程序架构、底层设
·
2021-11-03 11:10
大数据数据仓库
大数据开发
之HDFS的API操作过程
创建maven工程并导入jar包clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.hadoophadoop-client2.6.0-mr1-cdh5.14.0org.apache.hadoophadoop-common2.6.0-cdh5.14.0org.apache.hadoophadoop
·
2021-10-28 11:08
大数据hdfs
大数据开发
之Hadoop集群安装教程
配置文件的修改注意:以下所有操作都在node01主机进行。1.1hadoop-env.sh1、介绍文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。2、配置cd/export/server/hadoop-3.0.0/etc/hadoo
·
2021-10-27 12:55
大数据hadoop
JuiceFS 如何帮助趣头条超大规模 HDFS 降负载
王海胜,趣头条大数据工程师,10年互联网工作经验,曾在eBay、唯品会等公司从事
大数据开发
相关工作,有丰富的大数据落地经验。
·
2021-10-26 18:08
数据库负载均衡
大数据开发
之Spark 基础入门学习
集群相关ClusterManager指的是在集群上获取资源的外部服务,为每个sparkapplication在集群中调度和分配资源的组件,目前有三种类型:•Standalone:Spark原生的资源管理,由Master负责资源的分配•ApacheMesos:与HadoopMapReduce兼容性良好的一种资源调度框架•HadoopYarn:主要是指的Yarn中的ResourceManagerWor
·
2021-10-26 11:59
大数据spark
大数据开发
之Spark入门
什么是Spark?·大数据的电花火石。·Spark类似于MapReduce的低延迟的交互式计算框架。·Spark是UCBerkeleyAMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN)。·Spark是处理海量数据的快速通用引擎大数据培训。Spark发展历程·Hadoop在2003年从Nutch发展到Lucene,在Yahoo成长,进入Apache孵化,2008
·
2021-10-25 12:04
大数据spark
大数据开发
工程师目录
阶段一:走进大数据第1周学好大数据先攻克Linux在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能:Linux的操作使用,为后面学习大数据技术打下坚实基础。课程安排:1、掌握Linux虚拟机的安装和配置2、使用ScecureCRT连接Linux虚拟机3、掌握Linux中常见高级命令(vi、wc、sort、date、jps、kill等命令)的使用4、掌握Linux中三剑客(grep、sed、
EventQL
·
2021-10-22 10:31
hadoop
big
data
hdfs
大数据
大数据开发
之Spark SQL/Hive实用函数分享
字符串函数1.concat对字符串进行拼接:concat(str1,str2,...,strN),参数:str1、str2...是要进行拼接的字符串。--returntheconcatenationofstr1、str2、...,strN--SparkSQLselectconcat('Spark','SQL');2.concat_ws在拼接的字符串中间添加某种分隔符:concat_ws(sep,[
·
2021-10-21 10:27
大数据hivespark
大数据开发
之Yarn和Spark UI界面获取的方法
一、Yarn以获取Yarn界面队列信息为例:1.接口(HTTPRequest)http://ip:port/ws/v1/cluster/...ip和port:YarnResourceManageractive节点的ip地址和端口号2.请求方式GET3.ResponseHeaderHTTP/1.1200OKContent-Type:application/jsonTransfer-Encoding:
·
2021-10-19 11:46
大数据yarnspark
大数据开发
Linux系统入门之netstat 命令学习
netstat命令用于显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用于检验本机各端口的网络连接情况。netstat是在内核中访问网络及相关信息的程序,大数据培训它能提供TCP连接,TCP和UDP监听,进程内存管理的相关报告。如果你的计算机有时候接收到的数据报导致出错数据或故障,你不必感到奇怪,TCP/IP可以容许这些类型的错误,并能够自动重发数据报。但如果累计的出错情况数目占到所接
·
2021-10-14 10:51
linux
大数据开发
中相关HDFS的这几个问题应该知道
1.Namenode的安全模式?安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。2.哪些情况下,Namenode会进入安全模式?a.Namenode发现集群中的block丢失率达到一定比例时(默认0.01%),大数据培训Namenode就会进入安全模式,在安全模式下,客户端不能对任何数据进行操作,只能查看元数据信息b.在hdfs
·
2021-10-13 12:19
大数据hdfs
大数据开发
中HBase高级特性和rowkey设计分析
大数据培训学习过程中,经常会使用到HBase高级特性,在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs。同时,HBase和传统数据库一样提供了事务的概念,但是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性。布隆过滤器
·
2021-10-12 10:23
大数据hbase
大数据开发
技术之Spark RDD详解与依赖关系
RDD(ResilientDistributedDatasets)弹性的分布式数据集,又称Sparkcore,它代表一个只读的、不可变、可分区,里面的元素可分布式并行计算的数据集。RDD是一个很抽象的概念,不易于理解,但是要想学好Spark,必须要掌握RDD,熟悉它的编程模型,这是学习Spark其他组件的基础大数据培训。•Resilient(弹性的)提到大数据必提分布式,而在大规模的分布式集群中,
·
2021-10-11 10:03
大数据spark
大数据开发
之如何处理Kafka集群消息积压问题
通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。在分区数据均匀分布的前提下,如果我们针对要处理的topic数据量等因素,设计出合理的Kafka分区数量。大数据培训对于一些实时任务,比如SparkStreaming/Structured-Streaming、Flink和Kafka集成的应用,消费端不
·
2021-10-09 12:52
大数据kafka
大数据开发
技术之如何将数据导入到HBase
在实际生产环境中,将计算和存储进行分离,是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一,并且通过集群的扩容、性能的优化,确保在数据大幅增长时,存储不能称为系统的瓶颈。大数据培训具体到我们实际的项目需求中,有一个典型的场景,通常会将Hive中的部分数据,比如热数据,存入到HBase中,进行冷热分离处理。我们采用Spark读取Hive表数据存入HBase中,这里主要有两种方式:通过HBas
·
2021-10-08 11:24
hbase大数据
CTO 200W,C++ 大数据 杭州独角兽高薪招聘
150-200W现金,财富自由机会;杭州独角兽,
大数据开发
专家,开发方向,70-110W;REACT前端40-80W;软件架构师50-90W;GIS工程师40-80W;
·
2021-10-03 20:01
酷工作
2021年超全超详细的最新
大数据开发
面试题,附答案解析 – 过往记忆
文章目录1Hadoop1.11.请说下HDFS读写流程1.22.HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办1.33.HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办1.44.NameNode在启动的时候会做哪些操作1.55.SecondaryNameNode了解吗,它的工作机制是怎样的1.66.SecondaryNameNode不能恢复NameNode的全部数据
·
2021-09-25 10:00
37 手游基于 Flink CDC + Hudi 湖仓一体方案实践
本文作者是37手游
大数据开发
徐润柏,介绍了37手游为何选择Flink作为计算引擎,并如何基于FlinkCDC+Hudi构建新的湖仓一体方案,主要内容包括:FlinkCDC基本知识介绍Hudi基本知识介绍
·
2021-09-24 11:36
flink数据库
大数据开发
技术之Spark Job物理执行解析
一个复杂job逻辑执行图:代码贴在本章最后。给定这样一个复杂数据依赖图,如何合理划分stage,并未确定task的类型和个数?一个直观想法是将前后关联的RDDs组成一个stage,大数据培训每个箭头生成一个task。对于两个RDD聚合成一个RDD的情况,这三个RDD组成一个stage。这样虽然可以解决问题,但显然效率不高。除了效率问题,这个想法还有一个更严重的问题:大量中间数据需要存储。对于tas
·
2021-09-24 10:59
大数据spark
大数据开发
涉及到的技术分类有哪些
大数据培训开发本身是一种现象而不是一种技术。大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。大数据采集技术大数据
·
2021-09-16 14:16
大数据
大数据开发
工程师
download:
大数据开发
工程师代码自动生成mybatis-generator-maven-plugin的idea自动生成插件org.mybatis.generatormybatis-generator-maven-plugin1.3.2D
·
2021-09-10 21:26
大数据
大数据开发
基础入门与项目实战(二)Java Web数据可视化之4.Linux基本操作命令和功能
文章目录前言1.常用Linux命令的基本使用(1)Linux常用快捷键(2)命令格式及帮助手册使用(3)切换目录的命令(4)展示目录的命令(5)创建目录和删除目录(6)创建文件和删除文件(7)复制与剪切命令(8)cat查看文件命令(9)more和less命令查看文件(10)head命令和tail命令查看文件(11)重定向输出符号(12)管道符及逻辑控制&&(13)history查看历史命令2.打包
cutercorley
·
2021-09-08 21:10
大数据开发基础入门与项目实战
大数据开发
Java
Web数据可视化
Linux基本操作命令和功能
大数据开发
基础入门与项目实战(二)Java Web数据可视化之3.Linux概述、安装和结构
文章目录前言1.Linux概述(1)Linux简介(2)Linux的应用领域及版本介绍2.安装Linux(1)VMWare的安装(2)使用VMWare构建虚拟机器(3)安装CentOS操作系统(4)配置静态IP(5)给虚拟机设置快照(6)客户端连接工具的介绍和使用3.Linux结构(1)Linux组成(2)Linux目录结构总结前言本文主要介绍了Linux的概述、安装和结构,主要包括Linux概述
cutercorley
·
2021-09-07 22:29
大数据开发基础入门与项目实战
大数据开发
Java
Web数据可视化
Linux概述
安装和结构
大数据开发
基础入门与项目实战(三)Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统
文章目录前言1.HDFS特点2.命令行和API操作HDFS(1)Shell命令行客户端(2)API客户端连接HDFS的两种方式(3)API客户端上传下载文件(4)API客户端文件详情及文件类型判断(5)API客户端IO流操作(6)API客户端IO流的seek读取3.HDFS读写机制解析4.HDFS元数据管理机制(1)Namenode、Fsimage及Edits编辑日志(2)2NN及CheckPoi
cutercorley
·
2021-09-04 21:36
大数据开发基础入门与项目实战
大数据开发
Hadoop核心及生态圈技术栈
HDFS分布式文件系统
大数据开发
基础入门与项目实战(三)Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建
文章目录前言1.大数据简介(1)知识体系(2)大数据定义及应用场景(3)大数据发展趋势及从业人员发展路线2.Hadoop简介3.Hadoop的重要组成4.ApacheHadoop完全分布式集群搭建(1)虚拟机环境准备(2)环境变量配置(3)集群规划实施(4)编写集群分发脚本(5)集群启动Ⅰ单节点启动Ⅱ集群群起Ⅲ集群停止(6)集群测试(7)历史日志服务器配置总结前言本文主要介绍了Hadoop简介及A
cutercorley
·
2021-09-03 22:51
大数据开发基础入门与项目实战
大数据开发
Hadoop核心及生态圈技术栈
Hadoop简介及集群搭建
Python网易云音乐爬虫大数据分析可视化系统——大屏数据可视化开发之路
介绍现在比较流行的大数据数据可视化都是大屏,有钱的人会使用阿里云全家桶的DataV或者商业化的大屏解决方案,但是在国内还是小公司比较多,本人50年
大数据开发
经验,精通数据可视化,曾经处理过百万亿级别的数据
haochengxu2022
·
2021-08-14 17:58
python数据分析
可视化
python
数据分析
大数据
阿里云 MaxCompute 2021-7 月刊
导读7月产品发布最新动态最佳实践好文推荐7月技术直播回顾8月技术直播预告7月产品发布最新动态1、MaxCompute项目删除新功能发布查案文档>>适用客户
大数据开发
者、管理者发布功能MaxCompute
·
2021-08-10 15:19
数栈技术分享前端篇:TS,看你哪里逃~
数栈是—站式
大数据开发
平台,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,
·
2021-08-09 19:15
大数据
大数据开发
-Go-新手常遇问题
真正在工作中用Go的时间不久,所以也作为新手,总结了一些常见的问题和坑Go中指针使用注意点//1.空指针反向引用不合法packagemainfuncmain(){varp*int=nil*p=0}//inWindows:stopsonlywith://runtimeerror:invalidmemoryaddressornilpointerdereference//2.文字或者常量引用也不合法co
·
2021-08-08 19:00
大数据
《一站式
大数据开发
治理DataWorks使用宝典》
简介:零基础入门
大数据开发
治理,上手DataWorks10大模块DataWorks官方入门电子书出版啦,零基础入门
大数据开发
治理,全面了解DataWorks十大功能模块,快速上手DataWorks核心功能
·
2021-07-30 17:19
企业级大数据平台建设参考(续集)
另外你还可以参考:《企业级一站式
大数据开发
平台理论及实践》《ApacheSpark在海致大数据平台中优化实践》《快手大数据平台服务化实践》常规的大数据平台架构方案
王知无(import_bigdata)
·
2021-07-30 08:00
数据库
大数据
hadoop
spark
编程语言
外部工具连接SaaS模式云数据仓库MaxCompute实战:商业BI分析工具篇
MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和
大数据开发
者经济并高效的分析处理海量数据
·
2021-07-29 17:29
2021阿里巴巴大数据技术公开课第一季:外部工具连接SaaS模式云数仓MaxCompute实战
MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,帮助企业和
大数据开发
者经济并高效的分析处理海量数据
·
2021-07-29 14:16
大数据之 Hadoop-5-HDFS
一、HDFS简介HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,在
大数据开发
中通过分布式计算对海量数据进行存储与管理。
·
2021-07-27 19:12
hadoophdfs
大数据【学习计划 or 复习计划】根据【云和 + 达内 + 千锋】课程内容整理
云和第一阶段:
大数据开发
语言基础主要内容核心能力培养基本程序逻辑、面向对象深入、异常处理机制、常用类、集合&泛型、多线程、MySQL基础、远程仓库、DDL/DCL/DML/DQL、SQL优化、批量处理事务
シ風
·
2021-07-26 13:37
:::
::
:
内容说明
:
::
:::
大数据
Hadoop 学习系列(一)之Hadoop伪分布式环境搭建
原文地址:http://pengtuo.tech/2018/09/04/hadoop-pseudo-distributed/以这篇文章开启
大数据开发
系列教程更新,本人也是努力学习中1.环境要求首先Java
PeTu
·
2021-06-27 10:06
【Mac
大数据开发
】第五篇-分布式集群和免密登陆
1.集群配置此前使用的是伪分布式的单机模式,本篇使用分布式的集群配置。配置方案如下:bigdata1bigdata2bigdata3HDFSNameNodeSecondaryNameNodeDataNodeDataNodeDataNodeYARNnodeManagerResourceMangerNodeManagernodeManager修改对应的配置文件即可。同时更改hadoop的/etc目录下
irving_yuan
·
2021-06-25 23:29
HIVE Sql 笛卡尔积关联导致查询过慢问题优化
大数据开发
过程中可能会遇到关键词或敏感词匹配这种场景,具体来说会有两张表:a表:包含content字段,数据量在百万级b表:包含word字段,数据量为数万条,都是要匹配的敏感词目标需求是把含有敏感词content
soaring0121
·
2021-06-25 11:35
大数据
hive
笛卡尔积
【Mac
大数据开发
】第四篇-Hadoop安装和配置(伪分布式集群)
1.Hadoop的安装下载Hadoop安装包,通过scp(或其他指令方式)发送到虚拟机上,并进行解压安装。修改环境变量vi/etc/profileexportJAVA_HOME="/opt/jdk1.8.0_211"exportHADOOP_HOME="/opt/hadoop-2.8.4"#hadoop安装目录exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME
irving_yuan
·
2021-06-25 04:58
学计算机的为什么还不如我这个文科生
我一直在想,我这个学汉语言的
大数据开发
工程师,到底比别人强在哪里?遇到一个写论文的计算机毕业生,跟我那时候在培训班一样,计算机毕业的学生,学习写代码对别人依赖很强。没有人提醒,就不会自己思考。
云想飘飘
·
2021-06-22 00:01
【就业】数据分析师、
大数据开发
、Hadoop开发工程师、数据挖掘、算法工程师各路人才薪资怎么样?
据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万。领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。数据分析人才跳槽速度也最快,平均跳槽速度为19.8个月。根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。大数据专业就业三
yoku酱
·
2021-06-21 20:36
你了解“数据挖掘吗”
大数据目前分三个方向:①、
大数据开发
方向②、数据挖掘、数据分析&机器学习方向③、大数据运维&云计算方向那么你了解数据挖掘吗?
banana很香蕉
·
2021-06-20 22:39
学计算机的为什么还不如我这个文科生
我一直在想,我这个学汉语言的
大数据开发
工程师,到底比别人强在哪里?遇到一个写论文的计算机毕业生,跟我那时候在培训班一样,计算机毕业的学生,学习写代码对别人依赖很强。没有人提醒,就不会自己思考。
云想飘飘
·
2021-06-20 20:45
会
大数据开发
,究竟有多牛
2015年,国务院印发了《促进大数据发展行动纲要》,旨在系统部署大数据发展工作。阿里创始人马云也曾提到,未来的时代将不是IT时代,而是DT时代。可见,大数据无论是在国家战略上,还是在大佬眼中,其重要性已到达空前的位置。大数据应用广泛,其爆发的巨大商机,使得像GE、西门子、谷歌、微软、IBM等国际互联网巨头全力布局大数据。例如,谷歌通过收购CaskData来进一步加强他的大数据分析能力;GE、西门子
金光闪闪耶
·
2021-06-19 23:19
大数据开发
实战:离线大数据处理的主要技术--Hive,概念,SQL,Hive数据库
1、Hive出现背景Hive是Facebook开发并贡献给Hadoop开源社区的。它是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员使用他们最为熟悉的SQL语言就可以进行海量数据的处理、分析和统计工作,而不是必须掌握Java等编程语言和具备开发MapReduce程序的能力。HiveSQL实际上先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行计划,并按照该
金光闪闪耶
·
2021-06-19 21:44
大数据开发
-Spark Join原理详解
数据分析中将两个数据集进行Join操作是很常见的场景。在Spark的物理计划阶段,Spark的JoinSelection类会根据Joinhints策略、Join表的大小、Join是等值Join还是不等值以及参与Join的key是否可以排序等条件来选择最终的Join策略,最后Spark会利用选择好的Join策略执行最终的计算。当前Spark一共支持五种Join策略:Broadcasthashjoin
·
2021-06-18 22:52
大数据开发
工程师(偏数仓开发岗中/高级)面试经验分享(2021)
一、个人硬性条件如下:面试岗位:
大数据开发
工程师(偏数据仓库开发,中高级)编程经验:6年所在城市:西北地区省会城市二、面试流程一般开头先介绍自己以及自己的工作经历,概述相关知识储备。
resin_404
·
2021-06-17 15:18
hive数据仓库
大数据
数据仓库
面试
经验分享
hive
上一页
18
19
20
21
22
23
24
25
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他