E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
04--数据开发
大
数据开发
之Hadoop(优化&新特征)
第1章:HDFS-故障排除注意:采用三台服务器即可,恢复到Yarn开始的服务器快照。1.1集群安全模块1、安全模式:文件系统只接收读数据请求,而不接收删除、修改等变更请求2、进入安全模式场景1)NameNode在加载镜像文件和编辑日志期间处于安全模式2)NameNode再接收DataNode注册时,处于安全模式3)退出安全模式条件dfs.namenode.safemode.min.datanode
Key-Key
·
2024-01-19 10:50
大数据
hadoop
分布式
大
数据开发
之Hadoop(MapReduce)
第1章:MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2MapReduce优缺点1.2.1优点1、MapReduce易于编程它简单的实现一些接口,就可以完
Key-Key
·
2024-01-19 06:40
大数据
hadoop
mapreduce
大
数据开发
之Hadoop(Yarn)
第1章:Yarn资源调度器思考:1、如何管理集群资源?2、如何给任务合理分配资源?Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.1Yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成
Key-Key
·
2024-01-19 06:09
大数据
hadoop
分布式
mysql的GROUP_CONCAT函数的使用
SQL实现将多行记录合并成一行我们在
数据开发
的过程中,经常会遇到这样的需求,就是将多行合并为一行,并且用特定字符隔开。
Mcband
·
2024-01-18 23:40
mysql
sql
数据库
Dinky为大数据框架Flink提供交互式平台,让你学习 FlinkSQL 更加轻松,并且掌握Flink技能!
介绍:Dinky,原名Dlink,于2022年1月17日更名,英译为“小巧而精致的”,体现了其轻量级和复杂大
数据开发
能力的特征。
知识分享小能手
·
2024-01-18 17:59
大数据
学习心得体会
大数据
flink
学习
字节跳动大数据架构面经(超详细答案总结)
我叫xxx,xxxx年x月毕业于xxx学校,xx学历,目前就职于xxx公司xxx部门,职位为:大
数据开发
工程师,主要从事于xxx组件、平台的开发工作。
Python栈机
·
2024-01-18 12:39
面试
职场和发展
python
开发语言
程序人生
【
数据开发
】BI&数据报表之数据可测试性设计与分析
文章目录1、什么是BI&数据报表2、什么是可测试性3、数据测试与方法3.1数据准确性与对比(重要)3.2数据安全性1、什么是BI&数据报表数据报表是一种数据可视化工具用于将数据以图表、表格和其他可视化形式呈现出来,以便用户可以快速了解和理解数据。数据报表可以用于各种场景,例如业务分析、销售分析、市场分析、财务分析等。数据报表可以帮助用户更好地理解数据,发现数据中的趋势和模式,并做出更好的决策。数据
小哈里
·
2024-01-18 00:30
#
后端开发
信息可视化
数据分析
数据挖掘
可测试性
数据报表
23.10.10同盾科技云计算
数据开发
工程师1面+HR面
题解|#24点运算#importjava.util.*;//注意类名必须为Main,不要有任何packagexxx信息publicclassMain{poffer求比较联洲国际深圳,地平线上海,这两个都是soc验证,税前总包都差不多,地平线可能多一点。联洲据说是周内加班两到三天,地平线比较卷可能是10105。求牛友们帮忙选双非的崩溃秋招光电本双非垃圾机械硕,回想我的学生生涯就觉得无比的崩溃!初中在
愤怒的小青春
·
2024-01-17 15:40
java
大
数据开发
之Hadoop(HDFS)
第1章:HDFS概述1.1HDFS产出背景及定义1、HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2、HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文
Key-Key
·
2024-01-17 10:22
大数据
hadoop
hdfs
大
数据开发
之Hadoop(入门)
第1章:Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈1.2Hadoop优势(4高)1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2、高扩展性:再集群
Key-Key
·
2024-01-17 09:19
大数据
hadoop
分布式
牛客周赛 Round 11 解题报告 | 珂学家 | 线性dp+大剪枝
2023秋招—
数据开发
面经—美的今天滴滴群里发的消息24届计算机听劝23届亲身经历想问一下快手周末会联系吗邮储软件研发中心-实习淘汰有感邮储软件研发中心-实习淘汰有感重庆秋招系列(11)-重庆就业岗位汇总招银网络科技一面招银网络科技一面招银网络测开一面二面
2301_79125431
·
2024-01-17 04:26
java
工作十年总结的六条面试技巧,助力你拿到理想的offer
大
数据开发
的领域不同,面试的锚定点也不同,从我过往的经验来说,可以大致来将大数据领域的开发分为如下几种:离线开发:数据仓库、离线计算、ETL开发实时开发:流计算开发基础架构:组件二次开发,底层组件稳定性维护大数据运维方向数据平台开发一
KubeData
·
2024-01-17 02:12
个人成长
面试
职场和发展
大数据
只知道HDFS和GFS?你其实并不懂分布式文件系统
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大
数据开发
领域最强公众号!暴走大数据点击右侧关注,暴走大数据!
王知无(import_bigdata)
·
2024-01-16 13:14
分布式
大数据
hadoop
数据库
java
作业帮基于 DolphinScheduler 的
数据开发
平台实践
摘要随着任务数量、任务类型需求不断增长,对我们的
数据开发
平台提出了更高的要求。本文主要分享我们将调度引擎升级到ApacheDolphinScheduler的实践经验,以及对
数据开发
平台的一些思考。
DolphinScheduler社区
·
2024-01-16 03:46
大数据
大
数据开发
之Flume
第1章:Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。1.2Flume基础架构1.2.1Agent1、Agent:Flume的部署单元,本质是一个JVM进程,Agent内部是以事件的形式将数据从源头送至目的。2、组成:Agent主要有3个部分组成,Source、Channel、Sink。1.2.2Source1、S
Key-Key
·
2024-01-15 12:35
大数据
flume
大
数据开发
之Hive(压缩和存储)
第9章:压缩和存储Hive不会强制要求将数据转换成特定的格式才能使用。利用Hadoop的InputFormatAPI可以从不同数据源读取数据,使用OutputFormatAPI可以将数据写成不同的格式输出。对数据进行压缩虽然会增加额外的CPU开销,但是会节约客观的磁盘空间,并且通过减少内存的数据量而提高I/O吞吐量会更加提高网络传输性能。原则上Hadoop的job时I/O密集型的话就可以采用压缩可
Key-Key
·
2024-01-15 12:34
大数据
hive
hadoop
大
数据开发
之Hive(企业级调优)
第10章:企业级调优创建测试用例1、建大表、小表和JOIN后表的语句//创建大表createtablebigtable(idbigint,tbigint,uidstring,keywordstring,url_rankint,click_numint,click_urlstring)rowformatdelimitedfieldsterminatedby'\t';//创建小表createtable
Key-Key
·
2024-01-15 12:34
大数据
hive
hadoop
大
数据开发
之Hive(统计影音视频网站的常规指标)
第11章:Hive实战11.1数据结构1、视频表字段备注详细描述videoId视频唯一id(String)11位字符串uploader视频上传者(String)上传视频的用户名Stringage视频年龄(int)视频在平台上的整天数category视频类别(Array)上传视频指定的视频分类length视频长度(Int)整形数字标识的视频长度views观看次数(Int)视频被浏览的次数rate视频
Key-Key
·
2024-01-15 12:34
大数据
hive
hadoop
大
数据开发
之Hive(基本概念、安装、数据类型、DDL数据定义、DML数据操作)
第1章:Hive基本概念1.1Hive1.1.1Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。1.1.2hive简介Hive是基
Key-Key
·
2024-01-15 12:04
大数据
hive
hadoop
大
数据开发
之Hive(查询、分区表和分桶表、函数)
第6章:查询6.1基本语法及执行顺序1、查询语句语法select_expr,select_expr,...FROMtable_reference[WHEREwhere_condition][GROUPBYcol_list][ORDERBYcol_list][CLUSTERBYcol_list|[DISTRIBUTEBYcol_list][SORTBYcol_list]][LIMITnumber]2
Key-Key
·
2024-01-15 12:04
大数据
hive
hadoop
大
数据开发
之HA
第1章:HadoopHA高可用1.1HA概述所谓HA(HighAvailablity),即高可用(7*24小时不间断服务)。实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启。NameNode机器需要升级,包括软件、硬件升
Key-Key
·
2024-01-15 12:03
大数据
hadoop
大
数据开发
之Hive(详细版,最后有实战训练)
第1章:Hive基本概念1.1Hive1.1.1Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑,开发人员要编写MR对数据进行统计分析难度极大,所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。1.1.2hive简介Hive是基
Key-Key
·
2024-01-15 12:29
hive
hadoop
大数据
大
数据开发
之Zookeeper
第1章:Zookeeper入门1.1概述它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知这些已经在Zookeeper上注册的那些观察者做出相应的反应。1.2特点一个领导者(Leader),多个跟随者(Follower)组成的集群。集群中只要有半数以上的节点存活,Zookeeper集群就能正常工作。所以Zookeeper适合安装奇数台
Key-Key
·
2024-01-15 09:25
大数据
zookeeper
分布式
C#MQTT编程
04--
订阅报文
1、报文回顾在MQTT中,消息传递模式是采用发布订阅模式(Publish-SubscribePattern),它将发送消息的客户端(发布者)与接收消息的客户端(订阅者)解耦,使得两者不需要建立直接的联系也不需要知道对方的存在。看这两图发布者(Publisher)负责将消息发布到主题上,发布者一次只能向一个主题发送数据,发布者发布消息时也无需关心订阅者是否在线。订阅者(Subscriber)订阅者通
hqwest
·
2024-01-14 16:33
C#Mqtt网络编程
订阅报文
subscribe报文
suback报文
mqtt协议报文
mqtt通信报文
统一OLAP查询平台之语义层
背景:
数据开发
过程中,如果对分析指标理解有偏差将直接导致整个数据链路的返工,如何以最小代价应对分析指标的合理变动?同时,面对海量数据分析如何提高查询性能?这些问题都可以通过统一OLAP查询平台来解决。
XianMing的博客
·
2024-01-14 11:27
olap
数据仓库
语义分析
【
数据开发
】HiveSQL 临时表&分步执行(with, as )与时间函数(时间戳unix_timestamp)
1、分步执行(with…as…)HiveSQL中的WITH…AS…语句可以用于分步执行,即将一个大的查询语句拆分成多个小的查询语句,每个小的查询语句都可以使用WITH…AS…语句定义一个临时表,然后在后面的查询语句中使用这些临时表。用法1,增加一张临时表/临时步骤withtable1as(selectkeyfromsrcwherekey='5')select*fromtable1;用法2,增加并列
小哈里
·
2024-01-14 07:51
#
后端开发
unix
hive
sql
数据仓库
大数据
某大公司-大
数据开发
-二面
自我介绍1.来了公司,你知道这个岗位需要做什么吗。2.你之前休息的几个月,你都干了什么。这里我回答:自己刷题,加整理简历。然后对方领导反问我一直在找工作,我说是。觉得有点傻。3.假如我是刚来的,如果我做的任务不是很好,领导和下级觉得我做的不是很满意,我该怎么办。-------------以后打死一天至多面试两场。可能是没有休息好。我觉得我思考问题的时候都慢了半拍。然后一天面试三场真的很累。发现甲方
劝学-大数据
·
2024-01-13 19:23
大数据面试题
大数据
普通程序员转型大
数据开发
需要考虑哪些因素?
大数据工程师平均年薪达20万,在中国顶尖的互联网公司里,大
数据开发
人员的薪酬比同级别的其他职位高出30%以上,这也是很多程序员纷纷选择转型大
数据开发
的原因。
你的社交帐号昵
·
2024-01-13 17:57
大
数据开发
工程师需要具备哪些技能?
在回答这个问题之前,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大
数据开发
工程师,总体来说有这么几类,不同的公司叫法不一样:1、数仓开发工程师2、算法挖掘工程师
郑小柒是西索啊
·
2024-01-12 21:58
大数据
案例分享 | 基于Linkis+DSS构建合合信息一站式
数据开发
平台
目录指引1.IDS的简介2.IDS的诞生背景3.IDS——合数据工坊的实践之路3.1用户权限3.2引擎增强3.3作业调度3.4数据治理3.5IDS中一些小的功能改造点或应用项4.总结5.参考文档1.IDS的简介IntsigDataStudio(IDS)是上海合合信息科技股份有限公司,大数据平台基于微众WDS社区开源的Linkis&DSS组件构建的一站式敏捷数据应用开发管理门户,面向的主要用户群体包
康月牙
·
2024-01-10 15:16
oracle 独立事务的含义和用法
下面是一个Oracle数据库独立事务的示例:主事务:UPDATEempSETjob=‘
数据开发
’WHEREempno=7
zz_ll9023one
·
2024-01-10 09:02
oracle
外包-某行大
数据开发
-一面
估计是因为见到过我这种简历太多了,然后面试官直接问了问题1.clickhouse熟悉吗?2.shell熟悉吗,问了两个问题。1.如何获取文件的第一行?2.shell中怎么拼接两个字符串?3.传统数据库用的多吗?然后问了薪资多少,就没有再问了,合适再聊,就直接挂了我电话。整个过程没有超过5分钟。我回答了自己有写过相关脚本,但是其实当时都是照着抄的,面试官问两个问题我就露馅了,惭愧。从以上情况可以看出
劝学-大数据
·
2024-01-10 07:47
个人面试真题记录
大数据
大
数据开发
:Hive基础知识点介绍
今天的大
数据开发
分享,我们来讲讲Hive的基础知识点。Hive简介根据官方文档的定义,Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。
加米谷大数据张老师
·
2024-01-09 13:52
大数据
数据库
hive
数据仓库
某外包~大
数据开发
~项目经理二面
一面通过后,hr开始谈工资,以为外包一面就能拿下,没想到还是要我来公司聊一聊。1.介绍之前的项目2.公司是做什么业务的3.对加班的看法4.两道sql题,直接问的1.对于交易明细表中,求每个用户最大的日期的交易记录2.求学生表中,学生的最大成绩,成绩是varchar类型。答案如下:首先进行转换,然后在排序,之所以进行转换,原因是因为varchar类型比较大小时,按照的是位与位进行比较,若2与11va
劝学-大数据
·
2024-01-09 06:12
大数据面试题
大数据
某大厂大
数据开发
-外包面试
1.自我介绍2.具体问项目流程,如项目怎么实现的3.印象最深的问题,怎么发现的,怎么解决的?4.spark用过吗,用到的开发工具5.数据量多少,服务器台数6.数仓每层做了什么事,为什么这样做?笔试题:hive-sql一个表tbl:c_idu_idscore用SQL计算每个班级top5学生的平均分表A(uid,bid),uid代表:用户idbid代表:uid关注的用户id表数据示例:uidbid12
劝学-大数据
·
2024-01-09 06:42
面试
职场和发展
大数据
大
数据开发
-某外包公司
1.用过那些组件2.说下HDFS读写流程3.说下varchar和char区别4.说下数据库的事务5.spark的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和数据湖的区别9.说下公司的建模模型10.说下hadoop有那些组件面试体会:因为岗位jd上有明确的表示面试可能会问到的问题,比如数据湖,但是我几乎没有复习,所以很遗憾,说的也很糟糕。然后面试官说,
劝学-大数据
·
2024-01-09 06:10
个人面试真题记录
大数据
大
数据开发
学习笔记——hbase的rowkey设计
写在最前面:今日都是纯文字的笔记,希望朋友们能耐心看rowkey长度原则rowkey是一个二进制码流,可以是任意字符串,最大长度64kb,实际应用中一般为10-100bytes,以byte[]形式保存,一般设计成定长。建议越短越好,不要超过16个字节,原因如下:目前操作系统都是64位系统,内存8字节对齐,控制在16个字节,8字节的整数倍利用了操作系统的最佳特性。rowkey散列原则如果rowkey
卿卿老祖
·
2024-01-08 21:38
pandas应用和学习
一.pandas的基本内容1.Python在数据处理上有代码灵活,开发快速的特点.尤其是Python的Pandas包,无论是在数据分析领域还是在大
数据开发
场景都具有显著优势:①Pandas是Python
MSJ3917
·
2024-01-08 16:33
pandas
学习
数据分析之Pandas VS SQL!
对于
数据开发
工程师或分析师而言,SQL语言是标准的数据查询工具。本文提供了一系列的示例,说明如何使用pandas执行各种SQL操作。**Pandas简介**Pandas把结构化数据分为了三类:S
苍简
·
2024-01-08 07:49
Spark Core进阶知识
小知识:大
数据开发
人员/数据分析人员,必须要对自己统计的指标结果负责!!!
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
FlinkSQL中【FULL OUTER JOIN】使用实例分析(坑)
Flink版本:flink1.14最近有【FULLOUTERJOIN】场景的实时
数据开发
需求,想要的结果是,左右表来了数据都下发数据;左表存在的数据,右表进来可以关联下发(同样,右表存在的数据,左表进来也可以关联下发
PONY LEE
·
2024-01-07 20:46
flink
flink
有用的技术分享主题
SQLServer数据库和AgentJob集成化监控工具Airflow调度工具的安装和使用Tableau报表开发网络爬虫技术开发PythonGUI应用开发基于S3的数据湖架构设计和大
数据开发
Hive大数据仓库超大数据集去重解决方案
weixin_30777913
·
2024-01-07 10:42
sqlserver
数据库
数据仓库
big
data
etl
Linux常见面试题
题目说明:LINUX类的面试题适合传统行业实施,运维以及大
数据开发
,运维等岗位,在以上提到的岗位面试中均会有所涉及,初级岗位大部分为基础命令考核,难度丌大,但需要准确不熟练,会编写SHELL脚本会成为此类岗位求职优势
莓是草莓的莓
·
2024-01-06 01:17
Hadoop面试题与python基础
python基础(面向大
数据开发
)如果你是面向python开发,那么我的这些应该是不够用的,我的这些只够大
数据开发
人员使用;每一个岗位它对一门语言的要求掌握程度是不一样的;但是我写的这些你必须要会,它是基础中的基础
中长跑路上crush
·
2024-01-05 23:02
hadoop
python
大数据
数据分析求职-入职必备-工具篇
通常所说的数据分析岗位这个大类,细分的话还可以分为3个细类:数据研发/大
数据开发
:专注于数据的清洗和预处理,为后续消费数据的服务(比如数据分析
阿清陪你聊聊数据分析
·
2024-01-05 18:56
求职辅导
数据分析
数据挖掘
求职招聘
就业辅导
大
数据开发
-Hive-常用日期函数&&日期连续题sql套路
前面是常用日期函数总结,后面是一道连续日期的sql题目及其解法套路。1.当前日期和时间selectcurrent_timestamp--2020-12-0519:16:29.2842.获取当前日期,当前是2020-12-05SELECTcurrent_date;##ORSELECTcurrent_date();--2020-12-053.获取unix系统下的时间戳SELECTUNIX_TIMEST
Hoult-吴邪
·
2024-01-05 17:37
大数据开发-系列
Hive
日期函数
2023年网络安全十10大发展趋势发布
在建立安全可控、弹性包容的数据要素治理制度后,需有效推动
数据开发
利用与数据
瓦罗兰特顶级C位
·
2024-01-05 16:54
web安全
安全
学习
网络
数据库
网络安全
黑客
【亚马逊云科技】自家的AI助手 - Amazon Q
本人的技术路线从Java全栈工程师一路奔向大
数据开发
、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。
一头小山猪
·
2024-01-05 14:00
征文联动
#
亚马逊云
亚马逊
Amazon
AI
Amazon
Q
人工智能
大
数据开发
个人简历范本(2024最新版-附模板)
大
数据开发
工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景,熟悉相关技术和工具具备良好的团队合作能力,善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情
itLeeyw
·
2024-01-05 13:53
简历怎么写
大数据
简历
简历工具
个人简历
简历模板
JS实现多线程数据分片下载
在大
数据开发
过程中,为了提高大文件的上传速度,往往需要将大文件切割为小的数据分片,这样小分片数据可以充分利用有限的带宽,加快上传速度。
码说AI
·
2024-01-05 10:22
web前端技术
大数据
区块链技术
javascript
node.js
vue.js
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他