E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
04--数据开发
【大
数据开发
Spark】第一篇:Spark 简介、Spark 的核心组成(5大模块)、Spark 的主要特征(4大特征)、Spark 对比 MapReduce
文章目录1Spark简介2Spark的核心组成(5大模块)3Spark的主要特征(4大特征)4Spark对比MapReduce1Spark简介初步了解一项技术,最好的方式就是去它的官网首页,一般首页都会有十分官方且准确的介绍,学习Spark也不例外,官方介绍:ApacheSpark™是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。我们可以得知,Spark可以单节点运行,
超周到的程序员
·
2024-02-01 12:02
#
Spark
大数据开发技术
spark
big
data
mapreduce
大
数据开发
之离线数仓项目(用户行为采集平台)(可面试使用)
第1章:数据仓库概念数据仓库,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据:用户
Key-Key
·
2024-02-01 08:46
大数据
面试
职场和发展
hadoop
分布式
弹性分布式数据集
spark
数据管理评估工程师-一面
1.自我介绍2.对于数据管理能力成熟度评估师和
数据开发
的区别,了解3.家庭情况4.在项目中的开发流程简单了几分钟,告知会有二面,需要准备DCMM评估师相关的ppt讲解。
劝学-大数据
·
2024-02-01 02:01
个人面试真题记录
大数据
大厂 5 年实时
数据开发
经验总结,Flink SQL 看这篇就够了!
本文摘编于《FlinkSQL与DataStream入门、进阶与实战》(500页、70万字)作者羊艺超,目前就职于快手,国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时数仓的丰富经验京东机械工业出版社旗舰店限时5折使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后,接下来分析SQL实现流处理的核心技术。为什么要分析这个问
zhisheng_blog
·
2024-01-31 15:29
flink
sql
数据库
oracle
大数据
如何通过Hive/tez与Hadoop的整合快速实现大
数据开发
一、Hive的功能Hive是基于Hadoop的一个外围数据仓库分析组件,可以把Hive理解为一个数据仓库,但这和传统的数据库是有差别的。传统数据库是面向业务存储,比如OA、ERP等系统使用的数据库,而数据仓库是为分析数据而设计的。同时,数据仓库是在数据量巨大的情况下,为了进一步挖掘数据资源、为了企业决策需要而产生的,它不是所谓的“大型数据库”。Hive通过将结构化的数据文件映射到一张数据库表上,然
小枫@码
·
2024-01-31 08:00
大数据架构师
hadoop
大数据
hive
大
数据开发
:hadoop系统搭建以及spark编程
相关文章已上传至github,可以移步至GitHub查看。csdn这个坑先留着…传送门:https://github.com/louxinyao/Hadoop-spark
墨染枫
·
2024-01-31 06:47
大数据开发
大数据
分布式
hadoop
spark
开发接单群及网站
单子有:Python、java、爬虫、数据分析、大
数据开发
、matlab等等~有的让工程师自己谈!有的发单人员直接报价!因为有的单子客户心里没有预算!甚至有的客户只有一个题目!
「已注销」
·
2024-01-30 15:19
接单
hadoop
大数据
big
data
hive
如何接手一个大数据项目
作为一个
数据开发
小白,如何接手公司内的大数据系统呢?
Mmj666
·
2024-01-30 15:19
大数据
高薪大
数据开发
工程师是怎样炼成的!!!
云栖大会有阿里巴巴集团主办的全球顶级科技大会,汇聚时代最强大脑,描绘新技术发展趋势和蓝图,展现云计算、大数据、人工智能等蓬勃发展的科技生态全景。2018阿里云栖大会,超过12万人参加这场顶级科技盛会,优秀的人都在拥抱这个世界最新的技术。国家推动大数据战略人工智能的发展让大家的生活变得更美好。潭州教育历届在云栖大会上不负重任分享历史之最强干货,因为最棒的VIP同学就是我们前进的动力,因为相信所以看见
yoku酱
·
2024-01-30 14:05
【美团】无人机-大
数据开发
工程师
更新时间:2024/01/29工作地点:北京市事业群:到家事业群工作经验:3年部门介绍为了更好地提升城市即时配送的效率与体验,美团于2017年启动了无人机配送服务的探索,通过科技创新推动履约工具变革,加快建设空地协同的本地即时配送网络,致力于为用户提供3公里、15分钟的标准配送服务。通过发展飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力,并适应社区、商场、写字楼等多种场景,让无人机
探小虎
·
2024-01-30 13:57
大厂工作机会
无人机
大数据
java
spring
奇富科技:大数据任务从诊断到自愈的实践之路
一、为什么要做诊断引擎毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台,覆盖大数据资产管理、
数据开发
及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程,让用户使用数据的同时
DolphinScheduler社区
·
2024-01-30 11:08
大数据
flink sql 知其所以然(十六):flink sql 开发企业级利器之 Dlink
搞大
数据开发
的同学基本都知道在HUE上面写hivesql贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢?
大数据羊说
·
2024-01-30 11:06
Apache
Flink
实时计算
Flink
SQL
flink
sql
hive
Jenkins--基础--
04--
安装中文插件
Jenkins–基础–04–安装中文插件1、插件安装位置LocaleLocalization安装成功后,就使用docker命令重启下服务。2、设置中文重启后进入到配置页面中找到Locale参数位置。DefaultLanguage设置为:zh_CN3、效果图4、问题4.1、部分中文,部分英文情况将语言设定为zh_US,Jenkins切换为英文。重启Jenkins再次语言设定为zh_CN,刷新即可。|
勤径苦舟
·
2024-01-30 08:25
jenkins
jenkins
运维
docker
mysql er图 属性 联系_MySql (四) ER图与实体关系映射
数据开发
步骤:那么:我们的数据库设计是不是可以理解为:实体模型->概念模型->数据模型的过程。数据库设计的主要任务:实
洪宇同学
·
2024-01-29 23:24
mysql
er图
属性
联系
eclipse中搭建Mybatis环境
需求使用Mybatis从Mysql数据库中查询出
数据开发
步骤准备Mysql数据库,创建表结构,添加一些数据创建Java工程,导入开发的jar包编写实体类,和表结构对应,用来进行数据封装编写映射配置文件(
.泡面.
·
2024-01-28 20:55
笔记
mybatis
mysql
java
Spark —— JSON对象/数组转成Spark Dataset/DataFrame
JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构,那么能熟练并快速地处理JSON格式数据应该是
数据开发
人员的必备技能
Southwest-
·
2024-01-28 08:16
Spark
spark
json
Controller 同时接收 MultipartFile数据 以及 json数据
Controller同时接收MultipartFile数据以及json
数据开发
中遇到一个接口同时需要接收MultipartFile文件以及其他的json数据,在网上搜索,结果不理想.很多方案觉得无厘头类似这种
景天^-^
·
2024-01-28 04:34
MultipartFile
File
controller
java
html5
释放大数据潜能——国家卫计委推动人口流动迁移数据资源共享
以下简称国家卫计委)流动人口司与北京大学国家发展研究院联合举办的“第三届新型城镇化与流动人口社会融合论坛”上,国家卫计委副主任王培安提出倡议:加快推进政府部门人口数据的共享,促进公共数据资源开放互通,加强
数据开发
共享的国际交流
H_MZ
·
2024-01-26 23:48
大数据
大
数据开发
必备工具——Hadoop及整体架构介绍
Hadoop是一个由Apache软件基金会开发的开源Java软件框架,专为大数据处理设计,支持在大量计算机组成的集群上进行数据存储和分布式计算。它由几个关键的组件组成,其中最核心的是Hadoop分布式文件系统(HDFS)和MapReduce计算模型。Hadoop的整体架构经过了这么多年的开发与演进,Hadoop早已成为一个庞大的系统,它的内部工作机制非常复杂,是一个结合了分布式理论与具体的工程开发
love6a6
·
2024-01-26 21:03
大数据
hadoop
架构
带你了解分布式系统的数据一致性问题
老刘是一名即将找工作的研二学生,写博客一方面是复习总结大
数据开发
的知识点,一方面是希望能够帮助和自己一样自学编程的伙伴。
努力的老刘
·
2024-01-26 14:50
大
数据开发
之Spark(spark streaming)
第1章:SparkStreaming概述1.1sparkstreaming是什么sparkstreaming用于流式数据的处理。sparkstreaming支持的数据源很多,例如:kafka、flume、hdfs等。数据输入后可以用spark的高度抽象原语如:map、reduce、join、window等进行计算。而结果也能保存在很多地方,如hdfs、数据库等。1.2sparkstreaming框
Key-Key
·
2024-01-25 21:07
大数据
spark
分布式
大
数据开发
之Spark(完整版)
第1章:Spark概述1.1什么是spark回顾:hadoop主要解决,海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚,所以spark自己也涉及了一套资源调度框架。区别:1、mr是基于磁盘的,spark是基于内存2、mr的task是进程3、spark的task
Key-Key
·
2024-01-25 21:05
大数据
spark
分布式
弹性分布式数据集
hadoop
Java第一阶段学习(初级)笔记
Java能做什么桌面应用开发、企业级用用开发、移动应用开发、科学计算、大
数据开发
、游戏开发一、Java入门1、下载安装IDEA:快捷键Ctrl+alt+l调整格式Ctrl+alt+M自动抽取代码shift
m0_xiaoxiaoqian
·
2024-01-25 11:57
java
学习
开发语言
天津大数据培训班推荐,数据分析过程的常见错误
大数据就业方向大
数据开发
方向:掌握Java、Python、Scala等开发语言,以及关系型与非关系
qq_38453958
·
2024-01-25 06:57
大数据培训
天津大数据培训
天津大数据培训班
天津大数据培训机构
天津大数据培训学校
大数据培训
大
数据开发
之Spark(累加器、广播变量、Top10热门品类实战)
第3章:累加器累加器:分布式共享只写变量。(executor和executor之间不能读数据)累加器用来把executor端变量信息聚合到driver端。在driver中定义的一个变量,在executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回driver端进行合并计算。1、累加器使用1)累加器定义(sparkcontext.accumulator(in
Key-Key
·
2024-01-25 00:25
大数据
spark
分布式
大
数据开发
之SparkSQL
第1章:sparksql概述1.1什么是sparksql1、sparksql是spark用于结构化数据处理的spark模块1)半结构化数据(日志数据)2)结构化数据(数据库数据)1.2为什么要有sparksqlhiveonspark:hive既作为存储元数据又负责sql的解析优化,语法是hql语法,执行引擎编程了spark,spark负责采用rdd执行。sparkonhive:hive只作为存储元
Key-Key
·
2024-01-25 00:24
大数据
hadoop
大
数据开发
之Spark(RDD弹性分布式数据集)
第1章:rdd概述1.1什么是rddrdd(resilientdistributeddataset)叫做弹性分布式数据集,是spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1rdd类比工厂生产1.1.2wordcount工作流程1.2rdd五大特性1、一组分区(partition),即是数据集的基本组成单位,标记数据是哪个分区
Key-Key
·
2024-01-24 07:17
大数据
分布式
spark
弹性分布式数据集
Apache DolphinScheduler社区新晋Committer:伏长海的开源之旅
文章作者:**伏长海**文章整理:曾辉个人介绍大家好,我是伏长海,目前在珍岛集团担任大
数据开发
工程师职位!
DolphinScheduler社区
·
2024-01-23 12:17
大数据
大
数据开发
之Scala
第1章:scala入门1.1概述scala将面向对象和函数式编程结合成一种简洁的高级语言特点1、scala和java一样属于jvm语言,使用时都需要先编译为class字节码文件,并且scala能够直接调用java的类库2、scala支持两种编程范式面向对象和函数式编程3、scala语言更加简洁高效第2章:变量和数据类型2.1注释Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好
Key-Key
·
2024-01-23 11:00
大数据
scala
开发语言
大
数据开发
之Spark(入门)
第1章:Spark概述1.1什么是spark回顾:hadoop主要解决,海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚,所以spark自己也涉及了一套资源调度框架。区别:1、mr是基于磁盘的,spark是基于内存2、mr的task是进程3、spark的task
Key-Key
·
2024-01-23 09:45
大数据
spark
分布式
Flink SQL 实时
数据开发
经验总结
使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后,接下来分析SQL实现流处理的核心技术。为什么要分析这个问题呢?因为传统的关系代数以及SQL最开始是为了批处理设计的,在传统关系型数据库以及批处理中,数据都是有界的,因此SQL语句的执行过程比较好理解,但是在流处理中,数据是无界的,那么将SQL应用于流处理的理解成本以及实现成本相对批处理就高很多了。因此在本
BUG记录机
·
2024-01-22 11:52
flink
sql
数据库
大
数据开发
之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
第1章:数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念:为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括:业务数据、用户行为数据和爬虫数据等3、业务系统数据库
Key-Key
·
2024-01-22 07:29
大数据
hadoop
flume
kafka
hive
hdfs
大语言模型无代码构建知识图谱(2)--环境准备
需已安装HuggingFists系统,该系统将提供无代码的可视化
数据开发
环境。通过该系统利用大语言模型辅助知识图谱的构建。
colorknight
·
2024-01-21 10:23
知识图谱
低代码
人工智能
大语言模型
提示工程
HuggingFists
通义千问
02-黑马程序员大
数据开发
:分布式计算和分布式资源调度
1.分布式计算概述目标:了解什么是计算?什么是分布式计算?计算是对数据进行处理,使用统计分析等手段得到需要的结果;分布式计算是多台服务器协同工作,共同完成一个计算任务。分布式计算模式:分散->汇总模式(MapReduce)和中心调度->步骤执行模式(ApacheSpark,Flink;比较复杂,中间会有数据交换的过程);2.MapReduce概述MapReduce是Hadoop中的分布式计算组件,
S1406793
·
2024-01-21 08:52
大数据开发
大数据
分布式
03-黑马程序员大
数据开发
:Apache Hive
一、ApacheHive概述1.目的:了解什么是分布式SQL计算;了解什么是ApacheHive2.使用Hive处理数据的好处操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)底层执行MapReduce,可以完成分布式海量数据的SQL处理3.什么是分布式SQL计算?以分布式的形式,执行SQL语句,进行数据统计分析。4.ApacheHive是做什么的?很简单,是一款分布式SQL计算
S1406793
·
2024-01-21 08:21
大数据开发
大数据
apache
hive
大
数据开发
之kafka(完整版)
第1章:Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja
Key-Key
·
2024-01-21 07:19
大数据
kafka
分布式
大
数据开发
之Kafka(broker、消费者、eagle监控、kraft模式)
第4章:KafkaBroker4.1KafkaBroker工作流程4.1.1Zookeeper存储的Kafka的信息1、查看zookeeper中的kafka节点所存储的信息启动Zookeeper客户端[
[email protected]
]$bin/zkCli.sh通过ls命令列出kafka节点内容[zk:localhost:2181(CONNECTED)2]ls/ka
Key-Key
·
2024-01-21 07:18
大数据
kafka
linq
实战讲解|Trino 在袋鼠云数栈的探索与实践
袋鼠云数栈作为新一代一站式大数据基础软件,其核心优势在于不仅提供了快速便捷、易于上手的底层
数据开发
模块,更推出了涵盖质量、标签及指标等上层偏业务功能模块。
袋鼠云数栈
·
2024-01-20 21:44
大数据
大数据与算法人生
一、大数据时代的两难命题:1、
数据开发
和个人隐私之间的矛盾。精准商业一定是数据驱动的,不能够使用数据,技术进步就成了空话。2、数据的确权与利益分配问题。
骁客振华
·
2024-01-20 17:29
程序员必备的面试技巧——大数据工程师面试必备技能
目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大
数据开发
岗位
Francek Chen
·
2024-01-20 11:22
话题征文
面试
职场和发展
大数据
大
数据开发
之Kafka(概述、快速入门、生产者)
第1章:Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja
Key-Key
·
2024-01-20 10:39
大数据
kafka
分布式
大
数据开发
之Hadoop(完整版+练习)
第1章:Hadoop概述1.1Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。3、Hadoop通常是指一个更广泛的概念-Hadoop生态圈1.2Hadoop优势(4高)1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2、高扩展性:再集群
Key-Key
·
2024-01-20 10:36
hadoop
hdfs
mapreduce
分布式
大数据
干货:自助分析BI产品实践指南
对于产品&业务:产品迭代、运营活动需要各种数据分析支持,数据调取依赖
数据开发
排期长、响应慢,
e73fe7dcce95
·
2024-01-19 19:18
经历十九家企业大
数据开发
工程师面试复盘(二)
背景引入我个人计划是5月中旬争取拿到offer,但是个人技术太菜了,所以经历了一个多月的面试才有两家企业的offer,全是外包。我本人是应届毕业生,校招学历这块不起眼,选择权很少。至于大厂就基本没面。在面试中小企业我可以给大家一个借鉴。认知篇问题1:我是应届小白,求职比不上工作年限的技术人才,我是不是在一线城市很难找到工作?答:不是的,其实应届小白是可以在秋招或者春招找到实习的,如果企业招应届毕业
南潇如梦
·
2024-01-19 16:36
面试
面试
big
data
java
面试初体验:经历七场面试大
数据开发
工程师岗位总结(一)
我只想总结一下这周面试大
数据开发
岗位的精彩表现。希望可以给需要求职的同学一个好的体验。1招聘信息的收集网上投简历一般进入互联网还是使用boss直聘和拉勾网。
南潇如梦
·
2024-01-19 16:36
面试
面试
java
职场和发展
某小外包公司线上面试-大
数据开发
1.数仓和数据库的区别2.数仓建模3.hive用到的函数4.rank,dense_rank,row_number的区别5.hive数据倾斜的原因有哪些7.如何理解数据质量?6.java,scala会用吗?7.期望薪资多少?(感觉说出来就无了)面的初级岗附上hr问的问题?1.公司开发人员占比?公司规模?
劝学-大数据
·
2024-01-19 16:03
大数据面试题
大数据
德拓外包-大
数据开发
面试
1.面试官要是要看以前写过的代码,要共享屏幕怎么办?都在公司的库里,银行金融项目谁让你把代码带出去的,就是公司业务保密1.自我介绍2.数据采集相关,怎么把kafka中的数据采集到mysql中?忘了3.hive,两张表的重复数据,怎么去重?回答distinct,groupby,开窗取第一条,开窗函数是哪个?没回答上来4.udf函数写过吗,flink消费kafka中的数据写过代码吗,需要看代码?5.使
劝学-大数据
·
2024-01-19 16:03
大数据面试题
大数据
五年Java外包转型大数据架构
去年年底他刚开始学大数据的时候给我打过电话,咨询一些学习路线上的问题,那时刚转型大数据的我给了他几点不太成熟的建议,今年年初就成功转型了,并且从
数据开发
到现在的架构,实属牛逼。
大数据基础入门教程
·
2024-01-19 16:32
大数据
大数据架构
大数据开发
某汽车外包-大
数据开发
-面试
1.自我介绍2.hivesql的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。6.clickhouse怎么建表的,什么是分表7.搭建采集过程遇到的问题,关于组件信息8.分桶表和分区表的区别,分桶表的设计未来解决什么问题。9.datax用来干什么的,datax是用什么语言编写的。10.redis用过吗,在项目中
劝学-大数据
·
2024-01-19 16:28
大数据面试题
大数据
大数据工作岗位分析
本文从基础大
数据开发
岗开始分析,思考大数据工作细分有哪些岗位,分别需要什么能力,以此来提供大数据能力发展方向参考
i7杨
·
2024-01-19 13:37
大数据技术分析
大数据工作需求分析
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他