大数据开发常用技术第2页

【Flink】FlinkSQL实现数据从Kafka到MySQL

简介未来Flink通用化，代码可能就会转换为sql进行执行，大数据开发工程师研发Flink会基于各个公司的大数据平台或者通用的大数据平台，去提交FlinkSQL实现任务，学习Flinksql势在必行。

一杯咖啡半杯糖·2024-02-07 06:39

第9章 SpringBoot综合项目实战——个人博客系统

学习目标了解博客系统的系统功能和文件组织结构熟悉博客系统数据库相关表及字段的设计熟悉系统环境搭建的步骤及相关配置掌握前后台管理模块功能的实现掌握用户登录，定时邮件发送功能的实现通过前面章节的学习，读者应该已经掌握了SpringBoot框架的基本知识，并学会了与其他常用技术的整合使用

笔触狂放·2024-02-06 14:24

大数据开发之机器学习总结（一）

大数据开发之机器学习总结1.背景在大数据开发中，数据分析目的一般分为2大类，一个是基于已有数据，提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型，基于模型预测和分析未来的新数据。

闻香识代码·2024-02-05 21:41

(五)ATP应用测试平台常用技术栈案例整合——license-maven-plugin插件实现代码一键式版权信息添加

前言在项目代码开发中，我们会有需求在代码中标识软件的一些版权信息，或者是申请软件著作权中用到版权信息。本小节作者推介一款maven插件，能够通过maven的打包命令或者插件的命令，轻松实现在我们的源码中植入版权信息。那就是我们的license-maven-plugin插件。本小节的演示项目依然使用我们的ATP应用测试平台。欢迎fork哦。正文pom文件中引入license-maven-plugin

厉害哥哥吖·2024-02-05 07:36

【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南

Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新

运维道上奔跑者·2024-02-04 05:43

2019-10-08 大数据开发进阶之路

市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术，如HDFS/MapRedunce/Yarn/HBase/Flume等掌握Spark生态核心技术，如Spark架构/RDD转换算子/行动算子/持久化算子/任务调度/SparkStreaming等能够对崭新的问题进行建模分析，使用一直只是进行解决掌握大数据平台调优技能，源码阅读技巧具备应对BAT级别相关岗位面试能力学

红瓦李·2024-02-03 20:39

【Java EE 面试题笔记】

：存在不定项选择)1、在表单提交的数据中，如果变量的值有多个，这时应调用()方法2、在J2EE中，以下不是JSP隐式对象的是()3、JDBC中负责建立与数据库连接的是（）4、下列()技术不是ajax的常用技术

sakura欣悠·2024-02-02 10:20

都 2024 年了！程序员的到底出路在哪里！？继续卷技术？晋升管理层？还是转业？

1）程序员的难处2）程序员专业方向3）大数据3.1.大数据开发涉及到哪些技术3.2.大数据开发涉及到的框架3.3.大数据前景4）程序员的三大出路4.1.继续卷技术4.2.晋升管理层4.3.转业4.3.1

bmyyyyyy·2024-02-01 21:25

秋招的一些面经吧——大数据面经和java面经（阿里巴巴）

应聘方向是大数据开发和java开发大概拿到的offer有：阿里、美团、快手、贝壳、作业帮、旷视、农行总部、浙江大华、海康威视、有赞、云从科技、招银网络科技、oppo一.阿里巴巴（已拿offer）：渣硕阿里面了总共三个部门

大数据教学笔记·2024-02-01 20:19

【Python】提高函数调用效率：使用缓存装饰器实现简单的记忆化

缓存是一种避免重复计算和加速程序运行的常用技术。幸运的是，在大多数情况下，我们不需要编写自己的缓存代码，因为Python已经提供了一个现成的解决方案——@functools.cache装饰器。

初于青丝mc终于白发·2024-02-01 16:03

大数据开发流程图

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop：（发音：skup）作为一款开源的离线数据传输工具，主要用于Hadoop(Hive)与传统数据库（MySql,PostgreSQL）间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中，也可以将HDFS中的数据导入关系型数据库中。Flume：实时数据采集的一个开源框架，它是Cloudera提供的一个高可用

xyzkenan·2024-02-01 14:30

MD5算法：高效安全的数据完整性保障

消息摘要算法就是一种用于实现这一目标的常用技术。其中，MessageDigestAlgorithm5（MD5）算法因其高效性和安全性而受到广泛关注。

qcidyu·2024-02-01 13:50

Spark系列（十）Shuffle的技术难点问题--Spark比MapReduce快的真正原因

写在前面：我是「nicedays」，一枚喜爱做特效，听音乐，分享技术的大数据开发猿。这名字是来自worldorder乐队的一首HAVEANICEDAY。

NICEDAYSS·2024-02-01 12:03

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

文章目录1Spark简介2Spark的核心组成（5大模块）3Spark的主要特征（4大特征）4Spark对比MapReduce1Spark简介初步了解一项技术，最好的方式就是去它的官网首页，一般首页都会有十分官方且准确的介绍，学习Spark也不例外，官方介绍：ApacheSpark™是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。我们可以得知，Spark可以单节点运行，

超周到的程序员·2024-02-01 12:02

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第1章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据：用户

Key-Key·2024-02-01 08:46

Nginx 配置为负载均衡器(Version:1.14.2)

介绍跨多个应用程序实例的负载平衡是一种常用技术，用于优化资源利用率，最大化吞吐量，减少延迟并确保容错配置。

MicoCube·2024-02-01 03:31

远程访问@HttpExchange

HttpExchange一、webClient二、Http服务接口的方法定义三、声明式HTTP远程服务1.组合使用注解2.使用单个注解3.定制HTTP请求服务四、总结1.部分方法过时2.过时的方法详解远程访问是开发的常用技术

小宝945·2024-01-31 20:58

Java目前合适您诉求的职位一览

JAVA基础扎实，理解io、多线程、集合等基础框架，对JVM原理有一定的了解，对Spring,ibatis,struts等开源框架熟悉；熟悉分布式系统的设计和应用，熟悉分布式、缓存、消息等机制；能对分布式常用技术进行合理应用

持续成长的mage·2024-01-31 10:28

如何通过Hive/tez与Hadoop的整合快速实现大数据开发

一、Hive的功能Hive是基于Hadoop的一个外围数据仓库分析组件，可以把Hive理解为一个数据仓库，但这和传统的数据库是有差别的。传统数据库是面向业务存储，比如OA、ERP等系统使用的数据库，而数据仓库是为分析数据而设计的。同时，数据仓库是在数据量巨大的情况下，为了进一步挖掘数据资源、为了企业决策需要而产生的，它不是所谓的“大型数据库”。Hive通过将结构化的数据文件映射到一张数据库表上，然

小枫@码·2024-01-31 08:00

大数据开发：hadoop系统搭建以及spark编程

墨染枫·2024-01-31 06:47

开发接单群及网站

单子有：Python、java、爬虫、数据分析、大数据开发、matlab等等~有的让工程师自己谈！有的发单人员直接报价！因为有的单子客户心里没有预算！甚至有的客户只有一个题目！

「已注销」·2024-01-30 15:19

高薪大数据开发工程师是怎样炼成的！！！

云栖大会有阿里巴巴集团主办的全球顶级科技大会，汇聚时代最强大脑，描绘新技术发展趋势和蓝图，展现云计算、大数据、人工智能等蓬勃发展的科技生态全景。2018阿里云栖大会，超过12万人参加这场顶级科技盛会，优秀的人都在拥抱这个世界最新的技术。国家推动大数据战略人工智能的发展让大家的生活变得更美好。潭州教育历届在云栖大会上不负重任分享历史之最强干货，因为最棒的VIP同学就是我们前进的动力，因为相信所以看见

yoku酱·2024-01-30 14:05

【美团】无人机-大数据开发工程师

更新时间：2024/01/29工作地点：北京市事业群：到家事业群工作经验：3年部门介绍为了更好地提升城市即时配送的效率与体验，美团于2017年启动了无人机配送服务的探索，通过科技创新推动履约工具变革，加快建设空地协同的本地即时配送网络，致力于为用户提供3公里、15分钟的标准配送服务。通过发展飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力，并适应社区、商场、写字楼等多种场景，让无人机

探小虎·2024-01-30 13:57

flink sql 知其所以然（十六）：flink sql 开发企业级利器之 Dlink

搞大数据开发的同学基本都知道在HUE上面写hivesql贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢？

大数据羊说·2024-01-30 11:06

【滴滴】Java开发工程师(J240118002)

熟悉互联网常用技术和中间件：分库分表技术、

探小虎·2024-01-29 00:49

大数据开发必备工具——Hadoop及整体架构介绍

Hadoop是一个由Apache软件基金会开发的开源Java软件框架，专为大数据处理设计，支持在大量计算机组成的集群上进行数据存储和分布式计算。它由几个关键的组件组成，其中最核心的是Hadoop分布式文件系统（HDFS）和MapReduce计算模型。Hadoop的整体架构经过了这么多年的开发与演进，Hadoop早已成为一个庞大的系统，它的内部工作机制非常复杂，是一个结合了分布式理论与具体的工程开发

love6a6·2024-01-26 21:03

带你了解分布式系统的数据一致性问题

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望能够帮助和自己一样自学编程的伙伴。

努力的老刘·2024-01-26 14:50

NNI --模型剪枝

概念剪枝是压缩神经网络模型的常用技术。剪枝方法探索模型权重（参数）中的冗余，并尝试删除/修剪冗余和非关键权重。冗余元素从模型中修剪，其值归零，我们确保它们不参与反向传播过程。

Good@dz·2024-01-26 01:33

大数据开发之Spark（spark streaming）

第1章：SparkStreaming概述1.1sparkstreaming是什么sparkstreaming用于流式数据的处理。sparkstreaming支持的数据源很多，例如：kafka、flume、hdfs等。数据输入后可以用spark的高度抽象原语如：map、reduce、join、window等进行计算。而结果也能保存在很多地方，如hdfs、数据库等。1.2sparkstreaming框

Key-Key·2024-01-25 21:07

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚，所以spark自己也涉及了一套资源调度框架。区别：1、mr是基于磁盘的，spark是基于内存2、mr的task是进程3、spark的task

Key-Key·2024-01-25 21:05

Java第一阶段学习（初级）笔记

Java能做什么桌面应用开发、企业级用用开发、移动应用开发、科学计算、大数据开发、游戏开发一、Java入门1、下载安装IDEA：快捷键Ctrl+alt+l调整格式Ctrl+alt+M自动抽取代码shift

m0_xiaoxiaoqian·2024-01-25 11:57

天津大数据培训班推荐，数据分析过程的常见错误

大数据就业方向大数据开发方向：掌握Java、Python、Scala等开发语言，以及关系型与非关系

qq_38453958·2024-01-25 06:57

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

第3章：累加器累加器：分布式共享只写变量。（executor和executor之间不能读数据）累加器用来把executor端变量信息聚合到driver端。在driver中定义的一个变量，在executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回driver端进行合并计算。1、累加器使用1）累加器定义（sparkcontext.accumulator(in

Key-Key·2024-01-25 00:25

大数据开发之SparkSQL

第1章：sparksql概述1.1什么是sparksql1、sparksql是spark用于结构化数据处理的spark模块1）半结构化数据（日志数据）2）结构化数据（数据库数据）1.2为什么要有sparksqlhiveonspark：hive既作为存储元数据又负责sql的解析优化，语法是hql语法，执行引擎编程了spark，spark负责采用rdd执行。sparkonhive：hive只作为存储元

Key-Key·2024-01-25 00:24

大数据开发之Spark（RDD弹性分布式数据集）

第1章：rdd概述1.1什么是rddrdd（resilientdistributeddataset）叫做弹性分布式数据集，是spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1rdd类比工厂生产1.1.2wordcount工作流程1.2rdd五大特性1、一组分区（partition），即是数据集的基本组成单位，标记数据是哪个分区

Key-Key·2024-01-24 07:17

Apache DolphinScheduler社区新晋Committer：伏长海的开源之旅

文章作者：**伏长海**文章整理：曾辉个人介绍大家好，我是伏长海，目前在珍岛集团担任大数据开发工程师职位!

DolphinScheduler社区·2024-01-23 12:17

大数据开发之Scala

第1章：scala入门1.1概述scala将面向对象和函数式编程结合成一种简洁的高级语言特点1、scala和java一样属于jvm语言，使用时都需要先编译为class字节码文件，并且scala能够直接调用java的类库2、scala支持两种编程范式面向对象和函数式编程3、scala语言更加简洁高效第2章：变量和数据类型2.1注释Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好

Key-Key·2024-01-23 11:00

前端项目技术选型以及页面展示【第二期】

内容：抽象出cloud中使用到的常用技术。目标做一个低代码的组件平台。将流程，数据库操作，建模、docker运维、文件系统等抽象出来方便的调用。会定期提升代码质量。

呆呆呆呆梦·2024-01-23 09:42

大数据开发之Spark（入门）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚，所以spark自己也涉及了一套资源调度框架。区别：1、mr是基于磁盘的，spark是基于内存2、mr的task是进程3、spark的task

Key-Key·2024-01-23 09:45

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第1章：数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本，提高产品质量。数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包括对数据的：清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括：业务数据、用户行为数据和爬虫数据等3、业务系统数据库

Key-Key·2024-01-22 07:29

中原焦点秦皇岛站第五期，每日分享第303天

常用技术汇总1.通用技术（1）赞美1）一个目的创造改变的动能赋能：看到优势资源，提升自尊感建立正向、合作的咨询关系2）两大素材重新建构，找到难能可贵的地方（重新建构是心里有，赞美是嘴上说）停止做错也是赞美的向度

Vivian_c8c7·2024-01-22 07:30

[AIGC] 深入理解Java并发编程：从入门到进阶

本文将介绍Java并发编程的基础概念、常用技术和最佳实践，帮助读者深入理解Java并发编程。一、并发编程基础概念线程和进程的概念及区别线程的生命周期和状态进程间通信方式二、Java并发编程基础

程序员三木·2024-01-22 01:57

02-黑马程序员大数据开发：分布式计算和分布式资源调度

1.分布式计算概述目标：了解什么是计算？什么是分布式计算？计算是对数据进行处理，使用统计分析等手段得到需要的结果；分布式计算是多台服务器协同工作，共同完成一个计算任务。分布式计算模式：分散->汇总模式（MapReduce）和中心调度->步骤执行模式（ApacheSpark,Flink;比较复杂，中间会有数据交换的过程）；2.MapReduce概述MapReduce是Hadoop中的分布式计算组件，

S1406793·2024-01-21 08:52

03-黑马程序员大数据开发：Apache Hive

一、ApacheHive概述1.目的：了解什么是分布式SQL计算；了解什么是ApacheHive2.使用Hive处理数据的好处操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手)底层执行MapReduce，可以完成分布式海量数据的SQL处理3.什么是分布式SQL计算？以分布式的形式，执行SQL语句，进行数据统计分析。4.ApacheHive是做什么的？很简单，是一款分布式SQL计算

S1406793·2024-01-21 08:21

大数据开发之kafka（完整版）

第1章：Kafka概述1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。1.2消息队列目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大多数场景主要采用Kafka作为消息队列在Ja

Key-Key·2024-01-21 07:19

大数据开发之Kafka（broker、消费者、eagle监控、kraft模式）

第4章：KafkaBroker4.1KafkaBroker工作流程4.1.1Zookeeper存储的Kafka的信息1、查看zookeeper中的kafka节点所存储的信息启动Zookeeper客户端[[email protected]]$bin/zkCli.sh通过ls命令列出kafka节点内容[zk:localhost:2181(CONNECTED)2]ls/ka

Key-Key·2024-01-21 07:18

Java 类加载器学习

前言类加载器属于JVM的一个重要知识点，也是Java安全里命令执行、webshell管理器编写的常用技术。

CSeroad·2024-01-21 03:43

程序员必备的面试技巧——大数据工程师面试必备技能

目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位

Francek Chen·2024-01-20 11:22

大数据开发之Kafka（概述、快速入门、生产者）