04--数据开发第2页

图解大数据 | 大数据分析挖掘-Spark初步

Dashesand·2024-02-08 03:22

STM32 虚拟串口HAL库开发

STM32HAL库，处理虚拟串口数据(全双工处理)今天给大家讲的HAl下面虚拟串口数据开发，解决量产板子串口硬件问题，解决串口不不够用的情况。

LINNIU·2024-02-07 23:00

数仓：用户行为类指标一网打尽

关注公众号，回复关键字【资料】，获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】先来看下用户类行为指标说明，然后下面详解常写的指标。

大数据左右手·2024-02-07 09:35

数仓：事实表设计方法，原则和三种类型选择

关注公众号，回复关键字【资料】，获取【10万字大数据框架面试知识点】与【大数据开发的命令手册】事实表设计方法事实表作为数据仓库维度建模的核心，紧紧围绕着业务过程来设计。

大数据左右手·2024-02-07 09:35

【Flink】FlinkSQL实现数据从Kafka到MySQL

简介未来Flink通用化，代码可能就会转换为sql进行执行，大数据开发工程师研发Flink会基于各个公司的大数据平台或者通用的大数据平台，去提交FlinkSQL实现任务，学习Flinksql势在必行。

一杯咖啡半杯糖·2024-02-07 06:39

各互联网企业测绘资质调研

1导航地图甲级测绘资质2互联网地图服务甲级资质2007空间数据中台产品间数据同步、空间数据探查、空间数据标准与质量、空间数据开发、空间数据建模与融合、空间数据服

shishi521·2024-02-07 03:04

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor

然而，随着系统的复杂性增加，用户在日常使用中往往需要面临诸如复杂的数据开发报错分析、任务运行报错处理、任务运行调优等疑难问题。然而，由于错误日志分析透出和全链路异常诊断能力方面存在一定的不足。

阿里云大数据AI技术·2024-02-06 16:49

【写作成长计划】04--最好的时间陪伴你

今天周末，几个关系不错的同事一起小聚。打破常规，这次带上了孩子。一方面是闲暇难得，尽可能多陪陪孩子。另一方面也是想让这些独生子女们一起聚聚，增强社交。北京的杨絮真多，我们基本是在飘雪的状态下，边吃边摘串上的毛。孩子们都是学龄前的，还都很慢热，几乎用幼儿世界的沟通方式，无声地交流、配合着。这次特意为他们准备了颜料。所谓写生，其实就是涂鸦。从纸上到树上，不亦乐乎。看着色彩斑斓的痕迹，不禁感叹，这真是他

塔姐幸福说·2024-02-06 12:36

Vue3入门到实战笔记04--生命周期和自定义hook

13.生命周期概念：Vue组件实例在创建时要经历一系列的初始化步骤，在此过程中Vue会在合适的时机，调用特定的函数，从而让开发者有机会在特定阶段运行自己的代码，这些特定的函数统称为：生命周期钩子规律：生命周期整体分为四个阶段，分别是：创建、挂载、更新、销毁，每个阶段都有两个钩子，一前一后。Vue3的生命周期创建阶段：setup挂载阶段：onBeforeMount、onMounted更新阶段：onB

jxncxgx·2024-02-05 23:22

大数据开发之机器学习总结（一）

大数据开发之机器学习总结1.背景在大数据开发中，数据分析目的一般分为2大类，一个是基于已有数据，提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型，基于模型预测和分析未来的新数据。

闻香识代码·2024-02-05 21:41

【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南

Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新

运维道上奔跑者·2024-02-04 05:43

2019-10-08 大数据开发进阶之路

市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术，如HDFS/MapRedunce/Yarn/HBase/Flume等掌握Spark生态核心技术，如Spark架构/RDD转换算子/行动算子/持久化算子/任务调度/SparkStreaming等能够对崭新的问题进行建模分析，使用一直只是进行解决掌握大数据平台调优技能，源码阅读技巧具备应对BAT级别相关岗位面试能力学

红瓦李·2024-02-03 20:39

【数据开发】pyspark入门与RDD编程

【数据开发】pyspark入门与RDD编程文章目录1、pyspark介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、pyspark介绍pyspark

小哈里·2024-02-03 08:58

实战美年健康AI大赛之四_复赛使用数加平台

得到复赛资格之后，天池赛题网页左侧的列表中就会多出一项“数加”，点击进入后，按提示得到RAM帐号，即可以登录“数据开发平台”和“机器学习平台”，注意登录帐号是用户名和企业别名的组合。

xieyan0811·2024-02-02 23:17

都 2024 年了！程序员的到底出路在哪里！？继续卷技术？晋升管理层？还是转业？

1）程序员的难处2）程序员专业方向3）大数据3.1.大数据开发涉及到哪些技术3.2.大数据开发涉及到的框架3.3.大数据前景4）程序员的三大出路4.1.继续卷技术4.2.晋升管理层4.3.转业4.3.1

bmyyyyyy·2024-02-01 21:25

秋招的一些面经吧——大数据面经和java面经（阿里巴巴）

应聘方向是大数据开发和java开发大概拿到的offer有：阿里、美团、快手、贝壳、作业帮、旷视、农行总部、浙江大华、海康威视、有赞、云从科技、招银网络科技、oppo一.阿里巴巴（已拿offer）：渣硕阿里面了总共三个部门

大数据教学笔记·2024-02-01 20:19

实现成本最优的一体化管理，新一代数据平台的建设方式丨爱分析调研

导读1.当前，企业在大数据和数据中台建设上取得成果，但数据开发管理仍具挑战性（成本、效率、复杂度）。

ifenxi爱分析·2024-02-01 20:10

大数据开发流程图

1、大数据流程图2、大数据各个环节主要技术2.1、数据处理主要技术Sqoop：（发音：skup）作为一款开源的离线数据传输工具，主要用于Hadoop(Hive)与传统数据库（MySql,PostgreSQL）间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中，也可以将HDFS中的数据导入关系型数据库中。Flume：实时数据采集的一个开源框架，它是Cloudera提供的一个高可用

xyzkenan·2024-02-01 14:30

Spark系列（十）Shuffle的技术难点问题--Spark比MapReduce快的真正原因

写在前面：我是「nicedays」，一枚喜爱做特效，听音乐，分享技术的大数据开发猿。这名字是来自worldorder乐队的一首HAVEANICEDAY。

NICEDAYSS·2024-02-01 12:03

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

文章目录1Spark简介2Spark的核心组成（5大模块）3Spark的主要特征（4大特征）4Spark对比MapReduce1Spark简介初步了解一项技术，最好的方式就是去它的官网首页，一般首页都会有十分官方且准确的介绍，学习Spark也不例外，官方介绍：ApacheSpark™是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。我们可以得知，Spark可以单节点运行，

超周到的程序员·2024-02-01 12:02

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第1章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据：用户

Key-Key·2024-02-01 08:46

数据管理评估工程师-一面

1.自我介绍2.对于数据管理能力成熟度评估师和数据开发的区别，了解3.家庭情况4.在项目中的开发流程简单了几分钟，告知会有二面，需要准备DCMM评估师相关的ppt讲解。

劝学-大数据·2024-02-01 02:01

大厂 5 年实时数据开发经验总结，Flink SQL 看这篇就够了！

本文摘编于《FlinkSQL与DataStream入门、进阶与实战》（500页、70万字）作者羊艺超，目前就职于快手，国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时数仓的丰富经验京东机械工业出版社旗舰店限时5折使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后，接下来分析SQL实现流处理的核心技术。为什么要分析这个问

zhisheng_blog·2024-01-31 15:29

如何通过Hive/tez与Hadoop的整合快速实现大数据开发

一、Hive的功能Hive是基于Hadoop的一个外围数据仓库分析组件，可以把Hive理解为一个数据仓库，但这和传统的数据库是有差别的。传统数据库是面向业务存储，比如OA、ERP等系统使用的数据库，而数据仓库是为分析数据而设计的。同时，数据仓库是在数据量巨大的情况下，为了进一步挖掘数据资源、为了企业决策需要而产生的，它不是所谓的“大型数据库”。Hive通过将结构化的数据文件映射到一张数据库表上，然

小枫@码·2024-01-31 08:00

大数据开发：hadoop系统搭建以及spark编程

墨染枫·2024-01-31 06:47

开发接单群及网站

单子有：Python、java、爬虫、数据分析、大数据开发、matlab等等~有的让工程师自己谈！有的发单人员直接报价！因为有的单子客户心里没有预算！甚至有的客户只有一个题目！

「已注销」·2024-01-30 15:19

如何接手一个大数据项目

作为一个数据开发小白，如何接手公司内的大数据系统呢？

Mmj666·2024-01-30 15:19

高薪大数据开发工程师是怎样炼成的！！！

云栖大会有阿里巴巴集团主办的全球顶级科技大会，汇聚时代最强大脑，描绘新技术发展趋势和蓝图，展现云计算、大数据、人工智能等蓬勃发展的科技生态全景。2018阿里云栖大会，超过12万人参加这场顶级科技盛会，优秀的人都在拥抱这个世界最新的技术。国家推动大数据战略人工智能的发展让大家的生活变得更美好。潭州教育历届在云栖大会上不负重任分享历史之最强干货，因为最棒的VIP同学就是我们前进的动力，因为相信所以看见

yoku酱·2024-01-30 14:05

【美团】无人机-大数据开发工程师

更新时间：2024/01/29工作地点：北京市事业群：到家事业群工作经验：3年部门介绍为了更好地提升城市即时配送的效率与体验，美团于2017年启动了无人机配送服务的探索，通过科技创新推动履约工具变革，加快建设空地协同的本地即时配送网络，致力于为用户提供3公里、15分钟的标准配送服务。通过发展飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力，并适应社区、商场、写字楼等多种场景，让无人机

探小虎·2024-01-30 13:57

奇富科技：大数据任务从诊断到自愈的实践之路

一、为什么要做诊断引擎毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台，覆盖大数据资产管理、数据开发及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程，让用户使用数据的同时

DolphinScheduler社区·2024-01-30 11:08

flink sql 知其所以然（十六）：flink sql 开发企业级利器之 Dlink

搞大数据开发的同学基本都知道在HUE上面写hivesql贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢？

大数据羊说·2024-01-30 11:06

Jenkins--基础--04--安装中文插件

Jenkins–基础–04–安装中文插件1、插件安装位置LocaleLocalization安装成功后，就使用docker命令重启下服务。2、设置中文重启后进入到配置页面中找到Locale参数位置。DefaultLanguage设置为：zh_CN3、效果图4、问题4.1、部分中文，部分英文情况将语言设定为zh_US，Jenkins切换为英文。重启Jenkins再次语言设定为zh_CN，刷新即可。|

勤径苦舟·2024-01-30 08:25

mysql er图属性联系_MySql (四) ER图与实体关系映射

数据开发步骤：那么：我们的数据库设计是不是可以理解为：实体模型->概念模型->数据模型的过程。数据库设计的主要任务：实

洪宇同学·2024-01-29 23:24

eclipse中搭建Mybatis环境

需求使用Mybatis从Mysql数据库中查询出数据开发步骤准备Mysql数据库，创建表结构，添加一些数据创建Java工程，导入开发的jar包编写实体类，和表结构对应，用来进行数据封装编写映射配置文件（

.泡面.·2024-01-28 20:55

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

Controller 同时接收 MultipartFile数据以及 json数据

Controller同时接收MultipartFile数据以及json数据开发中遇到一个接口同时需要接收MultipartFile文件以及其他的json数据,在网上搜索,结果不理想.很多方案觉得无厘头类似这种

景天^-^·2024-01-28 04:34

释放大数据潜能——国家卫计委推动人口流动迁移数据资源共享

以下简称国家卫计委）流动人口司与北京大学国家发展研究院联合举办的“第三届新型城镇化与流动人口社会融合论坛”上，国家卫计委副主任王培安提出倡议：加快推进政府部门人口数据的共享，促进公共数据资源开放互通，加强数据开发共享的国际交流

H_MZ·2024-01-26 23:48

大数据开发必备工具——Hadoop及整体架构介绍

Hadoop是一个由Apache软件基金会开发的开源Java软件框架，专为大数据处理设计，支持在大量计算机组成的集群上进行数据存储和分布式计算。它由几个关键的组件组成，其中最核心的是Hadoop分布式文件系统（HDFS）和MapReduce计算模型。Hadoop的整体架构经过了这么多年的开发与演进，Hadoop早已成为一个庞大的系统，它的内部工作机制非常复杂，是一个结合了分布式理论与具体的工程开发

love6a6·2024-01-26 21:03

带你了解分布式系统的数据一致性问题

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望能够帮助和自己一样自学编程的伙伴。

努力的老刘·2024-01-26 14:50

大数据开发之Spark（spark streaming）

第1章：SparkStreaming概述1.1sparkstreaming是什么sparkstreaming用于流式数据的处理。sparkstreaming支持的数据源很多，例如：kafka、flume、hdfs等。数据输入后可以用spark的高度抽象原语如：map、reduce、join、window等进行计算。而结果也能保存在很多地方，如hdfs、数据库等。1.2sparkstreaming框

Key-Key·2024-01-25 21:07

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚，所以spark自己也涉及了一套资源调度框架。区别：1、mr是基于磁盘的，spark是基于内存2、mr的task是进程3、spark的task

Key-Key·2024-01-25 21:05

Java第一阶段学习（初级）笔记

Java能做什么桌面应用开发、企业级用用开发、移动应用开发、科学计算、大数据开发、游戏开发一、Java入门1、下载安装IDEA：快捷键Ctrl+alt+l调整格式Ctrl+alt+M自动抽取代码shift

m0_xiaoxiaoqian·2024-01-25 11:57

天津大数据培训班推荐，数据分析过程的常见错误

大数据就业方向大数据开发方向：掌握Java、Python、Scala等开发语言，以及关系型与非关系

qq_38453958·2024-01-25 06:57

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

第3章：累加器累加器：分布式共享只写变量。（executor和executor之间不能读数据）累加器用来把executor端变量信息聚合到driver端。在driver中定义的一个变量，在executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回driver端进行合并计算。1、累加器使用1）累加器定义（sparkcontext.accumulator(in

Key-Key·2024-01-25 00:25

大数据开发之SparkSQL

第1章：sparksql概述1.1什么是sparksql1、sparksql是spark用于结构化数据处理的spark模块1）半结构化数据（日志数据）2）结构化数据（数据库数据）1.2为什么要有sparksqlhiveonspark：hive既作为存储元数据又负责sql的解析优化，语法是hql语法，执行引擎编程了spark，spark负责采用rdd执行。sparkonhive：hive只作为存储元

Key-Key·2024-01-25 00:24

大数据开发之Spark（RDD弹性分布式数据集）

第1章：rdd概述1.1什么是rddrdd（resilientdistributeddataset）叫做弹性分布式数据集，是spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1rdd类比工厂生产1.1.2wordcount工作流程1.2rdd五大特性1、一组分区（partition），即是数据集的基本组成单位，标记数据是哪个分区

Key-Key·2024-01-24 07:17

Apache DolphinScheduler社区新晋Committer：伏长海的开源之旅

文章作者：**伏长海**文章整理：曾辉个人介绍大家好，我是伏长海，目前在珍岛集团担任大数据开发工程师职位!

DolphinScheduler社区·2024-01-23 12:17

大数据开发之Scala

第1章：scala入门1.1概述scala将面向对象和函数式编程结合成一种简洁的高级语言特点1、scala和java一样属于jvm语言，使用时都需要先编译为class字节码文件，并且scala能够直接调用java的类库2、scala支持两种编程范式面向对象和函数式编程3、scala语言更加简洁高效第2章：变量和数据类型2.1注释Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好

Key-Key·2024-01-23 11:00

大数据开发之Spark（入门）