数据开发面试题总结第3页

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

文章目录1Spark简介2Spark的核心组成（5大模块）3Spark的主要特征（4大特征）4Spark对比MapReduce1Spark简介初步了解一项技术，最好的方式就是去它的官网首页，一般首页都会有十分官方且准确的介绍，学习Spark也不例外，官方介绍：ApacheSpark™是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。我们可以得知，Spark可以单节点运行，

超周到的程序员·2024-02-01 12:02

测牛学堂学习后续记录，面试题总结

1你认为产生缺陷的原因有哪些？跟据我的做测试的感受，基本上有以下4点吧1交流不充分，虽然都会开需求评审之类的会，但是从产品到UI，到开发再到测试，其中环境比较多，有时候沟通不充分就会产生缺陷2产品一个迭代功能比较复杂，各种情况就比较多，也比较难，就会出现各种问题。3开发项目多，压力大，我们公司开发都是几个项目并行的，压力比较大，很多自己自测都是随便测试下，等着测试的时候改bug，所以缺陷就比较多。

凉舒学软件测试的日子·2024-02-01 09:34

大数据开发之离线数仓项目（用户行为采集平台）（可面试使用）

第1章：数据仓库概念数据仓库，是为企业指定决策，提供数据支持的，可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。用户行为数据：用户

Key-Key·2024-02-01 08:46

数据管理评估工程师-一面

1.自我介绍2.对于数据管理能力成熟度评估师和数据开发的区别，了解3.家庭情况4.在项目中的开发流程简单了几分钟，告知会有二面，需要准备DCMM评估师相关的ppt讲解。

劝学-大数据·2024-02-01 02:01

大厂 5 年实时数据开发经验总结，Flink SQL 看这篇就够了！

本文摘编于《FlinkSQL与DataStream入门、进阶与实战》（500页、70万字）作者羊艺超，目前就职于快手，国内最早一批FlinkSQL使用者拥有从0到1使用FlinkSQL建设、保障及治理实时数仓的丰富经验京东机械工业出版社旗舰店限时5折使用SQL实现流处理的核心技术在了解了Table\SQLAPI的使用方法以及作业运行机制之后，接下来分析SQL实现流处理的核心技术。为什么要分析这个问

zhisheng_blog·2024-01-31 15:29

如何通过Hive/tez与Hadoop的整合快速实现大数据开发

一、Hive的功能Hive是基于Hadoop的一个外围数据仓库分析组件，可以把Hive理解为一个数据仓库，但这和传统的数据库是有差别的。传统数据库是面向业务存储，比如OA、ERP等系统使用的数据库，而数据仓库是为分析数据而设计的。同时，数据仓库是在数据量巨大的情况下，为了进一步挖掘数据资源、为了企业决策需要而产生的，它不是所谓的“大型数据库”。Hive通过将结构化的数据文件映射到一张数据库表上，然

小枫@码·2024-01-31 08:00

大数据开发：hadoop系统搭建以及spark编程

墨染枫·2024-01-31 06:47

LLM大模型：面试、微调

1、面试题总结【LLM】大模型面试准备-1（题库整理篇）大模型八股答案（一）——基础知识-知乎分析transformer模型的参数量、计算量、中间激活、KVcache-知乎【NLP】GoogleBERT

风路丞·2024-01-31 01:42

开发接单群及网站

单子有：Python、java、爬虫、数据分析、大数据开发、matlab等等~有的让工程师自己谈！有的发单人员直接报价！因为有的单子客户心里没有预算！甚至有的客户只有一个题目！

「已注销」·2024-01-30 15:19

如何接手一个大数据项目

作为一个数据开发小白，如何接手公司内的大数据系统呢？

Mmj666·2024-01-30 15:19

高薪大数据开发工程师是怎样炼成的！！！

云栖大会有阿里巴巴集团主办的全球顶级科技大会，汇聚时代最强大脑，描绘新技术发展趋势和蓝图，展现云计算、大数据、人工智能等蓬勃发展的科技生态全景。2018阿里云栖大会，超过12万人参加这场顶级科技盛会，优秀的人都在拥抱这个世界最新的技术。国家推动大数据战略人工智能的发展让大家的生活变得更美好。潭州教育历届在云栖大会上不负重任分享历史之最强干货，因为最棒的VIP同学就是我们前进的动力，因为相信所以看见

yoku酱·2024-01-30 14:05

【美团】无人机-大数据开发工程师

更新时间：2024/01/29工作地点：北京市事业群：到家事业群工作经验：3年部门介绍为了更好地提升城市即时配送的效率与体验，美团于2017年启动了无人机配送服务的探索，通过科技创新推动履约工具变革，加快建设空地协同的本地即时配送网络，致力于为用户提供3公里、15分钟的标准配送服务。通过发展飞行器、导航控制、AI算法、航线管理、通讯系统五大自研技术能力，并适应社区、商场、写字楼等多种场景，让无人机

探小虎·2024-01-30 13:57

奇富科技：大数据任务从诊断到自愈的实践之路

一、为什么要做诊断引擎毓数平台是奇富科技公司自主研发的一站式大数据管理、开发、分析平台，覆盖大数据资产管理、数据开发及任务调度、自助分析及可视化、统一指标管理等多个数据生命周期流程，让用户使用数据的同时

DolphinScheduler社区·2024-01-30 11:08

flink sql 知其所以然（十六）：flink sql 开发企业级利器之 Dlink

搞大数据开发的同学基本都知道在HUE上面写hivesql贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢？

大数据羊说·2024-01-30 11:06

2023-05-16 （线程面试题总结）

什么是线程死锁线程A持有资源2，线程B持有资源1，他们同时都想申请对方的资源，所以这两个线程就会互相等待而进入死锁状态。产生死锁的必要条件互斥条件：该资源任意一个时刻只由一个线程占用。请求与保持条件：一个进程因请求资源而阻塞时，对已获得的资源保持不放。不剥夺条件:线程已获得的资源在未使用完之前不能被其他线程强行剥夺，只有自己使用完毕后才释放资源。循环等待条件:若干进程之间形成一种头尾相接的循环等待

夏目友人lai帐·2024-01-30 06:31

【Java面试题总结 3】Java多线程篇，java线程池原理图

结论：yield()从未导致线程转到等待/睡眠/阻塞状态。在大多数情况下，yield()将导致线程从运行状态转到可运行状态，但有可能没有效果。八、为什么说Synchronized是非公平锁？当锁被释放后，任何一个线程都有机会竞争得到锁，这样做的目的是提高效率，但缺点是可能产生线程饥饿现象。九、请谈谈volatile有什么特点，为什么它能保证变量对所有线程的可见性？volatile只能作用于变量，保

Huawei开源分享·2024-01-30 06:31

秋招面试问题合集

面试题总结百度提前批一面Java开发测试岗（智能汽车）自我介绍项目问题（课题项目）①课题中的创新点和成果，数据集大小，用的什么语言（Python）。

MoMona_W·2024-01-30 01:41

测试开发备战秋招面试8-计算机网络篇

计算机网络篇（5篇）：42道计算机网络面试高频题+答案，面试官喜欢的答案都在这里_计算机网络面试题_技术布道师的博客-CSDN博客计算机网络热门面试题总结（附标准答案）_计算机网络面试题_CoderX_

nuist__NJUPT·2024-01-30 01:11

mysql er图属性联系_MySql (四) ER图与实体关系映射

数据开发步骤：那么：我们的数据库设计是不是可以理解为：实体模型->概念模型->数据模型的过程。数据库设计的主要任务：实

洪宇同学·2024-01-29 23:24

2024 android面试题总结部分

进程间通信方式主要有intent，只支持Bundle支持的数据类型；Messenger支持一对多串行通信，用于发送消息及Bundle数据；AIDL功能强大，可调用服务端方法；ContentProvider主要支持进程间共享数据；BroadCastReceiver广播也可实现进程间通信，发送消息及数据线程间通信方式我们知道线程是CPU调度的最小单位。在Android中主线程是不能够做耗时操作的，子线

后岔湾程序员·2024-01-29 19:06

SpringMVC常见面试题总结（超详细回答）

1、什么是SpringMVC？简单介绍下你对springMVC的理解?SpringMVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架，通过把Model，View，Controller分离，将web层进行职责解耦，把复杂的web应用分成逻辑清晰的几部分，简化开发，减少出错，方便组内开发人员之间的配合。2、SpringMVC的流程？用户发送请求至前端控制器Dispatche

Java_苏先生·2024-01-29 19:37

java 注解题目_java注解面试题总结

Noahha·2024-01-29 16:18

机器学习面试题总结60-99

目录60、Python到底是什么样的语言？61.Python是如何进行内存管理的？引用计数和垃圾回收。

ZhangJiQun&MXP·2024-01-29 00:46

Java基础常见面试题总结（下）

常见的Exception有哪些？常见的RuntimeException：ClassCastException//类型转换异常IndexOutOfBoundsException//数组越界异常NullPointerException//空指针ArrayStoreException//数组存储异常NumberFormatException//数字格式化异常ArithmeticException//数学

此花本应与她·2024-01-28 23:37

Java基础常见面试题总结（上）

面向对象有哪些特性？面向对象四大特性：封装，继承，多态，抽象1、封装就是将类的信息隐藏在类内部，不允许外部程序直接访问，而是通过该类的方法实现对隐藏信息的操作和访问。良好的封装能够减少耦合。2、继承是从已有的类中派生出新的类，新的类继承父类的属性和行为，并能扩展新的能力，大大增加程序的重用性和易维护性。在Java中是单继承的，也就是说一个子类只有一个父类。3、多态是同一个行为具有多个不同表现形式的

此花本应与她·2024-01-28 23:02

eclipse中搭建Mybatis环境

需求使用Mybatis从Mysql数据库中查询出数据开发步骤准备Mysql数据库，创建表结构，添加一些数据创建Java工程，导入开发的jar包编写实体类，和表结构对应，用来进行数据封装编写映射配置文件（

.泡面.·2024-01-28 20:55

C++面试题总结，一篇就够了

C++面试题汇总1.C基础1.1内存模型1.1.0内存四区1.1.1简述C、C++程序编译的内存分配情况1.1.2分配函数与释放函数1.1.2.1malloc/free1.1.2.2new/delete1.1.2.3new/delete与malloc/free区别1.1.2.5calloc、realloc1.1.2.6在C++中，使用malloc申请的内存能否通过delete释放？使用new申请的

贪心的鬼·2024-01-28 19:51

【C++杂货铺】详解类和对象 [上]

：C++杂货铺_代码菌@的博客-CSDN博客目录前言面向对象语言的特性类概念定义访问限定符分类封装类的作用域类的实例化类的模型类的存储面试题this指针（灰常重要）this指针的引入this指针的特性面试题总结前言欢迎收看本期

代码菌@·2024-01-28 12:40

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

机器学习面试题总结

1.请简要介绍下SVM。SVM，全称是supportvectormachine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。扩展：支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当

ZhangJiQun&MXP·2024-01-28 07:42

hive面试题总结（大数据面试）

Hive概述Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。Hive提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。1、Hive自定义函数函数UDF一进一出处理原文件内容某些字段包含[]“”UDAF

404个问号·2024-01-28 07:02

ES6常见面试题总结

1、es5和es6的区别，说一下你所知道的es6ECMAScript5，即ES5，是ECMAScript的第五次修订，于2009年完成标准化ECMAScript6，即ES6，是ECMAScript的第六次修订，于2015年完成，也称ES2015ES6是继ES5之后的一次改进，相对于ES5更加简洁，提高了开发效率ES6新增的一些特性：1）let声明变量和const声明常量，两个都有块级作用域ES5中

Amazing慕丶涵·2024-01-28 07:58

Controller 同时接收 MultipartFile数据以及 json数据

Controller同时接收MultipartFile数据以及json数据开发中遇到一个接口同时需要接收MultipartFile文件以及其他的json数据,在网上搜索,结果不理想.很多方案觉得无厘头类似这种

景天^-^·2024-01-28 04:34

释放大数据潜能——国家卫计委推动人口流动迁移数据资源共享

以下简称国家卫计委）流动人口司与北京大学国家发展研究院联合举办的“第三届新型城镇化与流动人口社会融合论坛”上，国家卫计委副主任王培安提出倡议：加快推进政府部门人口数据的共享，促进公共数据资源开放互通，加强数据开发共享的国际交流

H_MZ·2024-01-26 23:48

大数据开发必备工具——Hadoop及整体架构介绍

Hadoop是一个由Apache软件基金会开发的开源Java软件框架，专为大数据处理设计，支持在大量计算机组成的集群上进行数据存储和分布式计算。它由几个关键的组件组成，其中最核心的是Hadoop分布式文件系统（HDFS）和MapReduce计算模型。Hadoop的整体架构经过了这么多年的开发与演进，Hadoop早已成为一个庞大的系统，它的内部工作机制非常复杂，是一个结合了分布式理论与具体的工程开发

love6a6·2024-01-26 21:03

带你了解分布式系统的数据一致性问题

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望能够帮助和自己一样自学编程的伙伴。

努力的老刘·2024-01-26 14:50

大数据开发之Spark（spark streaming）

第1章：SparkStreaming概述1.1sparkstreaming是什么sparkstreaming用于流式数据的处理。sparkstreaming支持的数据源很多，例如：kafka、flume、hdfs等。数据输入后可以用spark的高度抽象原语如：map、reduce、join、window等进行计算。而结果也能保存在很多地方，如hdfs、数据库等。1.2sparkstreaming框

Key-Key·2024-01-25 21:07

大数据开发之Spark（完整版）

第1章：Spark概述1.1什么是spark回顾：hadoop主要解决，海量数据的存储和海量数据的分析计算。spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2hadoop与spark历史hadoop的yarn框架比spark框架诞生的晚，所以spark自己也涉及了一套资源调度框架。区别：1、mr是基于磁盘的，spark是基于内存2、mr的task是进程3、spark的task

Key-Key·2024-01-25 21:05

金三银四，软件测试面试题总结，offer稳稳的。。。

前言前面看到了一些面试题，总感觉会用得到，但是看一遍又记不住，所以我把面试题都整合在一起，都是来自各路大佬的分享，为了方便以后自己需要的时候刷一刷，不用再到处找题，今天把自己整理的这些面试题分享出来。一、京东软件测试岗面试30题（干货）1、黑盒测试的测试用例常见设计方法都有哪些？请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。1）等价类划分：等价类是指某个输入域的子集合.在该子集合中,

心软小念·2024-01-25 17:08

Java第一阶段学习（初级）笔记

Java能做什么桌面应用开发、企业级用用开发、移动应用开发、科学计算、大数据开发、游戏开发一、Java入门1、下载安装IDEA：快捷键Ctrl+alt+l调整格式Ctrl+alt+M自动抽取代码shift

m0_xiaoxiaoqian·2024-01-25 11:57

大模型面试题总结

文章目录一、大模型（LLMs）基础面二、大模型（LLMs）进阶面三、大模型（LLMs）微调面四、大模型（LLMs）langchain面1.基于LLM+向量库的文档对话基础面2.基于LLM+向量库的文档对话优化面3.LangChain的概念面试问题4.LangChain的一些模块提问5.LangChain的业务提问6.LangChain的问题解决五、LoRA、QLoRA、AdaLoRA篇六、Fine

谢白羽·2024-01-25 08:32

天津大数据培训班推荐，数据分析过程的常见错误

大数据就业方向大数据开发方向：掌握Java、Python、Scala等开发语言，以及关系型与非关系

qq_38453958·2024-01-25 06:57

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

第3章：累加器累加器：分布式共享只写变量。（executor和executor之间不能读数据）累加器用来把executor端变量信息聚合到driver端。在driver中定义的一个变量，在executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回driver端进行合并计算。1、累加器使用1）累加器定义（sparkcontext.accumulator(in

Key-Key·2024-01-25 00:25

大数据开发之SparkSQL

第1章：sparksql概述1.1什么是sparksql1、sparksql是spark用于结构化数据处理的spark模块1）半结构化数据（日志数据）2）结构化数据（数据库数据）1.2为什么要有sparksqlhiveonspark：hive既作为存储元数据又负责sql的解析优化，语法是hql语法，执行引擎编程了spark，spark负责采用rdd执行。sparkonhive：hive只作为存储元

Key-Key·2024-01-25 00:24

大数据开发之Spark（RDD弹性分布式数据集）

第1章：rdd概述1.1什么是rddrdd（resilientdistributeddataset）叫做弹性分布式数据集，是spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.1.1rdd类比工厂生产1.1.2wordcount工作流程1.2rdd五大特性1、一组分区（partition），即是数据集的基本组成单位，标记数据是哪个分区

Key-Key·2024-01-24 07:17

Apache DolphinScheduler社区新晋Committer：伏长海的开源之旅

文章作者：**伏长海**文章整理：曾辉个人介绍大家好，我是伏长海，目前在珍岛集团担任大数据开发工程师职位!

DolphinScheduler社区·2024-01-23 12:17

大数据开发之Scala

第1章：scala入门1.1概述scala将面向对象和函数式编程结合成一种简洁的高级语言特点1、scala和java一样属于jvm语言，使用时都需要先编译为class字节码文件，并且scala能够直接调用java的类库2、scala支持两种编程范式面向对象和函数式编程3、scala语言更加简洁高效第2章：变量和数据类型2.1注释Scala注释使用和Java完全一样。注释是一个程序员必须要具有的良好

Key-Key·2024-01-23 11:00

Redis面试题总结

1.Redis发布订阅Redis发布订阅(pub/sub)是一种消息通信模式：发送者(pub)发送消息，订阅者(sub)接收消息。**1.订阅命令subscribe主题名字**2.发布命令publish主题名称消息内容注意：返回的是订阅者数量。发布的消息没有持久化。2.Redis慢查询慢查询，顾名思义就是比较慢的查询，但是究竟是哪里慢呢？说明：1.慢查询发生在第3阶段2.客户端超时不一定慢查询，但

C道万古如长夜，V来！·2024-01-23 09:46

大数据开发之Spark（入门）