hadoop离线数仓第49页

数字化转型必备：数睿通 2.0 数据中台升级详解

资源评价）数据集市完善，打通审批流程修复数据生产由于DruidSQLUtils不支持Doris导致无法建表的问题优化贴源数据模块，改为读取数据库的元数据，与同步的数据做关联匹配此外，数据生产模块很多朋友对于Hadoop

小螺旋丸·2024-01-03 10:51

数睿通2.0：高效的数据处理，主数据与数据表功能全面升级

引言八天很短，七天很长，数睿通2.0数据中台也随之迎来了新一轮的版本迭代，本次更新主要包括：主数据模型（可视化建模）主数据派发（支持派发主数据到下游数据表，rabbitMq，kafka，接口）数据表（数仓分层表信息展示

小螺旋丸·2024-01-03 10:51

新年快乐—数睿通2.0数据中台全新功能模块发布

FlinkSql作业开发调度中心运维中心资源中心配置中心其他模块结语引言离上次发文已经有接近三个月了，这三个月主要在开发数睿通的数据生产模块，同时优化了一下数据集成，目前已经基本开发完毕了，集成了Flink，Hadoop

小螺旋丸·2024-01-03 10:43

HDFS之Offline Viewer

文章目录OfflineImageViewerFileDistributionDelimitedOfflineEditsViewerOfflineImageViewer离线镜像分析工具，可以将fsimage

zincooo·2024-01-03 09:16

Flink实时电商数仓（十）

common模块回顾appBaseApp:作为其他子模块中使用Flink-StreamAPI的父类，实现了StreamAPI中的通用逻辑，在其他子模块中只需编写关于数据处理的核心逻辑。BaseSQLApp:作为其他子模块中使用Flink-SQLAPI的父类。在里面设置了使用SQLAPI的环境、并行度、检查点等固定逻辑。bean：存放其他子模块中使用到的javaBean对象，因为如果一直使用json

十七✧ᐦ̤·2024-01-03 09:50

Hive自定义函数支持国密SM4解密

当前项目背景需要使用到国密SM4对加密后的数据进行解密，Hive是不支持的，尝试了华为DWS数仓，华为只支持在DWS中的SM4加密解密，不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到

4935同学·2024-01-03 08:03

叫板GPT-4的Gemini，我做了一个聊天网页，可图片输入，附教程

机器学习算法与Python实战·2024-01-03 07:52

1文件+2个命令，无需安装，单机离线运行70亿大模型

1文件+2个命令，无需安装，单机离线运行70亿大模型大家好，我是老章最近苹果发布了自己的深度学习框架--MLX，专门为自家M系列芯片优化。

机器学习算法与Python实战·2024-01-03 07:52

前端八股文（HTML篇）二

7.浏览器是如何对HTML5的离线储存资源进行管理和加载？8.img的srcset属性的作用？9.浏览器乱码的原因是什么？如何解决？10.说一下HTML5dragAPI

前端VC·2024-01-03 07:44

计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据机器学习大数据毕业设计

流程：1.Python爬虫采集中华健康网约10万医生数据，最终存入mysql数据库；2.使用pandas+numpy/hadoop+mapreduce对mysql中的医生数据进行数据分析，使用高德地图解析地理位置

计算机毕业设计大神·2024-01-03 07:53

纠删码ReedSolomon

随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性，HDFS通过多副本机制来保证。

旅僧·2024-01-03 07:14

Clojure 实战(4)：编写 Hadoop MapReduce 脚本

Hadoop简介众所周知，我们已经进入了大数据时代，每天都有PB级的数据需要处理、分析，从中提取出有用的信息。Hadoop就是这一时代背景下的产物。

张吉Jerry·2024-01-03 07:35

rancher2.5.16在Ubuntu 22.04.1 LTS环境一键离线部署

文章目录前言centos7.9的参考我得另一篇文章目录结构如下安装1.编辑config，配置文件所在2.脚本执行顺序如下3.配置文件中RANCHER_IP与NEXUS_IP_ADDRESS进行真实情况填写4.nexus安装好后(修改的密码保持与config中的NEXUS_PASSWORD变量设置的密码一直)，需要登录创建docker仓库后再进行导入本地镜像5.执行无误之后，浏览器输入https:/

o紫洋o·2024-01-03 06:04

python操作hdfs及hbase

创建目录client.makedirs("/tmp/ct/test51")默认权限755，用户名：dr.who可以创建多层级目录（类似mkdir-p）如果存在权限不足，可以通过命令行对上层目录权限进行修改：hadoopdfs-chmod-R777

佛系小懒·2024-01-03 04:26

数据仓库命名规范详解

一、数仓中为什么要在数据开发过程中强调遵守数仓开发命名规范呢？

孤城暮雨@·2024-01-03 04:17

使用Datax将Hive中的表迁移到MySQL

无法上传（2）解压datax压缩包sudotar-zxvfdatax.tar.gz-C/usr/local（解压到的目录，可自己设置）（3）修改文件夹名称 mvdatax.tar datax（4）给hadoop

孤城暮雨@·2024-01-03 04:17

Azkaban+Spark资源调度

本文以利用Azkaban+Spark构建数仓的DWS层和ADS层为例！！！

孤城暮雨@·2024-01-03 04:46

论文阅读--Behavior Proximal Policy Optimization

YilangGuo论文链接：http://arxiv.org/abs/2302.11312arXiv2023-02-22代码链接：https://github.com/Dragon-Zhuang/BPPO摘要离线强化学习

酒饮微醉-·2024-01-03 04:44

论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

EfficientOfflinePolicyOptimizationwithaLearnedModel|OpenReview发表时间：ICLR2023年1月21日代码链接：https://github.com/sail-sg/rosmo摘要MuZero的离线版本算法

酒饮微醉-·2024-01-03 04:43

计算机毕业设计大数据类题目

序号题目题目要求（该课题的研究目的、所实现的主要功能等）1基于Hadoop的大数据宠物商城推荐系统收集大量有关宠物产品和用户购买行为的数据，并使用hadoop进行数据处理和存储，以构建一个个性化的宠物产品推荐系统

程序源码123·2024-01-03 00:14

普中STM32-PZ6806L开发板(USART2 串口 + HI-LINK-V20离线语音模块控制LED灯)

简介买了HI-LINK-V20型号的离线语音识别模块,为了后面可以做有意思的东西,现在先来用用,使用USART2串口接收来自我在HI-LINK-V20中预设的动作,当识别到词条时发送对应的指令到串口,HI-LINK

听我一言·2024-01-03 00:37

安卓利用谷歌文字转语音引擎实现离线文字播报语音

TextToSpeech即TTS技术原生Android系统自带了一个PicoTTS引擎，但不支持中文;市面上离线的文字转语音,某讯,某度都是收费的,并且还设计到版权的问题,实际上谷歌内置TextToSpeach

zmybiealex·2024-01-02 21:23

LINUX 抓包工具Tcpdump离线安装教程

本次教程基于内网环境无法访问网络使用安装包进行安装抓包工具1、首先给大家看下一共有6个安装包，依次进行解压，包我就放到csdn上了，需要的可以联系我进行下载2打包然后传到服务器任意一个目录下，进入到当前目录，然后进行解压安装先安装支持libpcap这个包的环境，最后执行这个包，不然会报错第一步：安装gcc包1、unzipgcc.zip2、rpm-Uvh*.rpm--nodeps--force第二步

郭优秀的笔记·2024-01-02 21:12

hive多分隔符外表支持

CREATEEXTERNALTABLEtext_mid1(idSTRING,nameSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.

甲乙寄几·2024-01-02 19:31

Spark内容分享(二十四)：Apache Spark 在爱奇艺的应用实践

目录ApacheSpark在爱奇艺的现状Spark计算框架应用优化SparkSQL服务的落地与优化总结与展望ApacheSpark在爱奇艺的现状ApacheSpark是爱奇艺大数据平台主要使用的离线计算框架

之乎者也··2024-01-02 18:56

docker-compose Install TeamCity

系统支持dockerdownloadTeamCityTeamCity文档参考项目离线包百度网盘获取

CIAS·2024-01-02 17:01

13.离线应用与客户端存储

1.离线检测属性navigator.onLIne事件：online和offline2.数据存储2.1cookie 用于在客户端存储会话信息，web服务器需要在大量的请求中区别出哪些是来自同一个会话，所以客户端在发送请求时需要发送能够表明其身份的标识

Ching_Lee·2024-01-02 14:00

Hbase介绍以及Hive优势

因为HBase基于Hadoop的HDFS完成分布式存储，以及MapReduce完成分布式并行计算，所以它的一些特点与Hadoop相同，依靠横向扩展，通过不断增加性价比高的商业服务器来增加计算和存储能力。

毛毛虫同学·2024-01-02 14:38

10.Hadoop框架下MapReduce中的map个数如何控制

一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为：一、将待处理的文件进行逻辑切片（根据处理数据文件的大小，划分多个split），然后每一个split分配一个maptask并行处理实例二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下：1.简单地按照文件的内容长度进行切片2.切片大小默认是datanode

__元昊__·2024-01-02 13:45

制作内网离线百度地图

pan.baidu.com/s/1BeptnwgiKO7K4LilZE3uLQ提取码：0ft0项目代码：链接：https://pan.baidu.com/s/1UoDWaR7_3NgbTUkfH6Vn-Q提取码：ujlk下载离线地图瓦片通过百度

jinqianwang·2024-01-02 12:55

Spark内容分享(二十三)：Spark on K8s 在茄子科技的实践

4.EMR类产品的缺陷5.传统Hadoop生态，三大组件的前世今生6.SparkonK8s的优势SparkonK8s原理介绍1.Spark的集群部署模式2.Sparkonk8s如何运行3.Spark的dynamicAllocation

之乎者也··2024-01-02 11:30

Spark内容分享(二十二)：eBay最佳实践：Spark SQL优化之物化视图

的实现验证部分重写部分物化视图应用场景及收益应用场景：物化视图重写普通视图应用场景：物化视图重定义表结构物化视图应用收益总结及后续计划背景Carmel是eBay内部基于ApacheSpark打造的一款SQL-on-Hadoop

之乎者也··2024-01-02 11:00

Spark内容分享(二十一)：字节跳动 Spark 支持万卡模型推理实践

-资源匹配未来展望背景介绍随着云原生的发展，Kubernetes由于其强大的生态构建能力和影响力，使得包括大数据、AI在内越来越多类型的负载应用开始向Kubernetes迁移，字节内部探索Spark从Hadoop

之乎者也··2024-01-02 11:59

Spark内容分享(二十)：网易基于 Kyuubi + Spark 内核优化以及实践

AQE–History2.AQE–Shuffle3.AQE-SmallReducePartition4.AQE–SkewedReducePartition5.AQE–OptimizePlanKyuubi+Spark数仓类任务优化实践

之乎者也··2024-01-02 10:21

hadoop环境搭建

一、平台环境CentOS6.5二、软件版本hadoop-2.8.1下载地址jdk-8u45-linux-x64下载地址apache-maven-3.3.9软件下载三、内容目录前置内容1.1jdk安装和配置

熊_看不见·2024-01-02 10:00

小肥柴的Hadoop之旅

小肥柴的Hadoop之旅（目录）（第0章）导航0-0-1写博客的初衷0-0-2参考资料和书籍0-0-3完工部分传送门导航0-0-1写博客的初衷从门外汉边学边上课，到入门的菜鸡，对如何正确的学习Hadoop

卷毛迷你猪·2024-01-02 10:30

【Hadoop】如何启动和关闭Hadoop集群

启动Hadoop集群关闭Hadoop集群启动Hadoop集群参考官方文档ApacheHadoop3.3.6–HadoopClusterSetup要启动Hadoop集群，需要同时启动HDFS和YARN集群

不怕娜·2024-01-02 10:29

【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop

不怕娜·2024-01-02 10:27

立创EDA专业版（网页，全在线模式）开源导入立创EDA专业版（PC端，半离线模式）

我个人从一开始就使用立创EDA专业版的半离线模式，是因为既可以离线画板，又可以在在线的时候使用系统库。

电子爱好者Lei·2024-01-02 08:43

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

换个角度说，大数据是：1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具（hadoop、spark、storm、flink、tez

悦悦学Python·2024-01-02 08:59

docker的安装以及使用经验

文章目录一前言1关于环境2关于docker的版本二centos在线安装2.1添加docker源2.2安装docker引擎安装指定的docker版本安装最新版本三centos离线安装四windows安装五写在最后一前言

是潮汕的灿灿展吖·2024-01-02 08:26

最容易出错的 Hive Sql 详解

前言在进行数仓搭建和数据分析时最常用的就是sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括hive，spark，flink等，所以sql在大数据领域有着不可替代的作用

奔跑者-辉·2024-01-02 07:30

Hive(二)之bash群起脚本

集群的启动启动HDFS启动namenode$/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/sbin/hadoop-daemon.shstartnamenode2.启动datanode

DarrenmondZhang·2024-01-02 07:45

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。

王哪跑nn·2024-01-02 06:06

Hadoop运维--Zookeeper--安装配置

一、服务规划服务器IP地址软件服务备注master192.168.71.130zookeeperQuorumPeerMainfollowerslave1192.168.71.129zookeeperQuorumPeerMainleaderslave2192.168.71.132zookeeperQuorumPeerMainfollower二、ZooKeeper安装配置下载地址：https://zo

无剑_君·2024-01-02 06:39

【2023】hadoop基础介绍

目录Hadoop组成HDFSHDFS操作HDFS分布式文件存储NameNode元数据数据读写流程YARN和MapReduceMapReduce：分布式计算YARN：资源管控调度YARN架构提交任务到**

方渐鸿·2024-01-02 03:26

flink 连接 hdfs 读取文件配置

flink连接hdfs读取文件配置hadoop版本为2.7.3window系统本地运行flink程序读取hdfs文件配置1，请导入hadoop和httpclient的包org.apache.flinkflink-hadoop-fs

eagle隼·2024-01-02 02:06

脆弱是勇气的一部分

一位勇敢的同学真实地写出了她的感受，比如形容训练营为“一辆偏离线路的车”，“做离钱最近的事并不是每个人的价值观”，“利字当头的“利他”让我困惑”等等。老师把这位同学的文章链接转到群里，并做了一些解释。

树的眼睛·2024-01-02 01:50

Ubuntu配置hadoop伪分布式

1.设置免密登录伪分布式搭建过程中会涉及各种管理员权限，一次一次输入密码太过麻烦，我们要求各集群间免密码连接sudoapt-getinstallopenssh-server#安装openssh-serversshlocalhost#连接到主机exit#退出刚才的sshlocalhostcd~/.ssh/#若没有该目录，请先执行一次sshlocalhostssh-keygen-trsa#会有提示，都

MA木易YA·2024-01-01 23:46

2018-05-21

1.hadoop是什么广义就是hadoop生态圈，狭义就是单指hadoop2.hadoop三大组件是什么?

CrUelAnGElPG·2024-01-01 23:55

推荐频道

hadoop离线数仓