BigDATA 第20页

bigdata_redis缓存数据库

一丶介绍redis是一个高性能的key-value内存型数据库。特点：支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候自动再次加载进行使用。既支持key-value类型的数据操作，还提供list，set，zset，hash等数据结构的存储。支持数据的主从备份，采用master-slave模式的主从备份。新版3.x也支持分布式布署模式，真正实现了数据块的分布式存储与响应。性能极高–Red

JIE_ling8·2021-11-18 22:47

bigdata_kafka与streaming

一丶Kafka应用鉴于kafka在实际使用时，绝大多数应用场景均为Producer和Consumer的API配合使用，故在此只介绍这两种API操作方法，其它的Connector和Streams还有admin可以视自身情况自行学习。1.java版实现步骤创建maven项目(done)加入kafka依赖producerpushmessage实现consumerpullmessage实现效果测试加入依赖

JIE_ling8·2021-11-17 20:54

Kyligence 入围 CRN 2021 年度技术创新奖

TheChannelCompany®旗下媒体CRN®于近日宣布Kyligence入围2021TechInnovatorAward·BigData（2021年技术创新奖之大数据），并被评为2021Tech10

·2021-11-17 12:32

hadoop安装及配置【三台】

1.下载需要的hadoop版本--->单击这里下载hadoop2.上传hadoop-2.7.5到master机器节点的目录~/bigdata下(可以用FileZilla等ftp工具上传)需要预先在master

destinyLee·2021-11-17 08:28

什么是好的数据分析？化繁为简的力量

编辑：彭文华来源：大数据架构师（ID：bigdata_arch）彭友们好，我是你的老彭友。今天在群里看到一个表，真的是太棒了！

大数据架构师Evan·2021-11-16 23:17

bigdata_Kafka

kafka概念介绍：吞吐量：单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大Zookeeper是什么：概念说明：zk是分布式环境下的第三方协同服务，帮助分布式系统，比如存储、计算、调度等均需要协同服务特点特征：简单、易使用、高效、稳定应用场景：核心是要解决一致性问题分布式环境下的命名一致性问题分布式服务环境下的高可用性问题HA问题：highavailable核心还是一个选举策略问题代码实

JIE_ling8·2021-11-16 22:33

bigdata_sparkstreaming

一丶概述:1.数据处理类型分类静态数据多适用于批量计算、离线计算数据源是不变的、有限的、显式离散的流数据数据是变动的、无限的、连续的多适用于实时计算，能在秒级、秒内处理完成实时数据分类小时级分钟级秒级2.sparkstreaming是什么一句话总结：微批处理的流式(数据)实时计算框架。原理：是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，即可用于处理实时数据流。优点：可以和spar

JIE_ling8·2021-11-15 23:22

bigdata_sparksql

sparksql:SparkSQL是Spark处理数据的一个模块专门用来处理结构化数据的模块，像json，parquet，avro，csv，普通表格数据等均可。与基础RDD的API不同，SparkSQL中提供的接口将提供给更多关于结构化数据和计算的信息，并针对这些信息，进行额外的处理优化操作方式说明：SparkSqlshell：类似于hiveshellDataFramesAPI：最早专为sqlon

JIE_ling8·2021-11-13 22:04

bigdata_scala集合与Spark

一丶scala集合collection1ScalaList(列表)元素以线性方式存储，集合中可以存放重复对象。2ScalaSet(集合)集合中的对象不按特定的方式排序，并且没有重复对象。3ScalaMap(映射)KV对存储4Scala元组元组是不同类型的值的集合5ScalaOption表示有可能包含值的容器，也可能不包含值。6ScalaIterator迭代器迭代器不是一个容器，更确切的说是逐一访问

JIE_ling8·2021-11-11 00:26

大数据之Hadoop简介及环境搭建

第1章大数据概论1.1大数据概念大数据（BigData）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

jackyan163·2021-11-09 22:46

六阶段大数据--day01--hadoop集群环境准备

1集群环境准备解压CentOS7-bigdata.zip虚拟机,复制成三个虚拟机名为:hadoop01,hadoop02,hadoop03文件夹;通过vmware打开这三个虚拟机--bigdata.vmx

心猿意码~~·2021-11-09 00:48

评《大数据的傲慢与偏见》

CathyO'Neil:WeaponsofMathDestruction:HowBigDataIncreasesInequalityandThreatensDemocracy这个世界从来没有唯一的真相可言

东瓜科蛰·2021-11-07 11:46

[论文总结] 深度学习在农业领域应用论文笔记9

2018IEEE14thInternationalConferenceone-Science，2018）1.1前言1.2材料与方法1.3结论2.Machinelearninganddataminingadvancepredictivebigdataan

落痕的寒假·2021-11-03 21:38

Machine Learning and Big Data

Assignment2MachineLearningandBigDataforEconomicsandFinanceExercise1.Inthisexercise,allthecross-validationsimulationsshouldinvolvearandomsplitoftheoriginalsampleintoatrainingsubsamplecorrespondingto90%

·2021-11-03 08:26

数据同步工具之FlinkCDC/Canal/Debezium对比-技术圈

本文首发微信公众号《import_bigdata》DebeziumDebeziumisanopensourcedist

·2021-10-31 12:00

bigdata_ETL结构化项目

1.采集微博数据ETL项目：数据输入与输出输入（两个类别的文件集合）房地产评论主题下的对应的用户基本信息文件集和评论内容文件集，两者之间是通过用户id关联的。通过一定的Java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。输出（两张表，一个用户表，一个评论内容表）将两个类别下各自对应的文件集，进行解析、结构化。通过load语法，将数据分别导入到两张表当中。思路：通过j

JIE_ling8·2021-10-30 22:55

ISIT312 Big Data 大数据管理

ISIT312BigDataManagementSpring2021Assignment3AllfilesleftonMoodleinastate"Draft(notsubmitted)"willnotbeevaluated.PleaserefertothesubmissiondropboxonMoodleforthesubmissionduedateandtime.Thisassessmentc

·2021-10-28 11:43

2021-10-20 Scala Basics

ApacheSparkwithScala-Handsonwithbigdatascala是funcionallanguageprepimage.pngintelliJimport项目的时候报错：scalacompilernotenoughspace

琼脂糖·2021-10-25 11:40

DataOps（数据运维）指南 - 数据管理的新时代

【注】本文译自：AGuidetoDataOps-DZoneBigDataDataOps不仅仅是另一种开发方法。它通过民主化的访问和巨大的潜力从根本上改变了组织使用数据的方式。

·2021-10-14 11:00

数说长津湖，惨烈到无法想象！

编辑：彭文华来源：大数据架构师（ID：bigdata_arch）国庆七天，我哪儿也没去，就在家里写书，组织彭友们学习数据管理知识体系。媳妇嫌我太宅了，就带我和娃去看了一场《长津湖》。

大数据架构师Evan·2021-10-08 19:20

Linux自定义脚本整合

基础知识（a）rsync命令原始拷贝：[root@bigdata801hadoop-3.3.1]#rsync-av/opt/module/hadoop-3.3.1/bigdata802:/opt/module

俊杰梓·2021-10-06 10:43

CentOS8.2安装Hadoop3.3.1

安装SSHyuminstall-yopenssh-clients首先产生公钥和私钥ssh-keygen-trsa查看产生的公钥和私钥[root@bigdata801~]#cd

俊杰梓·2021-10-06 10:22

大数据测试扫盲（一）

大数据(BigData):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

ths512·2021-09-21 12:47

IDEA 开发配置SparkSQL及简单使用案例代码

org.apache.sparkspark-sql_2.123.0.02.案例代码packagecom.zf.bigdata.spark.sqlimportorg.apache.spark.SparkConfimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql

·2021-08-10 12:46

从理念到实践跳跃式演进！云的原生“免疫系统”如何有机作战？

原生安全线上发布会：https://yqh.aliyun.com/live/openbigdata7月16日，以“原生安全二倍速：全面融入基础设施”为主题的阿里云原生安全线上专题活动收官，诠释

·2021-08-02 18:21

在Win10中用Hyper-V虚拟机搭建CDH集群

Version:v0.1LastUpdate:July/23/2021Keywords：CDH，Hadoop，BigDataPlatform，Hyper-V，VirtualMachineAbstract

lionxcat·2021-07-23 13:04

Centos7上Hadoop 3.3.1的高可用HA安装过程

目录1.集群规划2.下载(在bigdata001操作)3.配置文件修改(在bigdata001操作)3.1hadoop-env.sh3.2core-site.xml3.3hdfs-site.xml3.4mapred-site.xml3.5yarn-site.xml3.6

Bulut0907·2021-07-21 17:43

CentOS7 hadoop集群配置-1

一，准备三台centos7服务器vi/etc/hosts三台都输入192.168.12.137bigdata01192.168.12.138bigdata02192.168.12.139bigdata03

梅村_9643·2021-07-13 16:32

【CDH安装】2、CDH 集群安装配置

1、登录ClouderaManagerhttp://bigdata001:7180admin/admin2、选择免费版或者试用版3、继续下一步4、选择当前管理主机cloudera-scm-agent正常启动后

粮忆雨·2021-06-27 21:28

Spark安装,伪分布式环境的搭建与样例程序的测试

1IyGq3uYU2Yyp5KEfhaHKbw提取码：6zt9解压:tar-zxcfspark-2.1.0-bin-hadoop2.7.tgz-C/opt/module/spark-2.1.0-bin-hadoop2.7配置环境:[root@bigdata111conf

初之寒夏_末之凉秋·2021-06-27 20:46

【Mac大数据开发】第五篇-分布式集群和免密登陆

配置方案如下：bigdata1bigdata2bigdata3HDFSNameNodeSecondaryNameNodeDataNodeDataNodeDataNodeYARNnodeManagerResourceMangerNodeManagernodeManager

irving_yuan·2021-06-25 23:29

Stream Processing

起因准备学习BigData，成为一个DataEngineer，第一个想学的工具是DataIngestion的工具ApacheKafka，在自己上网找资料的过程中看到了一些新词（Kafka的应用领域）比如

0bbe943b8a86·2021-06-25 21:28

大数据能做什么呢，相信很多人都很懵，下面给大家介绍一下

似乎一夜之间，大数据（BigData）变成一个IT行业中最时髦的词汇。有一个有趣的故事是关于大数据营销奢侈品的。

大数据首席数据师·2021-06-24 22:19

20190721_flink安装

查看系统磁盘挂载情况df-h/home目录下有873G磁盘存储空间故把程序应该安装在/home目录下一、JavaJDK安装上传jdk安装包jdk-8u191-linux-x64.tar.gz至/home/bigdata

行走的数据智能·2021-06-24 10:05

《人力资源管理大数据》第1章：人力分析的时代背景

书名：PEOPLEAMALYTICSINTHEERAOFBIGDATA作者：JeanPaulIsson&JesseS.Harriott第一章：人力分析的时代背景图片来自网络，如侵删人力分析的重要性詹森·

二号姬·2021-06-21 19:45

二Azkaban安装部署

2.1安装前准备1)将AzkabanWeb服务器、Azkaban执行服务器、Azkaban的sql执行脚本及MySQL安装包拷贝到bigdata111虚拟机/opt/software目录下1)azkaban-web-server

码农GG·2021-06-21 18:00

fastqc的安装和使用

1、打开下载目录cd/bigdata/wangxj/Gobi_16s/raw2、下载nohupwget-chttp://www.bioinformatics.babraham.ac.uk/projects

小王的学习杂记·2021-06-21 01:14

2016大数据博览会暨高峰论

2016中国（北京）国际大数据产业博览会暨高峰论2016China（Beijing）InternationalBigDataIndustryExhibitionandSummitForum超大规模展出，

e0945727559e·2021-06-20 20:06

【关关·意画™】《百川取則™ 模特/演員大數據豐富計劃》即將發佈

百川取則ALLISONE模特/演員大數據豐富計劃ACTOR/MODELBIGDATAENRICHPROJECT即將發佈COMINGSOON《百川取則模特/演員大數據豐富計劃》意象示意《百川取則模特/演員大數據豐富計劃

百川取则·2021-06-19 03:12

高校人工智能专业实训建设方案

对于技术领域而言，普遍存在的一个巨大变化就是为大数据（Bigdata）打开了大门。

00d34451b19b·2021-06-18 22:03

高可用Hive配置多客户端多用户模式

这个时候我们就需要在其他节点安装hive的客户端高可用hive的搭建参考我的另一篇文章hive高可用搭建1.复制安装文件将hdp14的安装文件复制到要连接hive的节点hdp16[along@hdp14bigdata

薛定谔的猫不吃猫粮·2021-06-17 12:04

import（java & scala)

*importstaticjava.xxx.xxConstBean对象packagecom.atguigu.bigdata.java.chapter01;publicclassConstBean{publicstaticfinalintAGE

比格肖·2021-06-15 09:22

操作HBase报错: Could not initialize class org.apache.hadoop.hbase.protobuf.ProtobufUtil

问题一UnknownHostException:bigdatajava.io.IOException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.hbase.client.ConnectionFactory.createConnection

海边的贝壳林·2021-06-15 08:45

2/2)SparkSQL – 从0到1认识Catalyst

SparkSQL–从0到1认识Catalyst–有态度的HBase/Spark/BigDatahttp://hbasefly.com/2017/03/01/sparksql-catalyst/最近想来，

葡萄喃喃呓语·2021-06-14 11:55

大数据(Hadoop)完全分布式集群安装（全）

一、大数据概述大数据概念大数据（BigData）：指的是传统数据处理应用软件不足以处理（存储和计算）它们的大而复杂的数据集。主要解决，海量数据的存储和海量数据的运算问题。

顾子豪·2021-06-14 10:37

CDH6安装（二）——集群基础配置

sudoers->添加cdhALL=(ALL)ALLchmodu-w/etc/sudoers操作使用用户sucdh验证结果使用sudo命令配置主机名sudohostnamectlset-hostnamebigdata11cat

PandaEyes聊大数据·2021-06-14 03:41

Flume的安装和测试

1.Flume的安装查看JAVA_HOME:[root@bigdata113~]#echo$JAVA_HOME/opt/module/jdk1.8.0_181安装Flume[root@bigdata112soft

初之寒夏_末之凉秋·2021-06-11 19:18

ssh免密登录设置

：路径：/root/.ssh文件名：公钥和密钥文件2、将主机A的公钥拷贝并追加到B的授权列表文件authorized_keys中ssh-copy-idB#B写ip或者主机名称例：ssh-copy-idbigdata03

黑哥666·2021-06-10 10:24

大数据常见格式和pyspark

1大数据数据格式1.1种类graphTDA[Bigdata]-->B[.csv]A-->C[.json]A-->D[Parquet]A-->E[Orc]A-->F[Avro]A-->G[Thrift]A

MichelleZm·2021-06-09 08:26

Flink HA ZooKeeper

#jobmanager.rpc.address:bigdata11high-availability:zookeeper#指定高可用模式（必须）high-availability.zookeeper.quorum

一个人一匹马·2021-06-09 02:48

推荐频道

BigDATA