尘世_迷途小书童

04-hadoop基础

文章目录

1.大数据概论
- 1.1大数据的概念
- 1.2大数据的业务分析流程
- 1.3大数据的应用场景
2.Hadoop
- 2.1Hadoop概述
- - 2.1.1Hadoop的优势
  - 2.1.2Hadoop1版本和2版本的区别
- 2.2Hadoop的安装
- 2.4Hadoop三大组成
- - 2.4.1HDFS
  - - 2.4.1.1hdfs的组成
    - 2.4.1.2hdfs读写文件
    - 2.4.1.3hdfs的namenode和secondarynamenode
    - 2.4.1.4hdfs的datanode
  - 2.4.2mapreduce
  - - 2.4.2.1核心思想
    - 2.4.2.2序列化
    - 2.4.2.3框架原理
    - 2.4.2.4shuffle机制
    - 2.4.2.5数据输出
    - 2.4.2.6join
  - 2.4.3yarn

1.大数据概论

1.1大数据的概念

大数据是指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
主要解决，海量数据的存储和分析计算问题

1.2大数据的业务分析流程

产品人员提需求
数据部门搭建数据平台、分析数据指标
数据可视化

1.3大数据的应用场景

零售
物流仓库
旅游

2.Hadoop

2.1Hadoop概述

2.1.1Hadoop的优势

高可靠性：Hadoop底层维护多个数据副本，防止某个节点宕机而产生数据流失
高扩展性：在集群间分配任务数据，可方便的拓展数以千计的节点
高效性：在mapreduce的思想下，Hadoop并行工作
高容错性：能将失败的任务重新分配

2.1.2Hadoop1版本和2版本的区别

1版本中的mapreduce既要处理计算，又要管理资源的调度，耦合性非常大,新增了yarn之后，mapreduce只负责计算

2.2Hadoop的安装

安装JDK
1.1新建一个虚拟机，从已安装的jdk中输入命令

scp -r /usr/lcoal/jdk1.8.0_192
scp -r /etc/profile
scp -r /etc/hosts

关闭防火墙

sytemctl stop firewalld.service
sytemctl disable firewalld.service

重写source文件

source /etc/profile

配置免密登录

//所有会话
ssh-keygen -t rsa
//所有会话连点三次回车
ssh-copy-id bigdata1
123456
ssh-copy-id bigdata2
ssh-copy-id bigdata3
ssh-copy-id bigdata4
ssh-copy-id bigdata5

配置核心文件

put 路径 文件名

6 分发到其他的主机上

scp -r /usr/local/hadoop-2.8.4 bigdata1:/usr/local

配置Hadoop环境变量

scp -r /etc/profile bigdata1:/etc/profile 
export  HADOOP_HOME=/usr/local/hadoop-2.8.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

检测Hadoop是否安装配置成功

Hadoop

格式化

//首先启动小弟的journalnode
hadoop-daemon.sh start journalnode
//在其中一个大哥里面输入
hdfs namenode -format 
hdfs zkfc -formatZK
//第二台也要格式化
hdfs namenode -format 
//看看log中是否有successfully

启动大哥的namenode

hadoop-daemon.sh start namenode//在所有的大哥上都要执行
hadoop-daemon.sh start zkfc //启动注册active

检验bigdata4:50070
出现一个可视化界面
启动DataNode

//每一个zk上启动一个，都可以看到一个节点上线
hadoop-daemon.sh start datanode

启动资源调度

start-yarn.sh

检查是否是动态ip，导致节点无法上线

vi /etc/sysconfig/network-scripts/ifcfg-ens33

配置一键启动命令

//cat hadoop-env.sh 在usr/local/hadoop-2.8.4/etc/hadoop下面
export JAVA_HOME=/usr/local/jdk1.8.0_192

启动和停止命令

start-dfs.sh
stop-dfs.sh

2.4Hadoop三大组成

2.4.1HDFS

2.4.1.1hdfs的组成

图解
namenode管理hdfs的命名空间、配置副本的策略、管理数据块的映射信息、处理客户端的读写请求
datanode就是slaves，执行namenode下达的命令，负责存储实际的数据块、执行读写操作
client客户端负责文件切分，切分成一个个block上传、与namnode交互获得文件的位置信息、与datanode交互读写数据、用一些命令管理hadfs增删改查
secondarynamenode辅助namenode分担工作量

2.4.1.2hdfs读写文件

hdfs写文件

client创建一个distractedfilesystem向namenode请求上传数据
namenode响应可以上传数据
client请求上传第一个block的位置
返回datanode1\datanode2\datanode3用这三个节点存储
fsoutputStream请求建立传输通道
应答成功
传输数据
传输成功
关闭流

2.hdfs读文件

客户端打开分布式文件系统请求下载文件
namenode返回目标文件的元数据信息
客户端打开fsinputstream请求在datanode1读取数据block1
传数据
客户端打开fsinputstream请求在datanode2读取数据block2
传数据
关流

2.4.1.3hdfs的namenode和secondarynamenode

nn 和 2nn 工作机制

fsimage备份元数据信息，edits文件当元数据更新时在后面追加
一旦namenode断电后可以通过fsimage和edits的合并得到元数据
为了解决edits文件过大，需要定期合并，如果让namenode来做的话效率过低，所以引入了2nn
namenode内存128g每个block占150byte
启动namenode创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
客户端传来元数据的更新请求
namenode记录操作日志，更新滚动日志
当edits文件过大，或者checkpoint 时间到了之后,nm向2nm发送checkpoint请求
2nm执行checkpoint将fsimage和edits拷贝到奥2nm
加载到内存进行合并，生成fsimge.checkpoint
拷贝到nm重命名

2.4.1.4hdfs的datanode

datanode1启动后向nm注册
注册成功
datanode1每个周期向nm汇报所有块信息
datanode2每三秒钟发送一次心跳
返回带有nm的指令
超过十分钟没有心跳，就会认为该节点不可用

2.4.2mapreduce

2.4.2.1核心思想

map阶段读数据，一个分区对应一个maptask,将数据按行读入，
以空格划分
形成键值对
通过不同的首字母划分成两个分区
reduce阶段
将统计单词个数
输出到文件

2.4.2.2序列化

定义

将对象转换成字节序列以便于存到磁盘（持久化）和网络传输
反序列化：将字节序列转换为内存中的对象

代码演示

package com.iweb.test;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Sort {
static class SoMapper extends Mapper{

        Flowbeen k= new Flowbeen();
        Text v =new Text();
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String [] split = value.toString().split("\t");
        long sum_up = Long.parseLong(split [split.length-3]);
        long sum_down =  Long.parseLong(split[split.length-2]);
        k.set(sum_up,sum_down);
        v.set(split[1]);

        context.write(k,v);
    }
}
static class SoReduce extends Reducer{

    protected void reduce(Flowbeen key, Iterable values, Context context) throws IOException, InterruptedException {
        for (Text text:values
             ) {
            context.write(text,key);
        }


    }
}

    public static void main(String[] args) throws Exception{
        Configuration conf =new  Configuration();
        Job job =Job.getInstance(conf);
        Path src =null;
        Path dst =null;
        if(args.length==2){
            src =new Path(args[0]);
            dst = new Path(args [1]);
        }else {
            src =new Path("E:\\test\\sort\\in");
            dst =new Path("E:\\test\\sort\\out");
            conf.set("mapreduce.job.jar","F:\\workSpace\\java\\sort\\target\\sort-1.0-SNAPSHOT-jar-with-dependencies.jar");
        }
        FileSystem fs = FileSystem.get(conf);
        if (fs.exists(dst)){
            fs.delete(dst,true);
        }
        job.setMapperClass(SoMapper.class);
        job.setReducerClass(SoReduce.class);
        job.setOutputKeyClass(Flowbeen.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job,src);
        FileOutputFormat.setOutputPath(job,dst);
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

//bean
package com.iweb.test;


import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Flowbeen implements Writable, WritableComparable {
    //1	13736230513	192.196.100.1	www.atguigu.com	2481	24681	200
   private long up;
   private long down;
   private long sum;

    public Flowbeen() {
        super();
    }

    public Flowbeen(long up, long down) {
        super();
        this.up = up;
        this.down = down;
        this.sum = up+down;
    }

    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(up);
        dataOutput.writeLong(down);
        dataOutput.writeLong(sum);
    }

    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.up = dataInput.readLong();
        this.down = dataInput.readLong();
        this.sum = dataInput.readLong();
    }

    @Override
    public String toString() {
        return up +
                "\t" + down +
                "\t" + sum ;
    }

    public long getUp() {
        return up;
    }

    public void setUp(long up) {
        this.up = up;
    }

    public long getDown() {
        return down;
    }

    public void setDown(long down) {
        this.down = down;
    }

    public long getSum() {
        return sum;
    }

    public void setSum(long sum) {
        this.sum = sum;
    }


    public void set(long upFlow, long downFlow) {
        this.up = upFlow;
        this.down = downFlow;
        this.sum = upFlow + downFlow;
    }
    @Override
    public int compareTo(Flowbeen o) {
        int result;
        if(sum>o.getSum()){
            result = -1;
        }else if (sum

 
  2.4.2.3框架原理 
   
   
   Fileinputformat源码解析 
   
   
   首先程序获得文件的存储目录 
   遍历所有像切片的文件
 – 遍历第一个文件
 –返回文件的大小
 – 计算文件的切片:默认情况下 切片大小等于blocksize
 – 每次切分都要判断剩下的是否是块的1.1倍决定是否在分一块
 – 将切片信息写到有一个切片的规划文件中
 – 整个切片的方法在getsplit中完成
 – inputformat只记录了切片的元数据信息，起始位置，长度 
   提交切片规划文件到yarn上，yarn的app master就可以通过切片规划文件开启maptask的个数 
   
   
   CombineTextInputFormat 
   
   
   框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。 
   
   
   FileInputFormat实现类 
   
   
   TextIuputFormat、KeyValueTextIuputFormat、NLineinputFormat、CombineTextInputFormat、自定义inputformat 
   
  2.4.2.4shuffle机制 
   
   
   Shuffle的大致流程为：Maptask会不断收集我们的map()方法输出的kv对，放到内存缓冲区中，当缓冲区达到饱和的时候(默认占比为0.8)就会溢出到磁盘中，如果map的输出结果很多，则会有多个溢出文件，多个溢出文件会被合并成一个大的溢出文件，在文件溢出、合并的过程中，都要调用partitoner进行分组和针对key进行排序(默认是按照Key的hash值对Partitoner个数取模)，之后reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据，reducetask会将这些文件再进行合并（归并排序)。 
   
  合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出每一个键值对的Group，调用UDF函数(用户自定义的方法)) 
  2.4.2.5数据输出 
   
   
   自定义 
   
  //自定义一个OutputFormat类
public class FilterOutputFormat extends FileOutputFormat<Text, NullWritable>{
     

	@Override
	public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job)			throws IOException, InterruptedException {
     

		// 创建一个RecordWriter
		return new FilterRecordWriter(job);
	}
}
//编写RecordWriter
public class FilterRecordWriter extends RecordWriter<Text, NullWritable> {
     

	FSDataOutputStream atguiguOut = null;
	FSDataOutputStream otherOut = null;
	public FilterRecordWriter(TaskAttemptContext job) {
     

		// 1 获取文件系统
		FileSystem fs;

		try {
     
			fs = FileSystem.get(job.getConfiguration());

			// 2 创建输出文件路径
			Path atguiguPath = new Path("e:/atguigu.log");
			Path otherPath = new Path("e:/other.log");

			// 3 创建输出流
			atguiguOut = fs.create(atguiguPath);
			otherOut = fs.create(otherPath);
		} catch (IOException e) {
     
			e.printStackTrace();
		}
	}

	@Override
	public void write(Text key, NullWritable value) throws IOException, InterruptedException {
     

		// 判断是否包含“atguigu”输出到不同文件
		if (key.toString().contains("atguigu")) {
     
			atguiguOut.write(key.toString().getBytes());
		} else {
     
			otherOut.write(key.toString().getBytes());
		}
	}

	@Override
	public void close(TaskAttemptContext context) throws IOException, InterruptedException {
     

		// 关闭资源
IOUtils.closeStream(atguiguOut);
		IOUtils.closeStream(otherOut);	}
}
 
  2.4.2.6join 
   
   Map Join：Map Join适用于一张表十分小、一张表很大的场景。
 （1）在Mapper的setup阶段，将文件读取到缓存集合中。
 （2）在驱动函数中加载缓存。
 // 缓存普通文件到Task运行节点。
 job.addCacheFile(new URI(“file://e:/cache/pd.txt”)); 
   Reduce Join：Map端的主要工作:为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后 进行输出。Reduce端的主要工作:在R educe端以连接字段作为key的分组已经完成，我们只需要在一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开，最后进行台并就k了。 
   
  2.4.3yarn 
   
   运行机制
 
 （1）MR程序提交到客户端所在的节点。
 （2）YarnRunner向ResourceManager申请一个Application。
 （3）RM将该应用程序的资源路径返回给YarnRunner。
 （4）该程序将运行所需资源提交到HDFS上。
 （5）程序资源提交完毕后，申请运行mrAppMaster。
 （6）RM将用户的请求初始化成一个Task。
 （7）其中一个NodeManager领取到Task任务。
 （8）该NodeManager创建容器Container，并产生MRAppmaster。
 （9）Container从HDFS上拷贝资源到本地。
 （10）MRAppmaster向RM 申请运行MapTask资源。
 （11）RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
 （12）MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
 （13）MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
 （14）ReduceTask向MapTask获取相应分区的数据。
 （15）程序运行完毕后，MR会向RM申请注销自己。 
   任务提交
 
 （1）作业提交
 第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。
 第2步：Client向RM申请一个作业id。
 第3步：RM给Client返回该job资源的提交路径和作业id。
 第4步：Client提交jar包、切片信息和配置文件到指定的资源提交路径。
 第5步：Client提交完资源后，向RM申请运行MrAppMaster。
 （2）作业初始化
 第6步：当RM收到Client的请求后，将该job添加到容量调度器中。
 第7步：某一个空闲的NM领取到该Job。
 第8步：该NM创建Container，并产生MRAppmaster。
 第9步：下载Client提交的资源到本地。
 （3）任务分配
 第10步：MrAppMaster向RM申请运行多个MapTask任务资源。
 第11步：RM将运行MapTask任务分配给另外两个NodeManager，另两个NodeManager分别领取任务并创建容器。
 （4）任务运行
 第12步：MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。
 第13步：MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
 第14步：ReduceTask向MapTask获取相应分区的数据。
 第15步：程序运行完毕后，MR会向RM申请注销自己。
 （5）进度和状态更新
 YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
 （6）作业完成
 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

PHP与Web页面交互：从基础表单到AJAX实战独立开发者阿乐综合性原创前端 php 交互 Web页面表单处理 AJAX技术 AJAX
文章目录PHP与Web页面交互：从基础到高级实践1.引言2.基础表单处理2.1HTML表单与PHP交互基础2.2GET与POST方法比较3.高级交互技术3.1AJAX与PHP交互3.2使用FetchAPI进行现代AJAX交互4.文件上传处理5.安全性考量5.1常见安全威胁与防护5.2数据验证与过滤6.现代PHP与前端框架交互6.1构建RESTfulAPI6.2使用JWT进行认证7.性能优化7.1缓
互联网医院运营数据采集争实科技互联网医院医疗信息化
互联网医院运营数据采集是支撑业务优化、服务监管和决策分析的核心环节，需整合多源异构数据并确保其安全性与有效性。以下从采集内容、技术方法、挑战及解决方案等方面系统阐述：一、核心数据采集内容1.患者与业务数据基础信息：患者人口学特征、病史、过敏史等。服务记录：挂号量、问诊类型（图文/视频）、诊断量、处方量、复诊率、药品配送量。交互指标：平均就诊时长、会话响应时间、服务完成率。2.资源与效率数据医生资源
《Python 微服务架构实践指南：框架与工具的深度解析》清水白石008 python Python题库架构 python 微服务
《Python微服务架构实践指南：框架与工具的深度解析》开篇引入背景介绍：在现代应用开发中，微服务架构因其高扩展性、灵活性和模块化优势而备受关注。从电商平台到数据处理，微服务架构逐渐取代传统单体架构，成为开发者首选。而Python凭借其简洁优雅的语法和丰富的生态系统，为实现微服务架构提供了坚实的基础。为什么写这篇文章：作为一名资深开发者和教育者，我深切感受到许多开发者在微服务设计中的困惑。因此，本
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
2023-06-15 胡喜平
上午四节课，完成太空一日和带上她的眼。闹了个笑话，我说2003年10月16日，应该铭记，当时你们是不是也守在电视机前呢？他们说：老师，我们还没出生呢。哎呀，原来首飞已经二十年啦。下午批完两个班的基础卷。今天没有读书，听徐飞老师点评了我的阅读设计。
工厂经营日常4月23日吴桂昌专注阀片定制30年
4月23日今天刷了个5公里，，出了很多汗，感觉很爽，在温州，下着小雨，不错！早上等朋友起来一起吃饭，没想到自己都要睡着了…10点多才出门，吃了早餐，本打算去爬山，开车出去几公里，想到温州还有朋友，有老家的同乡，去拜访下，之前还一起同过业务。想当年这位仁兄家是村里首富呢，三十多年前就是万元户了，还有一辆桑塔纳，而如今，三个孩子各自一摊，没有把事业发扬光大。那么好的一个基础，没有发展好，是产业的问题吗
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
LeetCode 633.平方数之和（python题解） wendong97 LeetCode从零起步 #双指针 leetcode python 算法
LeetCode633.平方数之和（python题解）题目示例分析题解用到的基础知识计算平方和平方根取整参考题目给定一个非负整数c，你要判断是否存在两个整数a和b，使得a2+b2=c示例输入:5输出:True解释:1*1+2*2=5分析本题与上一题LeetCode167.两数之和II非常相似，把两数之和变成了平方数之和，利用上一题答案的思路，同样设置两个一左一右的指针，很容易就可以解答出来。这里要
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
好习惯，除了坚持，还是坚持。青青夏草小花老师
习惯，是指积久养成的生活方式，是决定一个孩子品行的重要基础。很多家有小学生的宝爸宝妈都没有时间给孩子做早餐，且不说起床穿衣是最消耗时间的部分，还有小女孩的扎辫子，早晨要出门才发现忘记签字、忘记带书带作业......这么多的事情曾经让多少妈妈或爸爸崩溃，哪里还有时间吃早餐呀。“早餐要吃好”这吃早餐的习惯，该是有多少孩子没有养成哦。水晶班里有个女孩子，一年级上学期经常迟到，到了上午十点，准点儿肚子疼不
OpenHarmony（鸿蒙南向开发）——轻量系统内核（LiteOS-M）【时间管理】 OpenHarmony_小贾鸿蒙开发 OpenHarmony 移动开发 harmonyos 单片机 OpenHarmony 鸿蒙内核移动开发鸿蒙开发嵌入式硬件
基本概念时间管理以系统时钟为基础，给应用程序提供所有和时间有关的服务。系统时钟是由定时器/计数器产生的输出脉冲触发中断产生的，一般定义为整数或长整数。输出脉冲的周期叫做一个“时钟滴答”。系统时钟也称为时标或者Tick。用户以秒、毫秒为单位计时，而操作系统以Tick为单位计时，当用户需要对系统进行操作时，例如任务挂起、延时等，此时需要时间管理模块对Tick和秒/毫秒进行转换。OpenHarmonyL
OpenHarmony（鸿蒙南向开发）——轻量系统内核（LiteOS-M）【扩展组件】 OpenHarmony_小贾移动开发 OpenHarmony 鸿蒙开发 harmonyos 嵌入式硬件单片机系统移植 OpenHarmony stm32 鸿蒙开发
C++支持基本概念C++作为目前使用最广泛的编程语言之一，支持类、封装、重载等特性，是在C语言基础上开发的一种面向对象的编程语言。运行机制C++代码的识别主要由编译器支持，系统主要对全局对象进行构造函数调用，进行初始化操作。开发指导接口说明表1C++支持接口功能分类接口名描述使用C++特性的前置条件LOS_CppSystemInitC++构造函数初始化开发流程使用C++特性之前，需要调用函数LOS
Open64 WHIRL Eloudy 编译器 IR
Open64WHIRL是美国Open64编译器套件中使用的一种中间表示（IntermediateRepresentation，IR）格式，主要用于在编译过程中表示源代码的中间形态。它是Open64编译器的重要技术组成部分，用于代码优化和跨平台代码生成。1.Open64编译器简介Open64是一个开源的、高性能的编译器基础设施，最初由SGI（SiliconGraphics）开发，后来由HP、Inte
娱乐主播真的只是聊天吗，说说我的感受糖葫芦很甜
在数字时代的浪潮中，娱乐主播这一职业如同璀璨星辰，照亮了无数人的休闲时光。每当夜幕降临，或是闲暇之余，打开直播平台，总能看到那些充满活力与个性的主播们，以他们独特的方式与观众互动，带来欢笑与共鸣。那么，娱乐主播真的只是简单地聊天吗？作为一位长期关注并偶尔参与其中的观众，我想分享一些我的感受与见解。娱乐主播：远不止于聊天首先，不可否认的是，聊天是娱乐主播与观众建立联系最直接、最基础的方式。主播们用幽
Scrum —— 一个真实的敏捷开发案例曹元_
Scrum为项目执行提供了可靠的、已被证实的基础。但是，在每个项目中，Scrum都必须根据具体需求和环境进行调整，这是项目成败的决定性因素。在这篇文章中，将会介绍如何成功地完成了一个大型的（20人年，超过十万行代码）、分布式（开发人员位于印度和荷兰）Scrum项目，而这个项目曾经在传统开发方式下被废弃过。为了帮助读者顺利运作大规模项目，在这里我也会历数我们的经验教训，包括：项目启动、找到合适的产品
站外SEO入门：三分钟掌握核心概念与基础操作 SEO_juper SEO Google 数字营销 seo 谷歌数字营销谷歌seo seo优化
站外SEO是您在网站之外所做的一切，以帮助它在SERP中排名更高。站内SEO侧重于内容、网站结构和技术改进，而站外SEO着眼于从外部建立信誉。有很多方法可以到达那里，从建立链接到社交媒体，再到获得那些令人垂涎的品牌提及。站外SEO对你意味着什么？通过站外SEO，您可以尝试为自己或您的企业获得信任和信誉。这个策略的很大一部分涉及链接建设，这涉及让其他网站链接回你的网站。这样做可以向搜索引擎表明您的内
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
Android音视频探索之旅 | Webrtc 1对1音视频通话核心流程分析慢行的骑兵音视频 android 音视频 webrtc
一.前言使用Webrtc实现1对1的音视频通话，先从Web端进行学习要比直接从Android端进行学习要轻松许多（若没有JS和Html以及Node基础，查找相关基础教程，能梳理代码的逻辑即可）。本文Android端接入Webrtc是通过引入官方的sdk来实现的。本文涉及到的Demo代码包含三部分，服务器端、Web端、Android端。服务器端使用的是Node，Web使用的是Html和JS，Andr
蜂享店佣金计算及制度模式氧惠全网优惠
蜂享店佣金计算及制度模式蜂享店的佣金计算及制度模式主要围绕其多级代理商架构展开，旨在通过激励代理发展下线代理和提升销售业绩来实现佣金的持续增长。以下是具体的佣金计算方式和制度模式，同时向您介绍另一个赚钱利器：氧惠App。通过使用官方邀请码，您可以享受到更高的佣金回报。请继续阅读，开启创收的新征程！佣金计算方式基础佣金：实习掌柜（最基础级别）通过自购或销售商品，可以获得商品页面显示的佣金的100%。
Kotlin介绍江上清风山间明月 Android kotlin 开发语言 android
文章目录1.Kotlin是什么？（身份介绍）2.Kotlin为什么受欢迎？（核心魅力-四大亮点）3.Kotlin看起来什么样？（一瞥语法）4.学习Kotlin能做什么？（应用场景）5.给0基础学习者的建议总结一下Kotlin给你的印象1.Kotlin是什么？（身份介绍）一句话定义：Kotlin是一种现代的、简洁的、安全的、实用的编程语言。谁创造的？一家叫JetBrains的公司（他们做了很多程序员
签署提效85%，法大大电子合同赋能来伊份HR数字化创新
在数字化转型及创新成为企业发展主旋律的当下，电子合同作为富有“新基建”属性的基础设施之一，已成为企业数字化转型的“标配”，助力企业合同签署及管理降本增效的同时，有效提升了企业员工及客户的签约体验，更建立了企业在业内积极引领数字化建设的标杆形象。法大大基于丰富的客户合作经验，以及对各行业需求趋势的洞察，深度剖析不同行业知名企业电子合同应用的成功实践，以期为更多企业应用电子合同提供参考。本期我们将为大
20200526读书笔记龙套哥萨克海龙
阅读1小时，总计1247小时，第1192日阅读《长安与河北之间》第7章通过对魏博的个案研究，探讨在安史乱后一直以兵雄天下著称的河朔三镇为何未能在唐末五代的历史巨变中继续扮演主要角色。魏博是安史乱后唐廷为招抚安史降将所置的河朔三镇之一。之后经代宗、德宗、宪宗等朝，虽屡经叛顺，不过自穆宗以后，魏博与唐廷之间基本形成了以共同承认“河朔故事”为基础的稳定关系。这一中唐以来形成的奉唐天子为正朔，各个藩镇依据
kafka 生产和消费性能测试工具 kafka-producer-perf-test.sh kafka-consumer-perf-test.sh 锅锅来了 #Kafka运维实战 kafka 测试工具分布式
目录kafka-producer-perf-test.sh基本用途基本命令格式核心参数说明常用测试场景1.基础吞吐量测试（无限制发送）2.固定速率测试（控制发送速度）3.不同可靠性配置测试结果解读注意事项kafka-consumer-perf-test.sh基本语法主要参数说明示例输出解释kafka-producer-perf-test.shkafka-producer-perf-test.sh是
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

04-hadoop基础

文章目录

1.大数据概论

1.1大数据的概念

1.2大数据的业务分析流程

1.3大数据的应用场景

2.Hadoop

2.1Hadoop概述

2.1.1Hadoop的优势

2.1.2Hadoop1版本和2版本的区别

2.2Hadoop的安装

2.4Hadoop三大组成

2.4.1HDFS

2.4.1.1hdfs的组成

2.4.1.2hdfs读写文件

2.4.1.3hdfs的namenode和secondarynamenode

2.4.1.4hdfs的datanode

2.4.2mapreduce

2.4.2.1核心思想

2.4.2.2序列化

2.4.2.3框架原理

2.4.2.4shuffle机制

2.4.2.5数据输出

2.4.2.6join

2.4.3yarn

你可能感兴趣的:(大数据,haoop基础,大数据基础,Hadoop开发)