时间幻象

大数据-重新学习hadoop篇-完成

前言：

首先这次重新学习为了后面校招，我会把我每天复习学到的一些觉得重要的知识点进行总结下来，持续更新，为实习做准备，加深记忆，从今天开始可能就不会法leetcode的相关题解了，但是每天还是会做每日一题的，加油。

hadoop优势

1.高可靠性：Hadoop底层的hdfs会进行副本存储，当一台机器挂了的时候，它有副本就可以重新启动恢复
2.高扩展性：当双11这种网络拥堵情况出现的时候，可以扩充机器进行负载均衡，所以扩展性也是非常不错的
3.高效性：可以多节点同时工作和高可靠性相互依赖
4.高容错性：任务失败可以重新调度

hadoop的三个大版本显著区别(1.0,2.0,3.0)

对于hadoop1.0来说不存在YARN，没有资源调度，没有高可用，会出现单点故障

对于hadoop2.0来说增加了YARN，也有了多机器操作

对于hadoop3.0来说增加了HA，MapReduce得到了性能优化

hadoop的shell命令

首先有三个命令：

hadoop fs：通用的文件系统命令，针对任何系统，比如本地文件，HDFS......（当文件系统是HDFS时候，与下面两个等效）

hadoop dfs：特定针对HDFS的文件系统，但hadoop3.0之后不推荐用（但是这个bug比较少）

hdfs dfs：hdfs文件系统的操作命令，建议用这个代替hadoop dfs的命令

我推荐用hadoop dfs因为我用hdfs dfs命令老有错误。。。

操作命令：

移动本地文件夹到HDFS端-moveFromLocal(注意一般的hdfs操作命令都是驼峰命名法)

hadoop dfs -moveFromLocal (本地文件夹位置) (HDFS文件夹位置)

复制本地文件到HDFS端-copyFromLocal

hadoop dfs -copyFromLocal (本地文件夹位置) (HDFS文件夹位置)

3.复制本地文件到HDFS端-put（与copyFromLocal用法一致，这个简单用的多）

hadoop dfs -put (本地文件夹位置) (HDFS文件夹位置)

4.复制HDFS端文件到本地-copyToLocal

hadoop dfs -copToLocal (HDFS文件夹位置) (本地文件夹位置)

5.复制HDFS端文件到本地-get

hadoop dfs -get (HDFS文件夹位置) (本地文件夹位置)

6.追加命令(因为HDFS不支持文件修改,或者说文件修改效率很低下)-appendToFile

如果要修改两种方法1.将hdfs文件get拉取到本地磁盘修改之后在put上去进行覆盖 2.追加

hadoop dfs -appendToFiile (本地文件夹位置) (HDFS文件夹位置)

7.一些其他的命令,类似于linux命令，Eg：ls，ll，cat，touch，chmod，tail .......

hadoop dfs -ls /

javaapi实现hdfs的读写过程

比较简单，没啥演示的，导入jar包，配置config，就可以使用了......

hdfs写入数据的流程

1. 用户请求数据namenode数据是否可以上传
2. namenode进行数据响应第一点：查看该用户是否有权限进行写第二点：查看上传目录是否可行
3. namenode响应结果（根据复制负载均衡和节点可用性来选择datanode）给用户（并且自己会将元数据存入本地磁盘保存，后面会说），用户开启流传输通达通道，每次发送一个block（0-128m）大小的资源
4. 用户准备发送，FsDataoutStream流发送，以最小单位chunk开始（512byte内容+4byte头文件），当chunk到达64k时候进行打包以流的形式发送到datanode
5. datanode被namenode选择好了之后，建立两个管道，第一个是传输管道，第二个是ACK应答管道（保证数据的完整性，如果机器挂断，后面还可以恢复）
6.数据传输采用串行方式进行传输，传给第一个datanode后，它一边接受一般往后面其他副本datanode进行传输，然后等代它们的ACK应答

网络括扑，节点距离计算

简单，不重要，了解即可，类似与树找父母节点

副本选择（根据源码读取得到结论）

1.第一步找到一个最近机架放至第一个副本
2.第二个是与第一个节点不同机架的最近机架（高可用性）
3.第三个是与第二个节点相同机架的不同节点（高效性）
解释：首先第一个节点找最近的是没啥好说的，第二个节点找不同就是为了宕机之后的恢复，高效性的体现，第三个与第二个在同一个机架是为了防止网络传输导致性能损失，因为第一个节点与第二个节点传递时候要建立一个网络连接（跨机架连接），第二个与第三个也要建立，但如果第二个和第三个在同一个机架的话，就可以避免跨机架传输减少网络资源浪费

为什么block大小一般是128m？？（新浪面试题）

因为这个与硬盘传递效率有关，当hdfs找资源的时间为10ms时，我们理想状态下，当寻找时间是传递时间的百分之10的时候最为理想，所以传递时间为1s，正常我们的机械硬盘传递速度是100mb/s，好公司的固态硬盘可以达到200mb/s，所以当100mb/s的时候我们block为128mb时是最理想的（1024进制，不能是100mb吧？），所以大公司一般的block大小是256m

Hdfs读取数据流程

1.首先客户端向namenode发送读取请求，namenode根据1.用户权限 2.内容有效性（根据元数据是否存在）
2.namenode将元数据返回给客户端，客户端创建FsDataInputStream流进行block读取
3.根据负载均衡（每个datanode都有副本）来读取对应的datanode
4.串行从datanode读取好对应的block后，进行拼接就可以得到

namenode和Secondnamenode工作原理（重点）

一般开发环境下是不存在2nn的，因为有HA可以完美完成2nn的工作（因为2nn的内容没有nn完全，毕竟是秘书.不存inprogress文件.这个文件记录用户在线操作）
有个问题就是将namenode的元数据存在内存还是磁盘呢？
1.内存计算速度快，但是宕机之后数据就没了，安全性不好
2.磁盘计算速度慢，但是持久化到磁盘的话是安全的
有人说两个一起用？只会更慢........
我们根据core-site.xml发现了元数据和hdfs的存储数据在data目录里面

找到这个目录查询档期那namenode到底存了什么，进入这个目录？

发现有两个目录dfs和nm-local-dir

进入nm-local-dir，我们发现是一些内存缓存（cache）

进入dfs，第一个data文件进去一直点是我们hdfs的副本的实时存储文件，里面存放我们的hdfs内容

进入第二个name，in_use.lock是缓存

再进入current，发现了namenode的存储内容（重点）

1. edits_0000000000000011702-0000000000000011703 是我们的操作内容（加密了无法查看）
2. edits_inprogress_0000000000000011704 可以理解为我们正在操作的内容（和后面的2nn有关系）
3. fsimage_0000000000000011701 和 fsimage_0000000000000011701.md5 是镜像序列话的文件，md5是加密文件
4. seen_txid记录当前操作的id，VERSION记录当前版本

然后我们进入2nn的目录，因为我是集群，所以我的2nn在另一个虚拟机上面

进入namesecondary

一直进到底

发现和我们的nn是一样的配置，但是少了一个edits_inprogress_0000000000000011704，seen_txid

所以我们现在来看两个的工作机制会更清楚，再说之前提一句，fsimage文件是存储数据结果的，因为hdfs无法进行修改只能追加，edits是将操作过程记录下来，最后服务器启动的时候就会将二者合起来生成新的edits加载到内存

1.当启动服务器的时候fsimage（镜像文件）文件和edits（编辑日志）合并起来放到内存里面
2.当用户的CRUD操作来了之后，我们会先修改inprogress文件再同步到内存的edits（因为这样安全，防止突然宕机引起丢失数据）
3.2nn会规律的向nn发送checkpoint请求（1.一小时 2.当edits内容到100w条的时候）
4.如果checkpoint得到响应之后，2nn会把nn里面的inprogress和edits拉到磁盘进行合并，在自己磁盘里面进行备份（就是我们看到的那些edits文件，但是没有inprogress，因为2nn不做资源调度）
5.合并完成之后备份了之后，发送给nn，形成新的edits，并且nn建立一个新的fsimage覆盖原来的fsimage，之后用户的CRUD都会在新的fsimage进行备份存储

（2023.3.15.23点05分）

我找到了一些方法查看fsimage镜像文件的方法

hdfs oiv -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

查看edits文件的方法

hdfs oeev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

我们用上面方法打开文件进行查看

打开xml文件

往下翻，下面有我们的树目录，里面记载了我们的父节点和子节点，也就是我们所说的上级目录和下级目录

（2023.3.27.22点10分）

edits文件

我们都知道edits文件是用户的操作结果文件.所以还是很重要的.它的合并有三个条件：
1.每一小时合并一次.我们可以在文件存储目录里面看到

2.每一次开关机Namenode的时候合并
3.当文件到达100w条时合并（这种情况一般是生产环境下.2nn每60s检查一次文件大小）

DataNode

因为Namendoe在内存里面所以我们不能说往里面存大量无用的数据.只能是存储一些元数据.一些DataNode信息等等.

所以一些校验信息.数据长度.时间戳这些数据量大的就会存到DataNode里面. 当服务器启动的时候自动想NameNode汇报.这里面的汇报就会有心跳机制（6小时汇报一次本身块总信息.3s报一次是否死亡信息，当汇报信息时间超出10分钟之后会再给10次机会如果还没有汇报，则认为DataNode死亡）

数据完整性

有CRC校验码等一些手段.（对原始数据进行校验封装.和java流传输时候的序列化一样）

MapReduce过程（重点）

序列化

MapRecude也是网络传输所以也是具有序列化的.它的序列化和java的不一样.它是本身自己就有的.比java序列化带的信息量少.传输快

java实现

1.如果mapreduce过程没有用到它们提供的demo的话，自己的实现类需要实现反序列化
2.实现对应的Writeable接口
3.重写序列化方法
4.重写反序列化方法（与序列化方法顺序一致）
5.如果是放在key的位置还需要实现Compatrto接口（后面的shuffle.reduce需要排序使用）

框架流程

1. inputformat读取数据
2.将数据拉到map端
3.shuffle阶段
4.reduce阶段
5.outputformat拉到磁盘

切片规则

和块大小保持一致.如果是在本地环境就是32m.在集群128m.大公司256m.几个切片到时候对应几个maptask.因为Math.max(minSize,Math(maxSize,blockSize))
1.minSize大小一般是1
2.maSize大小一般是Long.MaxValue，long最大值
3.blockSize表示块大小
综上所述切片规则就是块大小
切片规则还有一个1.1倍的原理(源码告诉的)
就是当你的文件大小不足blockSize大小的1.1倍时切位1片
EG:32mb的本地情况下，因为本地情况下是32m，所以它切成2片码？？？并不是因为33<32*1.1(35)所以切一片即可..注意逻辑是一片,物理还是切为两片(这里有的小迷糊)
切完后提交给Yarn，每一个文件单独切分(重要)

MapReduce源码简单读取

submit()->ensurestate(JobState.DEFINE)->SetUseNewApi()->connect()
1.submit()提交工作
2.ensurestate(JobState.DEFINE) 检查当前的状态信息是否正确
3.SetUseNewApi()新老api的兼容问题 1.x 2.x 3.x .....
4.connect() 提供对应的jar包.xml文件(本地需要提交.集群环境自带).切片信息---这里面的提交信息完事后就会自动删除.还有一些连接过程(yarn客户端和本地客户端....)

CombineTextInputFormat切片规则

这个切片规则是为了防止小文件很多的情况下.用上面的切分方法(fileInputFormat)会生成很多的小文件及其的不容易管理.所以这个就可以使用(生产环境使用很多)
这个是按照SetMaxInputSplitSize值进行切分的.一般大小是4m
规则:
1.先将文件进行字典排序
2.按照SetMaxInputSplitSize进行初次切分.大于它的直接分半
3.最后按照顺序合并即可
如果是8.02=4+2.01+2.01
注意：如果SetMaxInputSplitSize设置比较大，就只会生产一个切片

ReduceTask

默认开启一个.MapTask根据切片信息进行变化

MapReduce流程(重点)

1.获取处理文本
2.客户端进行submit()提交参数配置信息...到Yarn
3.进行文件切片
4.根据切片信息进行MapTask的开启
5.MapTask默认开启TextInputFormat有两个验证(是否可以切割.RecorderReader(键值对的读取方式))
6.将数据根据客户的特定Map生成特定的键值对
7.进入环形缓冲区(重点)
环形缓冲区(大小一般为100m)分为2部分(各50m)，第一部分是索引(元数据)，第二部分是数据(k,v)
数据进来的时候先打上标签.当两个的值合起来到达80%时进行反向溢写(为了时间效益的最大化.因为如果到了100%在溢写的话.会有各数据流的打开和关闭时间会浪费掉)
溢出到磁盘的时候会进行快排(分区内排--分区按照hash值%mod)(根据字典顺序)注意这里面的排序不是排数据.而是排索引.因为这是初步排序.而且这样排速度快.不需要调换数据位置.这里面的溢出还是溢出到一个文件(可能一个文件包含多个分区)里面的.
输出到磁盘的时候在进行归并排序(对于已经半序列化的数据来说更快).在这之前有一个combiner(压缩合并)操作.可选择的.目的为了减轻Reducer过程的压力
8.所有的MapTask过程完成后会开启ReduceTask过程(这个其实不一定完全是当MapTask完成之后开启的.大多数情况下是)
9.ReduceTask会主动拉取磁盘的数据进行对应的用户合并，会生成多个文件.每一个文件一个分区.拉到文件后进行再一次归并排序，这也是为什么我们Recuder过程时.相同的key会进入到一个Reduce过程
10.用户进行特定的Reduce之后.利用RecorderWriter写出到磁盘形成对应的分区文件Partitaion

（2023.3.27.22点51分）

（2023.3.28.22点31分）

shuffle详解

1.数据进来先打上了分区标签.这个分区按照用户指定的再Map阶段就进行了分区
2.环形缓冲区80%进行反向溢出.一半存元数据(index(位置信息).partition(分区信息).keystart(序列化了.因为要进行io传输).valuestart(序列化了))利用元数据到时候进行快排.一半存真正数据
3.溢出到磁盘这过程(这里还做了归并排序)还可以加入combiner阶段
4.开启ReduceTask过程

2023.4.16.18:14

Partitioner详解

源码自带的按照HashCode值进行分区=>(HashCode%Long.MaxValue)%Mod
如果是自己自定义一个分区策略
1.继承Partittioner接口，重写getPartition方法，分区必须从0号分区开始
2.在Job驱动种加入，job.set......(*.class)
3.修改ReduceTask数量，不然默认ReduceTask数量是1，走的默认系统自带的分区

Combiner详解

主要的目的就是减少Reducer端的压力，进行一个提前的预合并，因为一般开发环境下Reducer端是少于Map端的，一般的合并位置在Map端进行预合并，使用的前提是局部合并的结果不会影响到整体的结果这个是非常重要的，而且记住一点，没有Reducer阶段就没有Combiner阶段，Map阶段只负责计算。

环形缓冲区的元数据

包含以下几种meta：index、partition、keystart、valuestart（支持序列化，因为要跨节点传输）

Hadoop的压缩方式

主要分为三种情况
1.在Map端的压缩：主要考虑能不能切片
2.网络传输方面的压缩：考虑压缩速度
3.Reducer端：考虑压缩率
压缩方式：Snappy、Lzo、......

YARN

基础架构：
ResourceManger：1.处理客户端请求 2.监控ResourceManger 3.启动ApplicationMaster
NodeManger：1.管理单节点资源 2.处理ResourceManger命令 3.处理ApplicationMaster命令
ApplicationMaster：1.为应用程序申请资源，并且分配内部任务 2.任务的监控和容错
Container：容器，对于Yarn的抽象，包含CPU，磁盘，网络......
工作流程：
1.用户提交MR程序-main（）-job.waitForCompletion（）-开启YARN
2.想ResourceManger申请Application，ResourceManger，返回一个资源提交路径
3.用户将jar，xml，split，提交
4.ResourceManger将请求放入FIFO缓存队列，并将请求发送给NodeManger，开启对应的Continer容量，来运行MR任务，将用户刚上传的jar，xml，split下载到本地进行MapTask任务
5.NodeManger向ResourceManger申请开启MapTask容器，随之开启Continer开启对应的MapTask
6.MapTask完了之后重复上述的过程进行ReducerTask任务的开启
7.所有任务执行完毕之后进行资源的释放

Yarn调度器算法

过程由ResourceManger进行调度
大体上分为三种算法：
FIFO，容量，公平
Apache Hadoop 3.1.3默认用的资源调度器是Capacity Scheduler，也就是我们上面所提到的容量调度器的一种实现
FiFO基本是不用的因为效率是十分低下的，它采用的是我们传统意义上的队列，先进先出的算法进行排序，而且是单队列，效率不高，后面的两种算法在此基础上增加了多队列的方式进行提高性能.
容量队列的实现：多队列（FIFO），每一个单独的FIFO都有分配对应的资源进行任务的执行，容量队列保证每一个资源的最低和最高资源分配情况，让多FIFO可以进行互相的一个调用。比如有的队列内容是空闲，那么它的资源就可以被其他队列所使用，如果该队列的任务到了之后，被占用资源即可返回
公平调度器：多队列（FIFO），容量保证，灵活性，多租户进行使用。
将上面两个算法进行一个区分：
容量：选择资源利用率低的队列进行使用
公平：选择对资源缺额比较大的进行使用

至此结束Hadoop的复习过程

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23