weixin_30646505

Spark Streaming从Flume Poll数据案例实战和内幕源码解密

本节课分成二部分讲解：

一、Spark Streaming on Polling from Flume实战

二、Spark Streaming on Polling from Flume源码

第一部分：

推模式(Flume push SparkStreaming) VS 拉模式（SparkStreaming poll Flume）

采用推模式：推模式的理解就是Flume作为缓存，存有数据。监听对应端口，如果服务可以链接，就将数据push过去。(简单，耦合要低)，缺点是SparkStreaming 程序没有启动的话，Flume端会报错，同时会导致Spark Streaming 程序来不及消费的情况。

采用拉模式：拉模式就是自己定义一个sink，SparkStreaming自己去channel里面取数据，根据自身条件去获取数据，稳定性好。

Flume poll 实战：

1.Flume poll 配置

进入http://spark.apache.org/docs/latest/streaming-flume-integration.html官网，下载

spark-streaming-flume-sink_2.10-1.6.0.jar、scala-library-2.10.5.jar、commons-lang3-3.3.2.jar三个包：

将下载后的三个jar包放入Flume安装lib目录：

配置Flume conf环境参数：

编写业务代码：

public class SparkStreamingPollDataFromFlume {

public static void main(String[] args) {

* 第一步：配置SparkConf：

* 1，至少2条线程：因为Spark Streaming应用程序在运行的时候，至少有一条

* 线程用于不断的循环接收数据，并且至少有一条线程用于处理接受的数据（否则的话无法

* 有线程用于处理数据，随着时间的推移，内存和磁盘都会不堪重负）；

* 2，对于集群而言，每个Executor一般肯定不止一个Thread，那对于处理Spark Streaming的

* 应用程序而言，每个Executor一般分配多少Core比较合适？根据我们过去的经验，5个左右的

* Core是最佳的（一个段子分配为奇数个Core表现最佳，例如3个、5个、7个Core等）；

SparkConf conf = new SparkConf().setAppName("SparkStreamingPollDataFromFlume").setMaster("local[2]");

* 第二步：创建SparkStreamingContext：

* 1，这个是SparkStreaming应用程序所有功能的起始点和程序调度的核心

* SparkStreamingContext的构建可以基于SparkConf参数，也可基于持久化的SparkStreamingContext的内容

* 来恢复过来（典型的场景是Driver崩溃后重新启动，由于Spark Streaming具有连续7*24小时不间断运行的特征，

* 所有需要在Driver重新启动后继续上衣系的状态，此时的状态恢复需要基于曾经的Checkpoint）；

* 2，在一个Spark Streaming应用程序中可以创建若干个SparkStreamingContext对象，使用下一个SparkStreamingContext

* 之前需要把前面正在运行的SparkStreamingContext对象关闭掉，由此，我们获得一个重大的启发SparkStreaming框架也只是

* Spark Core上的一个应用程序而已，只不过Spark Streaming框架箱运行的话需要Spark工程师写业务逻辑处理代码；

JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(30));

* 第三步：创建Spark Streaming输入数据来源input Stream：

* 1，数据输入来源可以基于File、HDFS、Flume、Kafka、Socket等

* 2, 在这里我们指定数据来源于网络Socket端口，Spark Streaming连接上该端口并在运行的时候一直监听该端口

* 的数据（当然该端口服务首先必须存在）,并且在后续会根据业务需要不断的有数据产生(当然对于Spark Streaming

* 应用程序的运行而言，有无数据其处理流程都是一样的)；

* 3,如果经常在每间隔5秒钟没有数据的话不断的启动空的Job其实是会造成调度资源的浪费，因为并没有数据需要发生计算，所以

* 实例的企业级生成环境的代码在具体提交Job前会判断是否有数据，如果没有的话就不再提交Job；

JavaReceiverInputDStream lines = FlumeUtils.createPollingStream(jsc, "Master", 9999);

* 第四步：接下来就像对于RDD编程一样基于DStream进行编程！！！原因是DStream是RDD产生的模板（或者说类），在Spark Streaming具体

* 发生计算前，其实质是把每个Batch的DStream的操作翻译成为对RDD的操作！！！

*对初始的DStream进行Transformation级别的处理，例如map、filter等高阶函数等的编程，来进行具体的数据计算

* 第4.1步：讲每一行的字符串拆分成单个的单词

JavaDStream words = lines.flatMap(new FlatMapFunction() { //如果是Scala，由于SAM转换，所以可以写成val words = lines.flatMap { line => line.split(" ")}

@Override

public Iterable call(SparkFlumeEvent event) throws Exception {

String line = new String(event.event().getBody().array());

return Arrays.asList(line.split(" "));

}

});

* 第四步：对初始的DStream进行Transformation级别的处理，例如map、filter等高阶函数等的编程，来进行具体的数据计算

* 第4.2步：在单词拆分的基础上对每个单词实例计数为1，也就是word => (word, 1)

JavaPairDStream pairs = words.mapToPair(new PairFunction() {

@Override

public Tuple2 call(String word) throws Exception {

return new Tuple2(word, 1);

}

});

* 第四步：对初始的DStream进行Transformation级别的处理，例如map、filter等高阶函数等的编程，来进行具体的数据计算

* 第4.3步：在每个单词实例计数为1基础之上统计每个单词在文件中出现的总次数

JavaPairDStream wordsCount = pairs.reduceByKey(new Function2() { //对相同的Key，进行Value的累计（包括Local和Reducer级别同时Reduce）

@Override

public Integer call(Integer v1, Integer v2) throws Exception {

return v1 + v2;

}

});

* 此处的print并不会直接出发Job的执行，因为现在的一切都是在Spark Streaming框架的控制之下的，对于Spark Streaming

* 而言具体是否触发真正的Job运行是基于设置的Duration时间间隔的

* 诸位一定要注意的是Spark Streaming应用程序要想执行具体的Job，对Dtream就必须有output Stream操作，

* output Stream有很多类型的函数触发，类print、saveAsTextFile、saveAsHadoopFiles等，最为重要的一个

* 方法是foraeachRDD,因为Spark Streaming处理的结果一般都会放在Redis、DB、DashBoard等上面，foreachRDD

* 主要就是用用来完成这些功能的，而且可以随意的自定义具体数据到底放在哪里！！！

wordsCount.print();

* Spark Streaming执行引擎也就是Driver开始运行，Driver启动的时候是位于一条新的线程中的，当然其内部有消息循环体，用于

* 接受应用程序本身或者Executor中的消息；

jsc.start();

jsc.awaitTermination();

jsc.close();

}

启动HDFS集群：

启动运行Flume：

启动eclipse下的应用程序：

copy测试文件hellospark.txt到Flume flume-conf.properties配置文件中指定的/usr/local/flume/tmp/TestDir目录下：

隔30秒后可以在eclipse程序控制台中看到上传的文件单词统计结果。

第二部分：源码分析

1、创建createPollingStream （FlumeUtils.scala ）

注意：默认的存储方式是MEMORY_AND_DISK_SER_2

/**

* Creates an input stream that is to be used with the Spark Sink deployed on a Flume agent.

* This stream will poll the sink for data and will pull events as they are available.

* This stream will use a batch size of 1000 events and run 5 threads to pull data.

* @param hostname Address of the host on which the Spark Sink is running

* @param port Port of the host at which the Spark Sink is listening

* @param storageLevel Storage level to use for storing the received objects

def createPollingStream(

ssc: StreamingContext,

hostname: String,

port: Int,

storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2

): ReceiverInputDStream[SparkFlumeEvent] = {

createPollingStream(ssc, Seq(new InetSocketAddress(hostname, port)), storageLevel)

}

2、参数配置：默认的全局参数，private 级别配置无法修改

private val DEFAULT_POLLING_PARALLELISM = 5

private val DEFAULT_POLLING_BATCH_SIZE = 1000

/**

* Creates an input stream that is to be used with the Spark Sink deployed on a Flume agent.

* This stream will poll the sink for data and will pull events as they are available.

* This stream will use a batch size of 1000 events and run 5 threads to pull data.

* @param addresses List of InetSocketAddresses representing the hosts to connect to.

* @param storageLevel Storage level to use for storing the received objects

def createPollingStream(

ssc: StreamingContext,

addresses: Seq[InetSocketAddress],

storageLevel: StorageLevel

): ReceiverInputDStream[SparkFlumeEvent] = {

createPollingStream(ssc, addresses, storageLevel,

DEFAULT_POLLING_BATCH_SIZE, DEFAULT_POLLING_PARALLELISM)

}

3、创建FlumePollingInputDstream对象

/**

* Creates an input stream that is to be used with the Spark Sink deployed on a Flume agent.

* This stream will poll the sink for data and will pull events as they are available.

* @param addresses List of InetSocketAddresses representing the hosts to connect to.

* @param maxBatchSize Maximum number of events to be pulled from the Spark sink in a

* single RPC call

* @param parallelism Number of concurrent requests this stream should send to the sink. Note

* that having a higher number of requests concurrently being pulled will

* result in this stream using more threads

* @param storageLevel Storage level to use for storing the received objects

def createPollingStream(

ssc: StreamingContext,

addresses: Seq[InetSocketAddress],

storageLevel: StorageLevel,

maxBatchSize: Int,

parallelism: Int

): ReceiverInputDStream[SparkFlumeEvent] = {

new FlumePollingInputDStream[SparkFlumeEvent](ssc, addresses, maxBatchSize,

parallelism, storageLevel)

}

4、继承自ReceiverInputDstream并覆写getReciver方法，调用FlumePollingReciver接口

private[streaming] class FlumePollingInputDStream[T: ClassTag](

_ssc: StreamingContext,

val addresses: Seq[InetSocketAddress],

val maxBatchSize: Int,

val parallelism: Int,

storageLevel: StorageLevel

) extends ReceiverInputDStream[SparkFlumeEvent](_ssc) {

override def getReceiver(): Receiver[SparkFlumeEvent] = {

new FlumePollingReceiver(addresses, maxBatchSize, parallelism, storageLevel)

}

5、ReceiverInputDstream 构建了一个线程池，设置为后台线程；并使用lazy和工厂方法创建线程和NioClientSocket（NioClientSocket底层使用NettyServer的方式）

lazy val channelFactoryExecutor =

Executors.newCachedThreadPool(new ThreadFactoryBuilder().setDaemon(true).

setNameFormat("Flume Receiver Channel Thread - %d").build())

lazy val channelFactory =

new NioClientSocketChannelFactory(channelFactoryExecutor, channelFactoryExecutor)

6、receiverExecutor 内部也是线程池；connections是指链接分布式Flume集群的FlumeConnection实体句柄的个数，线程拿到实体句柄访问数据。

lazy val receiverExecutor = Executors.newFixedThreadPool(parallelism,

new ThreadFactoryBuilder().setDaemon(true).setNameFormat("Flume Receiver Thread - %d").build())

private lazy val connections = new LinkedBlockingQueue[FlumeConnection]()

7、启动时创建NettyTransceiver，根据并行度(默认5个)循环提交FlumeBatchFetcher

override def onStart(): Unit = {

// Create the connections to each Flume agent.

addresses.foreach(host => {

val transceiver = new NettyTransceiver(host, channelFactory)

val client = SpecificRequestor.getClient(classOf[SparkFlumeProtocol.Callback], transceiver)

connections.add(new FlumeConnection(transceiver, client))

})

for (i <- 0 until parallelism) {

logInfo("Starting Flume Polling Receiver worker threads..")

// Threads that pull data from Flume.

receiverExecutor.submit(new FlumeBatchFetcher(this))

}

8、FlumeBatchFetcher run方法中从Receiver中获取connection链接句柄ack跟消息确认有关

def run(): Unit = {

while (!receiver.isStopped()) {

val connection = receiver.getConnections.poll()

val client = connection.client

var batchReceived = false

var seq: CharSequence = null

try {

getBatch(client) match {

case Some(eventBatch) =>

batchReceived = true

seq = eventBatch.getSequenceNumber

val events = toSparkFlumeEvents(eventBatch.getEvents)

if (store(events)) {

sendAck(client, seq)

} else {

sendNack(batchReceived, client, seq)

}

case None =>

}

} catch {

9、获取一批一批数据方法

/**

* Gets a batch of events from the specified client. This method does not handle any exceptions

* which will be propogated to the caller.

* @param client Client to get events from

* @return [[Some]] which contains the event batch if Flume sent any events back, else [[None]]

private def getBatch(client: SparkFlumeProtocol.Callback): Option[EventBatch] = {

val eventBatch = client.getEventBatch(receiver.getMaxBatchSize)

if (!SparkSinkUtils.isErrorBatch(eventBatch)) {

// No error, proceed with processing data

logDebug(s"Received batch of ${eventBatch.getEvents.size} events with sequence " +

s"number: ${eventBatch.getSequenceNumber}")

Some(eventBatch)

} else {

logWarning("Did not receive events from Flume agent due to error on the Flume agent: " +

eventBatch.getErrorMsg)

None

}

总结：

88课

备注：

资料来源于：DT_大数据梦工厂（IMF传奇行动绝密课程）

更多私密内容，请关注微信公众号：DT_Spark

转载于:https://www.cnblogs.com/sparkbigdata/p/5448673.html

使用LangChain构建简单LLM翻译应用 fGVBSAbe langchain java 前端 python
技术背景介绍在本教程中，我们将学习如何使用LangChain构建一个简单的语言模型（LLM）应用程序，该应用程序用于将文本从英语翻译成其他语言。虽然这个应用程序比较简单，但它是学习LangChain的一个不错的开始，因为许多复杂功能都可以通过简单的提示和LLM调用构建。核心原理解析LangChain通过链式调用多个组件，使得复杂的语言处理任务变得简单易行。我们将使用LangChain的以下功能：语
MySQL面试题泰山小张只吃荷园 mysql 数据库 java 面试后端
MySQL目录1.MySQL中的数据排序是怎么实现的？2.那怎么去优化ORDERBY呢？3.MySQL中的ChangeBuffer是什么?有什么作用？4.详细描述一下一条SQL语句在MySQL中的执行过程5.MySQL的存储引擎有哪些？6.MySQL的索引有哪些？7.MySQLInnoDB引擎中的聚集索引和非聚集索引有什么区别?8.MySQL索引的最左前缀匹配原则是什么?9.MySQL的覆盖索引是
AI Agent的技术选型：从个人项目到企业级应用人工智能机器学习
说实话，每次有人问我"开发AIAgent应该用什么技术栈？"，我都觉得挺难回答的。因为不同的场景，最佳的技术选择可能完全不同。今天就来聊聊我在不同项目中的技术选型经历，希望能给大家一些参考。从个人项目说起去年我开始研究AIAgent的时候，第一个练手项目是给自己做一个代码助手。需求很简单：能读懂我的项目代码，帮我重构和写测试。那时候，我的技术选型是这样的：模型选择：OpenAIGPT-3.5便宜，
AI驱动的翻译工具：自动化处理 Univer Sheets 单元格内容翻译
背景随着工作和学习的全球化，跨语言的沟通变得尤为重要。对于使用电子表格进行数据处理和分析的用户来说，表格中的内容可能涉及不同的语言。尤其是在处理多语言数据时，翻译表格内容成为了一个高频的需求。传统的翻译方法可能需要手动复制粘贴，或者依赖外部工具，这样的方式既繁琐又浪费时间。为了解决这个问题，我们开发了一个基于AI的自动翻译工具——AICellTranslator，它能在UniverSheets中自
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
OpenAI进军实体机器人：GPT赋能的智能未来前端
近年来，人工智能技术飞速发展，深刻地改变着我们的生活。而OpenAI作为人工智能领域的领军者，其最新动作更是引人注目：进军实体机器人领域！这不仅标志着人工智能技术应用场景的重大拓展，也预示着未来智能机器人时代的加速到来。本文将深入探讨OpenAI的实体机器人战略，分析其背后的深层逻辑，并展望其未来发展趋势与挑战。OpenAI的战略布局：从AI模型到实体机器人OpenAI在人工智能领域已取得了令人瞩
OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线
公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集SentimentandEmotionAnalysisDataset情感情绪分析数据集4个教程：一键部署Phi-4Docling：文档解析神器一键部署QVQ-72B-preview铅笔素描风格文生图
Yocto项目-全面的工具链能力嵌入式Jerry Yocto linux 嵌入式硬件开发语言物联网系统架构
工具链是嵌入式系统开发中的核心组成部分，它决定了从源代码到可运行二进制文件的转化效率和最终质量。在诸多嵌入式构建系统中，Yocto项目以其灵活、强大且全面的工具链能力成为行业的佼佼者。本文将全面解析Yocto项目的工具链能力，同时对比其他常见构建系统，帮助读者更清晰地了解Yocto项目的优势和适用场景。1.什么是工具链？工具链（Toolchain）是嵌入式开发的核心，它由一组工具组成，用于将源代码
PyCharm安装PyQt5及工具详细教程 JustLikeRun pycharm qt ide pyqt
PyCharm安装PyQt5及工具详细教程PyCharm是一款功能强大的Python集成开发环境（IDE），而PyQt5是一个用于创建GUI应用程序的流行Python库。在本教程中，我将指导您如何在PyCharm中安装PyQt5及其相关工具，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要下载并安装PyCharm。您可以从JetBrains官方网站（https://www.jetbr
70_Redis数据结构-RedisObject 袁庭新 Redis 7企业级开发实战教程 redis 数据结构数据库 RedisObject介绍 RedisObject源码袁庭新 Redis7
1.RedisObject介绍在Redis中，所有数据类型的键和值均会被封装成一个称为Redis对象（RedisObject）的结构。什么是RedisObject呢？RedisObject（或简称robj）是Redis内部用于统一表示不同类型值的一个通用数据结构。从Redis使用者的视角来看，一个Redis节点可以包含多个数据库（在非集群模式下默认为16个，而在集群模式下则限制为1个），每个数据库
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
华为OD机试E卷 --第k个排列 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码java算法源码python算法源码c算法源码c++算法源码题目描述给定参数n，从1到n会有n个整数:1,2,3,…,n,这n个数字共有nl种排列。按大小顺序升序列出所有排列的情况，并——标记，当n=3时,所有排列如下:“123"“132”“213”“231"“312"“321”给定n和k，返回第k个排列。输入描述输入两行，第一行为n，第二行
基于WebService的面向服务架构研究 huaqianzkh 软件架构设计架构
摘要随着信息技术的快速发展，企业信息化已成为提升竞争力的关键手段。然而，企业在信息化过程中，往往形成了多个独立的业务系统，这些系统之间的信息交互困难，形成了“信息孤岛”。为了解决这个问题，基于WebService的面向服务架构（SOA）应运而生。本文首先介绍了WebService技术和SOA的基本概念，然后详细阐述了基于WebService的SOA架构的设计和实现方法，并通过一个具体案例展示了该架
FFmpeg 元数据 yerennuo ffmpeg ffmpeg
文章目录元数据代码实例，查看元数据元数据在处理音视频文件时，了解其元数据信息是非常重要的。元数据是描述文件内容和属性的数据，包括了诸如标题、作者、时长、分辨率等信息。使用ACDictonaryAPI，可以查看元数据或者将元数据写入到AVFormatContext,AVStream,AVChapter和AVProgram结构体中，元数据保存在它们Metadata字段中。元数据是由一个键值对组成的。与
深入浅出：Go语言中的`bufio`包及其数据类型详解少林码僧 go开发工作经验汇总 golang 开发语言后端
深入浅出：Go语言中的bufio包及其数据类型详解Go语言以其简洁、高效和强大的库支持而闻名，其中bufio包作为标准库的一部分，为开发者提供了便捷的缓冲输入输出功能。本文将深入探讨bufio包中的数据类型及其使用方法，帮助读者更好地理解和应用这一工具。一、什么是bufio包？bufio包是Go语言标准库中用于处理缓冲输入输出的一个重要模块。它通过提供一系列的缓冲器（如Reader、Writer等
被动扫描和主动扫描的区别 Zero2One. github java 前端网络安全系统安全
在网络安全和漏洞检测中，被动扫描和主动扫描是两种常见的技术，它们在工作方式和应用场景上有显著的区别。被动扫描被动扫描是一种在目标无法察觉的情况下进行的信息收集方法。它通过监听网络流量、代理等方式获取数据，而不主动与目标系统进行交互。被动扫描的主要特点是隐蔽性强，不会对目标系统造成干扰1。优点隐蔽性强：由于不主动发送请求，目标系统难以察觉到扫描行为。减少干扰：不会对目标系统的正常运行造成影响。缺点信
HNU OJ题库 1002C数字排序问题梦里通天塔湖大 OJ题库 HNU OJ 题库
问题C:数字排序问题时间限制:1Sec内存限制:256MB提交:1148解决:789[提交][状态][讨论版]题目描述给定n个整数，请统计出每个整数出现的次数，按出现次数从多到少的顺序输出。输入输入的第一行包含一个整数n，表示给定数字的个数。第二行包含n个整数，相邻的整数之间用一个空格分隔，表示所给定的整数。输出输出多行，每行包含两个整数，分别表示一个给定的整数和它出现的次数。按出现次数递减的顺序
你不知道的javascript-13(var的接替者let与const) 我爱学习_zwj 你不知道的javascript javascript 前端开发语言面试
1.let与const的基本使用在ES5中我们声明变量都是使用的var(variable)关键字，从ES6开始新增了两个关键字可以声明变量：let、constlet、const在其他编程语言中都是有的，所以也并不是新鲜的关键字但是let、const确确实实给JavaScript带来一些不一样的东西从使用角度来说，只是在原有基础上换一个名字而已，使用的位置和方式是一样的varname='zs'let
【事件触发扩散卡尔曼滤波器】基于UWB实测数据的基于事件触发的扩散卡尔曼滤波器的定位【DEKF、EKF】（Matlab代码实现） wlz249 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章下载⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览，免得骤然跌
Pinterest联盟营销综合指南好运来__ 大数据网络人工智能服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
RV1126+FFMPEG推流项目(9)AI和AENC模块绑定，并且开启线程采集学习嵌入式的小羊~ ffmpeg 音视频
前面两篇已经交代AI和AENC模块的配置，这篇就让这两个模块绑定起来，绑定的原因是，Aenc从Ai模块拿到采集的原始数据进行编码。使用RK_MPI_SYS_Bind把AI节点和AENC进行绑定，其中enModId是模块ID号选择的是RK_ID_AI、s32ChnId是通道号，通道号则从容器AENC容器获取。开启AENC线程采集每一帧视频编码数据并存储到音频队列。绑定的函数是有rv1126通过的，R
RV1126+FFMPEG推流项目(1)总体框架讲解学习嵌入式的小羊~ ffmpeg 音视频
音视频推流项目的讲解项目介绍本项目通过RV1126采集摄像头和麦克风数据，采用H.264/H.265视频编码技术和AAC音频编码技术进行压缩和合成复合流，然后推送到流媒体服务器。项目框图下图展示了整个项目的总体流程图，核心部分包括：暂时无法在飞书文档外展示此内容2.1视频采集与编码使用RV1126的API对CMOS摄像头进行采集，并进行H.264/H.265编码。编码后的视频数据存放到视频编码队列
QtDelegate委托的使用 Mr.攻城狮 QT
概念：不同于模型-视图-控制器模式，模型/视图设计不包括用于管理与用户交互的一个完全独立的组件。一般情况，视图负责将模型数据呈现给用户以及处理用户输入。为了输入更加具有灵活性，则由委托来执行交互。这些组件提供输入功能，且在一些视图中还负责渲染个别项目。控制委托的标准接口在QAbstractItemDelegate类中定义。简单基础部件的委托可以继承QItemDelegate，并使用这些函数的默认实
wandb 网络连接问题解决指南星之所望 wandb
背景我们都知道wandb是非常好用的可视化工具，但是国内这个环境，网络不通畅，使用时常常会无法同步数据，在使用校园网的情况下尤为明显。这里提供了一种解决思路。环境windows10pycharm校园网wifi报错内容运行训练代码时出现以下错误wandb:Networkerror(TransientError),enteringretryloop.解决办法需要挂代理，这里用的是clashforwin
Python处理Excel数据王肇朋 excel Excel EXCEL office python Python
Python处理Excel数据2012-08-0210:07:32我来说两句收藏我要投稿前段时间做了个小项目，帮个海洋系的教授做了个数据处理的软件。基本的功能很简单，就是对Excel里面的一些数据进行过滤，统计，对多个表的内容进行合并等。之前没有处理Excel数据的经验，甚至于自己都很少用到Excel。记得《Python核心编程》的最后一章里有讲到用Win32COM操作office，看了一下讲的不
177.累加和校验 Reigrow xdoj
问题描述数据传输中一种常见的校验方式是累加和校验。其实现方式是在一次通讯数据包的最后加入一个字节的校验数据。这个校验字节内容为前面数据包中所有数据按字节累加所得结果的最后一个字节。例如：要传输的信息为：TEST（ASCII码为0x54,0x45,0x53,0x54）四个字节的累加和为：0x54+0x45+0x53+0x54=0x140校验和为累加和的最后一个字节，即0x40，也就是十进制的64现在
TimeUnit源码走读及基本使用 amcomputer Java基础后端 JavaWeb TimeUnit源码走读 TimeUnit基本使用
1背景介绍笔者遇到一个场景，用户输入的时间和数据库里面时间做对比，由于数据库里面是timestamp类型，（如2021-08-2308:28:41），而用户输入一般为小时，分钟，或者毫秒。代码规约规定不能使用java.sql.Time,java.sql.Date,和java.sql.timestamp,因为在jdk8中，这3个类有缺陷。现在假设用户输入是毫秒(longstartTime=Syste
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
企业如何打造高效智能问答系统？一文详解架构与实现！功城师大语言模型自然语言处理 LLM 人工智能智能问答 RAG Agent
随着人工智能技术的不断发展，智能问答系统成为越来越多企业提升客户服务、知识管理与内部沟通的关键工具。今天我们将深入解析一套智能问答系统的设计思路与技术架构，帮助大家更好地理解如何利用这一系统在实际场景中高效运作。一、智能问答系统的整体架构这套智能问答系统分为前台、AI服务和后台三个核心部分，每个部分承担着不同的职责，分别负责用户交互、问题处理与数据支持。通过这种模块化的设计，整个系统的工作流程得以
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

Spark Streaming从Flume Poll数据案例实战和内幕源码解密

88课

你可能感兴趣的:(Spark Streaming从Flume Poll数据案例实战和内幕源码解密)