zhikanjiani

大数据实战第二十课 - Kafka01

第一章：初识Kafka

1.1 Kafka官网介绍
1.2 Kafka生产中的版本选择
1.3 kafka的一些相关概念
1.4 kafka的一些相关概念

第二章：部署Kafka

第三章：Kafka测试

第一章：初识Kafka

官网：http://kafka.apache.org/
部署环境：阿里云三台机器

Kafka在生产中的定位：

只做消息中间件，仅仅只做消息的存储，起到上游和下游的一个缓冲的作用，与分布式流式平台挂钩（Kafka、Storm）
kafka在以前的版本中就叫做消息中间件，现在官网的定位是分布式流式平台（A distributed streaming platform），虽然kafka给自己的定位是这样的，但是生产上90%的场景是消息中间件。

讲到消息中间件我们引出flume：

1、我们知道在Flume中有一个进程：一个进程包含三个角色

source、channel、sink

2、在Kafka中可以理解为有三个进程 --> 三个角色，kafka部署的进程叫broker。

producer（生产者）、broker、consumer（消费者）

3、对应生产架构，95%的场景都是这样：Flume --> Kafka --> Spark Streaming/Flink

Flume的数据发送到Kafka，Spark Streaming / Flink来消费数据

企业为什么还是选择Spark的多，因为它囊括了Spark Core、Spark SQL、Spark Streaming、Spark机器学习、Spark结构化流；无论做离线或者实时，只要通过一种组件就囊括数据开发和挖掘。离线处理：Spark-core、Spark SQL

1.1 Kafka官网介绍

Kafka部署的进程叫 broker：

1、消息中间件：Read and Write streams of data like a messaging system

2、处理：Write scalable stream processing applications that react to events in real-time

3、存储：Store streams of data safely in a distributed,replicated,fault-tolerant cluster

生产上一般Kafka只用做消息中间件和存储，Kafka的存储是分布式、提供副本、高容错的。

二、Documentation（指导）

1.2 Kafka生产中版本的选择

版本选择：0.10.0.X

why choice it（0.10.0.X）?

1、70%的公司都是选择CDH版本的。J总生产版本CDH-5.12.0，而我们自己学习的版本为CDH-5.7.0，我们要学会举一反三。

eg.企业生产版本和我们学习版本不一致，如何去做？

替换版本

进入到如下网址：https://www.cloudera.com/documentation/kafka/latest.html，点击SELECT A DIFFERENT VERSION，CDK指的是kafka在CDH中的简写。

2、点击Version and Packaging

1、注意版本选择：

https://docs.cloudera.com/documentation/kafka/latest/topics/kafka_packaging.html

eg.生产使用cdh2.12.0，看官网，Minumum Supported CDH Version(最小支持的CDH版本)，自行选择相近的版本。

CDH的版本尽量选择5.X较新的，比如生产版本是CDH5.12.0，kafka版本选择0.10.0和0.11.0；

2、Kafka+Spark Streaming的版本选择

Kafka版本的还有一个维度选择是Spark Streaming，官网推荐的是0.10+。
http://spark.apache.org/docs/latest/streaming-kafka-integration.html

3、生产上Kafka的选择

2.2.0	Apache Kafka	0.10.2.0+kafka2.2.0+110	July 13, 2017			//以这一条为例，其实是由三部分构成
base_version+cloudera_version+patch_level

kafka_2.11-0.10.2-kafka-2.2.0.jar
Kafka2.11：scala版本
2.2.0是cloudera公司给的版本号，110是cloudera公司打的补丁号

base_version is the version of the open-source component included in the Cloudera package.
cloudera_version is the version of the Cloudera package.
patch_level is the number of source commits applied on top of the base version forked from the Apache Kafka branch. Note that the number of commits does not indicate the number of functional changes or bug fixes in the release. For example, a commit can be used to amend a version number or make other non-functional changes.

要注意：kafka-clients-0.10.2-kafka-2.2.0.jar的版本，否则会引起生产上API的抛错。

在我们本次课程学习中还是使用Apache版本：

回顾CDH部署过程中，hdfs yarn zk hive hbase spark(1.6.x)，额外单独部署，自定义parcel：kafka、spark2；

http://archive.cloudera.com/cdh5/cdh/5/ ，在这个目录下是没有kafka的版本的，

更换网址后找到的也只是它的源代码包而已：http://archive.cloudera.com/kafka/kafka/2/

进入到kafka.apache.org上，找到对应的0.10版本，https://www.apache.org/dyn/closer.cgi?path=/kafka/0.10.0.0/kafka_2.11-0.10.0.0.tgz

小结：为什么选择0.10的分支?

1、Apache版本
-rw-rw-r--  1 1000 1000  31M May 24  2016 kafka_2.11-0.10.0.0.tgz

2、CDH版本

对于kafka在生产上的部署，需要额外的独立部署，需要自定义的包裹文件，官网上并没有提供
Apache的版本选择就是kafka_2.11-0.10.0.0.tgz，CDH相比于kafka多出的一个是kafka_2.11-0.10.2-kafka-2.2.0.jar后面的kafka-2.2.0，
我们的zookeeper还是选择cdh系列

注意：CDH上的kafka、spark2是根据包裹文件：KAFKA-2.2.0-1.2.2.0.p0.68-e17.parcel自定义去部署完成的。

1.3 Kafka的一些相关概念

第一个概念

kafka、spark是scala编程的

主题：topic

生产业务：

oms订单系统是存储在mysql中的，我们通过flume抽取的，把数据抽取到kafka（omstopic），sparkstreaming1来进行消费
wms仓库系统：mysql --> flume --> kafka（wmstopic） --> sparkstreaming2来进行消费

oms订单系统 mysql --> flume --> kafka(omstopic) --> ss1
wms订单系统 mysql --> flume --> kafka(wmstopic) --> ss2

mkdir omstopic文件夹		oms系统的数据就放到omstopic文件夹
mkdir wmstopic文件夹     wms系统的数据就放到wmstopic文件夹

kafka创建主题：一般根据生产业务处理数据来划分，omskafka和wmskafka两个topic其实是一个topic；一般是根据生产业务上游+数据处理来划分。

最终落在磁盘上就是创建文件夹（linux文件夹）

第二个概念：分区

omstopic 3个分区
p0 omstopic_0
p1 omstopic_1
p2 omstopic_2

比如我们有1~100条数据，写到omstopic，omstopic有三个分区，可能第一个分区写了40个，第二个分区写了20个，第三个分区写了40个。

第三个概念：副本

相当于我们hdfs上的一个文件130M，切了两个块，==> 分区；这两个块每个块都有三个副本，相当于是复制的意思。

omstopic_0 omstopic_0 omstopic_0
omstopic_1 omstopic_1 omstopic_1
omstopic_2 omstopic_2 omstopic_2

第四个概念：offset

抛开Kafka不谈，mysql建完表后，会有一个自增长主键，就相当于是一个索引，offset的索引是从0开始的。

数据是落在文件的一个位置，以二进制的形式来的。

key	value
1	aaa
2	bbb
3	ccc
4	ddd

抛出生产场景：全局有序

知道索引，知道下标后，精准消费

1、很多公司生产上60%的情况都是log日志，如果log日志是无序的状态，我们应该开心.

2、很多公司40%都是业务数据，比如mysql是一个有序状态，eg：我们在淘宝看中一双鞋，加入购物车，使用了insert操作；看了这双鞋不喜欢，把它删除购物车，做了update动作；我们添加一个口红，也是做了update动作；清空购物车，最后再做了一个delete操作；

对于一个订单，最先肯定是insert插入，然后是update更新操作，付完款后最后就是delete。

总结：

很多公司为了保证全局有序：

首先引出概念：

Kafka数据的文件是Linux磁盘文件是有序状态，也就是分区内有序。

在这种场景下，如何解决？

有些公司生产上只做一个分区p0就能够解决，这样就解决了分区内有序问题；但是性能下降了，鱼和熊掌，不可兼得。
针对上述情况是，kafka数据量小，扛不扛的住无所谓。

2、一些公司在sparkstreaming程序做一个排序，但是没必要，性能更加差了。

3、producer api（k,v）

kafka和zookeeper版本如下：

[root@hadoop001 kafka]# ll
total 64656
-rw-r--r-- 1 root root 31579147 May 24  2016 kafka_2.11-0.10.0.0.tgz
-rw-r--r-- 1 root root 34622929 Feb 22  2018 zookeeper-3.4.5-cdh5.12.0.tar.gz

部署zookeeper：

三台机器统一创建文件夹：
1、mkdir -p /opt/software
2、tar -xzvf /root/kafka/zookeeper-3.4.5-cdh5.12.0.tar.gz -C /opt/software/
3、进入到/opt/software目录后，cd conf目录，拷贝一份文件，cp zoo_sample.cfg zoo.cfg，编辑拷贝的这份zoo.cfg文件。
4、修改datadir目录：dataDir=/opt/software/zookeeper/data

5、再在zoo.cfg后面添加：
server.1=hadoop001:2888:3888
server.2=hadoop002:2888:3888
server.3=hadoop003:2888:3888

6、做一个软连接：
[root@hadoop001 software]# ln -s zookeeper-3.4.5-cdh5.12.0 zookeeper
[root@hadoop001 software]# pwd
/opt/software

7、zookeeper下创建data目录：

mkdir data

8、另外两台机器Hadoop002、hadoop003都像上面这样做就行了。

9、启动zookeeper，进入到bin目录，./zkserver.sh start

10、查看状态，必然是两个follower，一个leader。

安装目录自己根据生产进行变通。

部署kafka：

进入到这个目录，进行编辑：
[root@hadoop001 config]# pwd
/root/kafka/kafka_2.11-0.10.0.0/config
[root@hadoop001 config]# vi server.properties

修改如下：

1、hadoop001机器上如下修改：
#The id of the broker. This must be set to a unique integer for each broker.
broker.id=0
host.name=hadoop001
port=9092

2、hadoop002机器上如下修改：
broker.id=1
host.name=hadoop002
port=9092

3、hadoop003机器上如下修改：
broker.id=2
host.name=hadoop003
port=9092

注意：broker.id要注意

1、cat kafka-server-start.sh，注意到下面有这么一句话：

echo “USAGE: $0 [-daemon] server.properties [–override property=value]*”

shell脚本面试题目：$0的意思。

Kafka前台启动：

1、在hadoop001机器上进行前台启动，当前session关掉后，进程就会挂掉；三台机器依次前台启动：
命令：[root@hadoop001 bin]# ./kafka-server-start.sh …/config/server.properties

1、[2019-10-11 09:41:34,904] INFO [Kafka Server 0], started (kafka.server.KafkaServer)

2、[2019-10-11 09:41:34,904] INFO [Kafka Server 1], started (kafka.server.KafkaServer)

3、[2019-10-11 09:41:34,904] INFO [Kafka Server 2], started (kafka.server.KafkaServer)

这个id就是在这个目录下：/root/kafka/kafka_2.11-0.10.0.0/config，编辑这份文件： server.properties

到此时出现的问题：

1、三台机器的kafka都okay了，我们的zookeeper并没有指定：

我们采用的是集群环境，每个kafka找的是本地的，zookeeper又是集群的；

2、标准的生产上是如何配置的：/root/kafka/kafka_2.11-0.10.0.0/config，3台机器每台机器上都编辑这份文件，添加最后一句： server.properties

# Zookeeper connection string (see zookeeper docs for details).
# This is a comma separated host:port pairs, each corresponding to a zk
# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".
# You can also append an optional chroot string to the urls to specify the
# root directory for all kafka znodes.
zookeeper.connect=hadoop001:2181,hadoop002:2181,hadoop003:2181/kafka

/kafka  kafka在zk的目录

3、进入到./zkserver.sh，启动后使用ls /，我们发现它是一个零散的东西。
[zk: localhost:2181(CONNECTED) 1] ls /
[controller_epoch, brokers, zookeeper, admin, isr_change_notification, consumers, config]

上述都是kafka原生自带的文件夹，假如我们配置了，这些都在kafka里面。

正好是因为每个kafka的节点有zookeeper的进程，因此我们能够进行启动。

进入到zookeeper中后，出现：[zk: localhost:2181(CONNECTED) 0] ls /
[controller_epoch, brokers, zookeeper, kafka, admin, isr_change_notification, consumers, config]，出现kafka，那么就意味着部署好了。

zookeeper中文件夹如何删除：

1、首先要进入zookeeper目录，cd /opt/software/zookeeper/bin，然后使用命令：./zkCli.sh，进入zookeeper目录。

2、然后ls /查看，

[zk: localhost:2181(CONNECTED) 0] ls /
[controller_epoch, brokers, zookeeper, kafka, admin, isr_change_notification, consumers, config]

3、删除brokers文件夹：

[zk: localhost:2181(CONNECTED) 3] rmr /brokers

4、ls /kafka中有几个文件

[zk: localhost:2181(CONNECTED) 5] ls /kafka
[controller_epoch, controller, brokers, admin, isr_change_notification, consumers, config]

5、退出zookeeper，使用quit

第三章：kafka测试

官网quickstart：

./kafka-topics.sh \
--create \
--zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181/kafka \
--partitions 3 \
--replication-factor 3 \
--topic ruozedatag6

我们创建一个topic叫ruozedatag6，分区和节点数保持一致。
分区副本思想主要来自hdfs block块的思想。

高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
2.0践行没有你的参与就不完美 x秀丽x
亲爱的伙伴们早上好，今天早上我们开了一次班委竞选的会议，全程只有20多个人参与，宫班本着对大家负责任的态度告诉我们，此次竞选作废，原因是这没有达到2.0的100%参会要求，如果没有大家的参与那么这个班委选出来还有什么意义，这说明选出来的人也是不一定是我们大家心目中认可的那个人，所以为了让大家的这个90天能够更好的激发出自己的的“做”的能力，那么要从第一次竞选班委的会议开始做到100%出席会议，竞选
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
2018-12-16 宝妈林秀云
2018年12月16日星期日天气晴本来今天是要参加读经班的，小宝贝昨天晚上突然发烧了，所以就没办法参加。同时今天也是小宝贝的生日，因为发烧她爸爸就不买蛋糕给她过生日了。就给她买了榴莲披萨当蛋糕。姐姐还为她做了生日贺卡，这个生日贺卡姐姐可是花了很长时间才完成的。吃完披萨准备上楼了，这时杨欣也想跟我们一起上楼，就被奶奶叫住说：“不要上楼了要准备睡觉了”。本来我想小宝贝可能会吵着跟杨欣一起玩。出乎我的意
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
不要偷走他人的声音天天_27d6
朱会利焦点讲师班五期洛阳坚持分享第634天《来访者才是主角》2018.08.02今天的中级班课堂上，老师再一次给我们强调了咨询目标的建立过程中，作为咨询师一定要明白，我们只是在协助来访者解决他自身的问题，所以一切以来访者为主，他想解决的问题才是咨询的目标。所以如果在谈话的过程中，出现了我们感觉不是我们想要的答案的时候，我们不是再极力去引导来访者按照我们的思路走，而是觉察自己的预设并且进行调整，谨言
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
《度五行》生活报报甲午62：不通痛苦，太通也痛苦，要健康快乐，需要通体舒畅。 YangduSam2021
220809壬寅戊申甲午，《度.生活五行》:天干土克水，水生木，木克土。地支寅申冲，寅午合。20220809，周二，兴大上海六班2512天，西交大2013上海班3212天，后TA15332天，度生活619天，今天拜访了一家有趣且当红产业的新创公司AK。AK一开始从事深海新能源储存与供电设备的研发生产制造，2年前开始做移动与家庭储能设备的研发生产制造。觉得有趣是因为这是笔者认知里用科技做降维打击的公
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
九月班级管理工作反思追梦蜂
这个月应该算是最难的一个月，我已N年没当班主任，然后我又开始当了。职称是一方面，想到我如果退休了，不能再接触学生了，那该是多么遗憾的事！我的学生梁*铭是我的榜样，她那么努力，那么拼，那么上进，为什么我不行？虽然我面临的工作很难，但是高考数学也不容易。她拿下来了！满分150分她考了146分！我目睹她的艰辛，她的拼搏！还有，我要为我的孩子做榜样，如何竭尽全力，实现梦想。还有，服务，为社会做事，也是会有
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
【创客文案社】第三期写手招募筱瑶123
创客文案社第三期写手招募开始了。要求：1：注册一个月以上2：本身热爱写作3：有时间参与接单投稿参与方式：可以关注公众号：写作灵感；也可以通过其他转发文章的文友帮忙拉入群；也可以简信我。参与之后的文友，会先进入新人班，进行基本的试稿与培训，先接一些比较简单的单子；在这里可以一边赚钱，一边学习。不知不觉，来三四个月了，也发现了很多很有意思的现象。1：在上写一篇文章，基本都是几毛钱，多的也不过几块钱的收
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
中学生父母的修养再简单不过了
我是一个中学生的父母，我有许多心情，偶尔彷徨，偶尔愤怒，偶尔欣喜，偶尔还会感伤，我彷徨的是。他仿佛瞬间长大了，失去了我的掌控，从而愤怒他不再和我那么亲近，第一次告诉我说，你根本就不懂我，欣喜的是，我经常看到的小一些人，已经以我察觉不到的速度慢慢的蜕变成一棵树，虽然不够枝繁叶茂，但是已经有很多分支，绿叶还有开叉了，我感觉自己并没有老去，但孩子却已经有自己的世界。他会说，不准随便进他的房间，不要乱问班
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
使用由 Python 编写的 lxml 实现高性能 XML 解析 hunyxv python 笔记 python xml
转载自：文章lxml简介Python从来不出现XML库短缺的情况。从2.0版本开始，它就附带了xml.dom.minidom和相关的pulldom以及SimpleAPIforXML(SAX)模块。从2.4开始，它附带了流行的ElementTreeAPI。此外，很多第三方库可以提供更高级别的或更具有python风格的接口。尽管任何XML库都足够处理简单的DocumentObjectModel(DOM
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
Python编程 - 函数进阶易辰君 Python核心编程 python 开发语言
目录前言一、函数参数的高级用法（一）缺省参数（二）命名参数（三）不定长参数二、拆包（一）函数返回值拆包（二）通过星号拆包（三）总结三、匿名函数（一）函数定义（二）使用匿名函数四、递归函数（一）简介（二）基本结构（三）简单示例（四）优缺点总结前言上篇文章主要了解了函数基础，如何定义函数，函数种类以及局部变量和全局变量的差异等，接下来就讲解python函数较为进阶的知识点，若有任何想法欢迎一起沟通讨论
高级UI<第二十四篇>：Android中用到的矩阵常识 NoBugException
（1）定义在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：图片.png这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数aij为(i,j)元的矩阵可记为(aij)或(aij)m×n，m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵，元素是复
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

大数据实战第二十课 - Kafka01

第一章：初识Kafka

第二章：部署Kafka

第三章：Kafka测试

第一章：初识Kafka

Kafka在生产中的定位：

讲到消息中间件我们引出flume：

1.1 Kafka官网介绍

二、Documentation（指导）

1.2 Kafka生产中版本的选择

why choice it（0.10.0.X）?

2、点击Version and Packaging

1、注意版本选择：

2、Kafka+Spark Streaming的版本选择

3、生产上Kafka的选择

在我们本次课程学习中还是使用Apache版本：

小结：为什么选择0.10的分支?

1.3 Kafka的一些相关概念

第一个概念

生产业务：

第二个概念：分区

第三个概念：副本

第四个概念：offset

抛出生产场景：全局有序

总结：

首先引出概念：

kafka和zookeeper版本如下：

部署zookeeper：

部署kafka：

修改如下：

Kafka前台启动：

到此时出现的问题：

zookeeper中文件夹如何删除：

第三章：kafka测试

你可能感兴趣的:(高级班Kafka)