Ethan-running

【Kafka】高级特性：主题

主题的管理

使用kafka-topics.sh脚本。

下面是使用脚本的一些选项

选项	说明
–config	为创建的或修改的主题指定配置信息。
–create	创建一个新主题
–delete	删除一个主题
–delete-config	删除现有主题的一个主题配置条目。这些条目就是在–config中给出的配置条目。
–alter	更改主题的分区数量，副本分配和/或配置条目。
–describe	列出给定主题的细节。
–disable-rack-aware	禁用副本分配的机架感知。
–force	抑制控制台提示信息
–help	打印帮助信息
–replica-assignment :broker_id_for_part1_replica2 ,broker_id_for_part2_replica1 :broker_id_for_part2_replica2 , …>	当创建或修改主题的时候手动指定partition-to-broker的分配关系。
–replication-factor	要创建的主题分区副本数。1表示只有一个副本，也就是Leader副本。
–topic	要创建、修改或描述的主题名称。除了创建，修改和描述在这里还可以使用正则表达式。
–topics-with-overrides	if set when describing topics, only show topics that have overridden configs
–unavailable-partitions	if set when describing topics, only show partitions whose leader is not available
–under-replicated-partitions	if set when describing topics, only show under replicated partitions
–zookeeper	必需的参数：连接zookeeper的字符串，逗号分隔的多个host:port列表。多个URL可以故障转移。

创建主题

kafka-topics.sh --zookeeper localhost:2181/myKafka --create --topic topic_x - -partitions 1 --replication-factor 1 

kafka-topics.sh --zookeeper localhost:2181/myKafka --create --topic topic_test_02 --partitions 3 --replication-factor 1 --config max.message.bytes=1048576 --config segment.bytes=10485760

查看主题

kafka-topics.sh --zookeeper localhost:2181/myKafka --list 
kafka-topics.sh --zookeeper localhost:2181/myKafka --describe --topic topic_x 
kafka-topics.sh --zookeeper localhost:2181/myKafka --topics-with-overrides -- describe

修改主题

kafka-topics.sh --zookeeper localhost:2181/myKafka --create --topic topic_test_01 --partitions 2 --replication-factor 1

kafka-topics.sh --zookeeper localhost:2181/myKafka --alter --topic topic_test_01 --config max.message.bytes=1048576 

kafka-topics.sh --zookeeper localhost:2181/myKafka --describe --topic topic_test_01

kafka-topics.sh --zookeeper localhost:2181/myKafka --alter --topic topic_test_01 --config segment.bytes=10485760 

kafka-topics.sh --zookeeper localhost:2181/myKafka --alter --delete-config max.message.bytes --topic topic_test_01

删除主题

kafka-topics.sh --zookeeper localhost:2181/myKafka --delete --topic topic_x

删除主题时，只是给主题添加删除的标记，要过一段时间删除。

增加分区

通过命令行工具操作，主题的分区只能增加，不能减少。否则报错

ERROR org.apache.kafka.common.errors.InvalidPartitionsException: The number of partitions for a topic can only be increased. Topic myTop1 currently has 2 partitions, 1 would not be an increase.

通过–alter修改主题的分区数，增加分区。

kafka-topics.sh --zookeeper localhost/myKafka --alter --topic myTop1 -- partitions 2

分区副本的分配

副本分配的三个目标：

均衡地将副本分散于各个broker上
对于某个broker上分配的分区，它的其他副本在其他broker上
如果所有的broker都有机架信息，尽量将分区的各个副本分配到不同机架上的broker。

在不考虑机架信息的情况下：

第一个副本分区通过轮询的方式挑选一个broker，进行分配。该轮询从broker列表的随机位置进行轮询。
其余副本通过增加偏移进行分配。

必要参数配置

使用kafka-topics.sh --config xx=xx --config yy=yy

配置给主题的参数如下：

属性	默认值	服务器默认属性	说明
cleanup.policy	delete	log.cleanup.policy	要么是”delete“要么是”compact“；这个字符串指明了当他们的回收时间或者尺寸限制到达时，针对旧日志部分的利用方式。默认方式（“delete”）将会丢弃旧的部分；”compact“将会进行日志压缩。
compression.type	none		producer用于压缩数据的压缩类型。默认是无压缩。正确的选项值是none、gzip、snappy、 lz4。压缩最好用于批量处理，批量处理消息越多，压缩性能越好。
max.message.bytes	1000000	max.message.bytes	kafka追加消息的最大字节数。注意如果你增大这个字节数，也必须增大consumer的fetch字节数，这样consumer才能fetch到这些最大字节数的消息。
min.cleanable.dirty.ratio	0.5	min.cleanable.dirty.ratio	此项配置控制log压缩器试图进行清除日志的频率。默认情况下，将避免清除压缩率超过50%的日志。这个比率避免了最大的空间浪费
min.insync.replicas	1	min.insync.replicas	当producer设置 request.required.acks为-1时， min.insync.replicas指定replicas 的最小数目（必须确认每一个 repica的写数据都是成功的），如果这个数目没有达到， producer会产生异常。
retention.bytes	None	log.retention.bytes	如果使用“delete”的retention 策略，这项配置就是指在删除日志之前，日志所能达到的最大尺寸。默认情况下，没有尺寸限制而只有时间限制
retention.ms	7 days	log.retention.minutes	如果使用“delete”的retention策略，这项配置就是指删除日志前日志保存的时间。
segment.bytes	1GB	log.segment.bytes	kafka中log日志是分成一块块存储的，此配置是指log
segment.index.bytes	10MB	log.index.size.max.bytes	此配置是有关offsets和文件位置之间映射的索引文件的大小；一般不需要修改这个配置
segment.jitter.ms	0	log.roll.jitter.{ms,hours}	The maximum jitter to subtract from logRollTimeMillis.
segment.ms	7 days	log.roll.hours	即使log的分块文件没有达到需要删除、压缩的大小，一旦log 的时间达到这个上限，就会强制新建一个log分块文件
unclean.leader.election.enable	true		指明了是否能够使不在ISR中的replicas设置用来作为leader

KafkaAdminClient应用

除了使用Kafka的bin目录下的脚本工具来管理Kafka，还可以使用管理Kafka的API将某些管理查看的功能集成到系统中。在Kafka0.11.0.0版本之前，可以通过kafka-core包（Kafka的服务端，采用Scala编写）中的AdminClient和AdminUtils来实现部分的集群管理操作。Kafka0.11.0.0之后，又多了一个AdminClient，在kafka-client包下，一个抽象类，具体的实现是org.apache.kafka.clients.admin.KafkaAdminClient。

功能

KafkaAdminClient包含了一下几种功能（以Kafka1.0.2版本为准）：

创建主题： createTopics(final Collection newTopics, final CreateTopicsOptions options)
删除主题：deleteTopics(final Collection topicNames, DeleteTopicsOptions options)
列出所有主题：listTopics(final ListTopicsOptions options)
查询主题：describeTopics(final Collection topicNames, DescribeTopicsOptions options)
查询集群信息：describeCluster(DescribeClusterOptions options)
查询配置信息：describeConfigs(Collection configResources, final DescribeConfigsOptions options)
修改配置信息：alterConfigs(Map configs, final AlterConfigsOptions options)
修改副本的日志目录：alterReplicaLogDirs(Map replicaAssignment, final AlterReplicaLogDirsOptions options)
查询节点的日志目录信息：describeLogDirs(Collection brokers, DescribeLogDirsOptions options)
查询副本的日志目录信息：describeReplicaLogDirs(Collection replicas,DescribeReplicaLogDirsOptions options)
增加分区：createPartitions(Map newPartitions, final CreatePartitionsOptions options)

其内部原理是使用Kafka自定义的一套二进制协议来实现，详细可以参见Kafka协议。

用到的参数：

属性	说明	重要性
bootstrap.servers	向Kafka集群建立初始连接用到的host/port列表。客户端会使用这里列出的所有服务器进行集群其他服务器的发现，而不管是否指定了哪个服务器用作引导。这个列表仅影响用来发现集群所有服务器的初始主机。字符串形式：host1:port1,host2:port2,… 由于这组服务器仅用于建立初始链接，然后发现集群中的所有服务器，因此没有必要将集群中的所有地址写在这里。一般最好两台，以防其中一台宕掉。	high
client.id	生产者发送请求的时候传递给broker的id字符串。用于在broker的请求日志中追踪什么应用发送了什么消息。一般该id是跟业务有关的字符串。	medium
connections.max.idle.ms	当连接空闲时间达到这个值，就关闭连接。long型数据，默认：300000	medium
request.timeout.ms	客户端等待服务端响应的最大时间。如果该时间超时，则客户端要么重新发起请求，要么如果重试耗尽，请求失败。int类型值，默认：120000	medium
security.protocol	跟broker通信的协议：PLAINTEXT, SSL,SASL_PLAINTEXT, SASL_SSL.string类型值，默认：PLAINTEXT	medium
reconnect.backoff.ms	重新连接主机的等待时间。避免了重连的密集循环。该等待时间应用于该客户端到broker的所有连接。long型值，默认：50	medium
retries	重试的次数，达到此值，失败。int类型值，默认5。	low
retry.backoff.ms	在发生失败的时候如果需要重试，则该配置表示客户端等待多长时间再发起重试。该时间的存在避免了密集循环。long型值，默认值：100。	low
receive.buffer.bytes	TCP接收缓存（SO_RCVBUF），如果设置为-1，则使用操作系统默认的值。int类型值，默认65536	medium
send.buffer.bytes	用于TCP发送数据时使用的缓冲大小（SO_SNDBUF），-1表示使用OS默认的缓冲区大小。int类型值，默认值：131072	medium
reconnect.backoff.max.ms	对于每个连续的连接失败，每台主机的退避将成倍增加，直至达到此最大值。在计算退避增量之后，添加20％的随机抖动以避免连接风暴。 long型值，默认1000	low

操作示例

主要操作步骤：

客户端根据方法的调用创建相应的协议请求，比如创建Topic的createTopics方法，其内部就是发送CreateTopicRequest请求。
客户端发送请求至Kafka Broker。
Kafka Broker处理相应的请求并回执，比如与CreateTopicRequest对应的是CreateTopicResponse。
客户端接收相应的回执并进行解析处理。

和协议有关的请求和回执的类基本都在org.apache.kafka.common.requests包中，AbstractRequest和AbstractResponse是这些请求和响应类的两个父类。

综上，如果要自定义实现一个功能，只需要三个步骤：

自定义XXXOptions;
自定义XXXResult返回值；
自定义Call，然后挑选合适的XXXRequest和XXXResponse来实现Call类中的3个抽象方法。

示例：

import org.apache.kafka.clients.admin.*;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.requests.DescribeLogDirsResponse;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.util.*;
import java.util.concurrent.ExecutionException;
import java.util.function.BiConsumer;
import java.util.function.Consumer;

public class MyAdminClient {

    private KafkaAdminClient client;

    @Before
    public void before() {

        Map<String, Object> configs = new HashMap<>();
        configs.put("bootstrap.servers", "node1:9092");
        configs.put("client.id", "admin_001");

        client = (KafkaAdminClient) KafkaAdminClient.create(configs);
    }

    @After
    public void after() {
        // 关闭admin客户端
        client.close();
    }

    @Test
    public void testListTopics() throws ExecutionException, InterruptedException {
        // 列出主题
//        final ListTopicsResult listTopicsResult = client.listTopics();

        ListTopicsOptions options = new ListTopicsOptions();
        // 列出内部主题
        options.listInternal(true);
        // 设置请求超时时间，单位是毫秒
        options.timeoutMs(500);

        final ListTopicsResult listTopicsResult = client.listTopics(options);

//        final Set strings = listTopicsResult.names().get();
//
//        strings.forEach(name -> {
//            System.out.println(name);
//        });

        // 将请求变成同步的请求，直接获取结果
        final Collection<TopicListing> topicListings = listTopicsResult.listings().get();

        topicListings.forEach(new Consumer<TopicListing>() {
            @Override
            public void accept(TopicListing topicListing) {

                // 该主题是否是内部主题
                final boolean internal = topicListing.isInternal();
                // 该主题的名字
                final String name = topicListing.name();


                System.out.println("主题是否是内部主题：" + internal);
                System.out.println("主题的名字：" + name);
                System.out.println(topicListing);
                System.out.println("=====================================");
            }
        });

    }


    @Test
    public void testDescribeLogDirs() throws ExecutionException, InterruptedException {
        final DescribeLogDirsResult describeLogDirsResult = client.describeLogDirs(Collections.singleton(0));

        final Map<Integer, Map<String, DescribeLogDirsResponse.LogDirInfo>> integerMapMap
                = describeLogDirsResult.all().get();

        integerMapMap.forEach(new BiConsumer<Integer, Map<String, DescribeLogDirsResponse.LogDirInfo>>() {
            @Override
            public void accept(Integer integer, Map<String, DescribeLogDirsResponse.LogDirInfo> stringLogDirInfoMap) {
                System.out.println("broker.id = " + integer);
//                log.dirs可以设置多个目录
                stringLogDirInfoMap.forEach(new BiConsumer<String, DescribeLogDirsResponse.LogDirInfo>() {
                    @Override
                    public void accept(String s, DescribeLogDirsResponse.LogDirInfo logDirInfo) {
                        System.out.println("logdir = " + s);
                        final Map<TopicPartition, DescribeLogDirsResponse.ReplicaInfo> replicaInfos = logDirInfo.replicaInfos;

                        replicaInfos.forEach(new BiConsumer<TopicPartition, DescribeLogDirsResponse.ReplicaInfo>() {
                            @Override
                            public void accept(TopicPartition topicPartition, DescribeLogDirsResponse.ReplicaInfo replicaInfo) {
                                System.out.println("主题分区：" + topicPartition.partition());
                                System.out.println("主题：" + topicPartition.topic());
//                                final boolean isFuture = replicaInfo.isFuture;
//                                final long offsetLag = replicaInfo.offsetLag;
//                                final long size = replicaInfo.size;
                            }
                        });

                    }
                });
            }
        });
    }
}

Redis深度解析：从缓存到分布式系统的核心引擎 JouJz 缓存 redis 数据库
Redis深度解析：从缓存到分布式系统的核心引擎引言：数据时代的极速引擎在当今高并发、低延迟的数字世界中，Redis以其亚毫秒级响应、丰富数据结构和高可用架构，成为现代系统架构的核心组件。从简单的键值存储到复杂的分布式锁实现，从缓存加速到实时分析，Redis的应用场景已远超传统缓存范畴。本文将深入剖析Redis的核心原理、高级特性和最佳实践，带您全面理解这一改变数据处理方式的开源神器。一、Redi
9个基于MATLAB 事件触发控制 985计算机硕士 matlab matlab 开发语言
9个基于MATLAB事件触发控制1线性多智能体系统一致性的分布式动态事件触发控制方法。2固定拓扑和切换拓扑下多智能体系统的分布式动态事件触发一致性控制.3有限时间一致性的分布式事件驱动控制.4多智能体系统的分布式事件触发控制.5多代理网络中基于事件的协议。6非线性不确定性多智能体系统的定时事件触发一致性控制.7线性多智能体网络的全分布式事件触发协议.8非理想一般线性多智能体系统基于观测器的事件触发
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
分布式操作系统 - 1.分布式系统概论 IT斜杆青年分布式操作系统分布式网络
文章目录1.概念和特点1.1概念1.2需解决问题1.3中间件1.4分布式系统特点2.设计目标2.1支持资源共享2.2透明性2.3开放性（1）OpenSystem（2）特点2.4可伸缩性（1）规模可伸缩性（2）地理位置可伸缩性（3）管理可伸缩性（4）实现可伸缩性采用的技术减少通信延迟将服务分割并分布化部署副本（replication）与缓存（caching）（5）易犯错误2.5高性能3.类型3.1高
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
伽卡他卡电子教室：技术原理、功能解析与教育场景实践
一、术语澄清与技术定位“伽卡他卡”（Gakataka）在计算机科学领域的核心实体为伽卡他卡电子教室软件。需注意其与无关技术的区别：❌与分布式流处理平台ApacheKafka无技术关联；❌与AI模型GauGAN、半导体技术GAA等“G”开头术语无关。核心定位：一款专为教育场景设计的局域网教学管理软件，由伽卡他卡公司开发。二、核心功能与应用场景1.核心模块屏幕广播：实时传输教师端操作画面；远程控制：教
ABP VNext + Temporal：分布式工作流与 Saga Kookoos Abp vNext .net ABP VNext .net Temporal Continue-As-New
ABPVNext+Temporal：分布式工作流与Saga目录ABPVNext+Temporal：分布式工作流与SagaTL;DR1.环境与依赖️2.系统架构概览3.接入Temporal客户端&OpenTelemetry4.定义Workflow与Activities✍️4.1Workflow接口4.2Activities接口与实现5.Worker宿主托管&DI映射6.Workflow实现：补偿、重
缓解和防御 IoT 设备中的 DDoS 攻击 hao_wujing 物联网 ddos
大家读完觉得有帮助记得关注和点赞！！！抽象物联网（IoT）在多个领域的快速增长和广泛采用导致了新的安全威胁的出现，包括分布式拒绝服务（DDoS）。这些攻击在世界范围内引起了重大关注，因为它们可能对关键基础设施和服务造成重大破坏。由于安全功能有限，IoT设备容易受到攻击并吸引攻击者，因此很容易成为攻击者的猎物。此外，攻击者可以破坏IoT设备以形成僵尸网络-一个感染了恶意软件的私人计算机网络，并在所有
操作系统精髓与设计原理第六版习题全解莱财一哥
本文还有配套的精品资源，点击获取简介：操作系统作为计算机科学的基础，其核心功能包括管理硬件资源和提供用户服务。《操作系统精髓与设计原理》第六版详细阐述了操作系统的各种核心概念、设计策略和实现技术，并提供了课后习题答案，以帮助读者深入理解并掌握这些知识点。本资料覆盖了进程管理、内存管理、文件系统、设备管理、死锁、安全与保护、分布式系统、实时系统、虚拟化技术和云计算与容器等关键领域。1.操作系统基础知
kafka的基本使用柔弱的富po kafka kafka zookeeper 分布式
kafka3.0的基本使用一、kafka基本使用1.启动kafka服务zookeeper+kafka的使用进入kafka/bin目录下./kafka-server-start.sh-daemon../config/server.properties验证是否启动成功：进入到zk中的节点看id是0的broker有没有存在（上线）ls/brokers/idsserver.properties核心配置详解
Kafka入门使用教程
1.前言1.1.什么是消息队列消息队列（MQ）是消息传递中间件解决方案的一个组件，旨在支持独立的应用和服务之间的信息交换。消息队列按发送顺序存储“消息”（由应用所创建、供其他应用使用的数据包），直到使用方应用能够处理它们为止。这些消息安全地等待接收方应用做好准备，因此，即使网络或接收方应用出现问题，消息队列中的消息也不会丢失。1.2.为什么用消息队列1.2.1.解耦生产者（客户端）发送消息到MQ中
Paimon对比基于消息队列（如Kafka）的传统实时数仓方案的优势 lifallen Paimon 大数据数据库数据结构 java 分布式 apache 数据仓库
弊端：数据重复->优势：Paimon主键表原生去重原方案弊端(Kafka)问题:消息队列（Kafka）是仅支持追加（Append-Only）的日志流。当Flink作业发生故障恢复（Failover）或业务逻辑迭代重跑数据时，同样的数据会被再次写入消息队列，形成重复数据。影响:下游应用（如DWS层、ADS层或直接对接的BI报表）必须自己实现复杂的去重逻辑，这不仅消耗大量计算资源（“资源消耗至少增加一
阿里云 RabbitMQ 可观测性最佳实践观测云阿里云 rabbitmq 云计算
阿里云RabbitMQ阿里云RabbitMQ是一款高性能、高可靠的消息中间件，支持多种消息协议和丰富的功能特性。它提供消息队列功能，能够实现应用间的消息解耦和异步通信，提升系统扩展性和稳定性。其支持多种消息持久化策略，确保消息不丢失；具备灵活的路由和负载均衡能力，可高效分发消息；还提供丰富的管理功能，如队列监控、消息追踪和权限管理等，帮助用户轻松管理和优化消息队列，广泛应用于分布式系统、微服务架构
工作流引擎Conductor William一直在路上职业重启计划工作心得 conductor java
Conductor是Netflix开源的分布式工作流编排引擎，用于协调微服务、API和任务的执行顺序。它通过声明式工作流定义，实现复杂业务流程的自动化管理，特别适合电商订单处理、数据管道、CI/CD等场景。核心概念1.工作流（Workflow）由多个任务组成的有向无环图（DAG），定义业务流程逻辑。示例：电商订单流程（创建订单→支付验证→库存锁定→物流分配）。2.任务（Task）工作流的基本执行单
GaussDB 分布式部署下创建表方法
1、问题现象分布式集群采用水平分表的方式，将业务数据表的元组/行打散存储到各个节点内。2、技术背景通过全并行数据处理技术和快速定位到数据存储位置等手段可极大提升数据库性能，GaussDB分布式部署下可以创建俩种类型表，在做实际业务系统开发时根据业务场景创建不同表。复制表一般使用在小数量、更新操作少的场景下。分布表：数据会根据函数映射(hash,range,list),将数据打散在不同的DN上存储。
vxlan 分布式网关（一） IT老头 CT技术分布式
关键词：vtepspineleafvxlanvnivsivsi-interface1，配置undlay，用ospf将spine和所以leaf都打通，所以节点上都要1.1.1.1、2.2.2.2、3.3.3.3、4.4.4.4的路由。2，在leaf1、leaf2、leaf3上创建隧道。leaf1上创建隧道12（leaf1到leaf2，后面类似命名），13；在leaf2上创建隧道21、23；在leaf
华为HCIE 动态BGP EVPN—VXLAN隧道实验3(不同子网互访，分布式网关) 小魏网工华为HCIE 数通华为网络信息与通信计算机网络
BGPEVPN实验分布式网关目录BGPEVPN实验分布式网关拓扑图：要求：过程：具体步骤：1（OSPF）2（Vlan）3（E）4（Vpn-instance）5（BD）6（NVE）7（Vbdif）8（子接口）查询与测试：查看BGPEVPN邻居状态查看BGPEVPN路由表查看vxlanvni信息查看vxlan隧道详细信息查看实例路由表连通性测试并抓包：拓扑图：要求：PC1和PC3属于BD100，PC2
React Query 优化数据获取与缓存策略大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 vim 编辑器 linux 算法机器学习
引言随着前端应用规模与复杂度的不断提升，如何高效地获取、缓存以及同步服务端数据，成为提升用户体验和系统性能的关键课题。ReactQuery（现更名为TanStackQuery）凭借其轻量、灵活、可扩展的设计，已成为React社区管理服务端状态的事实标准库。本文将深入探讨ReactQuery在数据获取与缓存策略上的原理与实践，结合HTTP缓存理论、分布式系统一致性以及响应式编程等多学科知识，呈现一套
Vert.x逆袭指南：像外卖小哥一样高效的异步编程哲学 —— 每秒处理百万消息的轻量级响应式引擎 zhysunny Java类库 java 后端
目录一、核心装备：Vert.x工具箱全景1.1灵魂组件：EventLoop（永不堵车的快递站）二、基础订单处理：Future与Promise模式2.1基础异步操作流程2.2并行订单冲刺三、全栈式快餐车：Vert.xWeb实战3.1打造高并发HTTP服务器3.2异步数据库连接池四、连锁加盟模式：Vert.x集群4.1构建分布式披萨联盟五、响应式编程的味觉革命：四大核心优势5.1性能对比实验（单节点）
python分布式爬虫打造搜索引擎--------scrapy实现 weixin_30515513 爬虫 python 开发工具
http://www.cnblogs.com/jinxiao-pu/p/6706319.html最近在网上学习一门关于scrapy爬虫的课程，觉得还不错，以下是目录还在更新中，我觉得有必要好好的做下笔记，研究研究。第1章课程介绍1-1python分布式爬虫打造搜索引擎简介07:23第2章windows下搭建开发环境2-1pycharm的安装和简单使用10:272-2mysql和navicat的安装
Java大厂面试实录：从电商场景到AIGC的深度技术拷问 remCoding Java场景面试宝典 Java面试 Spring Boot Kafka AI 大厂面试微服务
第一轮提问：电商场景与微服务基础面试官：小曾，请描述一个典型的电商秒杀场景，你会如何设计系统架构？涉及哪些关键技术？小曾：秒杀嘛，主要是高并发，我一般会用SpringBoot搭后端，数据库用Redis做缓存，消息队列用Kafka异步处理订单。具体技术细节……呃，好像没细想。面试官（微笑）：“不错，Redis和Kafka选得对。那如果用户请求量超10万/QPS，你会如何扩容？SpringCloud的
Java大厂面试实录：从Spring Boot到AI微服务架构的深度拷问 remCoding Java场景面试宝典 Java面试 Spring Boot Jakarta EE AI微服务 Kafka Spring Cloud AI面试
第一轮提问：电商场景下的高并发架构面试官：小曾，我们公司电商业务面临“双十一”秒杀场景，需要支持百万级并发，你会如何设计系统架构？请结合SpringCloud和消息队列谈谈方案。小曾：（搓手）额……我会用SpringCloudAlibaba，搞个Nacos做服务注册，网关用Zuul，然后订单服务用SpringBoot+Redis缓存，秒杀请求走消息队列，比如Kafka吧，异步处理，降低峰值压力……
Java大厂面试实录：从Spring Boot到AI微服务架构的层层递进 remCoding Java场景面试宝典 Java Spring Boot Spring Cloud AI Kafka Redis Microservices
场景：互联网大厂Java后端面试面试官（严肃）：请简单介绍下你参与过的项目，主要使用哪些技术栈？小曾（自信）：我参与过电商平台的订单系统，用了SpringBoot+SpringCloudAlibaba，数据库是MySQL+Redis缓存，消息队列用Kafka处理异步任务。面试官（点头）：不错，能具体说说订单系统如何应对高并发场景的吗？小曾：我们用了HikariCP优化数据库连接池，Redis集群做
Java大厂面试实录：从Spring Boot到AI微服务架构的深度技术挑战 remCoding Java场景面试宝典 Java Spring Boot Spring Cloud AI Kafka Redis Docker
场景：互联网大厂Java后端开发面试面试官（严肃）：小曾，请简单介绍下你过往的项目经验，特别是你在微服务架构中解决过哪些技术难题？小曾（自信）：我之前参与过电商平台的订单系统重构，将单体应用拆分为SpringCloud微服务架构。我们使用了SpringCloudGateway做网关路由，服务间通过Kafka异步通信，并引入Redis缓存热点数据。面试官：很好，能具体说说你们如何解决订单超卖问题的吗
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
网络爬虫-07 YEGE学AI算法 Python-网络爬虫
网络爬虫-07）**Spider06回顾****scrapy框架****完成scrapy项目完整流程****我们必须记住****爬虫项目启动方式****数据持久化存储****Spider07笔记****分布式爬虫****scrapy_redis详解****腾讯招聘分布式改写****机器视觉与tesseract****补充-滑块缺口验证码案例****豆瓣网登录****Fiddler抓包工具****移
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）筏.k gRPC c++rpc 服务器
gRPC核心技术详解：Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）更新时间：2025年7月18日️标签：gRPC|ProtocolBuffers|Proto文件|微服务|分布式系统|RPC通信|接口定义文章目录前言一、基础概念：Proto文件究竟是什么？1.什么是Proto文件？2.传统通信vsProto通信二、语法详解：Proto文件的构成要素1.基本语法结构2.数据类型
【橘子分布式】Thrift RPC(编程篇) 当年明日分布式分布式 rpc 网络协议
一、简介之前我们研究了一下thrift的一些知识，我们知道他是一个rpc框架，他作为rpc自然是提供了客户端到服务端的访问以及两端数据传输的消息序列化，消息的协议解析和传输，所以我们今天就来了解一下他是如何实现这些功能，并且如何在实际代码中使用。我们需要搭建环境。1.安装Thrift作用：把IDL语言描述的接口内容，生成对应编程语言的代码，简化开发。我们已经介绍了在mac如何使用brew安装了。2
分布式弹性故障处理框架——Polly(1)
1前言之服务雪崩在我们实施微服务之后，服务间的调用变得异常频繁，多个服务之前可能存在互相依赖的关系，当某个服务出现故障或者是因为服务间的网络出现故障，导致服务调用的失败，进而影响到某个业务服务处理失败，服务依赖的故障可能导致级联崩溃，如一个微服务不可用拖垮整个系统。【服务雪崩】服务雪崩通常遵循“从局部故障到全局崩溃”的递进路径，可拆解为以下步骤：初始故障某个基础服务（如数据库、缓存、第三方API）
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方