Apache Kafka分布式流处理平台详解

Apache Kafka是一个开源的分布式事件流处理平台，由LinkedIn开发并贡献给Apache软件基金会。Kafka以其高吞吐量、低延迟、高可靠性和水平扩展能力著称，已成为现代数据架构中不可或缺的核心组件，广泛应用于实时数据管道、流处理应用、事件驱动架构等场景。

核心价值

Kafka = 高吞吐量流处理 + 分布式持久化 + 实时数据管道 + 事件驱动架构

🚀 极致性能：单机百万级TPS，集群可达千万级消息处理能力
📊 流式架构：统一的流处理和批处理平台，支持实时和历史数据分析
� 持持久化存储：消息持久化到磁盘，支持数据回溯和重放
🌐 分布式设计：天然支持水平扩展和高可用架构
� 生态完整*：丰富的连接器、流处理框架和监控工具

1. Kafka基础架构与设计理念

1.1 Kafka核心设计哲学

Kafka的设计遵循以下核心理念，这些理念决定了其在大数据和实时处理领域的独特地位：

设计原则详解

1. 高性能优先原则

顺序I/O：利用磁盘顺序读写的高性能特性
零拷贝：减少数据在内核态和用户态之间的拷贝
批量操作：通过批处理提高吞吐量
页缓存：充分利用操作系统的页缓存机制

2. 分布式架构原则

无状态设计：Broker节点无状态，便于扩展
分区并行：通过分区实现并行处理
副本冗余：多副本保证数据安全
弹性扩展：支持动态添加节点

3. 持久化存储原则

日志结构：采用只追加的日志结构
分段存储：将日志分段存储，便于管理
压缩存储：支持多种压缩算法
清理策略：支持基于时间和大小的清理

1.2 Kafka应用场景全景图

应用场景	传统解决方案	Kafka解决方案	核心优势	适用规模
实时数据管道	ETL工具 + 数据库	Kafka Connect + Streams	实时性、可扩展性	大规模数据流
事件驱动架构	消息队列 + 事件总线	Kafka + Schema Registry	解耦、可追溯	微服务架构
日志聚合	文件系统 + 日志收集器	Kafka + ELK Stack	统一收集、实时分析	分布式系统
流处理	Storm/Spark Streaming	Kafka Streams	简化架构、低延迟	实时计算场景
指标监控	时序数据库	Kafka + InfluxDB	高吞吐、实时告警	监控系统
CQRS/事件溯源	数据库 + 事件表	Kafka + 快照存储	高性能、易扩展	复杂业务系统

Kafka核心组件深度解析

2.1 Broker（代理服务器）- 集群的基石

Broker是Kafka集群中的核心服务节点，每个Broker都是一个独立的Kafka服务器实例，负责存储数据、处理客户端请求和参与集群协调。

Broker架构
Broker配置详解
Broker监控

server.properties - Broker核心配置

bash

1############################# 基础配置 #############################
2# Broker在集群中的唯一标识，必须为正整数且集群内唯一
3broker.id=0
4
5# Broker监听的网络接口和端口配置
6# PLAINTEXT: 明文传输协议
7# SSL: 加密传输协议  
8# SASL_PLAINTEXT: SASL认证 + 明文传输
9# SASL_SSL: SASL认证 + 加密传输
10listeners=PLAINTEXT://localhost:9092
11
12# 外部客户端连接的地址，用于客户端发现
13advertised.listeners=PLAINTEXT://localhost:9092
14
15# 网络线程数，处理网络请求
16# 建议设置为CPU核数，高并发场景可适当增加
17num.network.threads=8
18
19# I/O线程数，处理磁盘读写
20# 建议设置为磁盘数量的2-3倍
21num.io.threads=16
22
23# Socket发送缓冲区大小（字节）
24socket.send.buffer.bytes=102400
25
26# Socket接收缓冲区大小（字节）
27socket.receive.buffer.bytes=102400
28
29# 单个请求的最大大小（字节）
30socket.request.max.bytes=104857600
31
32############################# 日志配置 #############################
33# 日志文件存储目录，支持多个目录以逗号分隔
34# 多目录可以分散I/O负载，提高性能
35log.dirs=/var/kafka-logs-1,/var/kafka-logs-2,/var/kafka-logs-3
36
37# 每个Topic的默认分区数
38num.partitions=3
39
40# 日志保留时间（小时），默认7天
41log.retention.hours=168
42
43# 日志段文件大小（字节），默认1GB
44log.segment.bytes=1073741824
45
46# 日志段滚动时间间隔（毫秒），默认7天
47log.roll.hours=168
48
49# 日志清理检查间隔（毫秒）
50log.retention.check.interval.ms=300000
51
52############################# 副本配置 #############################
53# 默认副本因子，建议设置为3
54default.replication.factor=3
55
56# 最小同步副本数，建议设置为副本因子-1
57min.insync.replicas=2
58
59# 副本拉取等待时间（毫秒）
60replica.fetch.wait.max.ms=500
61
62# 副本拉取最大字节数
63replica.fetch.max.bytes=1048576
64
65############################# ZooKeeper配置 #############################
66# ZooKeeper连接字符串
67zookeeper.connect=localhost:2181
68
69# ZooKeeper连接超时时间（毫秒）
70zookeeper.connection.timeout.ms=18000
71
72# ZooKeeper会话超时时间（毫秒）
73zookeeper.session.timeout.ms=18000
74
75############################# 性能优化配置 #############################
76# 消息最大大小（字节）
77message.max.bytes=1000000
78
79# 副本拉取消息最大大小（字节）
80replica.fetch.max.bytes=1048576
81
82# 生产者请求队列最大大小
83queued.max.requests=500
84
85# 自动创建Topic开关，生产环境建议关闭
86auto.create.topics.enable=false
87
88# 删除Topic开关
89delete.topic.enable=true
90
91# 压缩类型：none, gzip, snappy, lz4, zstd
92compression.type=lz4
93
94# 日志刷盘策略
95log.flush.interval.messages=10000
96log.flush.interval.ms=1000
97
98# 后台线程数
99background.threads=10

Broker状态监控实现

java

1import org.apache.kafka.clients.admin.*;
2import org.apache.kafka.common.Node;
3import java.util.*;
4import java.util.concurrent.ExecutionException;
5
6/**
7 * Kafka Broker监控工具类
8 * 提供集群状态、节点信息、性能指标等监控功能
9 */
10public class KafkaBrokerMonitor {
11    
12    private final AdminClient adminClient;
13    
14    public KafkaBrokerMonitor(String bootstrapServers) {
15        Properties props = new Properties();
16        props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
17        props.put(AdminClientConfig.REQUEST_TIMEOUT_MS_CONFIG, 30000);
18        props.put(AdminClientConfig.DEFAULT_API_TIMEOUT_MS_CONFIG, 60000);
19        this.adminClient = AdminClient.create(props);
20    }
21    
22    /**
23     * 获取集群基本信息
24     */
25    public ClusterInfo getClusterInfo() {
26        try {
27            DescribeClusterResult clusterResult = adminClient.describeCluster();
28            
29            // 获取集群ID
30            String clusterId = clusterResult.clusterId().get();
31            
32            // 获取Controller节点
33            Node controller = clusterResult.controller().get();
34            
35            // 获取所有节点
36            Collection<Node> nodes = clusterResult.nodes().get();
37            
38            return new ClusterInfo(clusterId, controller, nodes);
39            
40        } catch (InterruptedException | ExecutionException e) {
41            throw new RuntimeException("获取集群信息失败", e);
42        }
43    }
44    
45    /**
46     * 检查Broker健康状态
47     */
48    public Map<Integer, BrokerHealth> checkBrokerHealth() {
49        Map<Integer, BrokerHealth> healthMap = new HashMap<>();
50        
51        try {
52            ClusterInfo clusterInfo = getClusterInfo();
53            
54            for (Node node : clusterInfo.getNodes()) {
55                BrokerHealth health = new BrokerHealth();
56                health.setBrokerId(node.id());
57                health.setHost(node.host());
58                health.setPort(node.port());
59                health.setIsController(node.id() == clusterInfo.getController().id());
60                
61                // 检查节点是否在线
62                health.setOnline(isNodeOnline(node));
63                
64                // 获取节点负载信息
65                health.setPartitionCount(getPartitionCount(node.id()));
66                health.setLeaderCount(getLeaderCount(node.id()));
67                
68                healthMap.put(node.id(), health);
69            }
70            
71        } catch (Exception e) {
72            System.err.println("检查Broker健康状态失败: " + e.getMessage());
73        }
74        
75        return healthMap;
76    }
77    
78    /**
79     * 检查节点是否在线
80     */
81    private boolean isNodeOnline(Node node) {
82        try {
83            // 通过描述集群来检查节点是否响应
84            DescribeClusterOptions options = new DescribeClusterOptions()
85                .timeoutMs(5000);
86            adminClient.describeCluster(options).nodes().get();
87            return true;
88        } catch (Exception e) {
89            return false;
90        }
91    }
92    
93    /**
94     * 获取指定Broker的分区数量
95     */
96    private int getPartitionCount(int brokerId) {
97        try {
98            ListTopicsResult topicsResult = adminClient.listTopics();
99            Set<String> topicNames = topicsResult.names().get();
100            
101            DescribeTopicsResult describeResult = adminClient.describeTopics(topicNames);
102            Map<String, TopicDescription> topicDescriptions = describeResult.all().get();
103            
104            int partitionCount = 0;
105            for (TopicDescription description : topicDescriptions.values()) {
106                for (TopicPartitionInfo partition : description.partitions()) {
107                    // 检查该分区的副本是否在指定Broker上
108                    for (Node replica : partition.replicas()) {
109                        if (replica.id() == brokerId) {
110                            partitionCount++;
111                            break;
112                        }
113                    }
114                }
115            }
116            
117            return partitionCount;
118        } catch (Exception e) {
119            return -1;
120        }
121    }
122    
123    /**
124     * 获取指定Broker作为Leader的分区数量
125     */
126    private int getLeaderCount(int brokerId) {
127        try {
128            ListTopicsResult topicsResult = adminClient.listTopics();
129            Set<String> topicNames = topicsResult.names().get();
130            
131            DescribeTopicsResult describeResult = adminClient.describeTopics(topicNames);
132            Map<String, TopicDescription> topicDescriptions = describeResult.all().get();
133            
134            int leaderCount = 0;
135            for (TopicDescription description : topicDescriptions.values()) {
136                for (TopicPartitionInfo partition : description.partitions()) {
137                    if (partition.leader() != null && partition.leader().id() == brokerId) {
138                        leaderCount++;
139                    }
140                }
141            }
142            
143            return leaderCount;
144        } catch (Exception e) {
145            return -1;
146        }
147    }
148    
149    /**
150     * 打印集群状态报告
151     */
152    public void printClusterReport() {
153        System.out.println("=== Kafka集群状态报告 ===");
154        
155        ClusterInfo clusterInfo = getClusterInfo();
156        System.out.println("集群ID: " + clusterInfo.getClusterId());
157        System.out.println("Controller: Broker-" + clusterInfo.getController().id() + 
158                         " (" + clusterInfo.getController().host() + ":" + 
159                         clusterInfo.getController().port() + ")");
160        System.out.println("节点总数: " + clusterInfo.getNodes().size());
161        
162        System.out.println("\n=== Broker健康状态 ===");
163        Map<Integer, BrokerHealth> healthMap = checkBrokerHealth();
164        
165        for (BrokerHealth health : healthMap.values()) {
166            System.out.printf("Broker-%d [%s:%d] - %s%s - 分区数: %d, Leader数: %d%n",
167                health.getBrokerId(),
168                health.getHost(),
169                health.getPort(),
170                health.isOnline() ? "在线" : "离线",
171                health.isController() ? " (Controller)" : "",
172                health.getPartitionCount(),
173                health.getLeaderCount()
174            );
175        }
176    }
177    
178    public void close() {
179        adminClient.close();
180    }
181    
182    // 内部类定义
183    public static class ClusterInfo {
184        private String clusterId;
185        private Node controller;
186        private Collection<Node> nodes;
187        
188        public ClusterInfo(String clusterId, Node controller, Collection<Node> nodes) {
189            this.clusterId = clusterId;
190            this.controller = controller;
191            this.nodes = nodes;
192        }
193        
194        // Getters
195        public String getClusterId() { return clusterId; }
196        public Node getController() { return controller; }
197        public Collection<Node> getNodes() { return nodes; }
198    }
199    
200    public static class BrokerHealth {
201        private int brokerId;
202        private String host;
203        private int port;
204        private boolean online;
205        private boolean isController;
206        private int partitionCount;
207        private int leaderCount;
208        
209        // Getters and Setters
210        public int getBrokerId() { return brokerId; }
211        public void setBrokerId(int brokerId) { this.brokerId = brokerId; }
212        
213        public String getHost() { return host; }
214        public void setHost(String host) { this.host = host; }
215        
216        public int getPort() { return port; }
217        public void setPort(int port) { this.port = port; }
218        
219        public boolean isOnline() { return online; }
220        public void setOnline(boolean online) { this.online = online; }
221        
222        public boolean isController() { return isController; }
223        public void setIsController(boolean isController) { this.isController = isController; }
224        
225        public int getPartitionCount() { return partitionCount; }
226        public void setPartitionCount(int partitionCount) { this.partitionCount = partitionCount; }
227        
228        public int getLeaderCount() { return leaderCount; }
229        public void setLeaderCount(int leaderCount) { this.leaderCount = leaderCount; }
230    }
231}
232
233// 使用示例
234public class BrokerMonitorExample {
235    public static void main(String[] args) {
236        KafkaBrokerMonitor monitor = new KafkaBrokerMonitor("localhost:9092");
237        
238        try {
239            // 打印集群状态报告
240            monitor.printClusterReport();
241            
242            // 定期监控（每30秒检查一次）
243            Timer timer = new Timer();
244            timer.scheduleAtFixedRate(new TimerTask() {
245                @Override
246                public void run() {
247                    System.out.println("\n" + new Date() + " - 集群健康检查");
248                    monitor.printClusterReport();
249                }
250            }, 0, 30000);
251            
252        } finally {
253            // 程序退出时关闭监控
254            Runtime.getRuntime().addShutdownHook(new Thread(() -> {
255                monitor.close();
256            }));
257        }
258    }
259}

Broker核心职责：

数据存储：管理Topic分区的日志文件和索引
请求处理：处理生产者和消费者的读写请求
副本管理：维护分区副本的同步状态
集群协调：参与Leader选举和元数据同步
客户端服务：提供元数据信息和路由服务#

2.2 Topic（主题）- 消息分类的逻辑容器

Topic是Kafka中消息的逻辑分类单元，类似于数据库中的表或文件系统中的文件夹。每个Topic可以有多个生产者写入数据，多个消费者读取数据，是Kafka消息系统的核心抽象。

Topic概念模型
Topic管理
命名规范

Topic管理完整实现

java

1import org.apache.kafka.clients.admin.*;
2import org.apache.kafka.common.config.ConfigResource;
3import java.util.*;
4import java.util.concurrent.ExecutionException;
5
6/**
7 * Kafka Topic管理工具类
8 * 提供Topic的创建、删除、配置、监控等完整功能
9 */
10public class KafkaTopicManager {
11    
12    private final AdminClient adminClient;
13    
14    public KafkaTopicManager(String bootstrapServers) {
15        Properties props = new Properties();
16        props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
17        props.put(AdminClientConfig.REQUEST_TIMEOUT_MS_CONFIG, 30000);
18        this.adminClient = AdminClient.create(props);
19    }
20    
21    /**
22     * 创建Topic（带完整配置）
23     */
24    public void createTopic(String topicName, int partitions, short replicationFactor, 
25                           Map<String, String> configs) {
26        try {
27            // 检查Topic是否已存在
28            if (topicExists(topicName)) {
29                System.out.println("Topic '" + topicName + "' 已存在");
30                return;
31            }
32            
33            // 创建NewTopic对象
34            NewTopic newTopic = new NewTopic(topicName, partitions, replicationFactor);
35            
36            // 设置Topic配置
37            if (configs != null && !configs.isEmpty()) {
38                newTopic.configs(configs);
39            }
40            
41            // 执行创建操作
42            CreateTopicsResult result = adminClient.createTopics(Arrays.asList(newTopic));
43            result.all().get(); // 等待创建完成
44            
45            System.out.println("Topic '" + topicName + "' 创建成功");
46            System.out.println("  分区数: " + partitions);
47            System.out.println("  副本因子: " + replicationFactor);
48            if (configs != null) {
49                System.out.println("  配置项: " + configs);
50            }
51            
52        } catch (InterruptedException | ExecutionException e) {
53            throw new RuntimeException("创建Topic失败: " + topicName, e);
54        }
55    }
56    
57    /**
58     * 创建业务Topic的便捷方法
59     */
60    public void createBusinessTopic(String topicName, TopicType type) {
61        Map<String, String> configs = new HashMap<>();
62        int partitions;
63        short replicationFactor = 3;
64        
65        switch (type) {
66            case HIGH_THROUGHPUT:
67                // 高吞吐量Topic配置
68                partitions = 12;
69                configs.put("compression.type", "lz4");
70                configs.put("min.insync.replicas", "2");
71                configs.put("retention.ms", "604800000"); // 7天
72                configs.put("segment.ms", "86400000");    // 1天
73                break;
74                
75            case LOW_LATENCY:
76                // 低延迟Topic配置
77                partitions = 6;
78                configs.put("compression.type", "none");
79                configs.put("min.insync.replicas", "2");
80                configs.put("retention.ms", "259200000"); // 3天
81                configs.put("segment.ms", "3600000");     // 1小时
82                break;
83                
84            case LONG_RETENTION:
85                // 长期保留Topic配置
86                partitions = 6;
87                configs.put("compression.type", "gzip");
88                configs.put("min.insync.replicas", "2");
89                configs.put("retention.ms", "2592000000"); // 30天
90                configs.put("segment.ms", "604800000");     // 7天
91                configs.put("cleanup.policy", "delete");
92                break;
93                
94            case COMPACTED:
95                // 压缩Topic配置（适用于状态存储）
96                partitions = 6;
97                configs.put("cleanup.policy", "compact");
98                configs.put("compression.type", "snappy");
99                configs.put("min.cleanable.dirty.ratio", "0.1");
100                configs.put("segment.ms", "86400000"); // 1天
101                break;
102                
103            default:
104                // 默认配置
105                partitions = 3;
106                configs.put("retention.ms", "604800000"); // 7天
107        }
108        
109        createTopic(topicName, partitions, replicationFactor, configs);
110    }
111    
112    /**
113     * 检查Topic是否存在
114     */
115    public boolean topicExists(String topicName) {
116        try {
117            ListTopicsResult result = adminClient.listTopics();
118            Set<String> topicNames = result.names().get();
119            return topicNames.contains(topicName);
120        } catch (InterruptedException | ExecutionException e) {
121            throw new RuntimeException("检查Topic存在性失败", e);
122        }
123    }
124    
125    /**
126     * 获取Topic详细信息
127     */
128    public TopicInfo getTopicInfo(String topicName) {
129        try {
130            // 获取Topic描述信息
131            DescribeTopicsResult describeResult = adminClient.describeTopics(Arrays.asList(topicName));
132            TopicDescription description = describeResult.all().get().get(topicName);
133            
134            // 获取Topic配置信息
135            ConfigResource configResource = new ConfigResource(ConfigResource.Type.TOPIC, topicName);
136            DescribeConfigsResult configResult = adminClient.describeConfigs(Arrays.asList(configResource));
137            Config config = configResult.all().get().get(configResource);
138            
139            return new TopicInfo(description, config);
140            
141        } catch (InterruptedException | ExecutionException e) {
142            throw new RuntimeException("获取Topic信息失败: " + topicName, e);
143        }
144    }
145    
146    /**
147     * 列出所有Topic
148     */
149    public List<String> listTopics() {
150        try {
151            ListTopicsResult result = adminClient.listTopics();
152            return new ArrayList<>(result.names().get());
153        } catch (InterruptedException | ExecutionException e) {
154            throw new RuntimeException("列出Topic失败", e);
155        }
156    }
157    
158    /**
159     * 删除Topic
160     */
161    public void deleteTopic(String topicName) {
162        try {
163            if (!topicExists(topicName)) {
164                System.out.println("Topic '" + topicName + "' 不存在");
165                return;
166            }
167            
168            DeleteTopicsResult result = adminClient.deleteTopics(Arrays.asList(topicName));
169            result.all().get(); // 等待删除完成
170            
171            System.out.println("Topic '" + topicName + "' 删除成功");
172            
173        } catch (InterruptedException | ExecutionException e) {
174            throw new RuntimeException("删除Topic失败: " + topicName, e);
175        }
176    }
177    
178    /**
179     * 修改Topic配置
180     */
181    public void updateTopicConfig(String topicName, Map<String, String> configUpdates) {
182        try {
183            ConfigResource resource = new ConfigResource(ConfigResource.Type.TOPIC, topicName);
184            
185            // 构建配置更新操作
186            Map<ConfigResource, Collection<AlterConfigOp>> configs = new HashMap<>();
187            Collection<AlterConfigOp> ops = new ArrayList<>();
188            
189            for (Map.Entry<String, String> entry : configUpdates.entrySet()) {
190                ops.add(new AlterConfigOp(
191                    new ConfigEntry(entry.getKey(), entry.getValue()),
192                    AlterConfigOp.OpType.SET
193                ));
194            }
195            
196            configs.put(resource, ops);
197            
198            // 执行配置更新
199            AlterConfigsResult result = adminClient.incrementalAlterConfigs(configs);
200            result.all().get(); // 等待更新完成
201            
202            System.out.println("Topic '" + topicName + "' 配置更新成功: " + configUpdates);
203            
204        } catch (InterruptedException | ExecutionException e) {
205            throw new RuntimeException("更新Topic配置失败: " + topicName, e);
206        }
207    }
208    
209    /**
210     * 增加Topic分区数
211     */
212    public void increasePartitions(String topicName, int newPartitionCount) {
213        try {
214            // 获取当前分区数
215            TopicInfo topicInfo = getTopicInfo(topicName);
216            int currentPartitions = topicInfo.getPartitionCount();
217            
218            if (newPartitionCount <= currentPartitions) {
219                System.out.println("新分区数必须大于当前分区数 " + currentPartitions);
220                return;
221            }
222            
223            // 创建分区增加请求
224            Map<String, NewPartitions> partitionUpdates = new HashMap<>();
225            partitionUpdates.put(topicName, NewPartitions.increaseTo(newPartitionCount));
226            
227            // 执行分区增加操作
228            CreatePartitionsResult result = adminClient.createPartitions(partitionUpdates);
229            result.all().get(); // 等待操作完成
230            
231            System.out.println("Topic '" + topicName + "' 分区数从 " + currentPartitions + 
232                             " 增加到 " + newPartitionCount);
233            
234        } catch (InterruptedException | ExecutionException e) {
235            throw new RuntimeException("增加Topic分区失败: " + topicName, e);
236        }
237    }
238    
239    /**
240     * 打印Topic详细报告
241     */
242    public void printTopicReport(String topicName) {
243        TopicInfo info = getTopicInfo(topicName);
244        
245        System.out.println("=== Topic详细信息: " + topicName + " ===");
246        System.out.println("分区数: " + info.getPartitionCount());
247        System.out.println("副本因子: " + info.getReplicationFactor());
248        System.out.println("是否为内部Topic: " + info.isInternal());
249        
250        System.out.println("\n--- 分区分布 ---");
251        for (TopicPartitionInfo partition : info.getPartitions()) {
252            System.out.printf("分区 %d: Leader=%d, ISR=%s, Replicas=%s%n",
253                partition.partition(),
254                partition.leader().id(),
255                partition.isr().stream().map(n -> String.valueOf(n.id())).collect(Collectors.joining(",")),
256                partition.replicas().stream().map(n -> String.valueOf(n.id())).collect(Collectors.joining(","))
257            );
258        }
259        
260        System.out.println("\n--- 配置信息 ---");
261        Map<String, String> configs = info.getConfigs();
262        configs.entrySet().stream()
263            .filter(entry -> !entry.getValue().isEmpty())
264            .forEach(entry -> System.out.println(entry.getKey() + " = " + entry.getValue()));
265    }
266    
267    public void close() {
268        adminClient.close();
269    }
270    
271    // Topic类型枚举
272    public enum TopicType {
273        HIGH_THROUGHPUT,    // 高吞吐量
274        LOW_LATENCY,        // 低延迟
275        LONG_RETENTION,     // 长期保留
276        COMPACTED          // 压缩存储
277    }
278    
279    // Topic信息封装类
280    public static class TopicInfo {
281        private final TopicDescription description;
282        private final Config config;
283        
284        public TopicInfo(TopicDescription description, Config config) {
285            this.description = description;
286            this.config = config;
287        }
288        
289        public String getName() { return description.name(); }
290        public int getPartitionCount() { return description.partitions().size(); }
291        public boolean isInternal() { return description.isInternal(); }
292        public List<TopicPartitionInfo> getPartitions() { return description.partitions(); }
293        
294        public short getReplicationFactor() {
295            return description.partitions().isEmpty() ? 0 : 
296                   (short) description.partitions().get(0).replicas().size();
297        }
298        
299        public Map<String, String> getConfigs() {
300            Map<String, String> configMap = new HashMap<>();
301            for (ConfigEntry entry : config.entries()) {
302                configMap.put(entry.name(), entry.value());
303            }
304            return configMap;
305        }
306    }
307}
308
309// 使用示例
310public class TopicManagerExample {
311    public static void main(String[] args) {
312        KafkaTopicManager manager = new KafkaTopicManager("localhost:9092");
313        
314        try {
315            // 创建不同类型的业务Topic
316            manager.createBusinessTopic("user-events", KafkaTopicManager.TopicType.HIGH_THROUGHPUT);
317            manager.createBusinessTopic("user-profiles", KafkaTopicManager.TopicType.COMPACTED);
318            manager.createBusinessTopic("audit-logs", KafkaTopicManager.TopicType.LONG_RETENTION);
319            
320            // 列出所有Topic
321            System.out.println("当前Topic列表: " + manager.listTopics());
322            
323            // 查看Topic详细信息
324            manager.printTopicReport("user-events");
325            
326            // 增加分区数
327            manager.increasePartitions("user-events", 18);
328            
329            // 更新Topic配置
330            Map<String, String> configUpdates = new HashMap<>();
331            configUpdates.put("retention.ms", "1209600000"); // 14天
332            manager.updateTopicConfig("user-events", configUpdates);
333            
334        } finally {
335            manager.close();
336        }
337    }
338}

Topic命名最佳实践：

Topic命名规范示例

bash

1# 1. 基础命名规范
2# 格式：<业务域>.<数据类型>.<版本>
3user.events.v1              # 用户事件流
4order.transactions.v2       # 订单交易流
5inventory.updates.v1        # 库存更新流
6
7# 2. 按环境区分
8# 格式：<环境>.<业务域>.<数据类型>
9dev.user.events            # 开发环境用户事件
10staging.order.transactions # 测试环境订单交易
11prod.inventory.updates     # 生产环境库存更新
12
13# 3. 按数据流向区分
14# 格式：<源系统>-to-<目标系统>.<数据类型>
15mysql-to-elasticsearch.users    # MySQL到ES的用户数据
16app-to-analytics.clickstream    # 应用到分析系统的点击流
17crm-to-warehouse.customers      # CRM到数仓的客户数据
18
19# 4. 按业务功能区分
20user-registration-events        # 用户注册事件
21payment-processing-commands     # 支付处理命令
22notification-delivery-status    # 通知投递状态
23
24# 5. 内部系统Topic
25_consumer_offsets              # Kafka内部位移Topic
26_transaction_state             # 事务状态Topic
27__schema_registry_schemas      # Schema Registry内部Topic

命名规范要点：

使用小写字母和连字符
避免使用下划线开头（系统保留）
名称要有业务含义，便于理解
考虑版本管理和环境隔离
长度适中，避免过长或过短

2.3 Partition（分区）- 并行处理的基础

分区是Topic的物理分割单元，每个分区是一个有序、不可变的消息序列。分区机制是Kafka实现高并发、高吞吐量的核心设计。

分区结构
分区策略
分区优化

自定义分区器实现

java

1import org.apache.kafka.clients.producer.Partitioner;
2import org.apache.kafka.common.Cluster;
3import org.apache.kafka.common.PartitionInfo;
4import org.apache.kafka.common.utils.Utils;
5import java.util.*;
6import java.util.concurrent.ConcurrentHashMap;
7import java.util.concurrent.ThreadLocalRandom;
8
9/**
10 * 自定义分区器实现
11 * 支持多种分区策略，可根据业务需求灵活选择
12 */
13public class CustomPartitioner implements Partitioner {
14    
15    private final Map<String, Integer> stickyPartitionCache = new ConcurrentHashMap<>();
16    
17    @Override
18    public int partition(String topic, Object key, byte[] keyBytes, 
19                        Object value, byte[] valueBytes, Cluster cluster) {
20        
21        List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
22        int numPartitions = partitions.size();
23        
24        if (keyBytes == null) {
25            // 无key时使用粘性分区策略
26            return getStickyPartition(topic, cluster);
27        }
28        
29        // 有key时根据key类型选择分区策略
30        if (key instanceof String) {
31            return partitionByString((String) key, numPartitions);
32        } else if (key instanceof Integer) {
33            return partitionByInteger((Integer) key, numPartitions);
34        } else if (key instanceof Long) {
35            return partitionByLong((Long) key, numPartitions);
36        } else {
37            // 默认使用hash分区
38            return Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions;
39        }
40    }
41    
42    /**
43     * 字符串key分区策略
44     * 支持业务规则分区
45     */
46    private int partitionByString(String key, int numPartitions) {
47        // 用户ID分区：user:123 -> 根据用户ID分区
48        if (key.startsWith("user:")) {
49            String userId = key.substring(5);
50            return Math.abs(userId.hashCode()) % numPartitions;
51        }
52        
53        // 地区分区：region:beijing -> 根据地区分区
54        if (key.startsWith("region:")) {
55            String region = key.substring(7);
56            return getRegionPartition(region, numPartitions);
57        }
58        
59        // 时间分区：date:2025-01-01 -> 根据日期分区
60        if (key.startsWith("date:")) {
61            String date = key.substring(5);
62            return Math.abs(date.hashCode()) % numPartitions;
63        }
64        
65        // 默认hash分区
66        return Math.abs(key.hashCode()) % numPartitions;
67    }
68    
69    /**
70     * 整数key分区策略
71     */
72    private int partitionByInteger(Integer key, int numPartitions) {
73        // 偶数分区策略：偶数key分配到前半部分分区
74        if (key % 2 == 0) {
75            return key % (numPartitions / 2);
76        } else {
77            return (numPartitions / 2) + (key % (numPartitions - numPartitions / 2));
78        }
79    }
80    
81    /**
82     * 长整数key分区策略
83     */
84    private int partitionByLong(Long key, int numPartitions) {
85        // 时间戳分区：根据时间戳的小时部分分区
86        if (key > 1000000000000L) { // 假设是时间戳
87            long hour = (key / 1000 / 3600) % 24;
88            return (int) (hour % numPartitions);
89        }
90        
91        return (int) (Math.abs(key) % numPartitions);
92    }
93    
94    /**
95     * 地区分区映射
96     */
97    private int getRegionPartition(String region, int numPartitions) {
98        Map<String, Integer> regionMap = new HashMap<>();
99        regionMap.put("beijing", 0);
100        regionMap.put("shanghai", 1);
101        regionMap.put("guangzhou", 2);
102        regionMap.put("shenzhen", 3);
103        
104        return regionMap.getOrDefault(region.toLowerCase(), 
105                                    Math.abs(region.hashCode()) % numPartitions);
106    }
107    
108    /**
109     * 粘性分区策略（无key时使用）
110     * 减少分区切换，提高批处理效率
111     */
112    private int getStickyPartition(String topic, Cluster cluster) {
113        Integer partition = stickyPartitionCache.get(topic);
114        if (partition == null) {
115            List<PartitionInfo> partitions = cluster.partitionsForTopic(topic);
116            partition = ThreadLocalRandom.current().nextInt(partitions.size());
117            stickyPartitionCache.put(topic, partition);
118        }
119        return partition;
120    }
121    
122    @Override
123    public void close() {
124        stickyPartitionCache.clear();
125    }
126    
127    @Override
128    public void configure(Map<String, ?> configs) {
129        // 可以从配置中读取分区策略参数
130    }
131}
132
133/**
134 * 分区策略测试和分析工具
135 */
136public class PartitionAnalyzer {
137    
138    /**
139     * 分析分区分布均匀性
140     */
141    public static void analyzePartitionDistribution(String topic, List<String> keys, 
142                                                   Partitioner partitioner, int numPartitions) {
143        Map<Integer, Integer> partitionCounts = new HashMap<>();
144        
145        // 模拟集群信息
146        Cluster cluster = createMockCluster(topic, numPartitions);
147        
148        // 统计每个分区的消息数量
149        for (String key : keys) {
150            byte[] keyBytes = key != null ? key.getBytes() : null;
151            int partition = partitioner.partition(topic, key, keyBytes, null, null, cluster);
152            partitionCounts.put(partition, partitionCounts.getOrDefault(partition, 0) + 1);
153        }
154        
155        // 打印分布统计
156        System.out.println("=== 分区分布分析 ===");
157        System.out.println("总消息数: " + keys.size());
158        System.out.println("分区数: " + numPartitions);
159        System.out.println("平均每分区: " + (keys.size() / numPartitions));
160        
161        for (int i = 0; i < numPartitions; i++) {
162            int count = partitionCounts.getOrDefault(i, 0);
163            double percentage = (double) count / keys.size() * 100;
164            System.out.printf("分区 %d: %d 条消息 (%.2f%%)%n", i, count, percentage);
165        }
166        
167        // 计算分布均匀性
168        double variance = calculateVariance(partitionCounts, numPartitions, keys.size());
169        System.out.printf("分布方差: %.2f (越小越均匀)%n", variance);
170    }
171    
172    private static double calculateVariance(Map<Integer, Integer> counts, int numPartitions, int totalMessages) {
173        double mean = (double) totalMessages / numPartitions;
174        double sumSquaredDiff = 0;
175        
176        for (int i = 0; i < numPartitions; i++) {
177            int count = counts.getOrDefault(i, 0);
178            sumSquaredDiff += Math.pow(count - mean, 2);
179        }
180        
181        return sumSquaredDiff / numPartitions;
182    }
183    
184    private static Cluster createMockCluster(String topic, int numPartitions) {
185        List<PartitionInfo> partitions = new ArrayList<>();
186        for (int i = 0; i < numPartitions; i++) {
187            partitions.add(new PartitionInfo(topic, i, null, null, null));
188        }
189        return new Cluster("test-cluster", Collections.emptyList(), partitions, 
190                          Collections.emptySet(), Collections.emptySet());
191    }
192    
193    public static void main(String[] args) {
194        // 生成测试数据
195        List<String> testKeys = new ArrayList<>();
196        
197        // 用户ID测试数据
198        for (int i = 1; i <= 1000; i++) {
199            testKeys.add("user:" + i);
200        }
201        
202        // 地区测试数据
203        String[] regions = {"beijing", "shanghai", "guangzhou", "shenzhen", "hangzhou"};
204        for (int i = 0; i < 500; i++) {
205            testKeys.add("region:" + regions[i % regions.length]);
206        }
207        
208        // 日期测试数据
209        for (int i = 1; i <= 31; i++) {
210            testKeys.add("date:2025-01-" + String.format("%02d", i));
211        }
212        
213        // 分析自定义分区器的分布
214        CustomPartitioner partitioner = new CustomPartitioner();
215        analyzePartitionDistribution("test-topic", testKeys, partitioner, 6);
216    }
217}

分区数量选择指南：

考虑因素	建议	说明
吞吐量需求	单分区10-30MB/s	根据业务峰值流量计算所需分区数
消费者数量	分区数 ≥ 消费者数	保证每个消费者都有分区可消费
存储容量	考虑单分区大小	避免单分区过大影响性能
网络开销	避免分区过多	分区过多会增加网络和内存开销
故障恢复	平衡可用性和性能	分区多恢复快，但资源消耗大

分区数量计算工具

java

1/**
2 * 分区数量计算和优化建议工具
3 */
4public class PartitionCalculator {
5    
6    /**
7     * 根据吞吐量需求计算分区数
8     */
9    public static int calculatePartitionsByThroughput(
10            long targetThroughputMBps,      // 目标吞吐量 MB/s
11            long singlePartitionThroughput, // 单分区吞吐量 MB/s
12            double safetyFactor             // 安全系数
13    ) {
14        int basePartitions = (int) Math.ceil((double) targetThroughputMBps / singlePartitionThroughput);
15        return (int) Math.ceil(basePartitions * safetyFactor);
16    }
17    
18    /**
19     * 根据消费者数量计算分区数
20     */
21    public static int calculatePartitionsByConsumers(
22            int maxConsumers,               // 最大消费者数量
23            double parallelismFactor        // 并行度系数
24    ) {
25        return (int) Math.ceil(maxConsumers * parallelismFactor);
26    }
27    
28    /**
29     * 根据数据量计算分区数
30     */
31    public static int calculatePartitionsByDataSize(
32            long dailyDataSizeGB,           // 每日数据量 GB
33            int retentionDays,              // 保留天数
34            long maxPartitionSizeGB         // 单分区最大大小 GB
35    ) {
36        long totalDataSize = dailyDataSizeGB * retentionDays;
37        return (int) Math.ceil((double) totalDataSize / maxPartitionSizeGB);
38    }
39    
40    /**
41     * 综合计算推荐分区数
42     */
43    public static PartitionRecommendation recommendPartitions(
44            long targetThroughputMBps,
45            int maxConsumers,
46            long dailyDataSizeGB,
47            int retentionDays
48    ) {
49        // 基于不同因素计算分区数
50        int throughputPartitions = calculatePartitionsByThroughput(targetThroughputMBps, 20, 1.5);
51        int consumerPartitions = calculatePartitionsByConsumers(maxConsumers, 1.2);
52        int dataSizePartitions = calculatePartitionsByDataSize(dailyDataSizeGB, retentionDays, 50);
53        
54        // 取最大值作为推荐值
55        int recommendedPartitions = Math.max(Math.max(throughputPartitions, consumerPartitions), dataSizePartitions);
56        
57        // 调整为2的幂次方（可选，便于负载均衡）
58        int powerOfTwoPartitions = nextPowerOfTwo(recommendedPartitions);
59        
60        return new PartitionRecommendation(
61            recommendedPartitions,
62            powerOfTwoPartitions,
63            throughputPartitions,
64            consumerPartitions,
65            dataSizePartitions
66        );
67    }
68    
69    private static int nextPowerOfTwo(int n) {
70        if (n <= 1) return 1;
71        return Integer.highestOneBit(n - 1) << 1;
72    }
73    
74    /**
75     * 分区推荐结果
76     */
77    public static class PartitionRecommendation {
78        private final int recommended;
79        private final int powerOfTwo;
80        private final int byThroughput;
81        private final int byConsumers;
82        private final int byDataSize;
83        
84        public PartitionRecommendation(int recommended, int powerOfTwo, 
85                                     int byThroughput, int byConsumers, int byDataSize) {
86            this.recommended = recommended;
87            this.powerOfTwo = powerOfTwo;
88            this.byThroughput = byThroughput;
89            this.byConsumers = byConsumers;
90            this.byDataSize = byDataSize;
91        }
92        
93        public void printReport() {
94            System.out.println("=== 分区数量推荐报告 ===");
95            System.out.println("基于吞吐量: " + byThroughput + " 个分区");
96            System.out.println("基于消费者数量: " + byConsumers + " 个分区");
97            System.out.println("基于数据大小: " + byDataSize + " 个分区");
98            System.out.println("推荐分区数: " + recommended + " 个分区");
99            System.out.println("2的幂次方: " + powerOfTwo + " 个分区");
100            System.out.println("\n建议使用 " + Math.max(recommended, powerOfTwo) + " 个分区");
101        }
102        
103        // Getters
104        public int getRecommended() { return recommended; }
105        public int getPowerOfTwo() { return powerOfTwo; }
106        public int getByThroughput() { return byThroughput; }
107        public int getByConsumers() { return byConsumers; }
108        public int getByDataSize() { return byDataSize; }
109    }
110    
111    public static void main(String[] args) {
112        // 示例：计算电商订单Topic的分区数
113        PartitionRecommendation recommendation = recommendPartitions(
114            100,    // 目标吞吐量 100MB/s
115            20,     // 最大20个消费者
116            10,     // 每日10GB数据
117            30      // 保留30天
118        );
119        
120        recommendation.printReport();
121    }
122}

3. Kafka生产者与消费者深度实战

3.1 Producer（生产者）- 高性能消息发送

生产者是向Kafka集群发送消息的客户端应用程序。Kafka生产者具有高度的可配置性，支持同步/异步发送、批处理、压缩、事务等多种特性。

基础生产者
高级生产者
性能优化

Kafka生产者基础实现

java

1import org.apache.kafka.clients.producer.*;
2import org.apache.kafka.common.serialization.StringSerializer;
3import java.util.Properties;
4import java.util.concurrent.Future;
5
6/**
7 * Kafka生产者基础实现
8 * 展示同步和异步发送的完整用法
9 */
10public class KafkaProducerBasic {
11    
12    private final KafkaProducer<String, String> producer;
13    private final String topicName;
14    
15    public KafkaProducerBasic(String bootstrapServers, String topicName) {
16        this.topicName = topicName;
17        this.producer = createProducer(bootstrapServers);
18    }
19    
20    /**
21     * 创建生产者实例
22     */
23    private KafkaProducer<String, String> createProducer(String bootstrapServers) {
24        Properties props = new Properties();
25        
26        // 基础连接配置
27        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
28        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
29        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
30        
31        // 可靠性配置
32        props.put(ProducerConfig.ACKS_CONFIG, "all");                    // 等待所有副本确认
33        props.put(ProducerConfig.RETRIES_CONFIG, 3);                     // 重试3次
34        props.put(ProducerConfig.RETRY_BACKOFF_MS_CONFIG, 1000);         // 重试间隔1秒
35        props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);       // 启用幂等性
36        
37        // 性能优化配置
38        props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);              // 批次大小16KB
39        props.put(ProducerConfig.LINGER_MS_CONFIG, 10);                  // 等待10ms收集更多消息
40        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432);        // 缓冲区32MB
41        props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");        // LZ4压缩
42        
43        // 网络配置
44        props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);
45        props.put(ProducerConfig.REQUEST_TIMEOUT_MS_CONFIG, 30000);      // 请求超时30秒
46        props.put(ProducerConfig.DELIVERY_TIMEOUT_MS_CONFIG, 120000);    // 投递超时2分钟
47        
48        return new KafkaProducer<>(props);
49    }
50    
51    /**
52     * 同步发送消息
53     */
54    public RecordMetadata sendSync(String key, String value) {
55        ProducerRecord<String, String> record = new ProducerRecord<>(topicName, key, value);
56        
57        try {
58            // 同步发送，会阻塞直到收到响应
59            RecordMetadata metadata = producer.send(record).get();
60            
61            System.out.printf("同步发送成功: topic=%s, partition=%d, offset=%d, timestamp=%d%n",
62                metadata.topic(), metadata.partition(), metadata.offset(), metadata.timestamp());
63            
64            return metadata;
65            
66        } catch (Exception e) {
67            System.err.println("同步发送失败: " + e.getMessage());
68            throw new RuntimeException("发送消息失败", e);
69        }
70    }
71    
72    /**
73     * 异步发送消息
74     */
75    public Future<RecordMetadata> sendAsync(String key, String value) {
76        ProducerRecord<String, String> record = new ProducerRecord<>(topicName, key, value);
77        
78        // 异步发送，立即返回Future
79        return producer.send(record, new Callback() {
80            @Override
81            public void onCompletion(RecordMetadata metadata, Exception exception) {
82                if (exception == null) {
83                    System.out.printf("异步发送成功: topic=%s, partition=%d, offset=%d%n",
84                        metadata.topic(), metadata.partition(), metadata.offset());
85                } else {
86                    System.err.println("异步发送失败: " + exception.getMessage());
87                }
88            }
89        });
90    }
91    
92    /**
93     * 发送带头部信息的消息
94     */
95    public void sendWithHeaders(String key, String value, Map<String, String> headers) {
96        ProducerRecord<String, String> record = new ProducerRecord<>(topicName, key, value);
97        
98        // 添加头部信息
99        if (headers != null) {
100            for (Map.Entry<String, String> entry : headers.entrySet()) {
101                record.headers().add(entry.getKey(), entry.getValue().getBytes());
102            }
103        }
104        
105        producer.send(record, (metadata, exception) -> {
106            if (exception == null) {
107                System.out.println("带头部消息发送成功: " + metadata.offset());
108            } else {
109                System.err.println("带头部消息发送失败: " + exception.getMessage());
110            }
111        });
112    }
113    
114    /**
115     * 批量发送消息
116     */
117    public void sendBatch(List<MessageData> messages) {
118        List<Future<RecordMetadata>> futures = new ArrayList<>();
119        
120        // 批量提交消息
121        for (MessageData msg : messages) {
122            ProducerRecord<String, String> record = 
123                new ProducerRecord<>(topicName, msg.getKey(), msg.getValue());
124            
125            Future<RecordMetadata> future = producer.send(record);
126            futures.add(future);
127        }
128        
129        // 等待所有消息发送完成
130        for (int i = 0; i < futures.size(); i++) {
131            try {
132                RecordMetadata metadata = futures.get(i).get();
133                System.out.println("批量消息 " + i + " 发送成功: " + metadata.offset());
134            } catch (Exception e) {
135                System.err.println("批量消息 " + i + " 发送失败: " + e.getMessage());
136            }
137        }
138    }
139    
140    /**
141     * 刷新缓冲区，确保所有消息都发送
142     */
143    public void flush() {
144        producer.flush();
145        System.out.println("生产者缓冲区已刷新");
146    }
147    
148    /**
149     * 关闭生产者
150     */
151    public void close() {
152        producer.close();
153        System.out.println("生产者已关闭");
154    }
155    
156    // 消息数据封装类
157    public static class MessageData {
158        private String key;
159        private String value;
160        
161        public MessageData(String key, String value) {
162            this.key = key;
163            this.value = value;
164        }
165        
166        public String getKey() { return key; }
167        public String getValue() { return value; }
168    }
169}
170
171// 生产者使用示例
172public class ProducerExample {
173    public static void main(String[] args) {
174        KafkaProducerBasic producer = new KafkaProducerBasic("localhost:9092", "user-events");
175        
176        try {
177            // 同步发送
178            producer.sendSync("user-123", "login");
179            
180            // 异步发送
181            producer.sendAsync("user-456", "logout");
182            
183            // 带头部信息发送
184            Map<String, String> headers = new HashMap<>();
185            headers.put("source", "mobile-app");
186            headers.put("version", "1.0");
187            producer.sendWithHeaders("user-789", "purchase", headers);
188            
189            // 批量发送
190            List<KafkaProducerBasic.MessageData> batch = Arrays.asList(
191                new KafkaProducerBasic.MessageData("user-001", "view_product"),
192                new KafkaProducerBasic.MessageData("user-002", "add_to_cart"),
193                new KafkaProducerBasic.MessageData("user-003", "checkout")
194            );
195            producer.sendBatch(batch);
196            
197            // 确保所有消息发送完成
198            producer.flush();
199            
200        } finally {
201            producer.close();
202        }
203    }
204}

高级生产者实现 - 支持事务和监控

java

1import org.apache.kafka.clients.producer.*;
2import org.apache.kafka.common.errors.ProducerFencedException;
3import org.apache.kafka.common.errors.OutOfOrderSequenceException;
4import org.apache.kafka.common.errors.AuthorizationException;
5import java.util.concurrent.atomic.AtomicLong;
6import java.util.concurrent.Executors;
7import java.util.concurrent.ScheduledExecutorService;
8import java.util.concurrent.TimeUnit;
9
10/**
11 * 高级Kafka生产者实现
12 * 支持事务、监控、重试策略、故障处理等高级特性
13 */
14public class KafkaProducerAdvanced {
15    
16    private final KafkaProducer<String, String> producer;
17    private final String topicName;
18    private final boolean transactionalEnabled;
19    private final ProducerMetrics metrics;
20    private final ScheduledExecutorService scheduler;
21    
22    // 性能指标
23    private final AtomicLong totalSent = new AtomicLong(0);
24    private final AtomicLong totalFailed = new AtomicLong(0);
25    private final AtomicLong totalBytes = new AtomicLong(0);
26    
27    public KafkaProducerAdvanced(String bootstrapServers, String topicName, boolean enableTransactions) {
28        this.topicName = topicName;
29        this.transactionalEnabled = enableTransactions;
30        this.producer = createAdvancedProducer(bootstrapServers, enableTransactions);
31        this.metrics = new ProducerMetrics();
32        this.scheduler = Executors.newScheduledThreadPool(1);
33        
34        // 启动事务（如果启用）
35        if (transactionalEnabled) {
36            producer.initTransactions();
37        }
38        
39        // 启动指标监控
40        startMetricsReporting();
41    }
42    
43    /**
44     * 创建高级生产者配置
45     */
46    private KafkaProducer<String, String> createAdvancedProducer(String bootstrapServers, boolean enableTransactions) {
47        Properties props = new Properties();
48        
49        // 基础配置
50        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
51        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
52        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
53        
54        // 高可靠性配置
55        props.put(ProducerConfig.ACKS_CONFIG, "all");
56        props.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE);     // 无限重试
57        props.put(ProducerConfig.RETRY_BACKOFF_MS_CONFIG, 1000);
58        props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
59        props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 1); // 保证顺序
60        
61        // 事务配置
62        if (enableTransactions) {
63            props.put(ProducerConfig.TRANSACTIONAL_ID_CONFIG, "producer-" + System.currentTimeMillis());
64        }
65        
66        // 高性能配置
67        props.put(ProducerConfig.BATCH_SIZE_CONFIG, 32768);              // 32KB批次
68        props.put(ProducerConfig.LINGER_MS_CONFIG, 20);                  // 等待20ms
69        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 67108864);        // 64MB缓冲区
70        props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");
71        
72        // 超时配置
73        props.put(ProducerConfig.REQUEST_TIMEOUT_MS_CONFIG, 30000);
74        props.put(ProducerConfig.DELIVERY_TIMEOUT_MS_CONFIG, 300000);    // 5分钟投递超时
75        
76        // 监控配置
77        props.put(ProducerConfig.METRIC_REPORTERS_CONFIG, "");
78        props.put(ProducerConfig.METRICS_SAMPLE_WINDOW_MS_CONFIG, 30000);
79        props.put(ProducerConfig.METRICS_NUM_SAMPLES_CONFIG, 2);
80        
81        return new KafkaProducer<>(props);
82    }
83    
84    /**
85     * 事务性发送消息
86     */
87    public void sendTransactional(List<MessageData> messages) {
88        if (!transactionalEnabled) {
89            throw new IllegalStateException("事务未启用");
90        }
91        
92        try {
93            // 开始事务
94            producer.beginTransaction();
95            
96            // 发送消息
97            for (MessageData msg : messages) {
98                ProducerRecord<String, String> record = 
99                    new ProducerRecord<>(topicName, msg.getKey(), msg.getValue());
100                producer.send(record);
101            }
102            
103            // 提交事务
104            producer.commitTransaction();
105            
106            totalSent.addAndGet(messages.size());
107            System.out.println("事务提交成功，发送 " + messages.size() + " 条消息");
108            
109        } catch (ProducerFencedException | OutOfOrderSequenceException | AuthorizationException e) {
110            // 不可恢复的异常，关闭生产者
111            System.err.println("不可恢复的事务异常: " + e.getMessage());
112            close();
113            throw e;
114        } catch (Exception e) {
115            // 可恢复的异常，中止事务
116            System.err.println("事务异常，正在中止: " + e.getMessage());
117            producer.abortTransaction();
118            totalFailed.addAndGet(messages.size());
119            throw e;
120        }
121    }
122    
123    /**
124     * 带重试策略的发送
125     */
126    public void sendWithRetry(String key, String value, int maxRetries) {
127        ProducerRecord<String, String> record = new ProducerRecord<>(topicName, key, value);
128        
129        sendWithRetry(record, maxRetries, 0);
130    }
131    
132    private void sendWithRetry(ProducerRecord<String, String> record, int maxRetries, int attempt) {
133        producer.send(record, (metadata, exception) -> {
134            if (exception == null) {
135                // 发送成功
136                totalSent.incrementAndGet();
137                totalBytes.addAndGet(record.value().getBytes().length);
138                metrics.recordSuccess(System.currentTimeMillis() - record.timestamp());
139                
140                System.out.printf("消息发送成功 (尝试 %d): offset=%d%n", attempt + 1, metadata.offset());
141                
142            } else {
143                // 发送失败
144                totalFailed.incrementAndGet();
145                metrics.recordFailure();
146                
147                if (attempt < maxRetries) {
148                    // 重试
149                    System.out.printf("消息发送失败，正在重试 (%d/%d): %s%n", 
150                        attempt + 1, maxRetries, exception.getMessage());
151                    
152                    // 延迟重试
153                    scheduler.schedule(() -> {
154                        sendWithRetry(record, maxRetries, attempt + 1);
155                    }, (attempt + 1) * 1000, TimeUnit.MILLISECONDS);
156                    
157                } else {
158                    // 重试次数用尽
159                    System.err.printf("消息发送最终失败 (%d 次尝试): %s%n", 
160                        maxRetries + 1, exception.getMessage());
161                }
162            }
163        });
164    }
165    
166    /**
167     * 异步发送带回调
168     */
169    public void sendAsyncWithCallback(String key, String value, MessageCallback callback) {
170        ProducerRecord<String, String> record = new ProducerRecord<>(topicName, key, value);
171        
172        producer.send(record, (metadata, exception) -> {
173            if (exception == null) {
174                totalSent.incrementAndGet();
175                totalBytes.addAndGet(record.value().getBytes().length);
176                
177                if (callback != null) {
178                    callback.onSuccess(metadata);
179                }
180            } else {
181                totalFailed.incrementAndGet();
182                
183                if (callback != null) {
184                    callback.onFailure(exception);
185                }
186            }
187        });
188    }
189    
190    /**
191     * 获取生产者指标
192     */
193    public ProducerStats getStats() {
194        return new ProducerStats(
195            totalSent.get(),
196            totalFailed.get(),
197            totalBytes.get(),
198            metrics.getAverageLatency(),
199            metrics.getSuccessRate()
200        );
201    }
202    
203    /**
204     * 启动指标监控
205     */
206    private void startMetricsReporting() {
207        scheduler.scheduleAtFixedRate(() -> {
208            ProducerStats stats = getStats();
209            System.out.printf("生产者指标 - 成功: %d, 失败: %d, 字节数: %d, 平均延迟: %.2fms, 成功率: %.2f%%%n",
210                stats.getTotalSent(), stats.getTotalFailed(), stats.getTotalBytes(),
211                stats.getAverageLatency(), stats.getSuccessRate() * 100);
212        }, 30, 30, TimeUnit.SECONDS);
213    }
214    
215    /**
216     * 优雅关闭
217     */
218    public void close() {
219        try {
220            // 刷新缓冲区
221            producer.flush();
222            
223            // 关闭生产者
224            producer.close(Duration.ofSeconds(10));
225            
226            // 关闭调度器
227            scheduler.shutdown();
228            
229            System.out.println("生产者已优雅关闭");
230            
231        } catch (Exception e) {
232            System.err.println("关闭生产者时发生异常: " + e.getMessage());
233        }
234    }
235    
236    // 消息回调接口
237    public interface MessageCallback {
238        void onSuccess(RecordMetadata metadata);
239        void onFailure(Exception exception);
240    }
241    
242    // 生产者指标类
243    private static class ProducerMetrics {
244        private final AtomicLong totalLatency = new AtomicLong(0);
245        private final AtomicLong successCount = new AtomicLong(0);
246        private final AtomicLong failureCount = new AtomicLong(0);
247        
248        public void recordSuccess(long latency) {
249            totalLatency.addAndGet(latency);
250            successCount.incrementAndGet();
251        }
252        
253        public void recordFailure() {
254            failureCount.incrementAndGet();
255        }
256        
257        public double getAverageLatency() {
258            long count = successCount.get();
259            return count > 0 ? (double) totalLatency.get() / count : 0.0;
260        }
261        
262        public double getSuccessRate() {
263            long total = successCount.get() + failureCount.get();
264            return total > 0 ? (double) successCount.get() / total : 0.0;
265        }
266    }
267    
268    // 生产者统计信息
269    public static class ProducerStats {
270        private final long totalSent;
271        private final long totalFailed;
272        private final long totalBytes;
273        private final double averageLatency;
274        private final double successRate;
275        
276        public ProducerStats(long totalSent, long totalFailed, long totalBytes, 
277                           double averageLatency, double successRate) {
278            this.totalSent = totalSent;
279            this.totalFailed = totalFailed;
280            this.totalBytes = totalBytes;
281            this.averageLatency = averageLatency;
282            this.successRate = successRate;
283        }
284        
285        // Getters
286        public long getTotalSent() { return totalSent; }
287        public long getTotalFailed() { return totalFailed; }
288        public long getTotalBytes() { return totalBytes; }
289        public double getAverageLatency() { return averageLatency; }
290        public double getSuccessRate() { return successRate; }
291    }
292    
293    // 消息数据类
294    public static class MessageData {
295        private String key;
296        private String value;
297        
298        public MessageData(String key, String value) {
299            this.key = key;
300            this.value = value;
301        }
302        
303        public String getKey() { return key; }
304        public String getValue() { return value; }
305    }
306}
307
308// 高级生产者使用示例
309public class AdvancedProducerExample {
310    public static void main(String[] args) {
311        KafkaProducerAdvanced producer = new KafkaProducerAdvanced(
312            "localhost:9092", "user-events", true);
313        
314        try {
315            // 事务性发送
316            List<KafkaProducerAdvanced.MessageData> transactionalMessages = Arrays.asList(
317                new KafkaProducerAdvanced.MessageData("user-001", "login"),
318                new KafkaProducerAdvanced.MessageData("user-001", "view_product"),
319                new KafkaProducerAdvanced.MessageData("user-001", "purchase")
320            );
321            producer.sendTransactional(transactionalMessages);
322            
323            // 带重试的发送
324            producer.sendWithRetry("user-002", "important_event", 3);
325            
326            // 异步发送带回调
327            producer.sendAsyncWithCallback("user-003", "callback_event", 
328                new KafkaProducerAdvanced.MessageCallback() {
329                    @Override
330                    public void onSuccess(RecordMetadata metadata) {
331                        System.out.println("回调成功: " + metadata.offset());
332                    }
333                    
334                    @Override
335                    public void onFailure(Exception exception) {
336                        System.err.println("回调失败: " + exception.getMessage());
337                    }
338                });
339            
340            // 等待一段时间查看指标
341            Thread.sleep(60000);
342            
343            // 打印最终统计
344            KafkaProducerAdvanced.ProducerStats stats = producer.getStats();
345            System.out.println("最终统计: " + stats.getTotalSent() + " 成功, " + 
346                             stats.getTotalFailed() + " 失败");
347            
348        } catch (Exception e) {
349            e.printStackTrace();
350        } finally {
351            producer.close();
352        }
353    }
354}

生产者性能优化配置对比：

配置项	高吞吐量配置	低延迟配置	高可靠性配置	说明
acks	1	1	all	确认级别
batch.size	65536 (64KB)	0	16384 (16KB)	批次大小
linger.ms	100	0	10	等待时间
compression.type	lz4	none	gzip	压缩算法
buffer.memory	134217728 (128MB)	33554432 (32MB)	67108864 (64MB)	缓冲区大小
retries	5	0	Integer.MAX_VALUE	重试次数
max.in.flight.requests	5	1	1	并发请求数

生产者性能测试工具

java

1/**
2 * Kafka生产者性能测试工具
3 * 用于测试不同配置下的生产者性能
4 */
5public class ProducerPerformanceTest {
6    
7    /**
8     * 性能测试配置
9     */
10    public enum PerformanceProfile {
11        HIGH_THROUGHPUT,    // 高吞吐量
12        LOW_LATENCY,        // 低延迟
13        HIGH_RELIABILITY    // 高可靠性
14    }
15    
16    /**
17     * 创建性能测试生产者
18     */
19    public static KafkaProducer<String, String> createPerformanceProducer(
20            String bootstrapServers, PerformanceProfile profile) {
21        
22        Properties props = new Properties();
23        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
24        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
25        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
26        
27        switch (profile) {
28            case HIGH_THROUGHPUT:
29                // 高吞吐量配置
30                props.put(ProducerConfig.ACKS_CONFIG, "1");
31                props.put(ProducerConfig.BATCH_SIZE_CONFIG, 65536);
32                props.put(ProducerConfig.LINGER_MS_CONFIG, 100);
33                props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");
34                props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 134217728);
35                props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);
36                break;
37                
38            case LOW_LATENCY:
39                // 低延迟配置
40                props.put(ProducerConfig.ACKS_CONFIG, "1");
41                props.put(ProducerConfig.BATCH_SIZE_CONFIG, 0);
42                props.put(ProducerConfig.LINGER_MS_CONFIG, 0);
43                props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "none");
44                props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 33554432);
45                props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 1);
46                break;
47                
48            case HIGH_RELIABILITY:
49                // 高可靠性配置
50                props.put(ProducerConfig.ACKS_CONFIG, "all");
51                props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);
52                props.put(ProducerConfig.LINGER_MS_CONFIG, 10);
53                props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "gzip");
54                props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 67108864);
55                props.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE);
56                props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
57                props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 1);
58                break;
59        }
60        
61        return new KafkaProducer<>(props);
62    }
63    
64    /**
65     * 执行性能测试
66     */
67    public static TestResult runPerformanceTest(String bootstrapServers, String topic,
68                                              PerformanceProfile profile, int messageCount, int messageSize) {
69        
70        KafkaProducer<String, String> producer = createPerformanceProducer(bootstrapServers, profile);
71        
72        // 生成测试消息
73        String messageValue = generateMessage(messageSize);
74        
75        long startTime = System.currentTimeMillis();
76        AtomicLong successCount = new AtomicLong(0);
77        AtomicLong failureCount = new AtomicLong(0);
78        List<Long> latencies = Collections.synchronizedList(new ArrayList<>());
79        
80        CountDownLatch latch = new CountDownLatch(messageCount);
81        
82        // 发送消息
83        for (int i = 0; i < messageCount; i++) {
84            String key = "key-" + i;
85            ProducerRecord<String, String> record = new ProducerRecord<>(topic, key, messageValue);
86            
87            long sendTime = System.nanoTime();
88            producer.send(record, (metadata, exception) -> {
89                long latency = (System.nanoTime() - sendTime) / 1_000_000; // 转换为毫秒
90                
91                if (exception == null) {
92                    successCount.incrementAndGet();
93                    latencies.add(latency);
94                } else {
95                    failureCount.incrementAndGet();
96                }
97                
98                latch.countDown();
99            });
100        }
101        
102        try {
103            // 等待所有消息发送完成
104            latch.await(5, TimeUnit.MINUTES);
105        } catch (InterruptedException e) {
106            Thread.currentThread().interrupt();
107        }
108        
109        long endTime = System.currentTimeMillis();
110        producer.close();
111        
112        // 计算统计信息
113        long totalTime = endTime - startTime;
114        double throughput = (double) successCount.get() / totalTime * 1000; // 消息/秒
115        double avgLatency = latencies.stream().mapToLong(Long::longValue).average().orElse(0.0);
116        double p95Latency = calculatePercentile(latencies, 0.95);
117        double p99Latency = calculatePercentile(latencies, 0.99);
118        
119        return new TestResult(profile, messageCount, messageSize, totalTime,
120                            successCount.get(), failureCount.get(), throughput,
121                            avgLatency, p95Latency, p99Latency);
122    }
123    
124    private static String generateMessage(int size) {
125        StringBuilder sb = new StringBuilder(size);
126        for (int i = 0; i < size; i++) {
127            sb.append('a');
128        }
129        return sb.toString();
130    }
131    
132    private static double calculatePercentile(List<Long> values, double percentile) {
133        if (values.isEmpty()) return 0.0;
134        
135        List<Long> sorted = new ArrayList<>(values);
136        Collections.sort(sorted);
137        
138        int index = (int) Math.ceil(percentile * sorted.size()) - 1;
139        return sorted.get(Math.max(0, index));
140    }
141    
142    // 测试结果类
143    public static class TestResult {
144        private final PerformanceProfile profile;
145        private final int messageCount;
146        private final int messageSize;
147        private final long totalTime;
148        private final long successCount;
149        private final long failureCount;
150        private final double throughput;
151        private final double avgLatency;
152        private final double p95Latency;
153        private final double p99Latency;
154        
155        public TestResult(PerformanceProfile profile, int messageCount, int messageSize,
156                         long totalTime, long successCount, long failureCount,
157                         double throughput, double avgLatency, double p95Latency, double p99Latency) {
158            this.profile = profile;
159            this.messageCount = messageCount;
160            this.messageSize = messageSize;
161            this.totalTime = totalTime;
162            this.successCount = successCount;
163            this.failureCount = failureCount;
164            this.throughput = throughput;
165            this.avgLatency = avgLatency;
166            this.p95Latency = p95Latency;
167            this.p99Latency = p99Latency;
168        }
169        
170        public void printReport() {
171            System.out.println("=== 性能测试报告 ===");
172            System.out.println("配置类型: " + profile);
173            System.out.println("消息数量: " + messageCount);
174            System.out.println("消息大小: " + messageSize + " 字节");
175            System.out.println("总耗时: " + totalTime + " ms");
176            System.out.println("成功数量: " + successCount);
177            System.out.println("失败数量: " + failureCount);
178            System.out.printf("吞吐量: %.2f 消息/秒%n", throughput);
179            System.out.printf("平均延迟: %.2f ms%n", avgLatency);
180            System.out.printf("P95延迟: %.2f ms%n", p95Latency);
181            System.out.printf("P99延迟: %.2f ms%n", p99Latency);
182            System.out.println();
183        }
184        
185        // Getters
186        public PerformanceProfile getProfile() { return profile; }
187        public double getThroughput() { return throughput; }
188        public double getAvgLatency() { return avgLatency; }
189        public double getP95Latency() { return p95Latency; }
190        public double getP99Latency() { return p99Latency; }
191    }
192    
193    public static void main(String[] args) {
194        String bootstrapServers = "localhost:9092";
195        String topic = "performance-test";
196        int messageCount = 10000;
197        int messageSize = 1024; // 1KB
198        
199        // 测试不同配置的性能
200        for (PerformanceProfile profile : PerformanceProfile.values()) {
201            System.out.println("开始测试配置: " + profile);
202            TestResult result = runPerformanceTest(bootstrapServers, topic, profile, messageCount, messageSize);
203            result.printReport();
204        }
205    }
206}

3.2 Consumer（消费者）- 高效消息消费

Kafka消费者负责从Topic中读取消息。消费者可以单独工作，也可以作为消费者组的一部分协同工作，实现负载均衡和故障转移。

基础消费者
消费者组
重平衡机制

Kafka消费者基础实现

java

1import org.apache.kafka.clients.consumer.*;
2import org.apache.kafka.common.TopicPartition;
3import org.apache.kafka.common.serialization.StringDeserializer;
4import java.time.Duration;
5import java.util.*;
6
7/**
8 * Kafka消费者基础实现
9 * 展示自动提交、手动提交、指定分区消费等功能
10 */
11public class KafkaConsumerBasic {
12    
13    private final KafkaConsumer<String, String> consumer;
14    private final List<String> topics;
15    private volatile boolean running = false;
16    
17    public KafkaConsumerBasic(String bootstrapServers, String groupId, List<String> topics) {
18        this.topics = topics;
19        this.consumer = createConsumer(bootstrapServers, groupId);
20    }
21    
22    /**
23     * 创建消费者实例
24     */
25    private KafkaConsumer<String, String> createConsumer(String bootstrapServers, String groupId) {
26        Properties props = new Properties();
27        
28        // 基础连接配置
29        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
30        props.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
31        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
32        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
33        
34        // 位移管理配置
35        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);      // 禁用自动提交
36        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");  // 从最早位移开始
37        
38        // 拉取配置
39        props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 1024);          // 最小拉取1KB
40        props.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 500);         // 最大等待500ms
41        props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 500);          // 每次最多拉取500条
42        props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG, 1048576); // 每分区最大1MB
43        
44        // 会话配置
45        props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 30000);      // 会话超时30秒
46        props.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 10000);   // 心跳间隔10秒
47        props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 300000);   // 最大poll间隔5分钟
48        
49        return new KafkaConsumer<>(props);
50    }
51    
52    /**
53     * 自动提交模式消费
54     */
55    public void consumeWithAutoCommit() {
56        // 重新配置为自动提交
57        consumer.close();
58        Properties props = new Properties();
59        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
60        props.put(ConsumerConfig.GROUP_ID_CONFIG, "auto-commit-group");
61        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
62        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
63        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, true);       // 启用自动提交
64        props.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, 5000);  // 5秒自动提交一次
65        
66        KafkaConsumer<String, String> autoCommitConsumer = new KafkaConsumer<>(props);
67        autoCommitConsumer.subscribe(topics);
68        
69        System.out.println("开始自动提交模式消费...");
70        
71        try {
72            while (running) {
73                ConsumerRecords<String, String> records = autoCommitConsumer.poll(Duration.ofMillis(100));
74                
75                for (ConsumerRecord<String, String> record : records) {
76                    System.out.printf("自动提交消费: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
77                        record.topic(), record.partition(), record.offset(), record.key(), record.value());
78                    
79                    // 处理消息
80                    processMessage(record);
81                }
82                
83                // 自动提交会在后台定期执行
84            }
85        } finally {
86            autoCommitConsumer.close();
87        }
88    }
89    
90    /**
91     * 手动同步提交模式消费
92     */
93    public void consumeWithSyncCommit() {
94        consumer.subscribe(topics);
95        running = true;
96        
97        System.out.println("开始手动同步提交模式消费...");
98        
99        try {
100            while (running) {
101                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
102                
103                for (ConsumerRecord<String, String> record : records) {
104                    System.out.printf("同步提交消费: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
105                        record.topic(), record.partition(), record.offset(), record.key(), record.value());
106                    
107                    // 处理消息
108                    processMessage(record);
109                }
110                
111                if (!records.isEmpty()) {
112                    try {
113                        // 同步提交位移，会阻塞直到提交成功或失败
114                        consumer.commitSync();
115                        System.out.println("位移同步提交成功");
116                    } catch (CommitFailedException e) {
117                        System.err.println("位移提交失败: " + e.getMessage());
118                    }
119                }
120            }
121        } finally {
122            consumer.close();
123        }
124    }
125    
126    /**
127     * 手动异步提交模式消费
128     */
129    public void consumeWithAsyncCommit() {
130        consumer.subscribe(topics);
131        running = true;
132        
133        System.out.println("开始手动异步提交模式消费...");
134        
135        try {
136            while (running) {
137                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
138                
139                for (ConsumerRecord<String, String> record : records) {
140                    System.out.printf("异步提交消费: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
141                        record.topic(), record.partition(), record.offset(), record.key(), record.value());
142                    
143                    // 处理消息
144                    processMessage(record);
145                }
146                
147                if (!records.isEmpty()) {
148                    // 异步提交位移，不会阻塞
149                    consumer.commitAsync(new OffsetCommitCallback() {
150                        @Override
151                        public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception exception) {
152                            if (exception == null) {
153                                System.out.println("位移异步提交成功: " + offsets);
154                            } else {
155                                System.err.println("位移异步提交失败: " + exception.getMessage());
156                            }
157                        }
158                    });
159                }
160            }
161        } finally {
162            // 关闭前进行最后一次同步提交
163            try {
164                consumer.commitSync();
165            } catch (Exception e) {
166                System.err.println("最终同步提交失败: " + e.getMessage());
167            }
168            consumer.close();
169        }
170    }
171    
172    /**
173     * 指定分区消费
174     */
175    public void consumeSpecificPartitions(String topic, List<Integer> partitions) {
176        // 构建TopicPartition列表
177        List<TopicPartition> topicPartitions = new ArrayList<>();
178        for (Integer partition : partitions) {
179            topicPartitions.add(new TopicPartition(topic, partition));
180        }
181        
182        // 分配指定分区（不使用subscribe）
183        consumer.assign(topicPartitions);
184        
185        // 可选：指定起始位移
186        consumer.seekToBeginning(topicPartitions); // 从头开始
187        // consumer.seekToEnd(topicPartitions);    // 从末尾开始
188        
189        running = true;
190        System.out.println("开始指定分区消费: " + topicPartitions);
191        
192        try {
193            while (running) {
194                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
195                
196                for (ConsumerRecord<String, String> record : records) {
197                    System.out.printf("指定分区消费: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
198                        record.topic(), record.partition(), record.offset(), record.key(), record.value());
199                    
200                    // 处理消息
201                    processMessage(record);
202                }
203                
204                // 手动提交位移
205                if (!records.isEmpty()) {
206                    consumer.commitSync();
207                }
208            }
209        } finally {
210            consumer.close();
211        }
212    }
213    
214    /**
215     * 按时间戳消费
216     */
217    public void consumeFromTimestamp(String topic, long timestamp) {
218        // 获取Topic的所有分区
219        List<PartitionInfo> partitionInfos = consumer.partitionsFor(topic);
220        List<TopicPartition> topicPartitions = new ArrayList<>();
221        
222        for (PartitionInfo partitionInfo : partitionInfos) {
223            topicPartitions.add(new TopicPartition(topic, partitionInfo.partition()));
224        }
225        
226        // 分配分区
227        consumer.assign(topicPartitions);
228        
229        // 构建时间戳查询映射
230        Map<TopicPartition, Long> timestampsToSearch = new HashMap<>();
231        for (TopicPartition tp : topicPartitions) {
232            timestampsToSearch.put(tp, timestamp);
233        }
234        
235        // 根据时间戳查找位移
236        Map<TopicPartition, OffsetAndTimestamp> offsetsForTimes = consumer.offsetsForTimes(timestampsToSearch);
237        
238        // 设置起始位移
239        for (TopicPartition tp : topicPartitions) {
240            OffsetAndTimestamp offsetAndTimestamp = offsetsForTimes.get(tp);
241            if (offsetAndTimestamp != null) {
242                consumer.seek(tp, offsetAndTimestamp.offset());
243                System.out.println("分区 " + tp.partition() + " 从位移 " + offsetAndTimestamp.offset() + " 开始消费");
244            } else {
245                // 如果没有找到对应时间戳的位移，从末尾开始
246                consumer.seekToEnd(Arrays.asList(tp));
247                System.out.println("分区 " + tp.partition() + " 没有找到对应时间戳的位移，从末尾开始");
248            }
249        }
250        
251        running = true;
252        System.out.println("开始从时间戳 " + new Date(timestamp) + " 消费");
253        
254        try {
255            while (running) {
256                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
257                
258                for (ConsumerRecord<String, String> record : records) {
259                    System.out.printf("时间戳消费: topic=%s, partition=%d, offset=%d, timestamp=%s, key=%s, value=%s%n",
260                        record.topic(), record.partition(), record.offset(), 
261                        new Date(record.timestamp()), record.key(), record.value());
262                    
263                    // 处理消息
264                    processMessage(record);
265                }
266                
267                if (!records.isEmpty()) {
268                    consumer.commitSync();
269                }
270            }
271        } finally {
272            consumer.close();
273        }
274    }
275    
276    /**
277     * 批量处理消息
278     */
279    public void consumeInBatches(int batchSize) {
280        consumer.subscribe(topics);
281        running = true;
282        
283        List<ConsumerRecord<String, String>> batch = new ArrayList<>();
284        
285        System.out.println("开始批量消费，批次大小: " + batchSize);
286        
287        try {
288            while (running) {
289                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
290                
291                for (ConsumerRecord<String, String> record : records) {
292                    batch.add(record);
293                    
294                    // 当批次达到指定大小时处理
295                    if (batch.size() >= batchSize) {
296                        processBatch(batch);
297                        batch.clear();
298                        
299                        // 提交位移
300                        consumer.commitSync();
301                    }
302                }
303            }
304            
305            // 处理剩余的消息
306            if (!batch.isEmpty()) {
307                processBatch(batch);
308                consumer.commitSync();
309            }
310            
311        } finally {
312            consumer.close();
313        }
314    }
315    
316    /**
317     * 处理单条消息
318     */
319    private void processMessage(ConsumerRecord<String, String> record) {
320        try {
321            // 模拟消息处理
322            Thread.sleep(10);
323            
324            // 这里可以添加具体的业务逻辑
325            // 例如：保存到数据库、发送到其他系统等
326            
327        } catch (InterruptedException e) {
328            Thread.currentThread().interrupt();
329            System.err.println("消息处理被中断");
330        } catch (Exception e) {
331            System.err.println("处理消息失败: " + e.getMessage());
332            // 可以选择重试、记录错误日志或发送到死信队列
333        }
334    }
335    
336    /**
337     * 批量处理消息
338     */
339    private void processBatch(List<ConsumerRecord<String, String>> batch) {
340        System.out.println("处理批次，包含 " + batch.size() + " 条消息");
341        
342        try {
343            // 批量处理逻辑
344            for (ConsumerRecord<String, String> record : batch) {
345                // 处理单条消息
346                processMessage(record);
347            }
348            
349            System.out.println("批次处理完成");
350            
351        } catch (Exception e) {
352            System.err.println("批次处理失败: " + e.getMessage());
353            // 可以选择重试整个批次或单独处理失败的消息
354        }
355    }
356    
357    /**
358     * 停止消费
359     */
360    public void stop() {
361        running = false;
362        System.out.println("正在停止消费者...");
363    }
364    
365    /**
366     * 获取消费者指标
367     */
368    public void printConsumerMetrics() {
369        Map<MetricName, ? extends Metric> metrics = consumer.metrics();
370        
371        System.out.println("=== 消费者指标 ===");
372        for (Map.Entry<MetricName, ? extends Metric> entry : metrics.entrySet()) {
373            MetricName name = entry.getKey();
374            Metric metric = entry.getValue();
375            
376            // 只打印重要指标
377            if (name.name().contains("records-consumed") || 
378                name.name().contains("bytes-consumed") ||
379                name.name().contains("fetch-latency")) {
380                System.out.printf("%s.%s: %.2f%n", name.group(), name.name(), metric.metricValue());
381            }
382        }
383    }
384}
385
386// 消费者使用示例
387public class ConsumerExample {
388    public static void main(String[] args) {
389        List<String> topics = Arrays.asList("user-events", "order-events");
390        KafkaConsumerBasic consumer = new KafkaConsumerBasic("localhost:9092", "example-group", topics);
391        
392        // 创建消费线程
393        Thread consumerThread = new Thread(() -> {
394            // 选择不同的消费模式
395            // consumer.consumeWithAutoCommit();
396            // consumer.consumeWithSyncCommit();
397            consumer.consumeWithAsyncCommit();
398            // consumer.consumeSpecificPartitions("user-events", Arrays.asList(0, 1));
399            // consumer.consumeFromTimestamp("user-events", System.currentTimeMillis() - 3600000); // 1小时前
400            // consumer.consumeInBatches(10);
401        });
402        
403        consumerThread.start();
404        
405        // 运行一段时间后停止
406        try {
407            Thread.sleep(60000); // 运行1分钟
408        } catch (InterruptedException e) {
409            Thread.currentThread().interrupt();
410        }
411        
412        consumer.stop();
413        
414        try {
415            consumerThread.join();
416        } catch (InterruptedException e) {
417            Thread.currentThread().interrupt();
418        }
419        
420        // 打印消费者指标
421        consumer.printConsumerMetrics();
422    }
423}

消费者组管理和监控

java

1import org.apache.kafka.clients.admin.*;
2import org.apache.kafka.clients.consumer.*;
3import org.apache.kafka.common.TopicPartition;
4import java.util.*;
5import java.util.concurrent.ExecutionException;
6
7/**
8 * Kafka消费者组管理工具
9 * 提供消费者组的创建、监控、重平衡等功能
10 */
11public class ConsumerGroupManager {
12    
13    private final AdminClient adminClient;
14    
15    public ConsumerGroupManager(String bootstrapServers) {
16        Properties props = new Properties();
17        props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
18        this.adminClient = AdminClient.create(props);
19    }
20    
21    /**
22     * 列出所有消费者组
23     */
24    public List<String> listConsumerGroups() {
25        try {
26            ListConsumerGroupsResult result = adminClient.listConsumerGroups();
27            return result.all().get().stream()
28                .map(ConsumerGroupListing::groupId)
29                .collect(Collectors.toList());
30        } catch (InterruptedException | ExecutionException e) {
31            throw new RuntimeException("列出消费者组失败", e);
32        }
33    }
34    
35    /**
36     * 获取消费者组详细信息
37     */
38    public ConsumerGroupInfo getConsumerGroupInfo(String groupId) {
39        try {
40            // 获取消费者组描述
41            DescribeConsumerGroupsResult describeResult = 
42                adminClient.describeConsumerGroups(Arrays.asList(groupId));
43            ConsumerGroupDescription description = describeResult.all().get().get(groupId);
44            
45            // 获取消费者组位移信息
46            ListConsumerGroupOffsetsResult offsetsResult = 
47                adminClient.listConsumerGroupOffsets(groupId);
48            Map<TopicPartition, OffsetAndMetadata> offsets = offsetsResult.partitionsToOffsetAndMetadata().get();
49            
50            return new ConsumerGroupInfo(description, offsets);
51            
52        } catch (InterruptedException | ExecutionException e) {
53            throw new RuntimeException("获取消费者组信息失败: " + groupId, e);
54        }
55    }
56    
57    /**
58     * 重置消费者组位移
59     */
60    public void resetConsumerGroupOffsets(String groupId, String topic, OffsetResetStrategy strategy) {
61        try {
62            // 首先检查消费者组状态
63            ConsumerGroupInfo groupInfo = getConsumerGroupInfo(groupId);
64            if (groupInfo.getState() != ConsumerGroupState.Empty) {
65                throw new IllegalStateException("消费者组必须为空状态才能重置位移，当前状态: " + groupInfo.getState());
66            }
67            
68            // 获取Topic分区信息
69            DescribeTopicsResult topicsResult = adminClient.describeTopics(Arrays.asList(topic));
70            TopicDescription topicDescription = topicsResult.all().get().get(topic);
71            
72            Map<TopicPartition, OffsetAndMetadata> offsetsToReset = new HashMap<>();
73            
74            for (TopicPartitionInfo partitionInfo : topicDescription.partitions()) {
75                TopicPartition tp = new TopicPartition(topic, partitionInfo.partition());
76                
77                long newOffset;
78                switch (strategy) {
79                    case EARLIEST:
80                        // 重置到最早位移
81                        newOffset = getEarliestOffset(tp);
82                        break;
83                    case LATEST:
84                        // 重置到最新位移
85                        newOffset = getLatestOffset(tp);
86                        break;
87                    default:
88                        throw new IllegalArgumentException("不支持的重置策略: " + strategy);
89                }
90                
91                offsetsToReset.put(tp, new OffsetAndMetadata(newOffset));
92            }
93            
94            // 执行位移重置
95            AlterConsumerGroupOffsetsResult alterResult = 
96                adminClient.alterConsumerGroupOffsets(groupId, offsetsToReset);
97            alterResult.all().get();
98            
99            System.out.println("消费者组 " + groupId + " 的位移重置成功，策略: " + strategy);
100            
101        } catch (InterruptedException | ExecutionException e) {
102            throw new RuntimeException("重置消费者组位移失败: " + groupId, e);
103        }
104    }
105    
106    /**
107     * 删除消费者组
108     */
109    public void deleteConsumerGroup(String groupId) {
110        try {
111            // 检查消费者组状态
112            ConsumerGroupInfo groupInfo = getConsumerGroupInfo(groupId);
113            if (groupInfo.getState() != ConsumerGroupState.Empty) {
114                throw new IllegalStateException("只能删除空的消费者组，当前状态: " + groupInfo.getState());
115            }
116            
117            DeleteConsumerGroupsResult result = adminClient.deleteConsumerGroups(Arrays.asList(groupId));
118            result.all().get();
119            
120            System.out.println("消费者组 " + groupId + " 删除成功");
121            
122        } catch (InterruptedException | ExecutionException e) {
123            throw new RuntimeException("删除消费者组失败: " + groupId, e);
124        }
125    }
126    
127    /**
128     * 监控消费者组延迟
129     */
130    public ConsumerGroupLag getConsumerGroupLag(String groupId) {
131        try {
132            ConsumerGroupInfo groupInfo = getConsumerGroupInfo(groupId);
133            Map<TopicPartition, OffsetAndMetadata> currentOffsets = groupInfo.getOffsets();
134            
135            // 获取每个分区的最新位移
136            Map<TopicPartition, Long> endOffsets = getEndOffsets(currentOffsets.keySet());
137            
138            Map<TopicPartition, Long> lagMap = new HashMap<>();
139            long totalLag = 0;
140            
141            for (Map.Entry<TopicPartition, OffsetAndMetadata> entry : currentOffsets.entrySet()) {
142                TopicPartition tp = entry.getKey();
143                long currentOffset = entry.getValue().offset();
144                long endOffset = endOffsets.getOrDefault(tp, currentOffset);
145                
146                long lag = Math.max(0, endOffset - currentOffset);
147                lagMap.put(tp, lag);
148                totalLag += lag;
149            }
150            
151            return new ConsumerGroupLag(groupId, lagMap, totalLag);
152            
153        } catch (Exception e) {
154            throw new RuntimeException("获取消费者组延迟失败: " + groupId, e);
155        }
156    }
157    
158    /**
159     * 打印消费者组详细报告
160     */
161    public void printConsumerGroupReport(String groupId) {
162        ConsumerGroupInfo info = getConsumerGroupInfo(groupId);
163        ConsumerGroupLag lag = getConsumerGroupLag(groupId);
164        
165        System.out.println("=== 消费者组详细报告: " + groupId + " ===");
166        System.out.println("状态: " + info.getState());
167        System.out.println("协调器: " + info.getCoordinator().host() + ":" + info.getCoordinator().port());
168        System.out.println("分区分配策略: " + info.getPartitionAssignor());
169        System.out.println("成员数量: " + info.getMembers().size());
170        System.out.println("总延迟: " + lag.getTotalLag() + " 条消息");
171        
172        System.out.println("\n--- 成员信息 ---");
173        for (MemberDescription member : info.getMembers()) {
174            System.out.printf("成员ID: %s, 客户端ID: %s, 主机: %s%n",
175                member.consumerId(), member.clientId(), member.host());
176            System.out.println("  分配的分区: " + member.assignment().topicPartitions());
177        }
178        
179        System.out.println("\n--- 分区位移和延迟 ---");
180        for (Map.Entry<TopicPartition, Long> entry : lag.getPartitionLags().entrySet()) {
181            TopicPartition tp = entry.getKey();
182            long partitionLag = entry.getValue();
183            long currentOffset = info.getOffsets().get(tp).offset();
184            
185            System.out.printf("%s-%d: 当前位移=%d, 延迟=%d%n",
186                tp.topic(), tp.partition(), currentOffset, partitionLag);
187        }
188    }
189    
190    private long getEarliestOffset(TopicPartition tp) {
191        // 简化实现，实际应该使用Consumer.beginningOffsets()
192        return 0L;
193    }
194    
195    private long getLatestOffset(TopicPartition tp) {
196        // 简化实现，实际应该使用Consumer.endOffsets()
197        return Long.MAX_VALUE;
198    }
199    
200    private Map<TopicPartition, Long> getEndOffsets(Set<TopicPartition> partitions) {
201        // 简化实现，实际应该使用Consumer.endOffsets()
202        Map<TopicPartition, Long> endOffsets = new HashMap<>();
203        for (TopicPartition tp : partitions) {
204            endOffsets.put(tp, 1000L); // 模拟值
205        }
206        return endOffsets;
207    }
208    
209    public void close() {
210        adminClient.close();
211    }
212    
213    // 位移重置策略枚举
214    public enum OffsetResetStrategy {
215        EARLIEST,   // 重置到最早
216        LATEST      // 重置到最新
217    }
218    
219    // 消费者组信息封装类
220    public static class ConsumerGroupInfo {
221        private final ConsumerGroupDescription description;
222        private final Map<TopicPartition, OffsetAndMetadata> offsets;
223        
224        public ConsumerGroupInfo(ConsumerGroupDescription description, 
225                               Map<TopicPartition, OffsetAndMetadata> offsets) {
226            this.description = description;
227            this.offsets = offsets;
228        }
229        
230        public String getGroupId() { return description.groupId(); }
231        public ConsumerGroupState getState() { return description.state(); }
232        public Node getCoordinator() { return description.coordinator(); }
233        public String getPartitionAssignor() { return description.partitionAssignor(); }
234        public Collection<MemberDescription> getMembers() { return description.members(); }
235        public Map<TopicPartition, OffsetAndMetadata> getOffsets() { return offsets; }
236    }
237    
238    // 消费者组延迟信息
239    public static class ConsumerGroupLag {
240        private final String groupId;
241        private final Map<TopicPartition, Long> partitionLags;
242        private final long totalLag;
243        
244        public ConsumerGroupLag(String groupId, Map<TopicPartition, Long> partitionLags, long totalLag) {
245            this.groupId = groupId;
246            this.partitionLags = partitionLags;
247            this.totalLag = totalLag;
248        }
249        
250        public String getGroupId() { return groupId; }
251        public Map<TopicPartition, Long> getPartitionLags() { return partitionLags; }
252        public long getTotalLag() { return totalLag; }
253    }
254}
255
256/**
257 * 多线程消费者组实现
258 * 演示如何在一个应用中启动多个消费者实例
259 */
260public class MultiThreadConsumerGroup {
261    
262    private final String bootstrapServers;
263    private final String groupId;
264    private final List<String> topics;
265    private final int consumerCount;
266    private final List<Thread> consumerThreads;
267    private volatile boolean running = false;
268    
269    public MultiThreadConsumerGroup(String bootstrapServers, String groupId, 
270                                  List<String> topics, int consumerCount) {
271        this.bootstrapServers = bootstrapServers;
272        this.groupId = groupId;
273        this.topics = topics;
274        this.consumerCount = consumerCount;
275        this.consumerThreads = new ArrayList<>();
276    }
277    
278    /**
279     * 启动多个消费者线程
280     */
281    public void start() {
282        running = true;
283        
284        for (int i = 0; i < consumerCount; i++) {
285            final int consumerId = i;
286            Thread consumerThread = new Thread(() -> {
287                runConsumer(consumerId);
288            }, "Consumer-" + i);
289            
290            consumerThreads.add(consumerThread);
291            consumerThread.start();
292        }
293        
294        System.out.println("启动了 " + consumerCount + " 个消费者线程");
295    }
296    
297    /**
298     * 运行单个消费者
299     */
300    private void runConsumer(int consumerId) {
301        Properties props = new Properties();
302        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
303        props.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
304        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
305        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
306        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);
307        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
308        
309        // 为每个消费者设置唯一的客户端ID
310        props.put(ConsumerConfig.CLIENT_ID_CONFIG, "consumer-" + consumerId);
311        
312        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
313        
314        try {
315            consumer.subscribe(topics, new ConsumerRebalanceListener() {
316                @Override
317                public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
318                    System.out.println("Consumer-" + consumerId + " 分区被撤销: " + partitions);
319                    // 在分区被撤销前提交位移
320                    consumer.commitSync();
321                }
322                
323                @Override
324                public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
325                    System.out.println("Consumer-" + consumerId + " 分区被分配: " + partitions);
326                }
327            });
328            
329            while (running) {
330                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
331                
332                for (ConsumerRecord<String, String> record : records) {
333                    System.out.printf("Consumer-%d 处理消息: topic=%s, partition=%d, offset=%d, key=%s%n",
334                        consumerId, record.topic(), record.partition(), record.offset(), record.key());
335                    
336                    // 模拟消息处理
337                    try {
338                        Thread.sleep(100);
339                    } catch (InterruptedException e) {
340                        Thread.currentThread().interrupt();
341                        break;
342                    }
343                }
344                
345                if (!records.isEmpty()) {
346                    consumer.commitSync();
347                }
348            }
349            
350        } catch (Exception e) {
351            System.err.println("Consumer-" + consumerId + " 发生异常: " + e.getMessage());
352        } finally {
353            consumer.close();
354            System.out.println("Consumer-" + consumerId + " 已关闭");
355        }
356    }
357    
358    /**
359     * 停止所有消费者
360     */
361    public void stop() {
362        running = false;
363        
364        // 等待所有消费者线程结束
365        for (Thread thread : consumerThreads) {
366            try {
367                thread.join(5000); // 最多等待5秒
368            } catch (InterruptedException e) {
369                Thread.currentThread().interrupt();
370            }
371        }
372        
373        System.out.println("所有消费者已停止");
374    }
375    
376    public static void main(String[] args) {
377        MultiThreadConsumerGroup consumerGroup = new MultiThreadConsumerGroup(
378            "localhost:9092",
379            "multi-thread-group",
380            Arrays.asList("user-events"),
381            3 // 启动3个消费者
382        );
383        
384        // 启动消费者组
385        consumerGroup.start();
386        
387        // 运行一段时间
388        try {
389            Thread.sleep(60000); // 运行1分钟
390        } catch (InterruptedException e) {
391            Thread.currentThread().interrupt();
392        }
393        
394        // 停止消费者组
395        consumerGroup.stop();
396    }
397}

消费者重平衡监听和处理

java

1import org.apache.kafka.clients.consumer.*;
2import org.apache.kafka.common.TopicPartition;
3import java.util.*;
4import java.util.concurrent.ConcurrentHashMap;
5
6/**
7 * 消费者重平衡监听器实现
8 * 处理分区分配变化，实现优雅的重平衡
9 */
10public class RebalanceAwareConsumer {
11    
12    private final KafkaConsumer<String, String> consumer;
13    private final Map<TopicPartition, OffsetAndMetadata> currentOffsets = new ConcurrentHashMap<>();
14    private volatile boolean running = false;
15    
16    public RebalanceAwareConsumer(String bootstrapServers, String groupId, List<String> topics) {
17        Properties props = new Properties();
18        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
19        props.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
20        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
21        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
22        
23        // 重平衡相关配置
24        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);          // 禁用自动提交
25        props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 30000);          // 会话超时30秒
26        props.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 10000);       // 心跳间隔10秒
27        props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 300000);       // 最大poll间隔5分钟
28        
29        // 使用协作式重平衡策略（Kafka 2.4+）
30        props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, 
31                 "org.apache.kafka.clients.consumer.CooperativeStickyAssignor");
32        
33        this.consumer = new KafkaConsumer<>(props);
34        
35        // 订阅Topic并设置重平衡监听器
36        consumer.subscribe(topics, new RebalanceListener());
37    }
38    
39    /**
40     * 开始消费
41     */
42    public void startConsuming() {
43        running = true;
44        
45        try {
46            while (running) {
47                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
48                
49                for (ConsumerRecord<String, String> record : records) {
50                    // 处理消息
51                    processRecord(record);
52                    
53                    // 跟踪当前位移
54                    currentOffsets.put(
55                        new TopicPartition(record.topic(), record.partition()),
56                        new OffsetAndMetadata(record.offset() + 1)
57                    );
58                }
59                
60                // 定期提交位移
61                if (!records.isEmpty()) {
62                    commitOffsets();
63                }
64            }
65        } catch (Exception e) {
66            System.err.println("消费过程中发生异常: " + e.getMessage());
67        } finally {
68            try {
69                consumer.commitSync(currentOffsets);
70            } catch (Exception e) {
71                System.err.println("最终提交位移失败: " + e.getMessage());
72            }
73            consumer.close();
74        }
75    }
76    
77    /**
78     * 处理单条消息
79     */
80    private void processRecord(ConsumerRecord<String, String> record) {
81        try {
82            System.out.printf("处理消息: topic=%s, partition=%d, offset=%d, key=%s, value=%s%n",
83                record.topic(), record.partition(), record.offset(), record.key(), record.value());
84            
85            // 模拟消息处理时间
86            Thread.sleep(50);
87            
88        } catch (InterruptedException e) {
89            Thread.currentThread().interrupt();
90        } catch (Exception e) {
91            System.err.println("处理消息失败: " + e.getMessage());
92        }
93    }
94    
95    /**
96     * 提交位移
97     */
98    private void commitOffsets() {
99        try {
100            consumer.commitAsync(currentOffsets, (offsets, exception) -> {
101                if (exception != null) {
102                    System.err.println("异步提交位移失败: " + exception.getMessage());
103                }
104            });
105        } catch (Exception e) {
106            System.err.println("提交位移异常: " + e.getMessage());
107        }
108    }
109    
110    /**
111     * 停止消费
112     */
113    public void stop() {
114        running = false;
115    }
116    
117    /**
118     * 重平衡监听器实现
119     */
120    private class RebalanceListener implements ConsumerRebalanceListener {
121        
122        @Override
123        public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
124            System.out.println("=== 分区撤销开始 ===");
125            System.out.println("被撤销的分区: " + partitions);
126            
127            // 在分区被撤销前，同步提交当前位移
128            try {
129                Map<TopicPartition, OffsetAndMetadata> offsetsToCommit = new HashMap<>();
130                for (TopicPartition partition : partitions) {
131                    OffsetAndMetadata offset = currentOffsets.get(partition);
132                    if (offset != null) {
133                        offsetsToCommit.put(partition, offset);
134                    }
135                }
136                
137                if (!offsetsToCommit.isEmpty()) {
138                    consumer.commitSync(offsetsToCommit);
139                    System.out.println("撤销前位移提交成功: " + offsetsToCommit);
140                }
141                
142                // 清理被撤销分区的位移记录
143                for (TopicPartition partition : partitions) {
144                    currentOffsets.remove(partition);
145                }
146                
147            } catch (Exception e) {
148                System.err.println("撤销前提交位移失败: " + e.getMessage());
149            }
150            
151            System.out.println("=== 分区撤销完成 ===");
152        }
153        
154        @Override
155        public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
156            System.out.println("=== 分区分配开始 ===");
157            System.out.println("新分配的分区: " + partitions);
158            
159            // 可以在这里进行一些初始化工作
160            for (TopicPartition partition : partitions) {
161                // 获取当前分区的位移
162                OffsetAndMetadata committed = consumer.committed(partition);
163                if (committed != null) {
164                    System.out.println("分区 " + partition + " 的已提交位移: " + committed.offset());
165                } else {
166                    System.out.println("分区 " + partition + " 没有已提交的位移");
167                }
168            }
169            
170            System.out.println("=== 分区分配完成 ===");
171        }
172        
173        @Override
174        public void onPartitionsLost(Collection<TopicPartition> partitions) {
175            System.out.println("=== 分区丢失 ===");
176            System.out.println("丢失的分区: " + partitions);
177            
178            // 清理丢失分区的位移记录
179            for (TopicPartition partition : partitions) {
180                currentOffsets.remove(partition);
181            }
182            
183            // 注意：分区丢失时不应该提交位移，因为可能已经被其他消费者接管
184            System.out.println("=== 分区丢失处理完成 ===");
185        }
186    }
187    
188    public static void main(String[] args) {
189        // 创建多个消费者实例来演示重平衡
190        List<RebalanceAwareConsumer> consumers = new ArrayList<>();
191        List<Thread> threads = new ArrayList<>();
192        
193        // 启动第一个消费者
194        RebalanceAwareConsumer consumer1 = new RebalanceAwareConsumer(
195            "localhost:9092", "rebalance-demo-group", Arrays.asList("user-events"));
196        Thread thread1 = new Thread(consumer1::startConsuming, "Consumer-1");
197        consumers.add(consumer1);
198        threads.add(thread1);
199        thread1.start();
200        
201        try {
202            // 等待5秒后启动第二个消费者（触发重平衡）
203            Thread.sleep(5000);
204            System.out.println("\n启动第二个消费者...\n");
205            
206            RebalanceAwareConsumer consumer2 = new RebalanceAwareConsumer(
207                "localhost:9092", "rebalance-demo-group", Arrays.asList("user-events"));
208            Thread thread2 = new Thread(consumer2::startConsuming, "Consumer-2");
209            consumers.add(consumer2);
210            threads.add(thread2);
211            thread2.start();
212            
213            // 再等待5秒后启动第三个消费者（再次触发重平衡）
214            Thread.sleep(5000);
215            System.out.println("\n启动第三个消费者...\n");
216            
217            RebalanceAwareConsumer consumer3 = new RebalanceAwareConsumer(
218                "localhost:9092", "rebalance-demo-group", Arrays.asList("user-events"));
219            Thread thread3 = new Thread(consumer3::startConsuming, "Consumer-3");
220            consumers.add(consumer3);
221            threads.add(thread3);
222            thread3.start();
223            
224            // 运行一段时间
225            Thread.sleep(10000);
226            
227            // 停止第二个消费者（触发重平衡）
228            System.out.println("\n停止第二个消费者...\n");
229            consumer2.stop();
230            thread2.join();
231            
232            // 再运行一段时间
233            Thread.sleep(10000);
234            
235        } catch (InterruptedException e) {
236            Thread.currentThread().interrupt();
237        } finally {
238            // 停止所有消费者
239            for (RebalanceAwareConsumer consumer : consumers) {
240                consumer.stop();
241            }
242            
243            for (Thread thread : threads) {
244                try {
245                    thread.join();
246                } catch (InterruptedException e) {
247                    Thread.currentThread().interrupt();
248                }
249            }
250        }
251    }
252}
253
254/**
255 * 重平衡策略对比演示
256 */
257public class PartitionAssignmentStrategyDemo {
258    
259    /**
260     * 演示不同分区分配策略的效果
261     */
262    public static void demonstrateAssignmentStrategies() {
263        System.out.println("=== 分区分配策略对比 ===");
264        
265        // 模拟场景：3个消费者，6个分区
266        int consumerCount = 3;
267        int partitionCount = 6;
268        
269        System.out.println("场景: " + consumerCount + " 个消费者, " + partitionCount + " 个分区");
270        
271        // Range策略
272        System.out.println("\n1. Range策略 (默认):");
273        demonstrateRangeAssignment(consumerCount, partitionCount);
274        
275        // RoundRobin策略
276        System.out.println("\n2. RoundRobin策略:");
277        demonstrateRoundRobinAssignment(consumerCount, partitionCount);
278        
279        // Sticky策略
280        System.out.println("\n3. Sticky策略:");
281        demonstrateStickyAssignment(consumerCount, partitionCount);
282        
283        // CooperativeSticky策略
284        System.out.println("\n4. CooperativeSticky策略:");
285        demonstrateCooperativeStickyAssignment(consumerCount, partitionCount);
286    }
287    
288    private static void demonstrateRangeAssignment(int consumers, int partitions) {
289        // Range策略：按分区范围分配
290        int partitionsPerConsumer = partitions / consumers;
291        int remainder = partitions % consumers;
292        
293        for (int i = 0; i < consumers; i++) {
294            int start = i * partitionsPerConsumer + Math.min(i, remainder);
295            int count = partitionsPerConsumer + (i < remainder ? 1 : 0);
296            int end = start + count - 1;
297            
298            System.out.printf("Consumer-%d: 分区 %d-%d (%d个分区)%n", i, start, end, count);
299        }
300    }
301    
302    private static void demonstrateRoundRobinAssignment(int consumers, int partitions) {
303        // RoundRobin策略：轮询分配
304        Map<Integer, List<Integer>> assignment = new HashMap<>();
305        for (int i = 0; i < consumers; i++) {
306            assignment.put(i, new ArrayList<>());
307        }
308        
309        for (int partition = 0; partition < partitions; partition++) {
310            int consumer = partition % consumers;
311            assignment.get(consumer).add(partition);
312        }
313        
314        for (int i = 0; i < consumers; i++) {
315            System.out.printf("Consumer-%d: 分区 %s (%d个分区)%n", 
316                i, assignment.get(i), assignment.get(i).size());
317        }
318    }
319    
320    private static void demonstrateStickyAssignment(int consumers, int partitions) {
321        // Sticky策略：尽可能保持原有分配
322        System.out.println("初始分配（类似RoundRobin）:");
323        demonstrateRoundRobinAssignment(consumers, partitions);
324        
325        System.out.println("Consumer-1 离开后的重新分配:");
326        // 模拟Consumer-1离开，其分区被其他消费者接管
327        System.out.println("Consumer-0: 分区 [0, 3, 1] (3个分区) - 接管了分区1");
328        System.out.println("Consumer-2: 分区 [2, 5, 4] (3个分区) - 接管了分区4");
329    }
330    
331    private static void demonstrateCooperativeStickyAssignment(int consumers, int partitions) {
332        // CooperativeSticky策略：增量重平衡
333        System.out.println("支持增量重平衡，减少停顿时间");
334        System.out.println("只移动必要的分区，其他分区继续处理消息");
335        demonstrateStickyAssignment(consumers, partitions);
336    }
337    
338    public static void main(String[] args) {
339        demonstrateAssignmentStrategies();
340    }
341}

4. Kafka Streams流处理框架

4.1 Kafka Streams核心概念

Kafka Streams是一个用于构建实时流处理应用程序的Java库，它将Kafka作为流处理的基础设施，提供了高级的流处理抽象和丰富的操作符。

核心概念
基础示例
窗口操作

核心抽象：

KStream：记录流，每条记录代表一个事件
KTable：变更流，每条记录代表一个状态更新
GlobalKTable：全局表，所有实例都有完整副本
Topology：流处理拓扑，定义数据流转换逻辑

Kafka Streams基础示例

java

1import org.apache.kafka.common.serialization.Serdes;
2import org.apache.kafka.streams.*;
3import org.apache.kafka.streams.kstream.*;
4import java.util.Properties;
5import java.util.concurrent.CountDownLatch;
6
7/**
8 * Kafka Streams基础示例
9 * 实现词频统计的经典流处理应用
10 */
11public class WordCountExample {
12    
13    public static void main(String[] args) {
14        // 配置Streams应用
15        Properties props = new Properties();
16        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "wordcount-application");
17        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
18        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
19        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
20        
21        // 构建流处理拓扑
22        StreamsBuilder builder = new StreamsBuilder();
23        
24        // 1. 从输入Topic读取数据
25        KStream<String, String> textLines = builder.stream("text-input");
26        
27        // 2. 流处理逻辑
28        KTable<String, Long> wordCounts = textLines
29            // 将每行文本转换为小写
30            .mapValues(textLine -> textLine.toLowerCase())
31            // 按空格分割单词
32            .flatMapValues(textLine -> Arrays.asList(textLine.split("\\W+")))
33            // 过滤空字符串
34            .filter((key, word) -> !word.isEmpty())
35            // 重新设置key为单词
36            .selectKey((key, word) -> word)
37            // 按单词分组
38            .groupByKey()
39            // 计数聚合
40            .count(Materialized.as("counts-store"));
41        
42        // 3. 输出结果到Topic
43        wordCounts.toStream().to("wordcount-output", Produced.with(Serdes.String(), Serdes.Long()));
44        
45        // 构建并启动Streams应用
46        Topology topology = builder.build();
47        KafkaStreams streams = new KafkaStreams(topology, props);
48        
49        // 优雅关闭处理
50        CountDownLatch latch = new CountDownLatch(1);
51        Runtime.getRuntime().addShutdownHook(new Thread("streams-shutdown-hook") {
52            @Override
53            public void run() {
54                streams.close();
55                latch.countDown();
56            }
57        });
58        
59        try {
60            streams.start();
61            System.out.println("WordCount应用已启动");
62            System.out.println("拓扑结构:\n" + topology.describe());
63            latch.await();
64        } catch (Throwable e) {
65            System.err.println("应用异常退出: " + e.getMessage());
66            System.exit(1);
67        }
68        System.exit(0);
69    }
70}
71
72/**
73 * 更复杂的流处理示例 - 用户行为分析
74 */
75public class UserBehaviorAnalysis {
76    
77    public static void main(String[] args) {
78        Properties props = new Properties();
79        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "user-behavior-analysis");
80        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
81        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
82        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
83        
84        StreamsBuilder builder = new StreamsBuilder();
85        
86        // 用户事件流
87        KStream<String, String> userEvents = builder.stream("user-events");
88        
89        // 解析JSON并转换为UserEvent对象
90        KStream<String, UserEvent> parsedEvents = userEvents
91            .mapValues(json -> parseUserEvent(json))
92            .filter((key, event) -> event != null);
93        
94        // 1. 实时用户活跃度统计
95        KTable<String, Long> userActivityCount = parsedEvents
96            .selectKey((key, event) -> event.getUserId())
97            .groupByKey()
98            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
99            .count(Materialized.as("user-activity-store"))
100            .suppress(Suppressed.untilWindowCloses(Suppressed.BufferConfig.unbounded()))
101            .toStream()
102            .map((windowedKey, count) -> KeyValue.pair(windowedKey.key(), count))
103            .groupByKey()
104            .reduce((oldValue, newValue) -> newValue);
105        
106        // 2. 页面访问热度统计
107        KTable<String, Long> pageViewCount = parsedEvents
108            .filter((key, event) -> "page_view".equals(event.getEventType()))
109            .selectKey((key, event) -> event.getPageId())
110            .groupByKey()
111            .count(Materialized.as("page-view-store"));
112        
113        // 3. 用户转化漏斗分析
114        KStream<String, String> conversionFunnel = parsedEvents
115            .selectKey((key, event) -> event.getUserId())
116            .groupByKey()
117            .aggregate(
118                () -> new ConversionState(),
119                (key, event, state) -> updateConversionState(state, event),
120                Materialized.<String, ConversionState, KeyValueStore<Bytes, byte[]>>as("conversion-store")
121                    .withValueSerde(new ConversionStateSerde())
122            )
123            .toStream()
124            .filter((userId, state) -> state.isConverted())
125            .mapValues(state -> "用户 " + state.getUserId() + " 完成转化");
126        
127        // 输出结果
128        userActivityCount.toStream().to("user-activity-output", 
129            Produced.with(Serdes.String(), Serdes.Long()));
130        pageViewCount.toStream().to("page-view-output", 
131            Produced.with(Serdes.String(), Serdes.Long()));
132        conversionFunnel.to("conversion-output");
133        
134        // 启动应用
135        Topology topology = builder.build();
136        KafkaStreams streams = new KafkaStreams(topology, props);
137        
138        streams.setStateListener((newState, oldState) -> {
139            System.out.println("状态变更: " + oldState + " -> " + newState);
140        });
141        
142        streams.setUncaughtExceptionHandler((thread, exception) -> {
143            System.err.println("未捕获异常: " + exception.getMessage());
144            return StreamsUncaughtExceptionHandler.StreamThreadExceptionResponse.SHUTDOWN_CLIENT;
145        });
146        
147        streams.start();
148        
149        // 添加关闭钩子
150        Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
151    }
152    
153    private static UserEvent parseUserEvent(String json) {
154        try {
155            // 简化的JSON解析，实际应使用Jackson等库
156            // 假设JSON格式: {"userId":"user1","eventType":"page_view","pageId":"home","timestamp":1640995200000}
157            return new UserEvent("user1", "page_view", "home", System.currentTimeMillis());
158        } catch (Exception e) {
159            System.err.println("解析用户事件失败: " + e.getMessage());
160            return null;
161        }
162    }
163    
164    private static ConversionState updateConversionState(ConversionState state, UserEvent event) {
165        // 简化的转化状态更新逻辑
166        switch (event.getEventType()) {
167            case "page_view":
168                state.setViewedPage(true);
169                break;
170            case "add_to_cart":
171                state.setAddedToCart(true);
172                break;
173            case "purchase":
174                state.setPurchased(true);
175                break;
176        }
177        state.setLastEventTime(event.getTimestamp());
178        return state;
179    }
180    
181    // 用户事件数据类
182    public static class UserEvent {
183        private String userId;
184        private String eventType;
185        private String pageId;
186        private long timestamp;
187        
188        public UserEvent(String userId, String eventType, String pageId, long timestamp) {
189            this.userId = userId;
190            this.eventType = eventType;
191            this.pageId = pageId;
192            this.timestamp = timestamp;
193        }
194        
195        // Getters
196        public String getUserId() { return userId; }
197        public String getEventType() { return eventType; }
198        public String getPageId() { return pageId; }
199        public long getTimestamp() { return timestamp; }
200    }
201    
202    // 转化状态类
203    public static class ConversionState {
204        private String userId;
205        private boolean viewedPage = false;
206        private boolean addedToCart = false;
207        private boolean purchased = false;
208        private long lastEventTime;
209        
210        public boolean isConverted() {
211            return viewedPage && addedToCart && purchased;
212        }
213        
214        // Getters and Setters
215        public String getUserId() { return userId; }
216        public void setUserId(String userId) { this.userId = userId; }
217        public boolean isViewedPage() { return viewedPage; }
218        public void setViewedPage(boolean viewedPage) { this.viewedPage = viewedPage; }
219        public boolean isAddedToCart() { return addedToCart; }
220        public void setAddedToCart(boolean addedToCart) { this.addedToCart = addedToCart; }
221        public boolean isPurchased() { return purchased; }
222        public void setPurchased(boolean purchased) { this.purchased = purchased; }
223        public long getLastEventTime() { return lastEventTime; }
224        public void setLastEventTime(long lastEventTime) { this.lastEventTime = lastEventTime; }
225    }
226    
227    // 自定义Serde
228    public static class ConversionStateSerde implements Serde<ConversionState> {
229        @Override
230        public Serializer<ConversionState> serializer() {
231            return new ConversionStateSerializer();
232        }
233        
234        @Override
235        public Deserializer<ConversionState> deserializer() {
236            return new ConversionStateDeserializer();
237        }
238    }
239    
240    public static class ConversionStateSerializer implements Serializer<ConversionState> {
241        @Override
242        public byte[] serialize(String topic, ConversionState data) {
243            // 简化的序列化实现
244            return data.toString().getBytes();
245        }
246    }
247    
248    public static class ConversionStateDeserializer implements Deserializer<ConversionState> {
249        @Override
250        public ConversionState deserialize(String topic, byte[] data) {
251            // 简化的反序列化实现
252            return new ConversionState();
253        }
254    }
255}

Kafka Streams窗口操作详解

java

1import org.apache.kafka.streams.kstream.*;
2import java.time.Duration;
3
4/**
5 * Kafka Streams窗口操作示例
6 * 展示不同类型的时间窗口和窗口操作
7 */
8public class WindowingExample {
9    
10    /**
11     * 时间窗口类型演示
12     */
13    public static void demonstrateWindowTypes(StreamsBuilder builder) {
14        KStream<String, String> events = builder.stream("events");
15        
16        // 1. 滚动窗口 (Tumbling Window)
17        // 固定大小，不重叠的时间窗口
18        KTable<Windowed<String>, Long> tumblingWindowCount = events
19            .selectKey((key, value) -> extractUserId(value))
20            .groupByKey()
21            .windowedBy(TimeWindows.of(Duration.ofMinutes(5))) // 5分钟滚动窗口
22            .count(Materialized.as("tumbling-window-store"));
23        
24        // 2. 跳跃窗口 (Hopping Window)
25        // 固定大小，有重叠的时间窗口
26        KTable<Windowed<String>, Long> hoppingWindowCount = events
27            .selectKey((key, value) -> extractUserId(value))
28            .groupByKey()
29            .windowedBy(TimeWindows.of(Duration.ofMinutes(5))
30                       .advanceBy(Duration.ofMinutes(1))) // 5分钟窗口，每1分钟滑动
31            .count(Materialized.as("hopping-window-store"));
32        
33        // 3. 会话窗口 (Session Window)
34        // 基于活动的动态窗口
35        KTable<Windowed<String>, Long> sessionWindowCount = events
36            .selectKey((key, value) -> extractUserId(value))
37            .groupByKey()
38            .windowedBy(SessionWindows.with(Duration.ofMinutes(30))) // 30分钟不活跃则关闭会话
39            .count(Materialized.as("session-window-store"));
40        
41        // 4. 滑动窗口聚合示例
42        KTable<Windowed<String>, Double> slidingAverage = events
43            .selectKey((key, value) -> extractUserId(value))
44            .mapValues(value -> extractValue(value))
45            .groupByKey()
46            .windowedBy(TimeWindows.of(Duration.ofMinutes(10)))
47            .aggregate(
48                () -> new AggregateValue(0.0, 0),
49                (key, value, aggregate) -> new AggregateValue(
50                    aggregate.getSum() + value,
51                    aggregate.getCount() + 1
52                ),
53                Materialized.<String, AggregateValue, WindowStore<Bytes, byte[]>>as("sliding-avg-store")
54                    .withValueSerde(new AggregateValueSerde())
55            )
56            .mapValues(aggregate -> aggregate.getCount() > 0 ? 
57                      aggregate.getSum() / aggregate.getCount() : 0.0);
58        
59        // 输出窗口结果
60        tumblingWindowCount.toStream()
61            .map((windowedKey, count) -> KeyValue.pair(
62                windowedKey.key() + "@" + windowedKey.window().start() + "-" + windowedKey.window().end(),
63                count
64            ))
65            .to("tumbling-window-output", Produced.with(Serdes.String(), Serdes.Long()));
66        
67        hoppingWindowCount.toStream()
68            .map((windowedKey, count) -> KeyValue.pair(
69                windowedKey.key() + "@" + windowedKey.window().start() + "-" + windowedKey.window().end(),
70                count
71            ))
72            .to("hopping-window-output", Produced.with(Serdes.String(), Serdes.Long()));
73        
74        sessionWindowCount.toStream()
75            .map((windowedKey, count) -> KeyValue.pair(
76                windowedKey.key() + "@" + windowedKey.window().start() + "-" + windowedKey.window().end(),
77                count
78            ))
79            .to("session-window-output", Produced.with(Serdes.String(), Serdes.Long()));
80    }
81    
82    /**
83     * 窗口抑制和触发策略
84     */
85    public static void demonstrateWindowSuppression(StreamsBuilder builder) {
86        KStream<String, String> events = builder.stream("events");
87        
88        // 1. 窗口关闭时触发 (默认行为)
89        KTable<Windowed<String>, Long> windowClosedTrigger = events
90            .selectKey((key, value) -> extractUserId(value))
91            .groupByKey()
92            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
93            .count()
94            .suppress(Suppressed.untilWindowCloses(Suppressed.BufferConfig.unbounded()));
95        
96        // 2. 时间间隔触发
97        KTable<Windowed<String>, Long> timeIntervalTrigger = events
98            .selectKey((key, value) -> extractUserId(value))
99            .groupByKey()
100            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
101            .count()
102            .suppress(Suppressed.untilTimeLimit(Duration.ofSeconds(30), 
103                     Suppressed.BufferConfig.maxRecords(1000)));
104        
105        // 3. 记录数量触发
106        KTable<Windowed<String>, Long> recordCountTrigger = events
107            .selectKey((key, value) -> extractUserId(value))
108            .groupByKey()
109            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
110            .count()
111            .suppress(Suppressed.untilTimeLimit(Duration.ofMinutes(1),
112                     Suppressed.BufferConfig.maxRecords(100)));
113        
114        // 输出结果
115        windowClosedTrigger.toStream().to("window-closed-output");
116        timeIntervalTrigger.toStream().to("time-interval-output");
117        recordCountTrigger.toStream().to("record-count-output");
118    }
119    
120    /**
121     * 复杂窗口聚合 - 实时指标计算
122     */
123    public static void realTimeMetricsCalculation(StreamsBuilder builder) {
124        KStream<String, String> metrics = builder.stream("metrics");
125        
126        // 解析指标数据
127        KStream<String, MetricData> parsedMetrics = metrics
128            .mapValues(json -> parseMetricData(json))
129            .filter((key, metric) -> metric != null);
130        
131        // 1. 实时QPS计算 (每分钟请求数)
132        KTable<Windowed<String>, Long> qpsMetrics = parsedMetrics
133            .filter((key, metric) -> "request".equals(metric.getType()))
134            .selectKey((key, metric) -> metric.getServiceName())
135            .groupByKey()
136            .windowedBy(TimeWindows.of(Duration.ofMinutes(1)))
137            .count(Materialized.as("qps-store"));
138        
139        // 2. 实时响应时间统计
140        KTable<Windowed<String>, ResponseTimeStats> responseTimeStats = parsedMetrics
141            .filter((key, metric) -> "response_time".equals(metric.getType()))
142            .selectKey((key, metric) -> metric.getServiceName())
143            .groupByKey()
144            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
145            .aggregate(
146                ResponseTimeStats::new,
147                (key, metric, stats) -> stats.update(metric.getValue()),
148                Materialized.<String, ResponseTimeStats, WindowStore<Bytes, byte[]>>as("response-time-store")
149                    .withValueSerde(new ResponseTimeStatsSerde())
150            );
151        
152        // 3. 错误率计算
153        KTable<Windowed<String>, Double> errorRateMetrics = parsedMetrics
154            .filter((key, metric) -> "request".equals(metric.getType()))
155            .selectKey((key, metric) -> metric.getServiceName())
156            .groupByKey()
157            .windowedBy(TimeWindows.of(Duration.ofMinutes(5)))
158            .aggregate(
159                () -> new ErrorRateData(0, 0),
160                (key, metric, data) -> {
161                    data.incrementTotal();
162                    if (metric.getValue() >= 400) { // HTTP错误状态码
163                        data.incrementError();
164                    }
165                    return data;
166                },
167                Materialized.<String, ErrorRateData, WindowStore<Bytes, byte[]>>as("error-rate-store")
168                    .withValueSerde(new ErrorRateDataSerde())
169            )
170            .mapValues(data -> data.getTotal() > 0 ? 
171                      (double) data.getError() / data.getTotal() * 100 : 0.0);
172        
173        // 输出实时指标
174        qpsMetrics.toStream()
175            .map((windowedKey, qps) -> KeyValue.pair(
176                "QPS:" + windowedKey.key() + "@" + windowedKey.window().start(),
177                qps
178            ))
179            .to("realtime-qps", Produced.with(Serdes.String(), Serdes.Long()));
180        
181        responseTimeStats.toStream()
182            .map((windowedKey, stats) -> KeyValue.pair(
183                "RT:" + windowedKey.key() + "@" + windowedKey.window().start(),
184                String.format("avg:%.2f,p95:%.2f,p99:%.2f", 
185                             stats.getAverage(), stats.getP95(), stats.getP99())
186            ))
187            .to("realtime-response-time", Produced.with(Serdes.String(), Serdes.String()));
188        
189        errorRateMetrics.toStream()
190            .map((windowedKey, errorRate) -> KeyValue.pair(
191                "ErrorRate:" + windowedKey.key() + "@" + windowedKey.window().start(),
192                errorRate
193            ))
194            .to("realtime-error-rate", Produced.with(Serdes.String(), Serdes.Double()));
195    }
196    
197    // 辅助方法
198    private static String extractUserId(String value) {
199        // 简化实现，实际应解析JSON
200        return "user1";
201    }
202    
203    private static Double extractValue(String value) {
204        // 简化实现，实际应解析JSON
205        return 1.0;
206    }
207    
208    private static MetricData parseMetricData(String json) {
209        // 简化实现，实际应使用JSON库
210        return new MetricData("request", "user-service", 200.0, System.currentTimeMillis());
211    }
212    
213    // 数据类定义
214    public static class AggregateValue {
215        private double sum;
216        private int count;
217        
218        public AggregateValue(double sum, int count) {
219            this.sum = sum;
220            this.count = count;
221        }
222        
223        public double getSum() { return sum; }
224        public int getCount() { return count; }
225    }
226    
227    public static class MetricData {
228        private String type;
229        private String serviceName;
230        private double value;
231        private long timestamp;
232        
233        public MetricData(String type, String serviceName, double value, long timestamp) {
234            this.type = type;
235            this.serviceName = serviceName;
236            this.value = value;
237            this.timestamp = timestamp;
238        }
239        
240        public String getType() { return type; }
241        public String getServiceName() { return serviceName; }
242        public double getValue() { return value; }
243        public long getTimestamp() { return timestamp; }
244    }
245    
246    public static class ResponseTimeStats {
247        private List<Double> values = new ArrayList<>();
248        
249        public ResponseTimeStats update(double value) {
250            values.add(value);
251            return this;
252        }
253        
254        public double getAverage() {
255            return values.stream().mapToDouble(Double::doubleValue).average().orElse(0.0);
256        }
257        
258        public double getP95() {
259            if (values.isEmpty()) return 0.0;
260            List<Double> sorted = new ArrayList<>(values);
261            Collections.sort(sorted);
262            int index = (int) Math.ceil(0.95 * sorted.size()) - 1;
263            return sorted.get(Math.max(0, index));
264        }
265        
266        public double getP99() {
267            if (values.isEmpty()) return 0.0;
268            List<Double> sorted = new ArrayList<>(values);
269            Collections.sort(sorted);
270            int index = (int) Math.ceil(0.99 * sorted.size()) - 1;
271            return sorted.get(Math.max(0, index));
272        }
273    }
274    
275    public static class ErrorRateData {
276        private int total;
277        private int error;
278        
279        public ErrorRateData(int total, int error) {
280            this.total = total;
281            this.error = error;
282        }
283        
284        public void incrementTotal() { total++; }
285        public void incrementError() { error++; }
286        public int getTotal() { return total; }
287        public int getError() { return error; }
288    }
289    
290    // Serde实现（简化）
291    public static class AggregateValueSerde implements Serde<AggregateValue> {
292        @Override
293        public Serializer<AggregateValue> serializer() { return null; }
294        @Override
295        public Deserializer<AggregateValue> deserializer() { return null; }
296    }
297    
298    public static class ResponseTimeStatsSerde implements Serde<ResponseTimeStats> {
299        @Override
300        public Serializer<ResponseTimeStats> serializer() { return null; }
301        @Override
302        public Deserializer<ResponseTimeStats> deserializer() { return null; }
303    }
304    
305    public static class ErrorRateDataSerde implements Serde<ErrorRateData> {
306        @Override
307        public Serializer<ErrorRateData> serializer() { return null; }
308        @Override
309        public Deserializer<ErrorRateData> deserializer() { return null; }
310    }
311}

4.2 状态存储与容错机制

Kafka Streams提供了强大的状态管理能力，支持本地状态存储和分布式容错机制。

状态存储
容错机制

Kafka Streams状态存储详解

java

1import org.apache.kafka.streams.processor.api.*;
2import org.apache.kafka.streams.state.*;
3import org.apache.kafka.common.serialization.Serdes;
4
5/**
6 * Kafka Streams状态存储示例
7 * 展示不同类型的状态存储和自定义处理器
8 */
9public class StateStoreExample {
10    
11    /**
12     * 自定义处理器使用状态存储
13     */
14    public static class UserSessionProcessor implements Processor<String, String, String, String> {
15        
16        private ProcessorContext<String, String> context;
17        private KeyValueStore<String, UserSession> sessionStore;
18        
19        @Override
20        public void init(ProcessorContext<String, String> context) {
21            this.context = context;
22            this.sessionStore = context.getStateStore("user-session-store");
23            
24            // 定期清理过期会话
25            context.schedule(Duration.ofMinutes(1), PunctuationType.WALL_CLOCK_TIME, this::cleanupExpiredSessions);
26        }
27        
28        @Override
29        public void process(Record<String, String> record) {
30            String userId = record.key();
31            String eventData = record.value();
32            
33            // 获取或创建用户会话
34            UserSession session = sessionStore.get(userId);
35            if (session == null) {
36                session = new UserSession(userId, System.currentTimeMillis());
37            }
38            
39            // 更新会话信息
40            session.updateActivity(eventData, System.currentTimeMillis());
41            
42            // 保存会话状态
43            sessionStore.put(userId, session);
44            
45            // 输出会话更新事件
46            context.forward(record.withValue("会话更新: " + session.toString()));
47        }
48        
49        /**
50         * 清理过期会话
51         */
52        private void cleanupExpiredSessions(long timestamp) {
53            long expireTime = timestamp - Duration.ofHours(1).toMillis(); // 1小时过期
54            
55            try (KeyValueIterator<String, UserSession> iterator = sessionStore.all()) {
56                while (iterator.hasNext()) {
57                    KeyValue<String, UserSession> entry = iterator.next();
58                    if (entry.value.getLastActivityTime() < expireTime) {
59                        sessionStore.delete(entry.key);
60                        System.out.println("清理过期会话: " + entry.key);
61                    }
62                }
63            }
64        }
65        
66        @Override
67        public void close() {
68            // 清理资源
69        }
70    }
71    
72    /**
73     * 构建使用状态存储的拓扑
74     */
75    public static Topology buildTopologyWithStateStore() {
76        StreamsBuilder builder = new StreamsBuilder();
77        
78        // 1. 创建状态存储
79        StoreBuilder<KeyValueStore<String, UserSession>> sessionStoreBuilder = 
80            Stores.keyValueStoreBuilder(
81                Stores.persistentKeyValueStore("user-session-store"),
82                Serdes.String(),
83                new UserSessionSerde()
84            )
85            .withLoggingEnabled(Collections.singletonMap("cleanup.policy", "compact"))
86            .withCachingEnabled();
87        
88        // 2. 添加状态存储到拓扑
89        Topology topology = builder.build();
90        topology.addStateStore(sessionStoreBuilder);
91        
92        // 3. 添加处理器并连接状态存储
93        topology.addSource("source", "user-events")
94                .addProcessor("session-processor", UserSessionProcessor::new, "source")
95                .connectProcessorAndStateStores("session-processor", "user-session-store")
96                .addSink("sink", "user-sessions-output", "session-processor");
97        
98        return topology;
99    }
100    
101    /**
102     * 窗口状态存储示例
103     */
104    public static void windowStateStoreExample(StreamsBuilder builder) {
105        // 创建窗口状态存储
106        StoreBuilder<WindowStore<String, Long>> windowStoreBuilder = 
107            Stores.windowStoreBuilder(
108                Stores.persistentWindowStore("page-view-window-store", 
109                                            Duration.ofDays(1), // 保留1天
110                                            Duration.ofMinutes(5), // 5分钟窗口
111                                            false), // 不保留重复
112                Serdes.String(),
113                Serdes.Long()
114            )
115            .withLoggingEnabled(Collections.emptyMap())
116            .withCachingEnabled();
117        
118        // 使用窗口状态存储的处理器
119        class PageViewWindowProcessor implements Processor<String, String, String, Long> {
120            private ProcessorContext<String, Long> context;
121            private WindowStore<String, Long> windowStore;
122            
123            @Override
124            public void init(ProcessorContext<String, Long> context) {
125                this.context = context;
126                this.windowStore = context.getStateStore("page-view-window-store");
127            }
128            
129            @Override
130            public void process(Record<String, String> record) {
131                String pageId = record.key();
132                long timestamp = record.timestamp();
133                
134                // 获取当前窗口的访问量
135                Long currentCount = windowStore.fetch(pageId, timestamp);
136                if (currentCount == null) {
137                    currentCount = 0L;
138                }
139                
140                // 更新访问量
141                windowStore.put(pageId, currentCount + 1, timestamp);
142                
143                // 输出更新后的访问量
144                context.forward(record.withKey(pageId).withValue(currentCount + 1));
145            }
146        }
147        
148        // 添加到拓扑
149        Topology topology = builder.build();
150        topology.addStateStore(windowStoreBuilder)
151                .addSource("page-view-source", "page-views")
152                .addProcessor("page-view-window-processor", PageViewWindowProcessor::new, "page-view-source")
153                .connectProcessorAndStateStores("page-view-window-processor", "page-view-window-store")
154                .addSink("page-view-sink", "page-view-counts", "page-view-window-processor");
155    }
156    
157    /**
158     * 会话状态存储示例
159     */
160    public static void sessionStateStoreExample(StreamsBuilder builder) {
161        // 创建会话状态存储
162        StoreBuilder<SessionStore<String, String>> sessionStoreBuilder = 
163            Stores.sessionStoreBuilder(
164                Stores.persistentSessionStore("user-session-events-store", 
165                                             Duration.ofMinutes(30)), // 30分钟会话超时
166                Serdes.String(),
167                Serdes.String()
168            )
169            .withLoggingEnabled(Collections.emptyMap());
170        
171        // 使用会话状态存储的处理器
172        class UserSessionEventProcessor implements Processor<String, String, String, String> {
173            private ProcessorContext<String, String> context;
174            private SessionStore<String, String> sessionStore;
175            
176            @Override
177            public void init(ProcessorContext<String, String> context) {
178                this.context = context;
179                this.sessionStore = context.getStateStore("user-session-events-store");
180            }
181            
182            @Override
183            public void process(Record<String, String> record) {
184                String userId = record.key();
185                String event = record.value();
186                long timestamp = record.timestamp();
187                
188                // 查找活跃会话
189                try (KeyValueIterator<Windowed<String>, String> sessions = 
190                     sessionStore.findSessions(userId, timestamp - Duration.ofMinutes(30).toMillis(), timestamp)) {
191                    
192                    if (sessions.hasNext()) {
193                        // 更新现有会话
194                        KeyValue<Windowed<String>, String> session = sessions.next();
195                        String updatedEvents = session.value + "," + event;
196                        sessionStore.put(new Windowed<>(userId, new SessionWindow(session.key.window().start(), timestamp)), 
197                                       updatedEvents);
198                    } else {
199                        // 创建新会话
200                        sessionStore.put(new Windowed<>(userId, new SessionWindow(timestamp, timestamp)), event);
201                    }
202                }
203                
204                context.forward(record.withValue("会话事件已记录: " + event));
205            }
206        }
207        
208        // 添加到拓扑
209        Topology topology = builder.build();
210        topology.addStateStore(sessionStoreBuilder)
211                .addSource("session-event-source", "user-session-events")
212                .addProcessor("session-event-processor", UserSessionEventProcessor::new, "session-event-source")
213                .connectProcessorAndStateStores("session-event-processor", "user-session-events-store")
214                .addSink("session-event-sink", "processed-session-events", "session-event-processor");
215    }
216    
217    /**
218     * 状态存储查询示例
219     */
220    public static class StateStoreQueryService {
221        private final KafkaStreams streams;
222        
223        public StateStoreQueryService(KafkaStreams streams) {
224            this.streams = streams;
225        }
226        
227        /**
228         * 查询键值状态存储
229         */
230        public UserSession getUserSession(String userId) {
231            ReadOnlyKeyValueStore<String, UserSession> store = 
232                streams.store(StoreQueryParameters.fromNameAndType("user-session-store", QueryableStoreTypes.keyValueStore()));
233            
234            return store.get(userId);
235        }
236        
237        /**
238         * 查询所有用户会话
239         */
240        public Map<String, UserSession> getAllUserSessions() {
241            ReadOnlyKeyValueStore<String, UserSession> store = 
242                streams.store(StoreQueryParameters.fromNameAndType("user-session-store", QueryableStoreTypes.keyValueStore()));
243            
244            Map<String, UserSession> sessions = new HashMap<>();
245            try (KeyValueIterator<String, UserSession> iterator = store.all()) {
246                while (iterator.hasNext()) {
247                    KeyValue<String, UserSession> entry = iterator.next();
248                    sessions.put(entry.key, entry.value);
249                }
250            }
251            return sessions;
252        }
253        
254        /**
255         * 查询窗口状态存储
256         */
257        public Long getPageViewCount(String pageId, long timestamp) {
258            ReadOnlyWindowStore<String, Long> store = 
259                streams.store(StoreQueryParameters.fromNameAndType("page-view-window-store", QueryableStoreTypes.windowStore()));
260            
261            return store.fetch(pageId, timestamp);
262        }
263        
264        /**
265         * 查询时间范围内的页面访问量
266         */
267        public Map<Long, Long> getPageViewCounts(String pageId, long startTime, long endTime) {
268            ReadOnlyWindowStore<String, Long> store = 
269                streams.store(StoreQueryParameters.fromNameAndType("page-view-window-store", QueryableStoreTypes.windowStore()));
270            
271            Map<Long, Long> counts = new HashMap<>();
272            try (WindowStoreIterator<Long> iterator = store.fetch(pageId, startTime, endTime)) {
273                while (iterator.hasNext()) {
274                    KeyValue<Long, Long> entry = iterator.next();
275                    counts.put(entry.key, entry.value);
276                }
277            }
278            return counts;
279        }
280    }
281    
282    // 用户会话数据类
283    public static class UserSession {
284        private String userId;
285        private long startTime;
286        private long lastActivityTime;
287        private int eventCount;
288        private List<String> events;
289        
290        public UserSession(String userId, long startTime) {
291            this.userId = userId;
292            this.startTime = startTime;
293            this.lastActivityTime = startTime;
294            this.eventCount = 0;
295            this.events = new ArrayList<>();
296        }
297        
298        public void updateActivity(String event, long timestamp) {
299            this.lastActivityTime = timestamp;
300            this.eventCount++;
301            this.events.add(event);
302            
303            // 限制事件列表大小
304            if (events.size() > 100) {
305                events.remove(0);
306            }
307        }
308        
309        @Override
310        public String toString() {
311            return String.format("UserSession{userId='%s', startTime=%d, lastActivityTime=%d, eventCount=%d}",
312                               userId, startTime, lastActivityTime, eventCount);
313        }
314        
315        // Getters
316        public String getUserId() { return userId; }
317        public long getStartTime() { return startTime; }
318        public long getLastActivityTime() { return lastActivityTime; }
319        public int getEventCount() { return eventCount; }
320        public List<String> getEvents() { return events; }
321    }
322    
323    // 用户会话序列化器
324    public static class UserSessionSerde implements Serde<UserSession> {
325        @Override
326        public Serializer<UserSession> serializer() {
327            return new UserSessionSerializer();
328        }
329        
330        @Override
331        public Deserializer<UserSession> deserializer() {
332            return new UserSessionDeserializer();
333        }
334    }
335    
336    public static class UserSessionSerializer implements Serializer<UserSession> {
337        @Override
338        public byte[] serialize(String topic, UserSession data) {
339            // 简化实现，实际应使用更高效的序列化方式
340            return data.toString().getBytes();
341        }
342    }
343    
344    public static class UserSessionDeserializer implements Deserializer<UserSession> {
345        @Override
346        public UserSession deserialize(String topic, byte[] data) {
347            // 简化实现，实际应实现完整的反序列化逻辑
348            return new UserSession("default", System.currentTimeMillis());
349        }
350    }
351}

Kafka Streams容错和恢复机制

java

1import org.apache.kafka.streams.*;
2import org.apache.kafka.streams.errors.*;
3
4/**
5 * Kafka Streams容错机制示例
6 * 展示异常处理、状态恢复、重试策略等容错特性
7 */
8public class FaultToleranceExample {
9    
10    /**
11     * 配置容错相关参数
12     */
13    public static Properties createFaultTolerantConfig() {
14        Properties props = new Properties();
15        
16        // 基础配置
17        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "fault-tolerant-app");
18        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
19        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
20        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
21        
22        // 容错配置
23        props.put(StreamsConfig.NUM_STREAM_THREADS_CONFIG, 2);              // 2个流处理线程
24        props.put(StreamsConfig.REPLICATION_FACTOR_CONFIG, 3);              // 状态存储副本因子
25        props.put(StreamsConfig.NUM_STANDBY_REPLICAS_CONFIG, 1);            // 1个备用副本
26        
27        // 状态存储配置
28        props.put(StreamsConfig.STATE_DIR_CONFIG, "/tmp/kafka-streams");    // 状态存储目录
29        props.put(StreamsConfig.COMMIT_INTERVAL_MS_CONFIG, 1000);           // 1秒提交一次
30        
31        // 重试配置
32        props.put(StreamsConfig.RETRY_BACKOFF_MS_CONFIG, 1000);             // 重试间隔1秒
33        props.put(StreamsConfig.RECONNECT_BACKOFF_MS_CONFIG, 1000);         // 重连间隔1秒
34        props.put(StreamsConfig.RECONNECT_BACKOFF_MAX_MS_CONFIG, 10000);    // 最大重连间隔10秒
35        
36        // 缓存配置
37        props.put(StreamsConfig.CACHE_MAX_BYTES_BUFFERING_CONFIG, 10 * 1024 * 1024); // 10MB缓存
38        
39        return props;
40    }
41    
42    /**
43     * 创建具有异常处理的Streams应用
44     */
45    public static KafkaStreams createFaultTolerantStreamsApp() {
46        StreamsBuilder builder = new StreamsBuilder();
47        
48        // 构建处理拓扑
49        KStream<String, String> input = builder.stream("input-topic");
50        
51        KStream<String, String> processed = input
52            .mapValues(value -> {
53                try {
54                    // 模拟可能失败的处理逻辑
55                    if (value.contains("error")) {
56                        throw new RuntimeException("处理失败: " + value);
57                    }
58                    return "processed: " + value.toUpperCase();
59                } catch (Exception e) {
60                    // 记录错误但不中断流处理
61                    System.err.println("处理消息时发生错误: " + e.getMessage());
62                    return "error: " + value;
63                }
64            })
65            .filter((key, value) -> !value.startsWith("error"));
66        
67        processed.to("output-topic");
68        
69        // 创建Streams实例
70        Properties props = createFaultTolerantConfig();
71        KafkaStreams streams = new KafkaStreams(builder.build(), props);
72        
73        // 设置异常处理器
74        streams.setUncaughtExceptionHandler(new CustomUncaughtExceptionHandler());
75        
76        // 设置状态监听器
77        streams.setStateListener(new CustomStateListener());
78        
79        // 设置全局异常处理器
80        streams.setGlobalStateRestoreListener(new CustomGlobalStateRestoreListener());
81        
82        return streams;
83    }
84    
85    /**
86     * 自定义未捕获异常处理器
87     */
88    public static class CustomUncaughtExceptionHandler implements StreamsUncaughtExceptionHandler {
89        
90        @Override
91        public StreamThreadExceptionResponse handle(Throwable exception) {
92            System.err.println("流处理线程发生未捕获异常: " + exception.getMessage());
93            exception.printStackTrace();
94            
95            // 根据异常类型决定处理策略
96            if (exception instanceof StreamsException) {
97                StreamsException streamsException = (StreamsException) exception;
98                
99                if (streamsException.getCause() instanceof org.apache.kafka.common.errors.SerializationException) {
100                    // 序列化异常，跳过有问题的记录
101                    System.err.println("序列化异常，跳过记录并继续处理");
102                    return StreamThreadExceptionResponse.REPLACE_THREAD;
103                }
104                
105                if (streamsException.getCause() instanceof org.apache.kafka.common.errors.TimeoutException) {
106                    // 超时异常，替换线程
107                    System.err.println("超时异常，替换处理线程");
108                    return StreamThreadExceptionResponse.REPLACE_THREAD;
109                }
110            }
111            
112            // 其他异常，关闭客户端
113            System.err.println("严重异常，关闭Streams客户端");
114            return StreamThreadExceptionResponse.SHUTDOWN_CLIENT;
115        }
116    }
117    
118    /**
119     * 自定义状态监听器
120     */
121    public static class CustomStateListener implements KafkaStreams.StateListener {
122        
123        @Override
124        public void onChange(KafkaStreams.State newState, KafkaStreams.State oldState) {
125            System.out.println("Streams状态变更: " + oldState + " -> " + newState);
126            
127            switch (newState) {
128                case RUNNING:
129                    System.out.println("Streams应用正在运行");
130                    break;
131                case REBALANCING:
132                    System.out.println("Streams应用正在重平衡");
133                    break;
134                case ERROR:
135                    System.err.println("Streams应用进入错误状态");
136                    // 可以在这里实现告警逻辑
137                    break;
138                case NOT_RUNNING:
139                    System.out.println("Streams应用已停止");
140                    break;
141                case PENDING_SHUTDOWN:
142                    System.out.println("Streams应用正在关闭");
143                    break;
144            }
145        }
146    }
147    
148    /**
149     * 自定义全局状态恢复监听器
150     */
151    public static class CustomGlobalStateRestoreListener implements StateRestoreListener {
152        
153        @Override
154        public void onRestoreStart(TopicPartition topicPartition, String storeName, long startingOffset, long endingOffset) {
155            System.out.printf("开始恢复状态存储: %s, 分区: %s, 起始位移: %d, 结束位移: %d%n",
156                             storeName, topicPartition, startingOffset, endingOffset);
157        }
158        
159        @Override
160        public void onBatchRestored(TopicPartition topicPartition, String storeName, long batchEndOffset, long numRestored) {
161            System.out.printf("批量恢复完成: %s, 分区: %s, 批次结束位移: %d, 恢复记录数: %d%n",
162                             storeName, topicPartition, batchEndOffset, numRestored);
163        }
164        
165        @Override
166        public void onRestoreEnd(TopicPartition topicPartition, String storeName, long totalRestored) {
167            System.out.printf("状态恢复完成: %s, 分区: %s, 总恢复记录数: %d%n",
168                             storeName, topicPartition, totalRestored);
169        }
170    }
171    
172    /**
173     * 自定义反序列化异常处理器
174     */
175    public static class CustomDeserializationExceptionHandler implements DeserializationExceptionHandler {
176        
177        @Override
178        public DeserializationHandlerResponse handle(ProcessorContext context, ConsumerRecord<byte[], byte[]> record, Exception exception) {
179            System.err.printf("反序列化异常: topic=%s, partition=%d, offset=%d, 异常=%s%n",
180                             record.topic(), record.partition(), record.offset(), exception.getMessage());
181            
182            // 记录有问题的消息到死信队列
183            logToDeadLetterQueue(record, exception);
184            
185            // 跳过有问题的记录，继续处理
186            return DeserializationHandlerResponse.CONTINUE;
187        }
188        
189        private void logToDeadLetterQueue(ConsumerRecord<byte[], byte[]> record, Exception exception) {
190            // 实现死信队列逻辑
191            System.out.println("将有问题的消息发送到死信队列: " + record.offset());
192        }
193        
194        @Override
195        public void configure(Map<String, ?> configs) {
196            // 配置初始化
197        }
198    }
199    
200    /**
201     * 自定义生产异常处理器
202     */
203    public static class CustomProductionExceptionHandler implements ProductionExceptionHandler {
204        
205        @Override
206        public ProductionExceptionHandlerResponse handle(ProducerRecord<byte[], byte[]> record, Exception exception) {
207            System.err.printf("生产消息异常: topic=%s, 异常=%s%n", record.topic(), exception.getMessage());
208            
209            // 根据异常类型决定处理策略
210            if (exception instanceof org.apache.kafka.common.errors.RetriableException) {
211                // 可重试异常，继续重试
212                System.out.println("可重试异常，继续重试");
213                return ProductionExceptionHandlerResponse.CONTINUE;
214            } else {
215                // 不可重试异常，失败处理
216                System.err.println("不可重试异常，失败处理");
217                return ProductionExceptionHandlerResponse.FAIL;
218            }
219        }
220        
221        @Override
222        public void configure(Map<String, ?> configs) {
223            // 配置初始化
224        }
225    }
226    
227    /**
228     * 带有完整容错机制的Streams应用
229     */
230    public static void runFaultTolerantApplication() {
231        Properties props = createFaultTolerantConfig();
232        
233        // 设置异常处理器
234        props.put(StreamsConfig.DEFAULT_DESERIALIZATION_EXCEPTION_HANDLER_CLASS_CONFIG, 
235                 CustomDeserializationExceptionHandler.class);
236        props.put(StreamsConfig.DEFAULT_PRODUCTION_EXCEPTION_HANDLER_CLASS_CONFIG, 
237                 CustomProductionExceptionHandler.class);
238        
239        StreamsBuilder builder = new StreamsBuilder();
240        
241        // 构建容错的处理拓扑
242        KStream<String, String> input = builder.stream("fault-tolerant-input");
243        
244        KStream<String, String> processed = input
245            .mapValues(value -> {
246                try {
247                    // 模拟业务处理逻辑
248                    return processBusinessLogic(value);
249                } catch (Exception e) {
250                    // 业务异常处理
251                    System.err.println("业务处理异常: " + e.getMessage());
252                    return "FAILED:" + value;
253                }
254            })
255            .filter((key, value) -> !value.startsWith("FAILED:"));
256        
257        processed.to("fault-tolerant-output");
258        
259        // 创建并配置Streams实例
260        KafkaStreams streams = new KafkaStreams(builder.build(), props);
261        
262        // 设置各种监听器和异常处理器
263        streams.setUncaughtExceptionHandler(new CustomUncaughtExceptionHandler());
264        streams.setStateListener(new CustomStateListener());
265        streams.setGlobalStateRestoreListener(new CustomGlobalStateRestoreListener());
266        
267        // 启动应用
268        streams.start();
269        
270        // 添加关闭钩子
271        Runtime.getRuntime().addShutdownHook(new Thread(() -> {
272            System.out.println("正在优雅关闭Streams应用...");
273            streams.close(Duration.ofSeconds(10));
274            System.out.println("Streams应用已关闭");
275        }));
276        
277        // 监控应用状态
278        monitorApplicationHealth(streams);
279    }
280    
281    /**
282     * 模拟业务处理逻辑
283     */
284    private static String processBusinessLogic(String value) throws Exception {
285        // 模拟可能失败的业务逻辑
286        if (value.contains("exception")) {
287            throw new RuntimeException("业务处理失败");
288        }
289        
290        // 模拟处理时间
291        Thread.sleep(10);
292        
293        return "PROCESSED:" + value.toUpperCase();
294    }
295    
296    /**
297     * 监控应用健康状态
298     */
299    private static void monitorApplicationHealth(KafkaStreams streams) {
300        Timer timer = new Timer();
301        timer.scheduleAtFixedRate(new TimerTask() {
302            @Override
303            public void run() {
304                KafkaStreams.State state = streams.state();
305                System.out.println("当前应用状态: " + state);
306                
307                if (state == KafkaStreams.State.ERROR) {
308                    System.err.println("应用处于错误状态，可能需要重启");
309                    // 可以在这里实现自动重启逻辑
310                }
311                
312                // 打印线程信息
313                StreamsMetadata metadata = streams.localThreadsMetadata().iterator().next();
314                System.out.println("活跃任务数: " + metadata.activeTasks().size());
315                System.out.println("备用任务数: " + metadata.standbyTasks().size());
316            }
317        }, 0, 30000); // 每30秒检查一次
318    }
319    
320    public static void main(String[] args) {
321        runFaultTolerantApplication();
322    }
323}

5. Kafka性能优化与监控

5.1 性能优化策略

Kafka性能优化是一个系统工程，需要从硬件、操作系统、Kafka配置、应用程序等多个层面进行综合优化。

硬件与操作系统优化
Broker配置优化
客户端优化

硬件和操作系统优化配置

bash

1# ==================== 硬件选择建议 ====================
2# CPU: 
3# - 生产者密集型：高频率CPU，8-16核心
4# - 消费者密集型：多核心CPU，16-32核心
5# - 混合负载：平衡型CPU，16-24核心
6
7# 内存:
8# - 最小8GB，推荐32GB以上
9# - 为页缓存预留足够内存：总内存的50-75%
10# - JVM堆内存：6-8GB（不超过32GB）
11
12# 存储:
13# - 使用SSD存储提高I/O性能
14# - 多磁盘RAID配置：RAID 10（性能）或RAID 6（容量）
15# - 分离日志和索引文件到不同磁盘
16
17# 网络:
18# - 万兆网卡（10Gbps）
19# - 低延迟网络交换机
20# - 优化网络缓冲区大小
21
22# ==================== 操作系统优化 ====================
23
24# 1. 文件系统优化
25# 使用ext4或xfs文件系统，推荐xfs
26mkfs.xfs -f /dev/sdb1
27
28# 挂载选项优化
29mount -t xfs -o noatime,nodiratime,nobarrier /dev/sdb1 /var/kafka-logs
30
31# /etc/fstab 配置
32echo "/dev/sdb1 /var/kafka-logs xfs noatime,nodiratime,nobarrier 0 0" >> /etc/fstab
33
34# 2. 内核参数优化
35cat >> /etc/sysctl.conf << EOF
36# 网络优化
37net.core.rmem_default = 262144
38net.core.rmem_max = 16777216
39net.core.wmem_default = 262144
40net.core.wmem_max = 16777216
41net.core.netdev_max_backlog = 5000
42net.ipv4.tcp_rmem = 4096 65536 16777216
43net.ipv4.tcp_wmem = 4096 65536 16777216
44net.ipv4.tcp_congestion_control = bbr
45
46# 文件系统优化
47vm.swappiness = 1
48vm.dirty_ratio = 80
49vm.dirty_background_ratio = 5
50vm.dirty_expire_centisecs = 12000
51vm.dirty_writeback_centisecs = 1500
52
53# 文件描述符限制
54fs.file-max = 2097152
55fs.nr_open = 2097152
56
57# 进程限制
58kernel.pid_max = 4194304
59kernel.threads-max = 4194304
60EOF
61
62# 应用内核参数
63sysctl -p
64
65# 3. 用户限制优化
66cat >> /etc/security/limits.conf << EOF
67kafka soft nofile 1048576
68kafka hard nofile 1048576
69kafka soft nproc 1048576
70kafka hard nproc 1048576
71kafka soft memlock unlimited
72kafka hard memlock unlimited
73EOF
74
75# 4. 磁盘调度器优化
76# 对于SSD使用noop或deadline调度器
77echo noop > /sys/block/sdb/queue/scheduler
78
79# 对于机械硬盘使用cfq调度器
80echo cfq > /sys/block/sda/queue/scheduler
81
82# 5. CPU频率调节器
83# 设置为performance模式
84cpupower frequency-set -g performance
85
86# 6. 透明大页优化
87# 禁用透明大页（可能影响性能）
88echo never > /sys/kernel/mm/transparent_hugepage/enabled
89echo never > /sys/kernel/mm/transparent_hugepage/defrag
90
91# 7. NUMA优化
92# 查看NUMA拓扑
93numactl --hardware
94
95# 绑定Kafka进程到特定NUMA节点
96numactl --cpunodebind=0 --membind=0 /opt/kafka/bin/kafka-server-start.sh /opt/kafka/config/server.properties
97
98# ==================== JVM优化 ====================
99
100# Kafka JVM启动参数优化
101cat > /opt/kafka/bin/kafka-server-start-optimized.sh << 'EOF'
102#!/bin/bash
103
104# JVM堆内存设置（根据实际内存调整）
105export KAFKA_HEAP_OPTS="-Xmx6g -Xms6g"
106
107# GC优化配置
108export KAFKA_JVM_PERFORMANCE_OPTS="-server \
109-XX:+UseG1GC \
110-XX:MaxGCPauseMillis=20 \
111-XX:InitiatingHeapOccupancyPercent=35 \
112-XX:+ExplicitGCInvokesConcurrent \
113-XX:MaxInlineLevel=15 \
114-Djava.awt.headless=true"
115
116# JVM监控和调试参数
117export KAFKA_JVM_PERFORMANCE_OPTS="$KAFKA_JVM_PERFORMANCE_OPTS \
118-XX:+UnlockCommercialFeatures \
119-XX:+FlightRecorder \
120-XX:+UnlockDiagnosticVMOptions \
121-XX:+DebugNonSafepoints \
122-XX:+PrintGC \
123-XX:+PrintGCDetails \
124-XX:+PrintGCTimeStamps \
125-XX:+PrintGCApplicationStoppedTime \
126-Xloggc:/var/log/kafka/kafka-gc.log \
127-XX:+UseGCLogFileRotation \
128-XX:NumberOfGCLogFiles=10 \
129-XX:GCLogFileSize=100M"
130
131# 启动Kafka
132exec /opt/kafka/bin/kafka-server-start.sh "$@"
133EOF
134
135chmod +x /opt/kafka/bin/kafka-server-start-optimized.sh
136
137# ==================== 监控脚本 ====================
138
139# 系统性能监控脚本
140cat > /opt/kafka/bin/system-monitor.sh << 'EOF'
141#!/bin/bash
142
143LOG_FILE="/var/log/kafka/system-monitor.log"
144
145while true; do
146    echo "=== $(date) ===" >> $LOG_FILE
147    
148    # CPU使用率
149    echo "CPU使用率:" >> $LOG_FILE
150    top -bn1 | grep "Cpu(s)" >> $LOG_FILE
151    
152    # 内存使用情况
153    echo "内存使用情况:" >> $LOG_FILE
154    free -h >> $LOG_FILE
155    
156    # 磁盘I/O
157    echo "磁盘I/O:" >> $LOG_FILE
158    iostat -x 1 1 >> $LOG_FILE
159    
160    # 网络流量
161    echo "网络流量:" >> $LOG_FILE
162    sar -n DEV 1 1 >> $LOG_FILE
163    
164    # Kafka进程状态
165    echo "Kafka进程:" >> $LOG_FILE
166    ps aux | grep kafka >> $LOG_FILE
167    
168    echo "" >> $LOG_FILE
169    sleep 60
170done
171EOF
172
173chmod +x /opt/kafka/bin/system-monitor.sh
174
175# 启动系统监控
176nohup /opt/kafka/bin/system-monitor.sh &

Broker性能优化配置

bash

1# server.properties - 生产环境优化配置
2
3############################# 基础配置 #############################
4# Broker ID（集群中唯一）
5broker.id=1
6
7# 监听配置
8listeners=PLAINTEXT://0.0.0.0:9092
9advertised.listeners=PLAINTEXT://kafka-broker-1:9092
10
11############################# 网络和线程配置 #############################
12# 网络线程数 - 处理网络请求
13# 建议：CPU核数，高并发场景可设置为CPU核数的1.5-2倍
14num.network.threads=16
15
16# I/O线程数 - 处理磁盘读写
17# 建议：磁盘数量的2-3倍，或CPU核数
18num.io.threads=32
19
20# Socket缓冲区大小
21socket.send.buffer.bytes=102400
22socket.receive.buffer.bytes=102400
23socket.request.max.bytes=104857600
24
25# 请求队列大小
26queued.max.requests=500
27
28############################# 日志配置 #############################
29# 日志目录 - 使用多个目录分散I/O负载
30log.dirs=/var/kafka-logs-1,/var/kafka-logs-2,/var/kafka-logs-3,/var/kafka-logs-4
31
32# 分区数配置
33num.partitions=6
34default.replication.factor=3
35min.insync.replicas=2
36
37# 日志段配置
38log.segment.bytes=1073741824          # 1GB段大小
39log.roll.hours=168                    # 7天滚动
40log.retention.hours=168               # 7天保留
41log.retention.bytes=1073741824000     # 1TB保留大小
42
43# 日志清理配置
44log.cleanup.policy=delete
45log.retention.check.interval.ms=300000
46log.cleaner.enable=true
47log.cleaner.threads=2
48log.cleaner.io.max.bytes.per.second=104857600
49
50############################# 副本配置 #############################
51# 副本拉取配置
52replica.fetch.max.bytes=1048576
53replica.fetch.wait.max.ms=500
54replica.high.watermark.checkpoint.interval.ms=5000
55replica.lag.time.max.ms=30000
56
57# Leader选举配置
58unclean.leader.election.enable=false
59leader.imbalance.per.broker.percentage=10
60leader.imbalance.check.interval.seconds=300
61
62############################# 压缩配置 #############################
63# 启用压缩
64compression.type=lz4
65
66# 日志压缩配置（针对compacted topics）
67log.cleaner.min.cleanable.ratio=0.5
68log.cleaner.min.compaction.lag.ms=0
69log.cleaner.max.compaction.lag.ms=9223372036854775807
70
71############################# 内存和缓存配置 #############################
72# 页缓存刷盘配置
73log.flush.interval.messages=10000
74log.flush.interval.ms=1000
75
76# 索引配置
77log.index.size.max.bytes=10485760
78log.index.interval.bytes=4096
79
80############################# 连接和超时配置 #############################
81# 连接配置
82connections.max.idle.ms=600000
83request.timeout.ms=30000
84
85# ZooKeeper配置
86zookeeper.connect=zk1:2181,zk2:2181,zk3:2181/kafka
87zookeeper.connection.timeout.ms=18000
88zookeeper.session.timeout.ms=18000
89
90############################# 监控配置 #############################
91# JMX配置
92jmx.port=9999
93
94# 指标报告配置
95metric.reporters=
96metrics.num.samples=2
97metrics.sample.window.ms=30000
98
99############################# 安全配置 #############################
100# 自动创建Topic（生产环境建议关闭）
101auto.create.topics.enable=false
102delete.topic.enable=true
103
104# 事务配置
105transaction.state.log.replication.factor=3
106transaction.state.log.min.isr=2
107transaction.state.log.num.partitions=50
108
109############################# 高级配置 #############################
110# 组协调器配置
111group.initial.rebalance.delay.ms=3000
112group.max.session.timeout.ms=1800000
113group.min.session.timeout.ms=6000
114
115# 生产者配置
116producer.purgatory.purge.interval.requests=1000
117fetch.purgatory.purge.interval.requests=1000
118
119# 配置动态更新
120config.providers=file
121config.providers.file.class=org.apache.kafka.common.config.provider.FileConfigProvider

Broker性能监控工具

java

1import org.apache.kafka.clients.admin.*;
2import javax.management.*;
3import javax.management.remote.*;
4import java.util.*;
5import java.util.concurrent.Executors;
6import java.util.concurrent.ScheduledExecutorService;
7import java.util.concurrent.TimeUnit;
8
9/**
10 * Kafka Broker性能监控工具
11 * 通过JMX监控Broker的关键性能指标
12 */
13public class BrokerPerformanceMonitor {
14    
15    private final MBeanServerConnection mbeanConnection;
16    private final ScheduledExecutorService scheduler;
17    private final Map<String, Double> previousValues = new HashMap<>();
18    
19    public BrokerPerformanceMonitor(String jmxUrl) throws Exception {
20        JMXServiceURL serviceURL = new JMXServiceURL(jmxUrl);
21        JMXConnector connector = JMXConnectorFactory.connect(serviceURL);
22        this.mbeanConnection = connector.getMBeanServerConnection();
23        this.scheduler = Executors.newScheduledThreadPool(1);
24    }
25    
26    /**
27     * 启动性能监控
28     */
29    public void startMonitoring() {
30        scheduler.scheduleAtFixedRate(this::collectAndReportMetrics, 0, 30, TimeUnit.SECONDS);
31    }
32    
33    /**
34     * 收集并报告性能指标
35     */
36    private void collectAndReportMetrics() {
37        try {
38            System.out.println("=== Kafka Broker性能指标 (" + new Date() + ") ===");
39            
40            // 1. 消息吞吐量指标
41            collectThroughputMetrics();
42            
43            // 2. 网络指标
44            collectNetworkMetrics();
45            
46            // 3. 磁盘I/O指标
47            collectDiskIOMetrics();
48            
49            // 4. JVM指标
50            collectJVMMetrics();
51            
52            // 5. 副本指标
53            collectReplicationMetrics();
54            
55            // 6. 请求处理指标
56            collectRequestMetrics();
57            
58            System.out.println();
59            
60        } catch (Exception e) {
61            System.err.println("收集性能指标失败: " + e.getMessage());
62        }
63    }
64    
65    /**
66     * 收集吞吐量指标
67     */
68    private void collectThroughputMetrics() throws Exception {
69        // 消息输入速率
70        ObjectName messagesInPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec");
71        Double messagesInRate = (Double) mbeanConnection.getAttribute(messagesInPerSec, "OneMinuteRate");
72        
73        // 字节输入速率
74        ObjectName bytesInPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec");
75        Double bytesInRate = (Double) mbeanConnection.getAttribute(bytesInPerSec, "OneMinuteRate");
76        
77        // 字节输出速率
78        ObjectName bytesOutPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec");
79        Double bytesOutRate = (Double) mbeanConnection.getAttribute(bytesOutPerSec, "OneMinuteRate");
80        
81        System.out.printf("吞吐量指标 - 消息输入: %.2f msg/s, 字节输入: %.2f MB/s, 字节输出: %.2f MB/s%n",
82                         messagesInRate, bytesInRate / 1024 / 1024, bytesOutRate / 1024 / 1024);
83    }
84    
85    /**
86     * 收集网络指标
87     */
88    private void collectNetworkMetrics() throws Exception {
89        // 网络处理器平均空闲率
90        ObjectName networkProcessorAvgIdlePercent = new ObjectName("kafka.network:type=SocketServer,name=NetworkProcessorAvgIdlePercent");
91        Double networkIdlePercent = (Double) mbeanConnection.getAttribute(networkProcessorAvgIdlePercent, "Value");
92        
93        // 请求队列大小
94        ObjectName requestQueueSize = new ObjectName("kafka.network:type=RequestChannel,name=RequestQueueSize");
95        Double queueSize = (Double) mbeanConnection.getAttribute(requestQueueSize, "Value");
96        
97        System.out.printf("网络指标 - 网络处理器空闲率: %.2f%%, 请求队列大小: %.0f%n",
98                         networkIdlePercent * 100, queueSize);
99    }
100    
101    /**
102     * 收集磁盘I/O指标
103     */
104    private void collectDiskIOMetrics() throws Exception {
105        // 日志刷盘速率
106        ObjectName logFlushRateAndTimeMs = new ObjectName("kafka.log:type=LogFlushStats,name=LogFlushRateAndTimeMs");
107        Double logFlushRate = (Double) mbeanConnection.getAttribute(logFlushRateAndTimeMs, "OneMinuteRate");
108        Double logFlushTime = (Double) mbeanConnection.getAttribute(logFlushRateAndTimeMs, "Mean");
109        
110        System.out.printf("磁盘I/O指标 - 日志刷盘速率: %.2f/s, 平均刷盘时间: %.2f ms%n",
111                         logFlushRate, logFlushTime);
112    }
113    
114    /**
115     * 收集JVM指标
116     */
117    private void collectJVMMetrics() throws Exception {
118        // 堆内存使用
119        ObjectName heapMemoryUsage = new ObjectName("java.lang:type=Memory");
120        CompositeData heapMemory = (CompositeData) mbeanConnection.getAttribute(heapMemoryUsage, "HeapMemoryUsage");
121        Long heapUsed = (Long) heapMemory.get("used");
122        Long heapMax = (Long) heapMemory.get("max");
123        
124        // GC信息
125        ObjectName gcInfo = new ObjectName("java.lang:type=GarbageCollector,name=G1 Young Generation");
126        Long gcCount = (Long) mbeanConnection.getAttribute(gcInfo, "CollectionCount");
127        Long gcTime = (Long) mbeanConnection.getAttribute(gcInfo, "CollectionTime");
128        
129        System.out.printf("JVM指标 - 堆内存使用: %.2f%% (%d MB / %d MB), GC次数: %d, GC时间: %d ms%n",
130                         (double) heapUsed / heapMax * 100, heapUsed / 1024 / 1024, heapMax / 1024 / 1024,
131                         gcCount, gcTime);
132    }
133    
134    /**
135     * 收集副本指标
136     */
137    private void collectReplicationMetrics() throws Exception {
138        // 未同步副本数量
139        ObjectName underReplicatedPartitions = new ObjectName("kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions");
140        Double underReplicated = (Double) mbeanConnection.getAttribute(underReplicatedPartitions, "Value");
141        
142        // 离线分区数量
143        ObjectName offlinePartitionsCount = new ObjectName("kafka.controller:type=KafkaController,name=OfflinePartitionsCount");
144        Double offlinePartitions = (Double) mbeanConnection.getAttribute(offlinePartitionsCount, "Value");
145        
146        System.out.printf("副本指标 - 未同步副本: %.0f, 离线分区: %.0f%n",
147                         underReplicated, offlinePartitions);
148    }
149    
150    /**
151     * 收集请求处理指标
152     */
153    private void collectRequestMetrics() throws Exception {
154        // 生产请求处理时间
155        ObjectName produceRequestTime = new ObjectName("kafka.network:type=RequestMetrics,name=TotalTimeMs,request=Produce");
156        Double produceTime = (Double) mbeanConnection.getAttribute(produceRequestTime, "Mean");
157        
158        // 拉取请求处理时间
159        ObjectName fetchRequestTime = new ObjectName("kafka.network:type=RequestMetrics,name=TotalTimeMs,request=FetchConsumer");
160        Double fetchTime = (Double) mbeanConnection.getAttribute(fetchRequestTime, "Mean");
161        
162        System.out.printf("请求处理指标 - 生产请求平均时间: %.2f ms, 拉取请求平均时间: %.2f ms%n",
163                         produceTime, fetchTime);
164    }
165    
166    /**
167     * 生成性能报告
168     */
169    public void generatePerformanceReport() {
170        try {
171            System.out.println("=== Kafka Broker性能报告 ===");
172            
173            // 收集详细指标
174            Map<String, Object> metrics = new HashMap<>();
175            
176            // 吞吐量指标
177            ObjectName messagesInPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec");
178            metrics.put("messagesInPerSec", mbeanConnection.getAttribute(messagesInPerSec, "OneMinuteRate"));
179            
180            ObjectName bytesInPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec");
181            metrics.put("bytesInPerSec", mbeanConnection.getAttribute(bytesInPerSec, "OneMinuteRate"));
182            
183            ObjectName bytesOutPerSec = new ObjectName("kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec");
184            metrics.put("bytesOutPerSec", mbeanConnection.getAttribute(bytesOutPerSec, "OneMinuteRate"));
185            
186            // 延迟指标
187            ObjectName produceRequestTime = new ObjectName("kafka.network:type=RequestMetrics,name=TotalTimeMs,request=Produce");
188            metrics.put("produceLatency", mbeanConnection.getAttribute(produceRequestTime, "Mean"));
189            
190            ObjectName fetchRequestTime = new ObjectName("kafka.network:type=RequestMetrics,name=TotalTimeMs,request=FetchConsumer");
191            metrics.put("fetchLatency", mbeanConnection.getAttribute(fetchRequestTime, "Mean"));
192            
193            // 资源使用指标
194            ObjectName heapMemoryUsage = new ObjectName("java.lang:type=Memory");
195            CompositeData heapMemory = (CompositeData) mbeanConnection.getAttribute(heapMemoryUsage, "HeapMemoryUsage");
196            metrics.put("heapUsedPercent", (double) ((Long) heapMemory.get("used")) / ((Long) heapMemory.get("max")) * 100);
197            
198            // 打印报告
199            System.out.println("性能指标摘要:");
200            System.out.printf("  消息吞吐量: %.2f msg/s%n", (Double) metrics.get("messagesInPerSec"));
201            System.out.printf("  数据输入速率: %.2f MB/s%n", (Double) metrics.get("bytesInPerSec") / 1024 / 1024);
202            System.out.printf("  数据输出速率: %.2f MB/s%n", (Double) metrics.get("bytesOutPerSec") / 1024 / 1024);
203            System.out.printf("  生产延迟: %.2f ms%n", (Double) metrics.get("produceLatency"));
204            System.out.printf("  拉取延迟: %.2f ms%n", (Double) metrics.get("fetchLatency"));
205            System.out.printf("  堆内存使用率: %.2f%%%n", (Double) metrics.get("heapUsedPercent"));
206            
207            // 性能评估
208            evaluatePerformance(metrics);
209            
210        } catch (Exception e) {
211            System.err.println("生成性能报告失败: " + e.getMessage());
212        }
213    }
214    
215    /**
216     * 性能评估和建议
217     */
218    private void evaluatePerformance(Map<String, Object> metrics) {
219        System.out.println("\n性能评估和建议:");
220        
221        Double messagesInPerSec = (Double) metrics.get("messagesInPerSec");
222        Double produceLatency = (Double) metrics.get("produceLatency");
223        Double fetchLatency = (Double) metrics.get("fetchLatency");
224        Double heapUsedPercent = (Double) metrics.get("heapUsedPercent");
225        
226        // 吞吐量评估
227        if (messagesInPerSec < 1000) {
228            System.out.println("  ⚠️  消息吞吐量较低，建议检查生产者配置和网络状况");
229        } else if (messagesInPerSec > 50000) {
230            System.out.println("  ✅ 消息吞吐量良好");
231        }
232        
233        // 延迟评估
234        if (produceLatency > 100) {
235            System.out.println("  ⚠️  生产延迟较高，建议优化磁盘I/O和网络配置");
236        } else {
237            System.out.println("  ✅ 生产延迟正常");
238        }
239        
240        if (fetchLatency > 50) {
241            System.out.println("  ⚠️  拉取延迟较高，建议检查消费者配置");
242        } else {
243            System.out.println("  ✅ 拉取延迟正常");
244        }
245        
246        // 内存评估
247        if (heapUsedPercent > 80) {
248            System.out.println("  ⚠️  堆内存使用率过高，建议增加堆内存或优化应用");
249        } else {
250            System.out.println("  ✅ 堆内存使用率正常");
251        }
252    }
253    
254    public void shutdown() {
255        scheduler.shutdown();
256    }
257    
258    public static void main(String[] args) {
259        try {
260            // JMX连接URL，根据实际配置调整
261            String jmxUrl = "service:jmx:rmi:///jndi/rmi://localhost:9999/jmxrmi";
262            
263            BrokerPerformanceMonitor monitor = new BrokerPerformanceMonitor(jmxUrl);
264            
265            // 启动监控
266            monitor.startMonitoring();
267            
268            // 生成性能报告
269            Thread.sleep(60000); // 等待1分钟收集数据
270            monitor.generatePerformanceReport();
271            
272            // 添加关闭钩子
273            Runtime.getRuntime().addShutdownHook(new Thread(monitor::shutdown));
274            
275        } catch (Exception e) {
276            System.err.println("启动性能监控失败: " + e.getMessage());
277            e.printStackTrace();
278        }
279    }
280}

生产者和消费者性能优化

java

1import org.apache.kafka.clients.producer.*;
2import org.apache.kafka.clients.consumer.*;
3import org.apache.kafka.common.serialization.*;
4import java.util.*;
5import java.util.concurrent.*;
6
7/**
8 * Kafka客户端性能优化示例
9 * 展示生产者和消费者的最佳配置实践
10 */
11public class ClientOptimizationExample {
12    
13    /**
14     * 高性能生产者配置
15     */
16    public static Properties createOptimizedProducerConfig(String bootstrapServers) {
17        Properties props = new Properties();
18        
19        // 基础连接配置
20        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
21        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
22        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
23        
24        // 可靠性配置
25        props.put(ProducerConfig.ACKS_CONFIG, "1");                     // 平衡性能和可靠性
26        props.put(ProducerConfig.RETRIES_CONFIG, 3);                    // 重试3次
27        props.put(ProducerConfig.RETRY_BACKOFF_MS_CONFIG, 100);         // 重试间隔100ms
28        props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);      // 启用幂等性
29        
30        // 批处理优化
31        props.put(ProducerConfig.BATCH_SIZE_CONFIG, 65536);             // 64KB批次大小
32        props.put(ProducerConfig.LINGER_MS_CONFIG, 20);                 // 等待20ms收集更多消息
33        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 134217728);      // 128MB缓冲区
34        
35        // 压缩配置
36        props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");       // LZ4压缩，平衡压缩率和CPU
37        
38        // 网络优化
39        props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);
40        props.put(ProducerConfig.REQUEST_TIMEOUT_MS_CONFIG, 30000);     // 请求超时30秒
41        props.put(ProducerConfig.DELIVERY_TIMEOUT_MS_CONFIG, 120000);   // 投递超时2分钟
42        
43        // 分区器配置
44        props.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, "org.apache.kafka.clients.producer.RoundRobinPartitioner");
45        
46        return props;
47    }
48    
49    /**
50     * 高性能消费者配置
51     */
52    public static Properties createOptimizedConsumerConfig(String bootstrapServers, String groupId) {
53        Properties props = new Properties();
54        
55        // 基础连接配置
56        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
57        props.put(ConsumerConfig.GROUP_ID_CONFIG, groupId);
58        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
59        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
60        
61        // 位移管理配置
62        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false);     // 手动提交位移
63        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest"); // 从最早位移开始
64        
65        // 拉取优化配置
66        props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 50000);        // 最小拉取50KB
67        props.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 500);        // 最大等待500ms
68        props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 1000);        // 每次最多拉取1000条
69        props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG, 2097152); // 每分区最大2MB
70        
71        // 会话和心跳配置
72        props.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 30000);     // 会话超时30秒
73        props.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 10000);  // 心跳间隔10秒
74        props.put(ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG, 300000);  // 最大poll间隔5分钟
75        
76        // 分区分配策略
77        props.put(ConsumerConfig.PARTITION_ASSIGNMENT_STRATEGY_CONFIG, 
78                 "org.apache.kafka.clients.consumer.CooperativeStickyAssignor");
79        
80        return props;
81    }
82    
83    /**
84     * 高性能生产者实现
85     */
86    public static class HighPerformanceProducer {
87        private final KafkaProducer<String, String> producer;
88        private final String topicName;
89        private final AtomicLong messageCount = new AtomicLong(0);
90        private final AtomicLong byteCount = new AtomicLong(0);
91        
92        public HighPerformanceProducer(String bootstrapServers, String topicName) {
93            this.topicName = topicName;
94            this.producer = new KafkaProducer<>(createOptimizedProducerConfig(bootstrapServers));
95        }
96        
97        /**
98         * 异步批量发送
99         */
100        public void sendBatchAsync(List<String> messages) {
101            CountDownLatch latch = new CountDownLatch(messages.size());
102            
103            for (String message : messages) {
104                ProducerRecord<String, String> record = new ProducerRecord<>(topicName, message);
105                
106                producer.send(record, (metadata, exception) -> {
107                    if (exception == null) {
108                        messageCount.incrementAndGet();
109                        byteCount.addAndGet(message.getBytes().length);
110                    } else {
111                        System.err.println("发送失败: " + exception.getMessage());
112                    }
113                    latch.countDown();
114                });
115            }
116            
117            try {
118                latch.await(30, TimeUnit.SECONDS);
119            } catch (InterruptedException e) {
120                Thread.currentThread().interrupt();
121            }
122        }
123        
124        /**
125         * 获取性能统计
126         */
127        public void printStats() {
128            System.out.printf("生产者统计 - 消息数: %d, 字节数: %d%n", 
129                             messageCount.get(), byteCount.get());
130        }
131        
132        public void close() {
133            producer.close();
134        }
135    }
136    
137    /**
138     * 高性能消费者实现
139     */
140    public static class HighPerformanceConsumer {
141        private final KafkaConsumer<String, String> consumer;
142        private final ExecutorService executorService;
143        private final AtomicLong messageCount = new AtomicLong(0);
144        private final AtomicLong byteCount = new AtomicLong(0);
145        private volatile boolean running = false;
146        
147        public HighPerformanceConsumer(String bootstrapServers, String groupId, List<String> topics) {
148            this.consumer = new KafkaConsumer<>(createOptimizedConsumerConfig(bootstrapServers, groupId));
149            this.executorService = Executors.newFixedThreadPool(4); // 4个处理线程
150            consumer.subscribe(topics);
151        }
152        
153        /**
154         * 开始高性能消费
155         */
156        public void startConsuming() {
157            running = true;
158            
159            while (running) {
160                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
161                
162                if (!records.isEmpty()) {
163                    // 按分区并行处理
164                    Map<TopicPartition, List<ConsumerRecord<String, String>>> partitionRecords = new HashMap<>();
165                    
166                    for (ConsumerRecord<String, String> record : records) {
167                        TopicPartition partition = new TopicPartition(record.topic(), record.partition());
168                        partitionRecords.computeIfAbsent(partition, k -> new ArrayList<>()).add(record);
169                    }
170                    
171                    // 提交处理任务
172                    List<Future<?>> futures = new ArrayList<>();
173                    for (List<ConsumerRecord<String, String>> partitionBatch : partitionRecords.values()) {
174                        Future<?> future = executorService.submit(() -> processBatch(partitionBatch));
175                        futures.add(future);
176                    }
177                    
178                    // 等待所有批次处理完成
179                    for (Future<?> future : futures) {
180                        try {
181                            future.get(30, TimeUnit.SECONDS);
182                        } catch (Exception e) {
183                            System.err.println("批次处理失败: " + e.getMessage());
184                        }
185                    }
186                    
187                    // 提交位移
188                    try {
189                        consumer.commitSync();
190                    } catch (Exception e) {
191                        System.err.println("位移提交失败: " + e.getMessage());
192                    }
193                }
194            }
195        }
196        
197        /**
198         * 批量处理消息
199         */
200        private void processBatch(List<ConsumerRecord<String, String>> batch) {
201            for (ConsumerRecord<String, String> record : batch) {
202                try {
203                    // 模拟消息处理
204                    processMessage(record);
205                    
206                    messageCount.incrementAndGet();
207                    byteCount.addAndGet(record.value().getBytes().length);
208                    
209                } catch (Exception e) {
210                    System.err.println("处理消息失败: " + e.getMessage());
211                }
212            }
213        }
214        
215        private void processMessage(ConsumerRecord<String, String> record) {
216            // 实际的消息处理逻辑
217            // 这里只是模拟处理时间
218            try {
219                Thread.sleep(1);
220            } catch (InterruptedException e) {
221                Thread.currentThread().interrupt();
222            }
223        }
224        
225        /**
226         * 获取性能统计
227         */
228        public void printStats() {
229            System.out.printf("消费者统计 - 消息数: %d, 字节数: %d%n", 
230                             messageCount.get(), byteCount.get());
231        }
232        
233        public void stop() {
234            running = false;
235            executorService.shutdown();
236            consumer.close();
237        }
238    }
239    
240    /**
241     * 性能测试工具
242     */
243    public static class PerformanceTest {
244        
245        /**
246         * 生产者性能测试
247         */
248        public static void testProducerPerformance(String bootstrapServers, String topic, 
249                                                 int messageCount, int messageSize) {
250            System.out.println("开始生产者性能测试...");
251            
252            HighPerformanceProducer producer = new HighPerformanceProducer(bootstrapServers, topic);
253            
254            // 生成测试消息
255            List<String> messages = new ArrayList<>();
256            String messageTemplate = "A".repeat(messageSize);
257            
258            for (int i = 0; i < messageCount; i++) {
259                messages.add(messageTemplate + "-" + i);
260            }
261            
262            // 性能测试
263            long startTime = System.currentTimeMillis();
264            
265            // 分批发送
266            int batchSize = 1000;
267            for (int i = 0; i < messages.size(); i += batchSize) {
268                int endIndex = Math.min(i + batchSize, messages.size());
269                List<String> batch = messages.subList(i, endIndex);
270                producer.sendBatchAsync(batch);
271            }
272            
273            long endTime = System.currentTimeMillis();
274            
275            // 打印结果
276            long duration = endTime - startTime;
277            double throughput = (double) messageCount / duration * 1000; // 消息/秒
278            double mbps = (double) messageCount * messageSize / duration / 1024; // MB/秒
279            
280            System.out.printf("生产者性能测试结果:%n");
281            System.out.printf("  消息数量: %d%n", messageCount);
282            System.out.printf("  消息大小: %d 字节%n", messageSize);
283            System.out.printf("  总耗时: %d ms%n", duration);
284            System.out.printf("  吞吐量: %.2f 消息/秒%n", throughput);
285            System.out.printf("  数据速率: %.2f MB/秒%n", mbps);
286            
287            producer.close();
288        }
289        
290        /**
291         * 消费者性能测试
292         */
293        public static void testConsumerPerformance(String bootstrapServers, String groupId, 
294                                                 List<String> topics, int durationSeconds) {
295            System.out.println("开始消费者性能测试...");
296            
297            HighPerformanceConsumer consumer = new HighPerformanceConsumer(bootstrapServers, groupId, topics);
298            
299            // 启动消费线程
300            Thread consumerThread = new Thread(consumer::startConsuming);
301            consumerThread.start();
302            
303            // 运行指定时间
304            try {
305                Thread.sleep(durationSeconds * 1000);
306            } catch (InterruptedException e) {
307                Thread.currentThread().interrupt();
308            }
309            
310            // 停止消费者
311            consumer.stop();
312            
313            try {
314                consumerThread.join();
315            } catch (InterruptedException e) {
316                Thread.currentThread().interrupt();
317            }
318            
319            // 打印结果
320            consumer.printStats();
321        }
322    }
323    
324    public static void main(String[] args) {
325        String bootstrapServers = "localhost:9092";
326        String topic = "performance-test";
327        
328        // 生产者性能测试
329        PerformanceTest.testProducerPerformance(bootstrapServers, topic, 10000, 1024);
330        
331        // 等待一段时间
332        try {
333            Thread.sleep(5000);
334        } catch (InterruptedException e) {
335            Thread.currentThread().interrupt();
336        }
337        
338        // 消费者性能测试
339        PerformanceTest.testConsumerPerformance(bootstrapServers, "perf-test-group", 
340                                              Arrays.asList(topic), 30);
341    }
342}

6. Kafka面试题精选与深度解析

6.1 基础概念与架构题

Q1: 详细解释Kafka的核心组件及其作用？

A: Kafka的核心组件包括：

Broker（代理服务器）：

作用：Kafka集群中的服务器节点，负责存储和处理消息
职责：管理Topic分区、处理生产者和消费者请求、参与Leader选举
特点：无状态设计，支持水平扩展

Topic（主题）：

作用：消息的逻辑分类，类似数据库中的表
特点：支持多分区、多副本，提供并行处理能力
命名：建议使用业务域.数据类型.版本的格式

Partition（分区）：

作用：Topic的物理分割，提供并行处理和负载分散
特点：有序、不可变的消息序列，支持水平扩展
分配：通过分区器决定消息分配到哪个分区

Producer（生产者）：

作用：向Kafka发送消息的客户端
特点：支持同步/异步发送、批处理、压缩
配置：可配置可靠性、性能、分区策略等参数

Consumer（消费者）：

作用：从Kafka读取消息的客户端
特点：支持消费者组、位移管理、重平衡
模式：推模式（实际是拉模式）、支持批量消费

Q2: Kafka如何保证消息的顺序性？在什么情况下会出现乱序？

A: Kafka的消息顺序性保证机制：

分区级别有序：

Kafka只在单个分区内保证消息顺序
同一分区内的消息按照发送顺序存储和消费
跨分区无法保证全局顺序

生产者端顺序保证：

java

1// 确保顺序的配置
2props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 1);
3props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
4props.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE);

消费者端顺序保证：

单线程消费同一分区
按位移顺序处理消息
避免并行处理同一分区的消息

可能出现乱序的情况：

生产者重试：网络异常导致重试时可能乱序
多分区：不同分区间无法保证顺序
并行消费：多线程并行处理同一分区消息
异步处理：消费者异步处理消息时可能乱序

Q3: 详细说明Kafka的副本机制和ISR的作用？

A: Kafka副本机制详解：

副本类型：

Leader副本：处理所有读写请求，维护消息顺序
Follower副本：被动复制Leader数据，不处理客户端请求
ISR副本：In-Sync Replicas，与Leader保持同步的副本集合

ISR机制：

java

1// ISR相关配置
2replica.lag.time.max.ms=30000          // 副本最大滞后时间
3min.insync.replicas=2                  // 最小同步副本数
4unclean.leader.election.enable=false   // 禁用不安全Leader选举

副本同步过程：

Follower向Leader发送拉取请求
Leader返回消息数据
Follower写入本地日志
Follower发送确认给Leader
Leader更新高水位标记

ISR管理：

副本滞后超过replica.lag.time.max.ms会被移出ISR
副本追上进度后会重新加入ISR
只有ISR中的副本才能被选为新Leader

6.2 性能优化与调优题

Q4: 如何优化Kafka的吞吐量？从哪些方面入手？

A: Kafka吞吐量优化策略：

生产者优化：

java

1// 高吞吐量生产者配置
2props.put(ProducerConfig.BATCH_SIZE_CONFIG, 65536);        // 增大批次
3props.put(ProducerConfig.LINGER_MS_CONFIG, 100);           // 增加等待时间
4props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");  // 启用压缩
5props.put(ProducerConfig.ACKS_CONFIG, "1");                // 降低确认级别
6props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 134217728); // 增大缓冲区

消费者优化：

java

1// 高吞吐量消费者配置
2props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 100000);     // 增大拉取大小
3props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 2000);      // 增加拉取记录数
4props.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 500);      // 适当等待时间

Broker优化：

bash

1# 增加网络和I/O线程
2num.network.threads=16
3num.io.threads=32
4
5# 优化日志配置
6log.segment.bytes=1073741824
7log.flush.interval.messages=10000

硬件优化：

使用SSD存储提高I/O性能
增加网络带宽（万兆网卡）
优化JVM参数和GC策略
使用多磁盘分散I/O负载

Q5: Kafka消息丢失的场景有哪些？如何避免？

A: Kafka消息丢失场景及解决方案：

生产者端丢失：

java

1// 场景：网络异常、Broker故障、缓冲区满
2// 解决方案：
3props.put(ProducerConfig.ACKS_CONFIG, "all");              // 等待所有副本确认
4props.put(ProducerConfig.RETRIES_CONFIG, Integer.MAX_VALUE); // 无限重试
5props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);   // 启用幂等性
6props.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 1); // 保证顺序
7
8// 同步发送确保消息送达
9RecordMetadata metadata = producer.send(record).get();

Broker端丢失：

bash

1# 场景：磁盘故障、副本不足、不安全Leader选举
2# 解决方案：
3default.replication.factor=3           # 增加副本因子
4min.insync.replicas=2                  # 设置最小同步副本
5unclean.leader.election.enable=false   # 禁用不安全选举
6log.flush.interval.messages=1          # 强制刷盘

消费者端丢失：

java

1// 场景：自动提交位移、处理异常未处理
2// 解决方案：
3props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false); // 禁用自动提交
4
5// 手动提交位移
6while (true) {
7    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
8    for (ConsumerRecord<String, String> record : records) {
9        try {
10            processMessage(record); // 处理消息
11        } catch (Exception e) {
12            // 处理异常，决定是否跳过或重试
13            handleException(record, e);
14        }
15    }
16    consumer.commitSync(); // 处理完成后提交位移
17}

6.3 架构设计与实战题

Q6: 设计一个高可用的Kafka集群架构，需要考虑哪些因素？

A: 高可用Kafka集群设计要点：

集群规划：

bash

1# 最小3节点集群（奇数节点）
2Broker-1: 192.168.1.101:9092
3Broker-2: 192.168.1.102:9092  
4Broker-3: 192.168.1.103:9092
5
6# ZooKeeper集群（3或5节点）
7ZK-1: 192.168.1.201:2181
8ZK-2: 192.168.1.202:2181
9ZK-3: 192.168.1.203:2181

副本配置：

bash

1# 副本因子和ISR配置
2default.replication.factor=3
3min.insync.replicas=2
4unclean.leader.election.enable=false

网络和存储：

跨机架部署，避免单点故障
使用专用网络，保证网络稳定性
多磁盘RAID配置，提高存储可靠性
定期备份重要数据

监控告警：

java

1// 关键指标监控
2- Broker存活状态
3- 分区Leader分布
4- ISR副本状态
5- 消息积压情况
6- 磁盘使用率
7- 网络延迟

故障恢复：

制定故障恢复流程
定期演练故障切换
准备备用硬件资源
建立运维文档

Q7: 如何设计一个支持百万级TPS的Kafka消息系统？

A: 百万级TPS Kafka系统设计：

硬件配置：

bash

1# 服务器配置（每台）
2CPU: 32核心 2.4GHz
3内存: 128GB
4存储: 8块2TB NVMe SSD RAID10
5网络: 双万兆网卡绑定

集群规模：

bash

1# 集群配置
2Broker数量: 12台
3ZooKeeper: 5台
4分区总数: 1000+
5副本因子: 3

Topic设计：

java

1// 高并发Topic配置
2分区数: 100个分区（支持100个并发消费者）
3副本因子: 3
4压缩类型: lz4
5清理策略: delete
6保留时间: 3天

生产者优化：

java

1// 高性能生产者配置
2props.put(ProducerConfig.BATCH_SIZE_CONFIG, 131072);       // 128KB批次
3props.put(ProducerConfig.LINGER_MS_CONFIG, 50);            // 50ms等待
4props.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 268435456); // 256MB缓冲区
5props.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "lz4");
6props.put(ProducerConfig.ACKS_CONFIG, "1");                // 平衡性能和可靠性

消费者优化：

java

1// 高性能消费者配置
2props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 1048576);    // 1MB最小拉取
3props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 5000);      // 5000条记录
4props.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG, 10485760); // 10MB分区拉取

系统优化：

bash

1# 操作系统优化
2vm.swappiness=1
3vm.dirty_ratio=80
4net.core.rmem_max=134217728
5net.core.wmem_max=134217728
6
7# JVM优化
8-Xmx12g -Xms12g
9-XX:+UseG1GC
10-XX:MaxGCPauseMillis=20

6.4 故障排查与运维题

Q8: Kafka集群出现消息积压，如何排查和解决？

A: 消息积压排查和解决方案：

排查步骤：

bash

1# 1. 检查消费者组状态
2kafka-consumer-groups.sh --bootstrap-server localhost:9092 \
3  --group my-group --describe
4
5# 2. 查看Topic分区状态
6kafka-topics.sh --bootstrap-server localhost:9092 \
7  --topic my-topic --describe
8
9# 3. 检查Broker性能指标
10# 通过JMX监控或Kafka Manager查看

常见原因及解决方案：

消费者性能不足：

java

1// 解决方案：
21. 增加消费者实例数量
32. 优化消费者配置
4props.put(ConsumerConfig.MAX_POLL_RECORDS_CONFIG, 1000);
5props.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 50000);
6
73. 并行处理消息
8ExecutorService executor = Executors.newFixedThreadPool(10);
9for (ConsumerRecord<String, String> record : records) {
10    executor.submit(() -> processMessage(record));
11}

分区数量不足：

bash

1# 增加分区数量
2kafka-topics.sh --bootstrap-server localhost:9092 \
3  --topic my-topic --alter --partitions 20

消费者处理逻辑慢：

java

1// 优化处理逻辑
21. 异步处理非关键逻辑
32. 批量处理数据库操作
43. 使用缓存减少外部调用
54. 优化算法和数据结构

网络或磁盘I/O瓶颈：

bash

1# 检查系统资源
2iostat -x 1
3sar -n DEV 1
4top -p $(pgrep java)
5
6# 优化建议
71. 升级硬件配置
82. 优化网络配置
93. 使用SSD存储
104. 调整JVM参数

Q9: 如何监控Kafka集群的健康状态？

A: Kafka集群监控体系：

关键指标监控：

java

1// JMX指标监控
21. 吞吐量指标
3   - MessagesInPerSec: 消息输入速率
4   - BytesInPerSec: 字节输入速率
5   - BytesOutPerSec: 字节输出速率
6
72. 延迟指标
8   - ProduceRequestTime: 生产请求时间
9   - FetchRequestTime: 拉取请求时间
10   - NetworkProcessorAvgIdlePercent: 网络处理器空闲率
11
123. 可用性指标
13   - UnderReplicatedPartitions: 未充分复制的分区
14   - OfflinePartitionsCount: 离线分区数量
15   - ActiveControllerCount: 活跃控制器数量
16
174. 资源指标
18   - JVM堆内存使用率
19   - GC频率和时间
20   - 磁盘使用率
21   - 网络I/O

监控工具选择：

bash

1# 开源监控方案
21. Kafka Manager (CMAK)
32. Kafka Eagle
43. Prometheus + Grafana
54. ELK Stack
6
7# 商业监控方案
81. Confluent Control Center
92. DataDog
103. New Relic
114. AppDynamics

告警配置：

yaml

1# Prometheus告警规则示例
2groups:
3- name: kafka.rules
4  rules:
5  - alert: KafkaBrokerDown
6    expr: up{job="kafka"} == 0
7    for: 1m
8    labels:
9      severity: critical
10    annotations:
11      summary: "Kafka broker is down"
12      
13  - alert: KafkaUnderReplicatedPartitions
14    expr: kafka_server_replicamanager_underreplicatedpartitions > 0
15    for: 5m
16    labels:
17      severity: warning
18    annotations:
19      summary: "Kafka has under-replicated partitions"

7. Kafka实战项目案例

7.1 电商订单处理系统

这是一个基于 Kafka 的完整电商订单处理系统，展示了 Kafka 在实际业务场景中的应用。

7.1.1 系统架构设计

7.1.2 项目结构

1ecommerce-kafka-system/
2├── pom.xml
3├── src/main/java/com/ecommerce/
4│   ├── config/
5│   │   ├── KafkaConfig.java
6│   │   └── DatabaseConfig.java
7│   ├── model/
8│   │   ├── Order.java
9│   │   ├── Payment.java
10│   │   └── Inventory.java
11│   ├── producer/
12│   │   ├── OrderEventProducer.java
13│   │   └── PaymentEventProducer.java
14│   ├── consumer/
15│   │   ├── OrderEventConsumer.java
16│   │   └── PaymentEventConsumer.java
17│   ├── service/
18│   │   ├── OrderService.java
19│   │   └── PaymentService.java
20│   └── controller/
21│       └── OrderController.java
22├── src/main/resources/
23│   ├── application.yml
24│   └── logback-spring.xml
25└── docker-compose.yml

7.1.3 核心代码实现

订单事件模型：

java

1@Data
2@Builder
3@NoArgsConstructor
4@AllArgsConstructor
5public class OrderEvent {
6    private String orderId;
7    private String userId;
8    private String productId;
9    private Integer quantity;
10    private BigDecimal amount;
11    private OrderStatus status;
12    private LocalDateTime timestamp;
13    private String correlationId; // 用于追踪消息链路
14    
15    public enum OrderStatus {
16        CREATED, PAID, SHIPPED, DELIVERED, CANCELLED
17    }
18}

订单事件生产者：

java

1@Component
2@Slf4j
3public class OrderEventProducer {
4    
5    @Autowired
6    private KafkaTemplate<String, OrderEvent> kafkaTemplate;
7    
8    @Value("${kafka.topic.order}")
9    private String orderTopic;
10    
11    public void sendOrderEvent(OrderEvent orderEvent) {
12        try {
13            // 设置消息头
14            ProducerRecord<String, OrderEvent> record = new ProducerRecord<>(
15                orderTopic, 
16                orderEvent.getOrderId(), 
17                orderEvent
18            );
19            
20            // 添加消息头用于追踪
21            record.headers().add("correlation-id", 
22                orderEvent.getCorrelationId().getBytes());
23            record.headers().add("event-type", 
24                "ORDER_CREATED".getBytes());
25            
26            // 异步发送
27            kafkaTemplate.send(record).addCallback(
28                result -> {
29                    if (result != null) {
30                        log.info("订单事件发送成功: orderId={}, partition={}, offset={}", 
31                            orderEvent.getOrderId(),
32                            result.getRecordMetadata().partition(),
33                            result.getRecordMetadata().offset());
34                    }
35                },
36                failure -> {
37                    log.error("订单事件发送失败: orderId={}, error={}", 
38                        orderEvent.getOrderId(), failure.getMessage());
39                    // 实现重试机制
40                    retrySendOrderEvent(orderEvent);
41                }
42            );
43            
44        } catch (Exception e) {
45            log.error("发送订单事件异常: {}", e.getMessage(), e);
46            throw new RuntimeException("发送订单事件失败", e);
47        }
48    }
49    
50    private void retrySendOrderEvent(OrderEvent orderEvent) {
51        // 实现指数退避重试
52        CompletableFuture.delayedExecutor(1, TimeUnit.SECONDS)
53            .execute(() -> sendOrderEvent(orderEvent));
54    }
55}

订单事件消费者：

java

1@Component
2@Slf4j
3public class OrderEventConsumer {
4    
5    @Autowired
6    private OrderService orderService;
7    
8    @Autowired
9    private PaymentEventProducer paymentEventProducer;
10    
11    @KafkaListener(
12        topics = "${kafka.topic.order}",
13        groupId = "order-processing-group",
14        containerFactory = "kafkaListenerContainerFactory"
15    )
16    public void handleOrderEvent(
17            @Payload OrderEvent orderEvent,
18            @Header(KafkaHeaders.RECEIVED_TOPIC) String topic,
19            @Header(KafkaHeaders.RECEIVED_PARTITION_ID) int partition,
20            @Header(KafkaHeaders.OFFSET) long offset,
21            @Header("correlation-id") String correlationId) {
22        
23        try {
24            log.info("接收到订单事件: orderId={}, partition={}, offset={}", 
25                orderEvent.getOrderId(), partition, offset);
26            
27            // 幂等性检查
28            if (orderService.isOrderProcessed(orderEvent.getOrderId())) {
29                log.warn("订单已处理，跳过: orderId={}", orderEvent.getOrderId());
30                return;
31            }
32            
33            // 业务处理
34            processOrderEvent(orderEvent);
35            
36            // 手动提交偏移量
37            // 注意：这里需要根据实际配置决定是否手动提交
38            
39        } catch (Exception e) {
40            log.error("处理订单事件失败: orderId={}, error={}", 
41                orderEvent.getOrderId(), e.getMessage(), e);
42            
43            // 实现死信队列处理
44            handleFailedOrderEvent(orderEvent, e);
45        }
46    }
47    
48    private void processOrderEvent(OrderEvent orderEvent) {
49        // 1. 验证订单
50        validateOrder(orderEvent);
51        
52        // 2. 检查库存
53        checkInventory(orderEvent);
54        
55        // 3. 创建支付事件
56        PaymentEvent paymentEvent = PaymentEvent.builder()
57            .orderId(orderEvent.getOrderId())
58            .amount(orderEvent.getAmount())
59            .userId(orderEvent.getUserId())
60            .correlationId(orderEvent.getCorrelationId())
61            .build();
62        
63        // 4. 发送支付事件
64        paymentEventProducer.sendPaymentEvent(paymentEvent);
65        
66        // 5. 更新订单状态
67        orderService.updateOrderStatus(orderEvent.getOrderId(), 
68            OrderEvent.OrderStatus.PENDING_PAYMENT);
69    }
70    
71    private void handleFailedOrderEvent(OrderEvent orderEvent, Exception e) {
72        // 发送到死信队列或错误处理Topic
73        log.error("订单处理失败，发送到错误处理队列: orderId={}", 
74            orderEvent.getOrderId());
75    }
76}

7.1.4 配置管理

application.yml：

yaml

1spring:
2  kafka:
3    bootstrap-servers: localhost:9092
4    producer:
5      key-serializer: org.apache.kafka.common.serialization.StringSerializer
6      value-serializer: org.springframework.kafka.support.serializer.JsonSerializer
7      acks: all
8      retries: 3
9      batch-size: 16384
10      linger-ms: 5
11      buffer-memory: 33554432
12      properties:
13        enable.idempotence: true
14        max.in.flight.requests.per.connection: 5
15    consumer:
16      group-id: ecommerce-group
17      key-deserializer: org.apache.kafka.common.serialization.StringDeserializer
18      value-deserializer: org.springframework.kafka.support.serializer.JsonDeserializer
19      auto-offset-reset: earliest
20      enable-auto-commit: false
21      properties:
22        spring.json.trusted.packages: "com.ecommerce.model"
23        max.poll.records: 500
24        session.timeout.ms: 30000
25        heartbeat.interval.ms: 10000
26    listener:
27      ack-mode: manual_immediate
28      concurrency: 3
29      missing-topics-fatal: false
30
31kafka:
32  topic:
33    order: order-events
34    payment: payment-events
35    inventory: inventory-events
36    notification: notification-events
37    dlq: dead-letter-queue

7.1.5 Docker部署配置

docker-compose.yml：

yaml

1version: '3.8'
2
3services:
4  zookeeper:
5    image: confluentinc/cp-zookeeper:7.4.0
6    hostname: zookeeper
7    container_name: zookeeper
8    ports:
9      - "2181:2181"
10    environment:
11      ZOOKEEPER_CLIENT_PORT: 2181
12      ZOOKEEPER_TICK_TIME: 2000
13
14  kafka:
15    image: confluentinc/cp-kafka:7.4.0
16    hostname: kafka
17    container_name: kafka
18    depends_on:
19      - zookeeper
20    ports:
21      - "9092:9092"
22      - "9101:9101"
23    environment:
24      KAFKA_BROKER_ID: 1
25      KAFKA_ZOOKEEPER_CONNECT: 'zookeeper:2181'
26      KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
27      KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://kafka:29092,PLAINTEXT_HOST://localhost:9092
28      KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
29      KAFKA_TRANSACTION_STATE_LOG_MIN_ISR: 1
30      KAFKA_TRANSACTION_STATE_LOG_REPLICATION_FACTOR: 1
31      KAFKA_GROUP_INITIAL_REBALANCE_DELAY_MS: 0
32      KAFKA_JMX_PORT: 9101
33      KAFKA_JMX_HOSTNAME: localhost
34
35  kafka-ui:
36    image: provectuslabs/kafka-ui:latest
37    container_name: kafka-ui
38    depends_on:
39      - kafka
40    ports:
41      - "8080:8080"
42    environment:
43      KAFKA_CLUSTERS_0_NAME: local
44      KAFKA_CLUSTERS_0_BOOTSTRAPSERVERS: kafka:29092
45
46  mysql:
47    image: mysql:8.0
48    container_name: mysql
49    environment:
50      MYSQL_ROOT_PASSWORD: root
51      MYSQL_DATABASE: ecommerce
52    ports:
53      - "3306:3306"
54    volumes:
55      - mysql_data:/var/lib/mysql
56
57volumes:
58  mysql_data:

7.1.6 监控和告警

Prometheus配置：

yaml

1# prometheus.yml
2global:
3  scrape_interval: 15s
4
5scrape_configs:
6  - job_name: 'kafka'
7    static_configs:
8      - targets: ['kafka:9092']
9    metrics_path: /metrics
10    scrape_interval: 5s
11
12  - job_name: 'kafka-jmx'
13    static_configs:
14      - targets: ['kafka:9101']
15    scrape_interval: 5s

Grafana仪表板：

json

1{
2  "dashboard": {
3    "title": "Kafka电商系统监控",
4    "panels": [
5      {
6        "title": "消息生产速率",
7        "type": "graph",
8        "targets": [
9          {
10            "expr": "rate(kafka_server_brokertopicmetrics_messagesin_total[5m])",
11            "legendFormat": "{{topic}}"
12          }
13        ]
14      },
15      {
16        "title": "消费者延迟",
17        "type": "graph", 
18        "targets": [
19          {
20            "expr": "kafka_consumer_lag_sum",
21            "legendFormat": "{{consumer_group}}"
22          }
23        ]
24      }
25    ]
26  }
27}

7.2 性能测试实践

7.2.1 压力测试脚本

bash

1#!/bin/bash
2# kafka-performance-test.sh
3
4# 测试生产者性能
5kafka-producer-perf-test.sh \
6  --topic order-events \
7  --num-records 1000000 \
8  --record-size 1024 \
9  --throughput 10000 \
10  --producer-props bootstrap.servers=localhost:9092 \
11  --producer-props acks=all \
12  --producer-props retries=3
13
14# 测试消费者性能  
15kafka-consumer-perf-test.sh \
16  --topic order-events \
17  --bootstrap-server localhost:9092 \
18  --messages 1000000 \
19  --threads 4

7.2.2 JMeter测试计划

xml

1<?xml version="1.0" encoding="UTF-8"?>
2<jmeterTestPlan version="1.2">
3  <hashTree>
4    <TestPlan testname="Kafka性能测试">
5      <elementProp name="TestPlan.arguments" elementType="Arguments" guiclass="ArgumentsPanel">
6        <collectionProp name="Arguments.arguments"/>
7      </elementProp>
8      <stringProp name="TestPlan.user_define_classpath"></stringProp>
9      <boolProp name="TestPlan.functional_mode">false</boolProp>
10      <boolProp name="TestPlan.tearDown_on_shutdown">true</boolProp>
11      <boolProp name="TestPlan.serialize_threadgroups">false</boolProp>
12    </TestPlan>
13  </hashTree>
14</jmeterTestPlan>

7.3 生产环境部署指南

7.3.1 集群规划

硬件配置建议：

组件	CPU	内存	磁盘	网络	说明
Kafka Broker	8核+	32GB+	SSD 1TB+	万兆	高性能存储和网络
Zookeeper	4核+	8GB+	SSD 100GB+	千兆	元数据存储
监控节点	4核+	16GB+	SSD 500GB+	千兆	Prometheus/Grafana

集群规模规划：

yaml

1# 生产环境集群配置
2production-cluster:
3  brokers: 3-5个节点
4  zookeeper: 3个节点（奇数）
5  partitions: 根据业务量计算
6  replication-factor: 3
7  min-insync-replicas: 2

7.3.2 配置文件优化

server.properties 生产配置：

properties

1# 基础配置
2broker.id=1
3listeners=PLAINTEXT://0.0.0.0:9092
4advertised.listeners=PLAINTEXT://kafka-1.example.com:9092
5
6# 日志配置
7log.dirs=/data/kafka-logs
8num.partitions=3
9default.replication.factor=3
10min.insync.replicas=2
11
12# 性能优化
13num.network.threads=8
14num.io.threads=16
15socket.send.buffer.bytes=102400
16socket.receive.buffer.bytes=102400
17socket.request.max.bytes=104857600
18
19# 日志段配置
20log.segment.bytes=1073741824
21log.retention.hours=168
22log.retention.bytes=107374182400
23log.cleanup.policy=delete
24
25# 压缩配置
26compression.type=snappy
27message.max.bytes=1000000
28replica.fetch.max.bytes=1048576
29
30# 副本配置
31replica.lag.time.max.ms=10000
32replica.fetch.wait.max.ms=500
33replica.socket.timeout.ms=30000
34
35# 控制器配置
36controller.socket.timeout.ms=30000

7.3.3 安全配置

SSL/TLS 加密配置：

properties

1# SSL配置
2listeners=SSL://0.0.0.0:9093
3security.inter.broker.protocol=SSL
4ssl.keystore.location=/opt/kafka/ssl/kafka.server.keystore.jks
5ssl.keystore.password=keystore_password
6ssl.key.password=key_password
7ssl.truststore.location=/opt/kafka/ssl/kafka.server.truststore.jks
8ssl.truststore.password=truststore_password
9ssl.client.auth=required

SASL认证配置：

properties

1# SASL配置
2listeners=SASL_SSL://0.0.0.0:9094
3security.inter.broker.protocol=SASL_SSL
4sasl.mechanism.inter.broker.protocol=PLAIN
5sasl.enabled.mechanisms=PLAIN
6sasl.jaas.config=org.apache.kafka.common.security.plain.PlainLoginModule required \
7  username="admin" \
8  password="admin-secret" \
9  user_admin="admin-secret" \
10  user_alice="alice-secret";

7.3.4 监控配置

JMX监控配置：

properties

1# JMX配置
2jmx.port=9999
3kafka.jmx.port=9999

Prometheus JMX Exporter配置：

yaml

1# jmx_prometheus_javaagent.yml
2startDelaySeconds: 0
3ssl: false
4lowercaseOutputName: false
5lowercaseOutputLabelNames: false
6rules:
7  - pattern: kafka.server<type=BrokerTopicMetrics, name=MessagesInPerSec, topic=(.+)><>Count
8    name: kafka_server_brokertopicmetrics_messagesin_total
9    labels:
10      topic: "$1"
11    type: COUNTER
12  - pattern: kafka.server<type=BrokerTopicMetrics, name=BytesInPerSec, topic=(.+)><>Count
13    name: kafka_server_brokertopicmetrics_bytesin_total
14    labels:
15      topic: "$1"
16    type: COUNTER

7.4 运维管理实践

7.4.1 日常运维脚本

集群健康检查脚本：

bash

1#!/bin/bash
2# kafka-health-check.sh
3
4KAFKA_HOME="/opt/kafka"
5BROKER_LIST="localhost:9092"
6
7echo "=== Kafka集群健康检查 ==="
8
9# 检查Broker状态
10echo "1. 检查Broker状态..."
11$KAFKA_HOME/bin/kafka-broker-api-versions.sh --bootstrap-server $BROKER_LIST
12
13# 检查Topic列表
14echo "2. 检查Topic列表..."
15$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server $BROKER_LIST --list
16
17# 检查消费者组
18echo "3. 检查消费者组..."
19$KAFKA_HOME/bin/kafka-consumer-groups.sh --bootstrap-server $BROKER_LIST --list
20
21# 检查分区状态
22echo "4. 检查分区状态..."
23$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server $BROKER_LIST --describe
24
25# 检查日志大小
26echo "5. 检查日志大小..."
27du -sh /data/kafka-logs/*
28
29# 检查磁盘使用率
30echo "6. 检查磁盘使用率..."
31df -h /data
32
33echo "=== 健康检查完成 ==="

自动备份脚本：

bash

1#!/bin/bash
2# kafka-backup.sh
3
4BACKUP_DIR="/backup/kafka"
5DATE=$(date +%Y%m%d_%H%M%S)
6KAFKA_HOME="/opt/kafka"
7
8# 创建备份目录
9mkdir -p $BACKUP_DIR/$DATE
10
11# 备份配置文件
12cp -r $KAFKA_HOME/config $BACKUP_DIR/$DATE/
13
14# 备份Topic元数据
15$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server localhost:9092 --list > $BACKUP_DIR/$DATE/topics.txt
16
17# 备份消费者组信息
18$KAFKA_HOME/bin/kafka-consumer-groups.sh --bootstrap-server localhost:9092 --list > $BACKUP_DIR/$DATE/consumer-groups.txt
19
20# 压缩备份
21tar -czf $BACKUP_DIR/kafka-backup-$DATE.tar.gz -C $BACKUP_DIR $DATE
22
23# 清理旧备份（保留7天）
24find $BACKUP_DIR -name "kafka-backup-*.tar.gz" -mtime +7 -delete
25
26echo "备份完成: kafka-backup-$DATE.tar.gz"

7.4.2 故障排查指南

常见问题及解决方案：

问题	症状	原因	解决方案
Leader不可用	分区无Leader	Broker宕机	重启Broker或重新分配分区
消息丢失	消费者收不到消息	副本不足	增加副本因子
性能下降	吞吐量降低	磁盘IO瓶颈	优化磁盘配置
内存溢出	Broker崩溃	内存不足	调整JVM参数

故障排查脚本：

bash

1#!/bin/bash
2# kafka-troubleshoot.sh
3
4echo "=== Kafka故障排查 ==="
5
6# 1. 检查Broker状态
7echo "1. 检查Broker状态..."
8$KAFKA_HOME/bin/kafka-broker-api-versions.sh --bootstrap-server localhost:9092
9
10# 2. 检查分区状态
11echo "2. 检查分区状态..."
12$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --unavailable-partitions
13
14# 3. 检查副本状态
15echo "3. 检查副本状态..."
16$KAFKA_HOME/bin/kafka-topics.sh --bootstrap-server localhost:9092 --describe --under-replicated-partitions
17
18# 4. 检查消费者延迟
19echo "4. 检查消费者延迟..."
20$KAFKA_HOME/bin/kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --all-groups
21
22# 5. 检查日志文件
23echo "5. 检查日志文件..."
24tail -n 100 $KAFKA_HOME/logs/server.log | grep ERROR
25
26# 6. 检查系统资源
27echo "6. 检查系统资源..."
28echo "CPU使用率:"
29top -bn1 | grep "Cpu(s)"
30echo "内存使用率:"
31free -h
32echo "磁盘使用率:"
33df -h
34
35echo "=== 故障排查完成 ==="

7.4.3 性能调优实践

JVM参数优化：

bash

1# kafka-server-start.sh
2export KAFKA_HEAP_OPTS="-Xmx8g -Xms8g"
3export KAFKA_JVM_PERFORMANCE_OPTS="-server -XX:+UseG1GC -XX:MaxGCPauseMillis=20 -XX:InitiatingHeapOccupancyPercent=35 -XX:+ExplicitGCInvokesConcurrent -XX:MaxInlineLevel=15 -Djava.awt.headless=true"

系统参数优化：

bash

1# /etc/sysctl.conf
2# 网络参数
3net.core.rmem_max = 134217728
4net.core.wmem_max = 134217728
5net.ipv4.tcp_rmem = 4096 65536 134217728
6net.ipv4.tcp_wmem = 4096 65536 134217728
7
8# 文件描述符
9fs.file-max = 1000000
10
11# 虚拟内存
12vm.swappiness = 1
13vm.dirty_ratio = 15
14vm.dirty_background_ratio = 5

7.5 与其他技术栈集成

7.5.1 Spring Boot集成

Maven依赖：

xml

1<dependencies>
2    <dependency>
3        <groupId>org.springframework.kafka</groupId>
4        <artifactId>spring-kafka</artifactId>
5        <version>2.9.0</version>
6    </dependency>
7    <dependency>
8        <groupId>org.apache.kafka</groupId>
9        <artifactId>kafka-streams</artifactId>
10        <version>3.4.0</version>
11    </dependency>
12</dependencies>

配置类：

java

1@Configuration
2@EnableKafka
3public class KafkaConfig {
4    
5    @Bean
6    public ProducerFactory<String, Object> producerFactory() {
7        Map<String, Object> configProps = new HashMap<>();
8        configProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
9        configProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
10        configProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, JsonSerializer.class);
11        configProps.put(ProducerConfig.ACKS_CONFIG, "all");
12        configProps.put(ProducerConfig.RETRIES_CONFIG, 3);
13        configProps.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
14        return new DefaultKafkaProducerFactory<>(configProps);
15    }
16    
17    @Bean
18    public KafkaTemplate<String, Object> kafkaTemplate() {
19        return new KafkaTemplate<>(producerFactory());
20    }
21}

7.5.2 与数据库集成

Kafka Connect配置：

json

1{
2  "name": "mysql-source-connector",
3  "config": {
4    "connector.class": "io.confluent.connect.jdbc.JdbcSourceConnector",
5    "connection.url": "jdbc:mysql://localhost:3306/ecommerce",
6    "connection.user": "root",
7    "connection.password": "password",
8    "table.whitelist": "orders",
9    "mode": "incrementing",
10    "incrementing.column.name": "id",
11    "topic.prefix": "mysql-",
12    "poll.interval.ms": 1000
13  }
14}

7.5.3 与Elasticsearch集成

Logstash配置：

ruby

1input {
2  kafka {
3    bootstrap_servers => "localhost:9092"
4    topics => ["order-events"]
5    group_id => "logstash"
6    consumer_threads => 4
7  }
8}
9
10filter {
11  json {
12    source => "message"
13  }
14  
15  date {
16    match => ["timestamp", "ISO8601"]
17  }
18}
19
20output {
21  elasticsearch {
22    hosts => ["localhost:9200"]
23    index => "kafka-events-%{+YYYY.MM.dd}"
24  }
25}

7.6 高级错误处理与容错机制

7.6.1 生产者错误处理

重试机制实现：

java

1@Component
2@Slf4j
3public class RobustKafkaProducer {
4    
5    private final KafkaTemplate<String, Object> kafkaTemplate;
6    private final RetryTemplate retryTemplate;
7    
8    public RobustKafkaProducer(KafkaTemplate<String, Object> kafkaTemplate) {
9        this.kafkaTemplate = kafkaTemplate;
10        this.retryTemplate = createRetryTemplate();
11    }
12    
13    private RetryTemplate createRetryTemplate() {
14        RetryTemplate template = new RetryTemplate();
15        
16        // 重试策略：指数退避
17        ExponentialBackOffPolicy backOffPolicy = new ExponentialBackOffPolicy();
18        backOffPolicy.setInitialInterval(1000);
19        backOffPolicy.setMultiplier(2.0);
20        backOffPolicy.setMaxInterval(10000);
21        template.setBackOffPolicy(backOffPolicy);
22        
23        // 重试条件：可重试的异常
24        SimpleRetryPolicy retryPolicy = new SimpleRetryPolicy(3, 
25            Map.of(
26                RetriableException.class, true,
27                TimeoutException.class, true,
28                NetworkException.class, true
29            ));
30        template.setRetryPolicy(retryPolicy);
31        
32        return template;
33    }
34    
35    public void sendMessageWithRetry(String topic, String key, Object message) {
36        try {
37            retryTemplate.execute(context -> {
38                try {
39                    ListenableFuture<SendResult<String, Object>> future = 
40                        kafkaTemplate.send(topic, key, message);
41                    
42                    return future.get(5, TimeUnit.SECONDS);
43                } catch (Exception e) {
44                    log.warn("发送消息失败，重试第{}次: {}", 
45                        context.getRetryCount() + 1, e.getMessage());
46                    throw new RetriableException("消息发送失败", e);
47                }
48            });
49        } catch (Exception e) {
50            log.error("消息发送最终失败: topic={}, key={}, error={}", 
51                topic, key, e.getMessage());
52            // 发送到死信队列
53            sendToDeadLetterQueue(topic, key, message, e);
54        }
55    }
56    
57    private void sendToDeadLetterQueue(String topic, String key, 
58                                     Object message, Exception error) {
59        DeadLetterMessage dlqMessage = DeadLetterMessage.builder()
60            .originalTopic(topic)
61            .originalKey(key)
62            .originalMessage(message)
63            .errorMessage(error.getMessage())
64            .timestamp(Instant.now())
65            .build();
66        
67        kafkaTemplate.send("dlq-topic", key, dlqMessage);
68    }
69}

死信队列处理：

java

1@Component
2@Slf4j
3public class DeadLetterQueueHandler {
4    
5    @KafkaListener(topics = "dlq-topic", groupId = "dlq-handler")
6    public void handleDeadLetterMessage(@Payload DeadLetterMessage dlqMessage) {
7        log.error("处理死信消息: topic={}, key={}, error={}", 
8            dlqMessage.getOriginalTopic(),
9            dlqMessage.getOriginalKey(),
10            dlqMessage.getErrorMessage());
11        
12        // 1. 记录到数据库
13        saveDeadLetterRecord(dlqMessage);
14        
15        // 2. 发送告警
16        sendAlert(dlqMessage);
17        
18        // 3. 尝试修复或人工处理
19        attemptRecovery(dlqMessage);
20    }
21    
22    private void saveDeadLetterRecord(DeadLetterMessage dlqMessage) {
23        // 保存到数据库用于后续分析
24        DeadLetterRecord record = DeadLetterRecord.builder()
25            .originalTopic(dlqMessage.getOriginalTopic())
26            .originalKey(dlqMessage.getOriginalKey())
27            .errorMessage(dlqMessage.getErrorMessage())
28            .timestamp(dlqMessage.getTimestamp())
29            .status(DeadLetterStatus.PENDING)
30            .build();
31        
32        deadLetterRepository.save(record);
33    }
34    
35    private void sendAlert(DeadLetterMessage dlqMessage) {
36        AlertMessage alert = AlertMessage.builder()
37            .level(AlertLevel.ERROR)
38            .title("Kafka消息发送失败")
39            .content(String.format("Topic: %s, Key: %s, Error: %s", 
40                dlqMessage.getOriginalTopic(),
41                dlqMessage.getOriginalKey(),
42                dlqMessage.getErrorMessage()))
43            .timestamp(Instant.now())
44            .build();
45        
46        alertService.sendAlert(alert);
47    }
48}

7.6.2 消费者错误处理

消费者容错机制：

java

1@Component
2@Slf4j
3public class FaultTolerantConsumer {
4    
5    private final OrderService orderService;
6    private final CircuitBreaker circuitBreaker;
7    
8    public FaultTolerantConsumer(OrderService orderService) {
9        this.orderService = orderService;
10        this.circuitBreaker = createCircuitBreaker();
11    }
12    
13    private CircuitBreaker createCircuitBreaker() {
14        return CircuitBreaker.ofDefaults("order-processing")
15            .toBuilder()
16            .failureRateThreshold(50)
17            .waitDurationInOpenState(Duration.ofSeconds(30))
18            .slidingWindowSize(10)
19            .build();
20    }
21    
22    @KafkaListener(topics = "order-events", groupId = "order-processor")
23    public void handleOrderEvent(@Payload OrderEvent orderEvent,
24                               Acknowledgment acknowledgment) {
25        try {
26            // 使用断路器保护
27            circuitBreaker.executeSupplier(() -> {
28                processOrderEvent(orderEvent);
29                return null;
30            });
31            
32            // 处理成功，提交偏移量
33            acknowledgment.acknowledge();
34            
35        } catch (Exception e) {
36            log.error("处理订单事件失败: orderId={}, error={}", 
37                orderEvent.getOrderId(), e.getMessage(), e);
38            
39            // 根据异常类型决定处理策略
40            handleConsumerError(orderEvent, e, acknowledgment);
41        }
42    }
43    
44    private void handleConsumerError(OrderEvent orderEvent, Exception error, 
45                                   Acknowledgment acknowledgment) {
46        if (isRetryableError(error)) {
47            // 可重试错误：延迟重试
48            scheduleRetry(orderEvent, error);
49            // 不提交偏移量，等待重试
50        } else if (isBusinessError(error)) {
51            // 业务错误：记录并跳过
52            logBusinessError(orderEvent, error);
53            acknowledgment.acknowledge();
54        } else {
55            // 系统错误：发送到死信队列
56            sendToDeadLetterQueue(orderEvent, error);
57            acknowledgment.acknowledge();
58        }
59    }
60    
61    private boolean isRetryableError(Exception error) {
62        return error instanceof TimeoutException ||
63               error instanceof ConnectException ||
64               error instanceof SocketTimeoutException;
65    }
66    
67    private boolean isBusinessError(Exception error) {
68        return error instanceof ValidationException ||
69               error instanceof BusinessLogicException;
70    }
71    
72    private void scheduleRetry(OrderEvent orderEvent, Exception error) {
73        // 使用延迟队列实现重试
74        RetryMessage retryMessage = RetryMessage.builder()
75            .originalMessage(orderEvent)
76            .retryCount(0)
77            .maxRetries(3)
78            .nextRetryTime(Instant.now().plusSeconds(30))
79            .build();
80        
81        kafkaTemplate.send("retry-topic", orderEvent.getOrderId(), retryMessage);
82    }
83}

7.6.3 消息去重与幂等性

幂等性保证：

java

1@Component
2@Slf4j
3public class IdempotentMessageProcessor {
4    
5    private final RedisTemplate<String, String> redisTemplate;
6    private final OrderService orderService;
7    
8    @KafkaListener(topics = "order-events", groupId = "idempotent-processor")
9    public void processOrderEvent(@Payload OrderEvent orderEvent,
10                                @Header("message-id") String messageId) {
11        
12        // 1. 检查消息是否已处理
13        if (isMessageProcessed(messageId)) {
14            log.info("消息已处理，跳过: messageId={}", messageId);
15            return;
16        }
17        
18        // 2. 标记消息为处理中
19        markMessageAsProcessing(messageId);
20        
21        try {
22            // 3. 业务处理
23            orderService.processOrder(orderEvent);
24            
25            // 4. 标记消息为已处理
26            markMessageAsProcessed(messageId);
27            
28        } catch (Exception e) {
29            // 5. 处理失败，清除处理标记
30            clearProcessingMark(messageId);
31            throw e;
32        }
33    }
34    
35    private boolean isMessageProcessed(String messageId) {
36        String key = "processed:" + messageId;
37        return redisTemplate.hasKey(key);
38    }
39    
40    private void markMessageAsProcessing(String messageId) {
41        String key = "processing:" + messageId;
42        String processingKey = "processed:" + messageId;
43        
44        // 使用Redis原子操作保证并发安全
45        Boolean success = redisTemplate.opsForValue()
46            .setIfAbsent(key, "processing", Duration.ofMinutes(5));
47        
48        if (!success) {
49            throw new DuplicateMessageException("消息正在处理中: " + messageId);
50        }
51    }
52    
53    private void markMessageAsProcessed(String messageId) {
54        String processingKey = "processing:" + messageId;
55        String processedKey = "processed:" + messageId;
56        
57        // 原子操作：删除处理标记，添加已处理标记
58        redisTemplate.execute(new SessionCallback<Object>() {
59            @Override
60            public Object execute(RedisOperations operations) {
61                operations.multi();
62                operations.delete(processingKey);
63                operations.opsForValue().set(processedKey, "processed", 
64                    Duration.ofHours(24));
65                return operations.exec();
66            }
67        });
68    }
69}

7.6.4 消息顺序保证

分区内顺序处理：

java

1@Component
2@Slf4j
3public class OrderedMessageProcessor {
4    
5    private final Map<String, BlockingQueue<OrderEvent>> partitionQueues = new ConcurrentHashMap<>();
6    private final ExecutorService executorService = Executors.newFixedThreadPool(10);
7    
8    @KafkaListener(topics = "order-events", groupId = "ordered-processor")
9    public void handleOrderEvent(@Payload OrderEvent orderEvent,
10                               @Header(KafkaHeaders.RECEIVED_PARTITION_ID) int partition) {
11        
12        String partitionKey = "partition-" + partition;
13        
14        // 将消息放入对应分区的队列
15        partitionQueues.computeIfAbsent(partitionKey, 
16            k -> new LinkedBlockingQueue<>()).offer(orderEvent);
17        
18        // 异步处理该分区的消息
19        executorService.submit(() -> processPartitionMessages(partitionKey));
20    }
21    
22    private void processPartitionMessages(String partitionKey) {
23        BlockingQueue<OrderEvent> queue = partitionQueues.get(partitionKey);
24        
25        while (!queue.isEmpty()) {
26            try {
27                OrderEvent orderEvent = queue.take();
28                processOrderEvent(orderEvent);
29            } catch (InterruptedException e) {
30                Thread.currentThread().interrupt();
31                break;
32            } catch (Exception e) {
33                log.error("处理分区消息失败: partition={}, error={}", 
34                    partitionKey, e.getMessage(), e);
35                // 错误处理逻辑
36                handleProcessingError(partitionKey, e);
37            }
38        }
39    }
40    
41    private void processOrderEvent(OrderEvent orderEvent) {
42        // 确保同一分区的消息按顺序处理
43        log.info("处理订单事件: orderId={}, partition={}", 
44            orderEvent.getOrderId(), orderEvent.getPartition());
45        
46        // 业务处理逻辑
47        orderService.processOrder(orderEvent);
48    }
49}

7.6.5 监控与告警

自定义监控指标：

java

1@Component
2@Slf4j
3public class KafkaMetricsCollector {
4    
5    private final MeterRegistry meterRegistry;
6    private final Counter messageProcessedCounter;
7    private final Counter messageFailedCounter;
8    private final Timer messageProcessingTimer;
9    private final Gauge consumerLagGauge;
10    
11    public KafkaMetricsCollector(MeterRegistry meterRegistry) {
12        this.meterRegistry = meterRegistry;
13        
14        // 消息处理计数器
15        this.messageProcessedCounter = Counter.builder("kafka.messages.processed")
16            .description("已处理的消息数量")
17            .register(meterRegistry);
18        
19        // 消息失败计数器
20        this.messageFailedCounter = Counter.builder("kafka.messages.failed")
21            .description("处理失败的消息数量")
22            .register(meterRegistry);
23        
24        // 消息处理时间
25        this.messageProcessingTimer = Timer.builder("kafka.message.processing.time")
26            .description("消息处理时间")
27            .register(meterRegistry);
28        
29        // 消费者延迟
30        this.consumerLagGauge = Gauge.builder("kafka.consumer.lag")
31            .description("消费者延迟")
32            .register(meterRegistry, this, KafkaMetricsCollector::getConsumerLag);
33    }
34    
35    public void recordMessageProcessed(String topic, String consumerGroup) {
36        messageProcessedCounter.increment(
37            Tags.of("topic", topic, "consumer_group", consumerGroup));
38    }
39    
40    public void recordMessageFailed(String topic, String consumerGroup, String errorType) {
41        messageFailedCounter.increment(
42            Tags.of("topic", topic, "consumer_group", consumerGroup, "error_type", errorType));
43    }
44    
45    public void recordProcessingTime(String topic, Duration duration) {
46        messageProcessingTimer.record(duration);
47    }
48    
49    private double getConsumerLag() {
50        // 实现获取消费者延迟的逻辑
51        return calculateConsumerLag();
52    }
53    
54    private double calculateConsumerLag() {
55        // 实际实现中需要查询Kafka获取延迟信息
56        return 0.0;
57    }
58}

健康检查端点：

java

1@RestController
2@RequestMapping("/health")
3public class KafkaHealthController {
4    
5    private final KafkaAdmin kafkaAdmin;
6    private final KafkaMetricsCollector metricsCollector;
7    
8    @GetMapping("/kafka")
9    public ResponseEntity<Map<String, Object>> checkKafkaHealth() {
10        Map<String, Object> health = new HashMap<>();
11        
12        try {
13            // 检查Kafka连接
14            boolean isConnected = checkKafkaConnection();
15            health.put("status", isConnected ? "UP" : "DOWN");
16            health.put("kafka_connection", isConnected);
17            
18            // 检查消费者延迟
19            double consumerLag = metricsCollector.getConsumerLag();
20            health.put("consumer_lag", consumerLag);
21            health.put("lag_status", consumerLag < 1000 ? "NORMAL" : "HIGH");
22            
23            // 检查处理速率
24            double processingRate = getProcessingRate();
25            health.put("processing_rate", processingRate);
26            
27            return ResponseEntity.ok(health);
28            
29        } catch (Exception e) {
30            health.put("status", "DOWN");
31            health.put("error", e.getMessage());
32            return ResponseEntity.status(503).body(health);
33        }
34    }
35    
36    private boolean checkKafkaConnection() {
37        try {
38            kafkaAdmin.describeTopics("test-topic");
39            return true;
40        } catch (Exception e) {
41            return false;
42        }
43    }
44    
45    private double getProcessingRate() {
46        // 实现获取处理速率的逻辑
47        return 0.0;
48    }
49}

7.7 性能测试与调优实践

7.7.1 性能基准测试

Kafka性能测试工具：

bash

1#!/bin/bash
2# kafka-benchmark.sh
3
4KAFKA_HOME="/opt/kafka"
5BROKER_LIST="localhost:9092"
6TOPIC_NAME="benchmark-topic"
7
8echo "=== Kafka性能基准测试 ==="
9
10# 1. 生产者性能测试
11echo "1. 测试生产者性能..."
12kafka-producer-perf-test.sh \
13  --topic $TOPIC_NAME \
14  --num-records 1000000 \
15  --record-size 1024 \
16  --throughput 10000 \
17  --producer-props bootstrap.servers=$BROKER_LIST \
18  --producer-props acks=all \
19  --producer-props retries=3 \
20  --producer-props batch.size=16384 \
21  --producer-props linger.ms=5
22
23# 2. 消费者性能测试
24echo "2. 测试消费者性能..."
25kafka-consumer-perf-test.sh \
26  --topic $TOPIC_NAME \
27  --bootstrap-server $BROKER_LIST \
28  --messages 1000000 \
29  --threads 4 \
30  --group test-group
31
32# 3. 端到端延迟测试
33echo "3. 测试端到端延迟..."
34kafka-producer-perf-test.sh \
35  --topic $TOPIC_NAME \
36  --num-records 10000 \
37  --record-size 1024 \
38  --throughput -1 \
39  --producer-props bootstrap.servers=$BROKER_LIST \
40  --producer-props acks=1 &
41
42sleep 5
43
44kafka-consumer-perf-test.sh \
45  --topic $TOPIC_NAME \
46  --bootstrap-server $BROKER_LIST \
47  --messages 10000 \
48  --threads 1 \
49  --group latency-test-group
50
51echo "=== 性能测试完成 ==="

自定义性能测试工具：

java

1@Component
2@Slf4j
3public class KafkaPerformanceTester {
4    
5    private final KafkaTemplate<String, Object> kafkaTemplate;
6    private final MeterRegistry meterRegistry;
7    
8    public void runProducerBenchmark(String topic, int messageCount, int messageSize) {
9        log.info("开始生产者性能测试: topic={}, count={}, size={}", 
10            topic, messageCount, messageSize);
11        
12        Timer.Sample sample = Timer.start(meterRegistry);
13        
14        for (int i = 0; i < messageCount; i++) {
15            String message = generateMessage(messageSize);
16            kafkaTemplate.send(topic, String.valueOf(i), message);
17        }
18        
19        sample.stop(Timer.builder("kafka.producer.benchmark")
20            .register(meterRegistry));
21        
22        log.info("生产者性能测试完成");
23    }
24    
25    public void runConsumerBenchmark(String topic, String groupId, int expectedMessages) {
26        log.info("开始消费者性能测试: topic={}, group={}, expected={}", 
27            topic, groupId, expectedMessages);
28        
29        AtomicInteger messageCount = new AtomicInteger(0);
30        Timer.Sample sample = Timer.start(meterRegistry);
31        
32        // 使用KafkaListener进行测试
33        // 实际实现中需要配置测试专用的消费者
34        
35        log.info("消费者性能测试完成: processed={}", messageCount.get());
36    }
37    
38    private String generateMessage(int size) {
39        StringBuilder sb = new StringBuilder();
40        for (int i = 0; i < size; i++) {
41            sb.append('A');
42        }
43        return sb.toString();
44    }
45}

7.7.2 性能调优策略

生产者调优：

java

1@Configuration
2public class OptimizedKafkaConfig {
3    
4    @Bean
5    public ProducerFactory<String, Object> optimizedProducerFactory() {
6        Map<String, Object> configProps = new HashMap<>();
7        
8        // 基础配置
9        configProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
10        configProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class);
11        configProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, JsonSerializer.class);
12        
13        // 性能优化配置
14        configProps.put(ProducerConfig.ACKS_CONFIG, "1"); // 降低延迟
15        configProps.put(ProducerConfig.RETRIES_CONFIG, 3);
16        configProps.put(ProducerConfig.BATCH_SIZE_CONFIG, 32768); // 增加批次大小
17        configProps.put(ProducerConfig.LINGER_MS_CONFIG, 10); // 增加等待时间
18        configProps.put(ProducerConfig.BUFFER_MEMORY_CONFIG, 67108864); // 增加缓冲区
19        configProps.put(ProducerConfig.COMPRESSION_TYPE_CONFIG, "snappy"); // 启用压缩
20        configProps.put(ProducerConfig.MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION, 5);
21        configProps.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true);
22        
23        // 网络优化
24        configProps.put(ProducerConfig.SEND_BUFFER_CONFIG, 131072);
25        configProps.put(ProducerConfig.RECEIVE_BUFFER_CONFIG, 131072);
26        
27        return new DefaultKafkaProducerFactory<>(configProps);
28    }
29    
30    @Bean
31    public ConsumerFactory<String, Object> optimizedConsumerFactory() {
32        Map<String, Object> configProps = new HashMap<>();
33        
34        // 基础配置
35        configProps.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
36        configProps.put(ConsumerConfig.GROUP_ID_CONFIG, "optimized-group");
37        configProps.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
38        configProps.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, JsonDeserializer.class);
39        
40        // 性能优化配置
41        configProps.put(ConsumerConfig.FETCH_MIN_BYTES_CONFIG, 1048576); // 增加最小拉取大小
42        configProps.put(ConsumerConfig.FETCH_MAX_WAIT_MS_CONFIG, 500); // 减少等待时间
43        configProps.put(ConsumerConfig.MAX_PARTITION_FETCH_BYTES_CONFIG, 1048576); // 增加分区拉取大小
44        configProps.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG, 30000);
45        configProps.put(ConsumerConfig.HEARTBEAT_INTERVAL_MS_CONFIG, 10000);
46        configProps.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "latest");
47        configProps.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false); // 手动提交
48        
49        return new DefaultKafkaConsumerFactory<>(configProps);
50    }
51}

JVM调优配置：

bash

1#!/bin/bash
2# kafka-jvm-tuning.sh
3
4# 设置JVM参数
5export KAFKA_HEAP_OPTS="-Xmx8g -Xms8g"
6
7# G1GC优化参数
8export KAFKA_JVM_PERFORMANCE_OPTS="
9-server
10-XX:+UseG1GC
11-XX:MaxGCPauseMillis=20
12-XX:InitiatingHeapOccupancyPercent=35
13-XX:+ExplicitGCInvokesConcurrent
14-XX:MaxInlineLevel=15
15-XX:+UseStringDeduplication
16-XX:+OptimizeStringConcat
17-XX:+UseCompressedOops
18-XX:+UseCompressedClassPointers
19-Djava.awt.headless=true
20"
21
22# 网络优化参数
23export KAFKA_OPTS="
24-Djava.net.preferIPv4Stack=true
25-Dcom.sun.management.jmxremote
26-Dcom.sun.management.jmxremote.authenticate=false
27-Dcom.sun.management.jmxremote.ssl=false
28-Dcom.sun.management.jmxremote.port=9999
29"
30
31echo "JVM调优参数已设置"

7.7.3 系统级优化

Linux系统优化：

bash

1#!/bin/bash
2# kafka-system-tuning.sh
3
4echo "=== Kafka系统级优化 ==="
5
6# 1. 网络参数优化
7echo "1. 优化网络参数..."
8cat >> /etc/sysctl.conf << EOF
9# 网络缓冲区
10net.core.rmem_max = 134217728
11net.core.wmem_max = 134217728
12net.ipv4.tcp_rmem = 4096 65536 134217728
13net.ipv4.tcp_wmem = 4096 65536 134217728
14
15# 网络连接优化
16net.core.netdev_max_backlog = 5000
17net.ipv4.tcp_max_syn_backlog = 4096
18net.ipv4.tcp_keepalive_time = 600
19net.ipv4.tcp_keepalive_intvl = 60
20net.ipv4.tcp_keepalive_probes = 3
21
22# 文件描述符
23fs.file-max = 1000000
24fs.nr_open = 1000000
25EOF
26
27# 2. 磁盘I/O优化
28echo "2. 优化磁盘I/O..."
29cat >> /etc/sysctl.conf << EOF
30# 虚拟内存优化
31vm.swappiness = 1
32vm.dirty_ratio = 15
33vm.dirty_background_ratio = 5
34vm.dirty_expire_centisecs = 3000
35vm.dirty_writeback_centisecs = 500
36EOF
37
38# 3. 应用系统参数
39sysctl -p
40
41# 4. 设置文件描述符限制
42echo "3. 设置文件描述符限制..."
43cat >> /etc/security/limits.conf << EOF
44kafka soft nofile 1000000
45kafka hard nofile 1000000
46kafka soft nproc 1000000
47kafka hard nproc 1000000
48EOF
49
50# 5. 磁盘挂载优化
51echo "4. 优化磁盘挂载..."
52# 为Kafka数据目录添加noatime选项
53mount -o remount,noatime /data
54
55echo "=== 系统优化完成 ==="

7.7.4 监控指标分析

关键性能指标：

java

1@Component
2@Slf4j
3public class KafkaPerformanceAnalyzer {
4    
5    private final MeterRegistry meterRegistry;
6    private final KafkaAdmin kafkaAdmin;
7    
8    public PerformanceReport analyzePerformance() {
9        PerformanceReport report = new PerformanceReport();
10        
11        // 1. 吞吐量分析
12        double producerThroughput = calculateProducerThroughput();
13        double consumerThroughput = calculateConsumerThroughput();
14        report.setProducerThroughput(producerThroughput);
15        report.setConsumerThroughput(consumerThroughput);
16        
17        // 2. 延迟分析
18        double p99Latency = calculateP99Latency();
19        double avgLatency = calculateAverageLatency();
20        report.setP99Latency(p99Latency);
21        report.setAverageLatency(avgLatency);
22        
23        // 3. 资源使用率
24        double cpuUsage = getCpuUsage();
25        double memoryUsage = getMemoryUsage();
26        double diskUsage = getDiskUsage();
27        report.setCpuUsage(cpuUsage);
28        report.setMemoryUsage(memoryUsage);
29        report.setDiskUsage(diskUsage);
30        
31        // 4. 消费者延迟
32        double consumerLag = getConsumerLag();
33        report.setConsumerLag(consumerLag);
34        
35        // 5. 生成性能报告
36        generatePerformanceReport(report);
37        
38        return report;
39    }
40    
41    private void generatePerformanceReport(PerformanceReport report) {
42        log.info("=== Kafka性能分析报告 ===");
43        log.info("生产者吞吐量: {} msg/s", report.getProducerThroughput());
44        log.info("消费者吞吐量: {} msg/s", report.getConsumerThroughput());
45        log.info("P99延迟: {} ms", report.getP99Latency());
46        log.info("平均延迟: {} ms", report.getAverageLatency());
47        log.info("CPU使用率: {}%", report.getCpuUsage());
48        log.info("内存使用率: {}%", report.getMemoryUsage());
49        log.info("磁盘使用率: {}%", report.getDiskUsage());
50        log.info("消费者延迟: {} ms", report.getConsumerLag());
51        
52        // 性能建议
53        providePerformanceRecommendations(report);
54    }
55    
56    private void providePerformanceRecommendations(PerformanceReport report) {
57        log.info("=== 性能优化建议 ===");
58        
59        if (report.getProducerThroughput() < 10000) {
60            log.warn("生产者吞吐量较低，建议：");
61            log.warn("- 增加batch.size");
62            log.warn("- 启用压缩");
63            log.warn("- 调整linger.ms");
64        }
65        
66        if (report.getP99Latency() > 100) {
67            log.warn("延迟较高，建议：");
68            log.warn("- 减少acks配置");
69            log.warn("- 优化网络参数");
70            log.warn("- 检查磁盘I/O");
71        }
72        
73        if (report.getConsumerLag() > 1000) {
74            log.warn("消费者延迟较高，建议：");
75            log.warn("- 增加消费者实例");
76            log.warn("- 优化fetch配置");
77            log.warn("- 检查处理逻辑性能");
78        }
79    }
80}

7.7.5 压力测试场景

多场景压力测试：

java

1@Component
2@Slf4j
3public class KafkaStressTester {
4    
5    private final KafkaTemplate<String, Object> kafkaTemplate;
6    private final ExecutorService executorService = Executors.newFixedThreadPool(20);
7    
8    public void runStressTest() {
9        log.info("开始Kafka压力测试...");
10        
11        // 场景1：高并发写入
12        runHighConcurrencyWriteTest();
13        
14        // 场景2：大消息处理
15        runLargeMessageTest();
16        
17        // 场景3：长时间运行
18        runLongRunningTest();
19        
20        // 场景4：故障恢复
21        runFailureRecoveryTest();
22        
23        log.info("压力测试完成");
24    }
25    
26    private void runHighConcurrencyWriteTest() {
27        log.info("场景1：高并发写入测试");
28        
29        int threadCount = 20;
30        int messagesPerThread = 10000;
31        
32        CountDownLatch latch = new CountDownLatch(threadCount);
33        
34        for (int i = 0; i < threadCount; i++) {
35            final int threadId = i;
36            executorService.submit(() -> {
37                try {
38                    for (int j = 0; j < messagesPerThread; j++) {
39                        String message = String.format("Thread-%d-Message-%d", threadId, j);
40                        kafkaTemplate.send("stress-test-topic", String.valueOf(j), message);
41                    }
42                } finally {
43                    latch.countDown();
44                }
45            });
46        }
47        
48        try {
49            latch.await(5, TimeUnit.MINUTES);
50            log.info("高并发写入测试完成");
51        } catch (InterruptedException e) {
52            Thread.currentThread().interrupt();
53        }
54    }
55    
56    private void runLargeMessageTest() {
57        log.info("场景2：大消息处理测试");
58        
59        int[] messageSizes = {1024, 10240, 102400, 1048576}; // 1KB, 10KB, 100KB, 1MB
60        
61        for (int size : messageSizes) {
62            String largeMessage = generateLargeMessage(size);
63            long startTime = System.currentTimeMillis();
64            
65            kafkaTemplate.send("large-message-topic", "large-message", largeMessage);
66            
67            long endTime = System.currentTimeMillis();
68            log.info("大消息测试完成: size={} bytes, time={} ms", 
69                size, endTime - startTime);
70        }
71    }
72    
73    private void runLongRunningTest() {
74        log.info("场景3：长时间运行测试");
75        
76        long startTime = System.currentTimeMillis();
77        long endTime = startTime + TimeUnit.HOURS.toMillis(1); // 运行1小时
78        
79        int messageCount = 0;
80        while (System.currentTimeMillis() < endTime) {
81            String message = String.format("LongRunning-Message-%d", messageCount++);
82            kafkaTemplate.send("long-running-topic", String.valueOf(messageCount), message);
83            
84            if (messageCount % 1000 == 0) {
85                log.info("长时间运行测试: 已发送 {} 条消息", messageCount);
86            }
87            
88            try {
89                Thread.sleep(10); // 10ms间隔
90            } catch (InterruptedException e) {
91                Thread.currentThread().interrupt();
92                break;
93            }
94        }
95        
96        log.info("长时间运行测试完成: 总共发送 {} 条消息", messageCount);
97    }
98    
99    private void runFailureRecoveryTest() {
100        log.info("场景4：故障恢复测试");
101        
102        // 模拟网络中断
103        simulateNetworkFailure();
104        
105        // 模拟Broker重启
106        simulateBrokerRestart();
107        
108        // 模拟消费者重启
109        simulateConsumerRestart();
110        
111        log.info("故障恢复测试完成");
112    }
113    
114    private String generateLargeMessage(int size) {
115        StringBuilder sb = new StringBuilder();
116        for (int i = 0; i < size; i++) {
117            sb.append('A');
118        }
119        return sb.toString();
120    }
121    
122    private void simulateNetworkFailure() {
123        // 实际实现中需要模拟网络故障
124        log.info("模拟网络故障...");
125    }
126    
127    private void simulateBrokerRestart() {
128        // 实际实现中需要重启Broker
129        log.info("模拟Broker重启...");
130    }
131    
132    private void simulateConsumerRestart() {
133        // 实际实现中需要重启消费者
134        log.info("模拟消费者重启...");
135    }
136}

8. Kafka最佳实践与总结

8.1 设计原则与最佳实践

架构设计原则：

合理规划分区数：根据并发需求和数据量设置分区数
选择合适副本因子：平衡可靠性和存储成本
设计合理的Topic结构：按业务域和数据类型划分
考虑数据保留策略：根据业务需求设置保留时间和大小

性能优化原则：

批量处理优先：使用批量发送和消费提高吞吐量
异步操作优先：优先使用异步API减少延迟
合理使用压缩：选择合适的压缩算法平衡CPU和网络
监控驱动优化：基于监控数据进行针对性优化

可靠性保证原则：

多副本冗余：使用多副本保证数据安全
优雅降级：设计降级策略应对异常情况
完善监控：建立完整的监控和告警体系
定期演练：定期进行故障演练和恢复测试

7.2 技术选型建议

Kafka适用场景：

高吞吐量的实时数据管道
事件驱动架构的消息中间件
大数据平台的数据收集
微服务间的异步通信
日志聚合和监控数据收集

与其他消息队列对比：

特性	Kafka	RabbitMQ	RocketMQ	ActiveMQ
吞吐量	极高	中等	高	中等
延迟	低	低	低	中等
可靠性	高	高	高	中等
扩展性	优秀	良好	优秀	一般
运维复杂度	中等	低	高	低
生态系统	丰富	丰富	中等	丰富

7.3 学习路径建议

基础阶段：

理解Kafka核心概念和架构
掌握基本的生产者和消费者API
学习Topic和分区的设计原则
了解副本机制和一致性保证

进阶阶段：

深入学习Kafka Streams流处理
掌握性能优化和调优技巧
学习集群部署和运维管理
了解监控和故障排查方法

高级阶段：

研究Kafka源码和实现原理
设计大规模分布式消息系统
参与开源社区贡献代码
分享经验和最佳实践

Kafka学习建议

理论与实践结合：在理解概念的基础上多做实际项目
关注性能优化：学会分析和优化Kafka性能
掌握运维技能：能够部署和管理生产环境的Kafka集群
跟进技术发展：关注Kafka新版本特性和社区动态
积累实战经验：通过实际项目积累故障排查和优化经验

通过本章的深入学习，你应该已经全面掌握了Apache Kafka的核心概念、架构设计、性能优化和实战应用。Kafka作为现代大数据和实时处理架构中的核心组件，在构建高性能、高可靠的数据管道和事件驱动系统中发挥着关键作用。

在实际项目中，合理使用Kafka不仅能够处理大规模的实时数据流，还能简化系统架构，提高开发效率。希望这份详细的Kafka指南能够帮助你在技术面试和实际工作中游刃有余，成为Kafka技术专家！

1. Kafka基础架构与设计理念​

1.1 Kafka核心设计哲学​

设计原则详解​

1.2 Kafka应用场景全景图​

2.1 Broker（代理服务器）- 集群的基石​

2.2 Topic（主题）- 消息分类的逻辑容器​

2.3 Partition（分区）- 并行处理的基础​

3. Kafka生产者与消费者深度实战

3.1 Producer（生产者）- 高性能消息发送​

3.2 Consumer（消费者）- 高效消息消费​

4. Kafka Streams流处理框架​

4.1 Kafka Streams核心概念​

4.2 状态存储与容错机制​

5. Kafka性能优化与监控​

5.1 性能优化策略​

6. Kafka面试题精选与深度解析​

6.1 基础概念与架构题​

6.2 性能优化与调优题​

6.3 架构设计与实战题​

6.4 故障排查与运维题​

7. Kafka实战项目案例​

7.1 电商订单处理系统​

7.1.1 系统架构设计​

7.1.2 项目结构​

7.1.3 核心代码实现​

7.1.4 配置管理​

7.1.5 Docker部署配置​

7.1.6 监控和告警​

7.2 性能测试实践​

7.2.1 压力测试脚本​

7.2.2 JMeter测试计划​

7.3 生产环境部署指南​

7.3.1 集群规划​

7.3.2 配置文件优化​

7.3.3 安全配置​

7.3.4 监控配置​

7.4 运维管理实践​

7.4.1 日常运维脚本​

7.4.2 故障排查指南​

7.4.3 性能调优实践​

7.5 与其他技术栈集成​

7.5.1 Spring Boot集成​

7.5.2 与数据库集成​

7.5.3 与Elasticsearch集成​

7.6 高级错误处理与容错机制​

7.6.1 生产者错误处理​

7.6.2 消费者错误处理​

7.6.3 消息去重与幂等性​

7.6.4 消息顺序保证​

7.6.5 监控与告警​

7.7 性能测试与调优实践​

7.7.1 性能基准测试​

7.7.2 性能调优策略​

7.7.3 系统级优化​

7.7.4 监控指标分析​

7.7.5 压力测试场景​

8. Kafka最佳实践与总结​

8.1 设计原则与最佳实践​

7.2 技术选型建议​

7.3 学习路径建议​

评论

1. Kafka基础架构与设计理念

1.1 Kafka核心设计哲学

设计原则详解

1.2 Kafka应用场景全景图

2.1 Broker（代理服务器）- 集群的基石

2.2 Topic（主题）- 消息分类的逻辑容器

2.3 Partition（分区）- 并行处理的基础

3.1 Producer（生产者）- 高性能消息发送

3.2 Consumer（消费者）- 高效消息消费

4. Kafka Streams流处理框架

4.1 Kafka Streams核心概念

4.2 状态存储与容错机制

5. Kafka性能优化与监控

5.1 性能优化策略

6. Kafka面试题精选与深度解析

6.1 基础概念与架构题

6.2 性能优化与调优题

6.3 架构设计与实战题

6.4 故障排查与运维题

7. Kafka实战项目案例

7.1 电商订单处理系统

7.1.1 系统架构设计

7.1.2 项目结构

7.1.3 核心代码实现

7.1.4 配置管理

7.1.5 Docker部署配置

7.1.6 监控和告警

7.2 性能测试实践

7.2.1 压力测试脚本

7.2.2 JMeter测试计划

7.3 生产环境部署指南

7.3.1 集群规划

7.3.2 配置文件优化

7.3.3 安全配置

7.3.4 监控配置

7.4 运维管理实践

7.4.1 日常运维脚本

7.4.2 故障排查指南

7.4.3 性能调优实践

7.5 与其他技术栈集成

7.5.1 Spring Boot集成

7.5.2 与数据库集成

7.5.3 与Elasticsearch集成

7.6 高级错误处理与容错机制

7.6.1 生产者错误处理

7.6.2 消费者错误处理

7.6.3 消息去重与幂等性

7.6.4 消息顺序保证

7.6.5 监控与告警

7.7 性能测试与调优实践

7.7.1 性能基准测试

7.7.2 性能调优策略

7.7.3 系统级优化

7.7.4 监控指标分析

7.7.5 压力测试场景

8. Kafka最佳实践与总结

8.1 设计原则与最佳实践

7.2 技术选型建议

7.3 学习路径建议