从概念、安装、配置到高阶玩法与踩坑实录,一份速查表带走
一、概念:10秒建立知识坐标
定位:分布式流式发布/订阅消息系统,高吞吐、可持久化、可水平扩展
核心模型: Topic → Partition → Offset Producer → Broker → Consumer(Group)
四大API:Producer / Consumer / Streams / Connect
二、安装&启动(Linux/Mac 3命令)
1.下载 & 解压
wget https://downloads.apache.org/kafka/3.8.0/kafka_2.13-3.8.0.tgz tar -xzf kafka_2.13-3.8.0.tgz && cd kafka_2.13-3.8.02.启动ZK(Kafka7已内置,但生产仍推荐独立ZK)
bin/zookeeper-server-start.sh config/zookeeper.properties3.启动Broker
bin/kafka-server-start.sh config/server.propertiesWindows 用同目录 .bat 即可
三、必改配置清单
项 | 示例值 | 说明 |
|---|---|---|
broker.id | 0 | 集群内唯一 |
listeners | PLAINTEXT://内网IP:9092 | 监听器,Docker/NAT必须显式 |
advertised.listeners | PLAINTEXT://外网IP:9092 | 客户端真正连接的地址 |
log.dirs | /data/kafka-logs | 数据目录,SSD最佳 |
zookeeper.connect | zk1:2181,zk2:2181 | 集群地址 |
num.partitions | 12 | 默认分区数,≤Broker数×2 |
retention.ms | 86400000 | 消息保留24h |
compression.type | lz4 | 压缩,高吞吐场景利器 |
端口/地址配错是第一大坑,Docker部署一定保持 listeners 与 advertised.listeners 映射一致 。
四、Spring Boot 3 最小可运行代码
依赖:
<dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifactId> </dependency>yml:
spring: kafka: bootstrap-servers: node1:9092,node2:9092 producer: retries: 3 batch-size: 16384 # 16KB批 linger-ms: 10 acks: all # 高可靠 consumer: group-id: ${spring.application.name} enable-auto-commit: false auto-offset-reset: earliest max-poll-records: 500生产者:
@RestController class ProducerCtl { @Autowired private KafkaTemplate<String,String> tpl; @GetMapping("/send") public String send(String msg){ tpl.send("demo", msg); return "ok"; } }消费者(手动提交,幂等):
@KafkaListener(topics = "demo") public void listen(ConsumerRecord<String,String> rec, Acknowledgment ack){ System.out.println("收到 = " + rec.value()); ack.acknowledge(); // 手动提交offset }启动即跑 。
五、进阶:高吞吐 & 低延迟组合拳
优化点 | 建议值 | 说明 |
|---|---|---|
batch.size | 32KB-128KB | 批量发送,提高吞吐 |
linger.ms | 5-20 | 等待批填满 |
compression.type | lz4/zstd | 压缩比&CPU平衡 |
acks | 1 / all | 1=低延迟;all=高可靠 |
max.poll.records | 500-1000 | 每次拉取条数 |
分区数 | ≈ Broker数 × 2 | 并行度最大 |
内存映射 | 给足 OS PageCache | 磁盘读↓ |
只加分区不加 Broker 是第二大坑,CPU/磁盘 IO 会爆 。
六、黑科技玩法
消息轨迹 → 给每条消息注入 trace-id,利用 Kafka Connect 写入 ES 可视化
流式 Join → Kafka Streams 双 Topic 按 Key 时间窗口 join,实时拼单
无限保序 → 单分区 + 幂等 Producer (enable.idempotence=true),Exactly-Once 语义
Retry + DLQ → 消费失败超次后自动写 topic-demo-DLQ,隔离死信
热扩容 → bin/kafka-reassign-partitions.sh 在线迁移副本,业务无感知
七、易踩坑 & 急救
坑点 | 现象 | 急救方案 |
|---|---|---|
端口/地址配错 | 客户端连不上 | listeners & advertised.listeners 用外网 IP,Docker 映射一致 |
消息丢失 | 生产成功但消费不到 | acks=all + 副本因子 ≥ 2 + 手动提交 offset |
磁盘爆满 | Broker 挂死 | 定时清理 log.retention.hours / retention.ms |
大消息拖慢 | TPS 骤降 | 增大 replica.fetch.max.bytes + 压缩 lz4 |
只扩分区不扩机器 | CPU 飙高 | 分区数 ≤ Broker×2 |
GC 风暴 | 延迟抖动 | 给足 16G+ 堆,G1GC,-XX:MaxGCPauseMillis=100 |
八、一条命令巡检集群健康
bin/kafka-run-class.sh kafka.tools.JmxTool \ --object-name kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec,topic=* \ --jmx-url service:jmx:rmi:///jndi/rmi://localhost:9999/jmxrmi关注 MessagesInPerSec、RequestQueueTimeMs、ConsumerLag 三个指标,Lag > 5 万就要扩容或加 Consumer 了。
九、一句话总结
Kafka = 分区顺序写 + PageCache 零拷贝 + 批压缩 三驾马车, “地址配好、批要开大、分区与 Broker 同步扩、监控 Lag 及时告警” —— 记住这四句,面试、调优、扛高并发都不会翻车!