技术咨询

接口幂等做了还是重复扣费,哪里漏了?

支付/下单接口做了幂等key和唯一索引,但还是出现极少量重复扣费/重复创建。怀疑超时重试、事务边界、消息重复、时钟差、以及“先扣后记账”导致不一致。想要一套可靠方案:请求幂等+业务幂等怎么组合?用Outbox/事务消息/状态机能否彻底解决?

发布人:王佳祺

消息队列消费不均衡,延迟越堆越高

Kafka/RabbitMQ消费端偶发堆积,lag上升,某些分区/队列特别慢。怀疑分区策略、批量拉取、反压、下游依赖慢导致整体拖死。想请教怎么定位:看哪些指标(lag、rebalance、poll间隔、处理耗时分布),以及结构trick:并行度、批处理、幂等、死信队列、隔离慢任务。

发布人:刘慧

日志太多反而找不到关键,怎么设计日志体系?

问题发生时日志像海啸,grep半天抓不到根因;平时又缺关键字段。想问结构化日志怎么落地:字段规范、分级、采样策略、trace/span关联、错误码体系。以及如何把“业务指标+技术指标”串起来,让告警能直接指到一个模块/依赖/版本。

发布人:黄译漫

发布后内存一直涨,疑似泄漏但定位不到

版本更新后进程RSS缓慢上涨,几小时后开始频繁GC甚至OOM。怀疑缓存没过期、集合引用、线程本地变量、byte[]堆外内存。有没有靠谱的排查流程:heap dump怎么抓、MAT/YourKit看什么、线上如何低风险采样?以及防守性改法:限流、缓存上限、隔离大对象?

发布人:颜梦珍

并发一上来就死锁/卡顿,怎么抓现行?

线上偶发线程堆积,接口耗时飙升,重启就好一阵。怀疑死锁、锁竞争或线程池耗尽。想要一套“抓现行”方案:线程dump/锁分析、jstack怎么看、如何定位热点锁/阻塞点?结构上怎么改:细化锁、无锁队列、读写锁、分段锁或actor模型?

发布人:储义鑫

微服务调用链里谁在拖后腿?

一个请求要串6-8个服务,偶发超时难复现。现在只有粗粒度日志,定位靠猜。想问如何把可观测性补齐:traceId贯通、关键span怎么埋、哪些RED/USE指标最有用?以及常见结构优化:扇出并行、请求合并、熔断隔离、降级兜底,怎么优先级排序?

发布人:张晨