AWS 基础设施故障和 Kafka 恢复问题导致 Coinbase 交易暂时停止。
Coinbase 于5月7日遭遇重大服务中断,导致多个平台的交易、交易所访问和客户余额更新功能失效。现货市场、衍生品、Prime 服务和国际交易业务均受到影响,持续数小时。
Coinbase 解释了 AWS 数据中心冷却系统故障如何引发服务中断,导致平台上的交易、交易所访问和客户账户数据均受到影响。Coinbase 首席执行官布莱恩·阿姆斯特朗(Brian Armstrong)在 X 平台上就此事发表了讲话。
“昨晚 Coinbase 遭遇了服务中断,这是绝对不能接受的,”阿姆斯特朗写道。他补充说,Coinbase 的大多数系统都设计为能够承受单个 AWS 可用区内的停机,但这家中心化交易所在这次服务中断期间并未做出相应的响应。
“虽然可以采取措施使交易所能够抵御可用区故障,但这可能会引入不必要的延迟,并破坏客户的托管服务,”阿姆斯特朗表示,并补充道:“鉴于此次事件,我们将重新审视这些权衡取舍,以确保为您提供最佳的交易场所。至少,当需要进行可用区迁移时,服务中断的持续时间应该能够大幅缩短。”

阿姆斯特朗指出,Coinbase 将重新审视如何在交易速度、客户服务器托管以及基础设施故障后的恢复时间之间取得平衡。他的发言重点在于减少未来服务中断对客户访问和交易活动的影响和持续时间。
Coinbase 工程主管 Rob Witoff 在 X 论坛上发帖称,此次故障始于5月7日晚间,当时内部系统开始出现故障,应急团队随即展开调查。此次故障影响了现货交易、Prime 交易、国际交易和衍生品交易。客户在访问交易服务、进行交易和查看账户余额方面也遇到了问题。
工程师随后将故障原因追溯到美国 AWS 数据中心内的冷却系统故障。Coinbase 表示,客户资金安全无虞,事件期间未发生任何数据丢失。
Coinbase 披露,监控系统于 UTC 时间23:50左右首次检测到连锁报价故障。随后不久,多起 Sev1 级事件接踵而至,促使各工程团队启动紧急响应程序。随着 AWS us-east-1 数据中心部分机架内部温度升高,与交易所核心基础设施相关的内部系统开始出现故障。
据 Coinbase 工程师称,与交易所撮合引擎相连的系统遭遇硬件故障。该引擎负责处理订单并维护 Coinbase 各市场的订单簿。受影响设施内部的基础设施问题导致只有部分节点能够运行。因此,集群未能达到法定人数,暂时中断了零售和机构用户的交易。
工程师们还面临着用于内部消息传递的分布式 Kafka 集群带来的难题。Coinbase 表示,这些集群每天处理数 TB 的数据,并且设计为在数据中心中断期间仍能保持运行。然而,在事件发生期间,恢复保证失效,迫使团队手动将分区恢复到备用硬件代理上。
Kafka 复制恢复期间,客户余额更新有所延迟。Coinbase 表示,系统恢复正常后,余额将自动同步。公司代表补充说,此次服务中断期间,没有任何客户或交易数据丢失。
自动恢复工具从受影响区域的大约10个 Kubernetes 集群中释放了工作负载。工程师隔离问题后,大多数内部服务在大约30分钟内恢复正常。与交易所匹配引擎和 Kafka 基础设施直接相关的系统恢复时间更长,因为两者都依赖于专用硬件和存储配置。
在稳定市场环境后,Coinbase 分阶段重新开放了交易。首先,交易进入仅允许取消模式,之后团队对产品状态进行了审核。随后,市场进入拍卖模式,最终在整个交易所恢复了全面交易。
Coinbase 称,在长达数小时的平台故障期间,没有数据丢失。
Coinbase 承认其架构的部分功能将关键的交易基础设施集中在一个可用区内。工程师表示,虽然已部署备用系统以应对故障转移,但隔离措施在事件发生期间失效。这导致服务中断的持续时间和范围超出预期。
公司高管对恢复过程中的内部协调给予了高度评价。据报道,工程团队和值班团队在基础设施受限的情况下,遵循既定的灾难恢复流程,对修复方案进行了测试和验证。
Coinbase 就账户和交易服务暂时无法访问的问题向客户致歉。公司高管表示,将在未来几周内发布完整的根本原因分析报告,同时还将推出旨在防止类似故障发生的可靠性改进计划。



