截至 2018 年 6 月 30 日,Backblaze 数据中心拥有 100,254 块机械硬盘硬盘。其中,有 1,989 块用于操作系统和 98,265 块用于数据存储。本次调查将查看数据中心运行的用作数据存储硬盘型号的季度和生命周期统计数据,还会对企业级与消费级硬盘进行对比。首先会介绍 东芝(Toshiba)14 TB 硬盘以及两个新的 SMART 统计数据。在此过程中,我们将分享对所提供数据的观察和见解。

Q2 2018 硬盘可靠性统计

截止 2018 年第 2 季末,以下沿用英文表达习惯 Q2 2018,在我们监控的 98,265 块硬盘中,排除那些用作测试以及单一型号部署量不足 45 块的硬盘,共有 98,184 块硬盘计入本期统计。下表 Q2 2018 的统计数据。

Q2-2018-Quarterly-chart

注释和观察

如果某型号 故障率0% 则表示在 Q2 2018 期间该型号硬盘没有发生错误。

Q2 的 年故障率(AFR)1.08%,远低于 Q1 2018,是我们截止目前最低的 AFR 记录。这说明季度故障率是波动的,特别是在某个型号硬盘数量较少或运行天数较少的时候。

由于单位型号的部署量不足 45 块,共有 81 块硬盘 (98,265 减去 98,184) 没有计入以上统计结果。当我们进行季度、年度以及硬盘生命周期统计时,会以 45 块同型号硬盘作为最小的统计单位。以 45 块硬盘作为最小统计单位只是历史传承,源于我们的 Storage Pods 的驱动器数量。

继续迁移硬盘

上述 Q2 2018 季度统计表基于 98,184 块硬盘,比 Q1 2018 仅增加 138 块硬盘。然而,我们在第一季度增加了近 40 PB 的云存储,如果将 40 PB 数据存储到 Q2 2018 新增的 138 块硬盘的话,每块硬盘必须存储将近 300 TB 的数据。虽然 300 TB 的硬盘很赞,但事实上我们使用了将近 4,800 块 12 TB 硬盘替换掉 4,600 块 4TB 硬盘。

被替换掉的 4TB 硬盘平均生命周期为 3.5 至 4 年,平均年故障率低于 3% AFR,为什么还要替换它们呢?原因很简单,为了降低驱动器的密度 - 同等面积的数据中心机房在硬盘替换后可以扩展出 3 倍的存储空间。虽然可以通过不断增加硬盘实现扩容,但之所以要保持在硬盘驱动器的临界点上,是因为必须充分利用数据中心的物理空间。

东芝 Toshiba 14 TB 和 SMART Stats 23,24

Q2 期间我们添加了 20 块 14 TB Toshiba 硬盘 (model: MG07ACA14TA),且额外订购了 1,200 块该型号硬盘将在 Q3 期间完成部署。这是一款填充氦气的 9 碟硬盘,采用 CMR/PRM 记录技术(非 SMR)。

此外,这款硬盘还添加了一对新的 SMART 状态:SMART 23 (氦气量降低) 和 SMART 24 (氦气量升高)。这两个属性会报告正常值和原始值,当前原始值为 0,标准化值为 100。当我们对这些值的有更多了解,会进一步介绍。届时,使用我们的硬盘测试数据的人需要更新数据模式并上传脚本以读入新属性。

这 20 块 Toshiba 14 TB 硬盘上线 3 周尚未发生故障,但现在评价它还为时过早。

硬盘生命周期可靠性统计

虽然前面的季度统计图表很有趣,但任何型号的硬盘测试都要随着时间推移的。以下是截至 2018 年 6 月 30 日所有在运行的硬盘型号的生命周期故障率图表。

Q2-2018-Lifetime-chart

注释和观察

所有大容量硬盘 (8-, 10- and 12 TB) 的总 AFR 仅为 1.02%。由于很多硬盘是在去年部署的,因此结果有一些波动,但我们仍旧预期这个比率在未来几年会有所下降。

所有服务中的硬盘整体故障率为 1.80%,这是我们历史最低值,上一个最好的结果为 Q1 2018 整体故障率 1.84%

企业级与消费级硬盘

Q3 2017 的状态调查中,我们对比了两款希捷 Seagate 8 TB 硬盘:一个是消费级 (model: ST8000DM002),另一个是企业级 (model: ST8000NM0055)。让我们对比他们在 Q3 2017 和 Q2 2018 的生命周期年故障率(AFR):

Q3 2017 生命周期 AFR

  • 8 TB 消费级硬盘: 1.1% AFR
  • 8 TB 企业级硬盘: 1.2% AFR

Q2 2018 生命周期 AFR

  • 8 TB 消费级硬盘: 1.03% AFR
  • 8 TB 企业级硬盘: 0.97% AFR

乍看之下企业级硬盘似乎更胜一筹,但在下定论之前,先了解几个细节:

  1. 让我们从运行天数开始,即给定型号使用中的硬盘的总运行天数。

    • 8 TB 消费级 (model: ST8000DM002): 6,395,117 天
    • 8 TB 企业级 (model: ST8000NM0055): 5,279,564 天

两种型号都有足够的运行天数,而且总数相当接近。

  1. 接下来我们通过每个型号的置信区间查看两者可能的偏差范围。

    • 8 TB 消费级 (model: ST8000DM002): 0.9% ~ 1.2%
    • 8 TB 企业级 (model: ST8000NM0055): 0.8% ~ 1.1%

范围很接近,但可能产生多种结果。消费级硬盘可以低至 0.9%,而企业级硬盘也可以高至 1.1%。

  1. 最后我们查看磁盘寿命 - 实际上平均运行年龄是准确的。这是给定型号的所有硬盘以月为单位的平均服务时间。我们将从每个硬盘达到大约当前硬盘总数量的时间点开始,这样就能弱化新增硬盘(非替换)对结果的影响。

Q2-2018-enterprise-vs-consumer-over-time

当限制硬盘数量和平均年龄时,企业级硬盘的 AFR(年度故障率)始终低于消费级硬盘的 AFR(尽管不是很多)。

是否每种型号的企业级硬盘都优于消费级硬盘尚不可知,但下面这些结论可能对你的选择有所帮助:

Snip20180903_27

Backblaze 在选购硬盘时是以“节俭”著称的。一次购买 100 个硬盘或面临硬盘危机时,购买消费级硬盘是很有意义的。但当你一次需要购买 100 PB 容量的硬盘时,决定性因素就已经不是企业级和消费级硬盘之间的价差了。

Reference