2024-12-06 13:58:51 来源:
企业数据存储大致可分为性能需求型和容量需求型两大类场景,前者的典型代表是计算类应用,通常以512B、4K等小数据块的随机读写为主,关注点聚焦在IOPS性能;而容量需求型存储则重点考量64K、128K及以上数据块的顺序读写性能(即带宽,MB/s),典型应用场景包括关键业务数据备份、文件共享、日志存储等,使用HDD为AI应用存储海量训练数据也是企业的主流选择。
虽然SSD的顺序读写性能高于HDD,但对于企业用户来说,实际的使用需要结合各种综合因素,除性能外,还有稳定性、可靠性、投入成本等多种因素。所以企业依然青睐使用HDD来满足海量数据增长引发的存储容量需求。而HDD是如何满足企业应用所需的呢?
本文将基于东芝的MG10-D系列空气封装硬盘,从实际测试出发,分析HDD在企业存储市场的优势特点。
1
基准测试:
可预测的性能,简化企业存储复杂度
MG10-D系列是东芝最新发布的传统磁记录格式 (CMR) 空气硬盘产品家族,有SATA和SAS两种接口,容量从1TB到10TB。据东芝官网信息,MG10-D系列硬盘的性能和电源能效均有明显提升,同时还提供即时清理擦除(SIE)和自加密驱动器(SED)等数据安全功能。本次测试用的HDD为3.5英寸外形规格的SATA接口硬盘,容量8TB。
图1:用于本次测试的东芝MG10-D系列磁盘,容量8TB
图2:硬盘背面
图3:硬盘接口为SATA 3.0规格,最大速率6Gb/s
图4:主轴电机,带动内部盘片高速旋转(7200转/分钟),并“托”起磁头实现数据存取
图5:主轴电机上方的通气孔,用以保持内外部气压平衡,旁边有英文提示“请勿遮挡”
基准性能测试的目的是用于评估HDD自身所能发挥出的性能,即 “裸盘性能”。根据海量文件存储、数据备份、云归档等场景的数据存取特点,测试选择用64K、128K及以上尺寸的数据块,通过常用的硬盘基准性能测试工具Iometer下发顺序读写负载来评估HDD的带宽表现。图6为东芝MG10-D系列8TB硬盘在128K数据块下的顺序读写性能。
图6:东芝MG10-D系列8TB硬盘的128K顺序读写性能
本节测试使用单一线程对东芝MG10-D系列8TB硬盘下发读写负载,从测试结果可以看出,在单线程、1队列深度时,硬盘达到最大读写带宽,均在290MB/s左右,此时的平均响应时间仅为0.46ms。
此测试结果表明了以下多层含义:
1、 顺序读写性能均衡,不管是顺序读(绿色柱状)还是顺序写(橙色柱状),在不同队列深度下的吞吐率都近乎相似,保持在290MB/s左右;
2、 在队列深度为1时,硬盘已达到最大的读写带宽290MB/s,应用体验稳定流畅。
3、 在达到最大带宽后,随着负载(队列深度)的增加,吞吐率保持平稳,响应时间随负载的增加而增长,这表明即使在密集负载情况下,东芝MG10-D 8TB硬盘依然能够发挥出最大带宽性能,且保持平稳,具有很好的性能可预测性,以便企业存储系统能更好地匹配业务需求。
值得注意的是,东芝官网公布的MG10-D系列HDD的顺序读写带宽为268MiB/s,为二进制。而本测试中的290MB/s使用十进制,换算成二进制大约为278MiB/s。
图7:不同数据块大小的顺序读写性能(吞吐率与响应时间)
上图7是东芝MG10-D系列8TB硬盘在使用64K、128K、256K、512K、1024K等不同大小数据块下的顺序读写带宽和响应时间表现。其性能表现趋势与上一测试结果近乎相似,在1队列深度时可达到最大吞吐率,且随着负载的继续增加,吞吐率保持不变,响应时间随数据块大小而变化。
图8:东芝MG10-D系列8TB硬盘稳定性测试结果
上图8为128K数据块在持续读写下的响应时间散布,在1分钟持续的读写负载下发中,响应时间大多散布在0.4~0.5ms之间,只有极少数分散在0.5ms之外,但均未超过0.6ms,这从另一方面显示了东芝MG10-D系列硬盘的性能稳定性与可预测性。
从基准测试的结果数据来看,东芝MG10-D系列8TB硬盘仅需单线程单队列的情况下就能达到最大吞吐率,即使在密集读写负载情况下也能保持稳定的最大带宽性能,所具备的性能可预测性,有助于企业用户简化存储系统的优化与管理工作。
基准性能测试反映的是东芝8TB硬盘本身所能发挥的最大性能,并不代表其在实际应用中的性能表现。接下来进行的文件性能测试将展示东芝8TB硬盘的实际应用性能表现。
2
如何让海量小文件存储更有效率?
文件存储是企业最常见的应用场景,典型如日志存储、文件共享、云数据备份与归档等,随着大数据分析技术的发展,海量文件存储也逐渐成为企业的典型应用场景,尤其是近几年掀起的又一轮AI狂潮,为AI模型训练所需的海量数据提供存储能力也是HDD的重要应用场景。
我们使用VDbench创建模拟企业实际数据环境,来测试东芝10-D系列8TB硬盘,评估在处理海量小文件场景下,硬盘的每秒文件读写数,每秒吞吐率,以及响应时间等多项表现。将东芝MG10-D系列8TB硬盘用作企业文件系统,并创建两层目录,每层10个目录,在第二层的所有目录中都创建2000个半/非结构化文件,总计20万个文件(即2000x10x10)。在不同的测试环节,VDbench会重新生成不同大小的20万个文件(如64K、128K、256K、512K、1024K),用以评估东芝MG10-D系列8TB硬盘在不同文件大小情况下的每秒文件读写数量和带宽吞吐。
图9展示的是64K、128K、256K及以上不同尺寸大小文件的顺序读取与写入性能:
图9:海量小文件的顺序读取/写入性能测试结果
从上图展示的测试结果来看,在64K和128K小文件测试中,MG10-D每秒可成功打开并传输的文件超1000个以上,随着文件尺寸的增大,每秒文件传输数开始下降,带宽则快速提升,在256K时达到最大带宽171MB/s;之后随着文件尺寸的增加,每秒文件传输数逐渐下降,带宽随之对应下降。
在文件顺序写入测试中(实际是重写),64K文件每秒可写入近950个,随着文件尺寸的增大,每秒写入数量逐步降低,写入带宽则随之提高。在1MB文件时达到最大带宽111MB/s。
在企业数据中心内,更多应用场景的数据传输特点是文件随机读写,图10展示的是不同尺寸大小文件的随机读取与写入性能测试结果:
图10:海量小文件随机读取/写入性能测试结果
图10测试结果显示,在20万小文件随机读取性能测试中,东芝MG10-D系列8TB硬盘在128K尺寸大小文件时,每秒成功打开并传输的文件数量最多,达到137个,对于HDD而言,这是一个极出色的性能成绩。随后,随着文件尺寸的增大,每秒打开数量降低,但带宽随之提高,在1MB尺寸文件时获得最大带宽38MB/s。
同理,在随机写入测试中,东芝MG10-D系列8TB硬盘在64K尺寸文件获得最大文件写入数量——每秒写入519个文件,随着测试文件尺寸的增大,每秒写入数量下降,但写入带宽逐渐上升,到1MB尺寸文件时获得最大带宽——97MB/s。
为何在文件性能测试中,随机写入性能远超随机读取性能?这是因为在测试中启用了硬盘写入缓存(Write Cache)。通常情况下,为了防止突然掉电导致缓存数据丢失,硬盘中的写入缓存大多处于关闭状态。而在本次测试中之所以打开写入缓存,这是因为东芝MG10-D系列硬盘中集成了持久写入缓存技术,即使突然掉电,该技术也能保证硬盘缓存中的数据安全。并且,该系列硬盘缓存都为512MB,更大容量意味着可以缓存更多数据,也意味着更好的性能。
以上两个测试结果显示,东芝MG10-D系列8TB硬盘对文件随机读取的加速效果低于随机写入,这是因为测试数据全部都是重新写入的新数据,没有调用到读缓存。而在文件随机写入测试中,下发的负载首先写入硬盘的写缓存(并经过排序),然后以类似顺序写入的方式写入硬盘,从测试结果来看,其加速效果非常明显,在64K文件大小时,每秒随机写入的文件数量约为顺序写入的55%,随着文件尺寸的增大,加速效果越发明显,在1MB文件大小时,随机写入带宽接近顺序写入带宽的90%(87%)。
在海量小文件存储系统中,存储的文件数量也会对文件读写性能带来影响(其他配置不变的情况下),此测试将评估128K尺寸文件大小下,不同文件数量对读写性能带来的影响,图11为测试结果:
图11:不同文件数量对存储性能的影响
在文件随机读取测试中,随着文件系统中文件数量的增加,每秒成功打开并传输的文件数量会随之下降,在超过10万个文件后,读取性能趋于平缓,响应时间也维持稳定。而在文件随机写入测试中,由于写入缓存的加速,虽然文件系统内文件数量显著增加,但每秒成功写入的文件数量依然平稳,响应时间也没有很大起伏,得益于缓存显著提升了企业文件系统的性能,尤其是写入性能。
上述结果均基于单机环境下对单块东芝MG10-D系列8TB硬盘进行测试获得,在企业实际环境中,存储系统通常有着数量多得多的硬盘。比如分布式存储,即使最小3节点也有多达36块硬盘,如果按上述测试数据推算,其能支持每秒最多3.6万个文件的并发访问。即使部署在传统双控阵列(12块硬盘)中,也能支持每秒最多近1.2万个文件的并发访问。更何况还有存储系统的内存/缓存加持,实现的系统综合实际性可高于上述数值。
本测试综合考虑HDD的性能后选择使用的是单机环境(i5-13600,14Core@2.7GHz,32G内存)进行测试,在测试中排除了系统内存、网络等因素的影响。在企业实际环境,如文件共享应用中,文件系统(NAS)缓存将会对文件读写性能带来利好,但不同的存储网络(GbE vs FC、10GbE vs 25GbE等)则会对测试结果带来较大影响,同时,客户端并发数量、读写负载混合比例等都会不同程度上影响文件系统性能。
3
除了性能,硬盘还有其他优点
东芝MG10-D系列硬盘是东芝专为企业存储而研发改进的传统磁记录格式(CMR)硬盘家族,除了上述测试中所反映出的性能稳定性、可预测性外,为满足企业存储需求,东芝MG10-D系列硬盘还有着很多特点及可选择的附加功能,比如:
即时清理擦除(SIE)和自加密功能(SED)。很多企业,尤其是有着大规模数据中心的企业,因故障更换硬盘、报废硬盘后,如何处理被淘汰硬盘通常是一个难题,其上可能存放着企业敏感数据。而利用这两项安全功能,能帮助企业更好地处理数据安全风险。东芝MG10-D全容量系列硬盘均支持这两项功能。
持久写入缓存技术。可在保证最优写入性能(Write Cache启用)的基础上防范由于突然掉电导致缓存数据丢失的风险,帮助企业在保证数据安全的同时更好地应对突发业务波峰。
存储选择更灵活。东芝MG10-D系列硬盘不仅提供用于构建分布式存储的SATA接口硬盘,还提供满足企业存储阵列需求的SAS接口硬盘;企业还可根据业务所需灵活选择512e/4Kn或512n等不同扇区格式的硬盘,可无缝融入企业各种业务场景;1TB起步、最高10TB的容量规格也让企业拥有更灵活的选择。
图12:东芝MG10-D系列提供不同规格型号的硬盘,供企业按需求灵活选择
除上述特点以外,东芝MG10-D系列硬盘每年额定工作负载总传输率可达550TB;同时还具有很好的电源能效,在活跃待机模式下的功耗降至5.74W,相比上一代产品能耗节省方面也有很大提升。对于聚集了数万台服务器的企业数据中心,每一瓦的能耗节省都能为用户带来更好的成本管控制。
在很多企业数据中心的主流应用场景,HDD以其可预测的性能、更具性价比的投入、经验证的可靠性、更灵活的容量与接口选择,以及优异的兼容性等特点,能够更好地支撑企业业务的正常稳定运行。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。