< 返回 比特网

UCloud彭晶鑫:软硬兼施,打造100微秒延迟的“云存储”

块存储是云计算的基础储件,它具备可随机读写的能力、高可靠和低时延特性。一般采用多副本和分布式冗余等多种技术防止单节点故障以及网络波动带来数据不可用的问题。利用分布式块存储,云服务器可以实现计算和存储分离。UCloud块存储研发总监彭晶鑫在UCloud用户大会的技术分会场演讲中这样阐述块存储。

UCloud块存储研发总监彭晶鑫

的确,实现计算与存储分离之后,对于整个云平台的运维能够带来诸多益处。例如在线迁移,当机器数量众多的时候可能会出现一些故障,系统预测出故障就需要迁移。倘若计算与存储已经分离,那么只需要把故障机器迁移到健康机器上即可,存储之类的资源不用迁移,非常方便快捷。

宕机恢复也是非常重要的,如果遇到一台机器宕机,能够快速的在另外一台机器上分配CPU和内存,则整个宕机的恢复速度可以提高10倍以上。这就是计算与存储分离的优势所在。

 

打造100微秒延迟的“云存储”

众所周知,目前存储是影响云计算性能的重要因素之一。为了能够提升存储性能,UCloud在软硬件设计方面可谓操碎了心。

 “UCloud紧跟软硬件行业的发展,采用软硬件的最新技术协同设计。比如网络25G双上联,并且使用RDMA,存储则配备了NVMe固态硬盘,虚拟化用了vhost user技术,IO读写路径都是stack bypass,并且使用轮询模式,减少了大量中断带来的损耗,整个IO路径做了软硬件协同优化,最终收获了非常好的性能。”彭晶鑫接受采访时介绍道。

RSSD是UCloud新推出的云盘产品,性能超高,延迟仅100微秒,支持快杰型云主机。在云主机和数据库业务测试中,都能非常好地展示出RSSD云盘在性能和时延上的革命性效果。主要面向高性能数据库、Elastic Search搜索等需要低时延的IO密集型应用场景,IOPS可达120W。

性能方面,单个IO时延目前已经小于100微秒,128队列时延也才400微秒。根据测试显示,从虚拟机到云盘只需要10微秒;整体网络开销需要10~20微秒;其余70微秒还体现在固态硬盘上。谈到RSSD的优化,彭晶鑫表示还是有很大的空间,未来很有可能借助于新型存储介质及硬件的发展,把时延降得更低,比现在的体验能做得更好。

 

探测巡检+实时备份,保障数据安全

数据安全对于企业级用户来说非常重要,UCloud块存储针对数据安全主要采取备份和预留探测空间等方法。

实时备份

通过数据方舟产品,采用异构解耦的方式将数据复制到另外一个集群。如果云盘集群数据出现问题,备份集群是不会受到任何影响的,这是数据方舟的最大亮点。此外,数据方舟可以记录实时的IO流,数据可以恢复到12小时内任一秒、24小时内任意整点时刻和72小时内任意0点时刻,若用户误删除操作之后,可以用数据方舟进行恢复。

探测&巡检:

很多时候,存储会无法感知到磁盘故障,所以在存储设计上也要考虑数据损坏的影响。UCloud会根据需求预留一些探测空间,比如每隔4M,有一个空间做IO探测。能够更早地通过IO探测发现磁盘损坏。另外,还有数据存储的巡检操作,UCloud会观察三个副本校验码是不是一致,剔除校验有问题的副本,可以避免静默错误问题。

 

简化流程,提升存储性能

谈到RSSD的优势,彭晶鑫认为最关键一点就是高存储性能。在技术实现方面,UCloud在client侧利用了vhost user方案,虚机的IO到client不需要拷贝,应用程序使用RDMA网络,借助于内核去打通一个通信渠道。整体数据传输流程不需要内核介入,网络包接发送可以零拷贝,并极大的减少CPU的使用,包括后端收到IO读写请求后,利用SPDK的用户态NVMe驱动读写固态硬盘,并且是零拷贝,因此才能实现极致的性能表现。

在云计算快速发展的今天,客户需求逐渐走向精细化、专业化,云服务商也正在通过各种技术来推出不同的服务,RSSD云盘就是其中之一。依托于高性能SSD及高带宽网络,UCloud推出的RSSD实现了100微秒的超低延迟,为客户应用开辟一片新阵地。