AI时代，数据存储平台重构之路

【发布时间：2024-12-05】

以下文章来源于DOIT传媒，作者宋家雨

存储技术发展是被应用推动的，在强大市场需求的加持下，存储技术不断演进和升华，如今，生成式AI是最当红的技术应用，得到了资本和市场的追捧。生成式AI技术的火热，也带动数据存储平台技术的发展，引发了硬件设计重构，其中以新华三存储硬件重构1.0、2.0和3.0为代表。

2024数据存储峰会期间，新华三集团副总裁、存储产品线总经理关天舒应邀接受DOIT总编宋家雨专访，畅谈有关技术发展和应用的话题。

descript

宋家雨：请介绍一下新华三硬件重构1.0、2.0、3.0的概念。

关天舒：存储与其他基础设施产品一样，都是因应用的需求而发展，新华三基于多年对行业应用的深刻洞察，在几年前，把数据存储作为公司重点战略之一，并以存储重构1.0、2.0、3.0作为具体的产品发展路线。

存储重构1.0秉承AI in Storage发展的理念，借助AI技术让存储系统在性能、可靠性等方面变得更加高效。2023年，我们发布了Alletra MP存储产品，采用全局解耦架构，重新定义了AI通用存储性能和可靠性，同时也借助AI技术，让存储系统不断地自我优化，去提升它的性能，这是存储硬件重构1.0。

存储重构2.0是针对AI智算应用场景去做的变化，我们发现无论结构化存储，还是分布式存储都没有办法很好地满足智算场景的需求，所以我们需要从性能、可靠性、数据管理等多方面对存储进行重构，推出了Polaris X20000新一代高性能的存储产品，满足在AI时代百行百业的AI应用，释放整个智算生产力的创新价值。

重构3.0，是我们正在做的事情，基于我们的傲擎系统软件平台，以及多年硬件研发经验，进一步发展AI时代海量数据存储。

宋家雨：从新华三上一代分布式存储代表产品H3C UniStor X10000 G6到现在的Polaris X20000，发生了哪些调整和变化？

关天舒：在前几年的时候，云计算非常热，百行百业都在做数字化转型，做系统上云的工作。从而为分布式存储提供了机会，那时更多关注的是分布式产品形态下，扩展性架构的问题，提供更优的TCO存储方案。

Polaris X20000是我们存储重构2.0的代表产品，主要针对智算应用场景，智算系统建设的投资非常大，用户对于投资回报率要求很高，这对存储会有更高的指标要求，如今Chat GPT的参数是千亿规模，未来会达到万亿参数，从千卡集群到万卡集群，需要提供更加高效的数据供给，才能够提升智算系统的使用率。

在智算应用中，同一份数据需要在不同应用，比如文件处理、对象处理之间做数据的拷贝和搬移，甚至格式的转换，如此非常耗费时间，从而影响GPU使用率，这就需要存储提供高效的数据访问方式。与此同时，也因为智算投资非常大，用户希望GPU算力能够满负荷运转，因此要求存储不能有任何中断，必须要持续稳定地运行，对此，我们重新考虑了资源分配，并投入了近千名工程师，历时三年，研发了涉及数百万行代码的傲擎新一代数据存储软件系统平台。整个过程虽然非常艰辛，但还是非常有成就感，在这个软件平台的加持下，才有了当前的Polaris X20000这款产品。该软件平台也将是新华三存储未来发展的坚实基础，我们会继续结合行业应用，进一步发展在AI时代的海量数据存储。

宋家雨：新的存储技术，如EDSFF、CXL在硬件重构中的位置？H3C Polaris X20000有没有结合E3.S CXL 2.0内存池的技术？

关天舒：EDSFF、CXL两个技术非常重要。其中，EDSFF是企业级数据中心领域SSD盘形态的新规范，它对盘的密度、散热有很大提升，现在比较成型的产品是E1.S和E3.S。我们Polaris X20000系列中有一款产品，能够在2U空间支持48盘位E1.S，提供业界最高存储密度，这就是新技术带来的好处。在未来数据中心里边，E1.S无论在能效还是性能的处理,在各个方面会有全方位提升。

CXL则是基于PCIe技术发展起来的数据传输协议，能够提高设备内、设备间的CPU、网卡、内存之间的数据互访，可以资源池化部件之间的缓存，实现内存级的数据直接访问，如此，系统内存瓶颈就被消除了，为未来存储系统处理性能提供潜力空间。

H3C Polaris X20000完全支持E1.S产品形态，也兼容了CXL 2.0标准。在Polaris X28000产品中，把四个分布式节点加上两个交换机，从原本10U的设备，做到2U空间里边，空间节约75%，能耗降低17%，从而轻松应对数据中心对存储系统性能和资源带来的挑战。

随着CXL 3.0的出现，未来有可能对存储系统带来新的帮助，甚至有可能重新定义智算中心组网的形态，实现算力资源池化、存储资源池化、内存资源池化。但这个事情，还是需要整个业界厂商一起共同努力才能够实现。

宋家雨：如何看待AI大模型在行业中的应用？

关天舒：这是新华三一直在做的一个事情。新华三成立了人工智能研究院，主要工作就是推动智能算力和私域大模型的创新发展。我们基于行业客户数据，再结合新华三硬件基础设施，以及在模型训练、微调及推理的系列经验，共同打造了多个基于专属行业的私域大模型，我们的经验是非常丰富的。

AIGC已经被公认为社会发展的第五次变革，前一段时间，一个小朋友拿了两个模型，一个是ChatGPT，还有另外一个模型去做一个辩论，从中学习、思考到更多的东西。可以说，智能化已经改变了我们的生活。但是现有的模型还是以通用大模型为主，基于通用数据去做训练，相反，行业大模型发展很慢。

当前，制约行业大模型发展主要有三个方面：一是算力的限制；二是行业缺少高质量数据，数据分散在企业不同部门，并没有完全共享；三是需要行业专家的参与。需要算法、数据、行业专家、大模型专家共同参与，才有可能实现垂直领域的行业模型。单独依靠行业企业单方的力量是比较难的，需要像新华三这样具备全栈大模型能力的企业共同去参与，才有可能完成。

新华三在政府、能源、医疗、教育等行业都在做垂直领域模型的突破，比如在冶金领域，用智能视觉去降低冶金冶炼中气泡的数量，提升冶金的水平。在医疗领域，我们联合北京清华长庚医院和清华大学共同研发了“灵犀医学脑血管病专病大模型”，基于海量脑血管病临床医学数据构建，为医生提供更为精准的医疗指导和个性化治疗方案，对于整个医疗的数字化，有一个很大的促进。

新华三作为业界领先的数字化解决方案领导者，秉承“精耕务实，为时代赋智慧”的发展理念，积极地同行业客户一起，促进行业垂直模型落地，随着越多大模型行业应用的落地，我相信智能时代也会加速到来。

宋家雨：如何看待现有存储产品与向量数据库技术的结合？

关天舒：这个问题要从全局智算系统的角度来看。向量数据库是一个面向非结构化数据，提供管理、存储、检索，把非结构化数据转化成高维向量，但本质还是数据库存储。

但站在智算角度，智算系统需要与存储、向量数据库做深度结合，才能去给客户提供更好的应用体验。在垂直行业私域大模型训练里已经用到了相应的技术。对于私域大模型训练，其实与通用大模型训练没有本质的区别。如何能让私域大模型达到预期的准确率？

现在来看，我们认为至少准确率要达到95%以上，这个私域大模型才是可以用的，未来可能需要更高的水平。在整个私域大模型训练工作中，要去做三方面的工作：第一个，从数据加载的角度，要保证数据治理和数据安全，对于全域数据做分级分类管理。第二个，做隐私计算数据安全的工作。第三个，才能对最终的全域的数据去做整合，形成一个高质量的数据集。然后就是数据训练模型的选择，我们常用的方法是将大模型和小模型的结合应用，小模型就涉及到向量数据库。我们通过小模型，向其他数据源做实时查询，以解决“大模型幻觉”问题，去提升整个行业模型的水平。

存储怎么跟向量数据库去做结合呢？从存储本身来说，我们可能需要针对它的非结构化索引查询，做定制化的缓存，对于向量小文件要支持高速访问。针对行业场景IO模型去做内存优化，才能满足在整个训练前，快速提取和更新整个向量数据库的数据。

宋家雨：GDS这样的一个私有协议，有没有可能成为事实上的标准？

关天舒：如今智算系统大量采用GDS技术去提升GPU和存储之间的数据访问的效率。但一个技术能不能成为标准，首先看这个技术能不能对整个应用产生价值，能满足当前用户的需求。GDS需要原厂不断投入，不断发展这个技术，让更多应用厂商和系统厂商使用这个技术。第二就要有好的兼容性和开放性，需要兼容更多操作系统，需要将API接口，对存储厂商、盘的厂商开放，完善产业生态。第三需要使用开源的社区，让更多的厂商、更多的开发者进来，一起去解决问题，众人拾柴火焰高，这才有可能成为一个事实上的标准。

新华三公司新闻

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

AI时代，数据存储平台重构之路

联系我们