(相关资料图)
随着人工智能技术的快速发展,大型语言模型已经成为近年来最受瞩目的技术之一。自年初以来,以ChatGPT为代表的对话式大型语言模型技术掀起AIGC(人工智能生成内容)浪潮,引发各领域广泛关注。
智算时代,算力是生产力,数据是核心生产要素。大型语言模型横空出世后,对数据存储提出更高的要求:一是要完成基于海量多态数据的训练;二是要面向海量终端的数据应用。若存储容量不足可能对模型性能产生影响。
浪潮信息存储产品线副总经理刘希猛近日在广州表示,现阶段大模型以文本型的单模态为主,但是随着大模型与各个行业相结合,会加速多模态的发展,那么数据类型将日益增加,从文本到图片、音频、视频进行拓展,数据量也将大幅增加,预计会从纯文本型的几个TB(太字节、1TB=1024GB)向多模态的PB级(拍字节、1PB=100万GB)容量迈进,这对存储的架构、性能等核心能力提出更高要求。
与此同时,大语言模型需要通过处理大量数据,进行反复迭代,并根据用户终端输入的信息进行推理答复,在此过程中再进行重新训练。“这相当于神经网络的闭环的训练。”刘希猛说,大语言模型需要大量的存储容量来存储模型的参数和中间结果,以便在推理期间快速响应查询,“海量用户终端的接入,对数据推理和网络时延提出高挑战”。
以智慧医疗为例,随着医疗影像设备越来越精密、精细,对数据存储平台带来了挑战。一方面医院影像数据增长快速,每年可产生并需要长期保存上亿张影像,另一方面,影像访问实时性要求高,对存储带宽提出了挑战,如果性能不够,医生调阅影像就容易出现卡顿、马赛克,影响阅片体验。
预计至今年内,实时数据将占全球数据圈25%的份额。面对千行百业的海量多态的数据场景,企业需要化繁为简的极致存储。新一代分布式融合存储在广州推出,率先实现了一套集群系统同时支持文件、对象、大数据、视频四种协议,实现数据融合。
作为一种能够从巨量数据中学习对象的特征利用现有文本、图像或音频文件创建新内容的技术,AIGC将进一步发展,在生命科学、医疗健康、制造、材料科学、媒体、娱乐、汽车、能源等行业得到广泛应用。
“越往大模型的方向走,的确需要更大的数据量增强推理、创意和演绎方面的能力。”浪潮信息存储产品线总经理李辉说,此外,随着智算时代发展,各个行业需要提升数据资产保护意识,数据中心灾备能力需要提升。据介绍,得益于技术创新,浪潮信息分布式存储已在通信、金融、能源、科研等关键行业批量应用。(完)
下一篇:最后一页
记者从河南省教育考试院了解到,鉴于目前疫情防控严峻形势,为维护广大考生健康安全,经研究并报教育部有关部门批准,河南省原定于6月11日
尖嘴猴腮是人们对猴子的固有认识,但凡事都有例外,最近,郑州市动物园就有一只猴因长着一张方方正正的脸,被送外号人脸猴,其独特的长相令
中原区民政局提醒:尽量避免扎堆,只要感情好,每一天都是好日子5月20日因谐音我爱你,成为很多新人眼中寓意美好的好日子。为满足准新人们
5月19日是中国旅游日,今年中国旅游日的活动主题为感悟中华文化享受美好旅程。记者今日从省、市文旅部门获悉,为进一步提振行业发展信心,
浊波浩浩东倾,今来古往无终极。在中国所有的大江大河中,无论从地理空间还是文化意义上来说,黄河都是一个独特的存在。如果从高空中俯瞰,
在第46个国际博物馆日当天,国家十三五重点文化工程、位于河南洛阳的隋唐大运河文化博物馆,正式面向公众开放。隋唐大运河始建于公元605年
想要了解郑州这片沃土流淌着的文化脉络吗?想要寻找郑州是最早中国历史起源的佐证吗?5月18日国际博物馆日,由郑州市委网信办指导,新浪河
5月18日0—24时,吉林省新增本地确诊病例6例(轻型),其中延边州3例,白山市3例(含2例无症状感染者转为确诊病例);新增本地无症状感染者
2022年5月18日0—24时,天津市新增7例本土新冠肺炎确诊病例(其中4例为无症状感染者转为确诊病例)。新增1例境外输入性新冠肺炎确诊病例。