专注CNC数控车床设备研发制造
买机床找fun88体育官网网址,高精智能,让您更轻松!

全国咨询热线15006199027

腾讯云AIGC存储解决方案晋级数据清洗和练习耗时缩短一半

作者: fun88体育官方网页版

  4月8日,腾讯云宣告云存储解决方案面向AIGC场景全面晋级,能够针对AI大模型数据收集清洗、练习、推理、数据管理全流程供给全面、高效的云存储支撑。多个方面数据显现,选用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和练习功率均进步一倍,需求的时刻缩短一半。

  据介绍,腾讯云AIGC云存储解决方案主要由目标存储COS、高功能并行文件存储CFS Turbo、数据加快器GooseFS和数据万象CI等产品组成,是国内首个完成存储引擎全面自研的云存储解决方案。

  现在,已经有80%的头部大模型企业挑选了腾讯云AIGC云存储解决方案,包含百川智能、智谱、元象等明星大模型企业。

  一般来说,AI大模型的研制出产流程,分红数据收集与清洗、模型练习、推理三大环节,各环节都触及海量的数据处理。

  在数据收集与清洗环节,因为原始练习数据规划海量,且来历多样,对存储技能提出了多协议支撑、高功能、大带宽的需求。

  腾讯云存储总经理马文霜表明,“在数据收集阶段咱们根据海量的目标存储引擎供给高性价比的数据湖服务,让原始数据能够便利的入湖。在数据清洗的阶段,咱们晋级了数据加快器GooseFS,进步对海量数据的拜访加载速度。在数据练习阶段,咱们晋级了并行文件存储CFS Turbo,加快练习阶段中Checkpoint的写入以及海量样本的读取速度,进步练习的功率。那么在数据审阅和管理阶段,咱们晋级了数据万象,来支撑全媒体语义的特征提取。”

  据介绍,在模型练习环节,常常要每2-4小时保存一次练习效果,以便能在GPU毛病不时能回滚,因而快速地读写checkpoint(检查点)文件也成了能否高效使用算力资源、进步练习功率的要害。

  腾讯云自主研制并行文件存储CFS Turbo ,面向AIGC练习场景的进行了专门优化,每秒总读写吞吐到达TiB/s等级,每秒元数据功能高达百万OPS。3TB checkpoint 写入时刻从10分钟,缩短至10秒内,使大模型练习功率大幅进步。

  大模型推理场景对数据安全与可追溯性提出更加高的要求。腾讯云数据万象CI为此供给图片隐式水印、AIGC内容审阅、智能数据检索MetaInsight等才能,为数据出产从“用户输入——预处理——内容审阅——版权维护——安全分发——信息检索“事务全流程供给有力支撑,优化AIGC内容出产与管理模式,适应监管导向,拓展存储鸿沟。

  腾讯云文件存储总监陆志刚说,AIGC事务场景对数据存储提出了更高的应战,尤其是在模型练习和推理方面,需求超高的写吞吐和对小文件超高的OPS功能。

  据马文霜介绍,现在已经有80%的头部大模型企业挑选腾讯云AIGC云存储解决方案,包含百川智能、智谱AI、元象科技等明星大模型企业。

  此外,针对AIGC的checkpoint记载、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技能,大幅度的进步了AIGC场景下的读写功能。除了大模型企业以外,CFS Turbo也被大范围的应用于无人驾驶与工业仿真场景,包含博世轿车、蔚来等无人驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。

推荐产品

相关文章