行业标准

《云网协同:云端AI模型部署与更新规范》标准征集

2024-05-28 21:51:42  来源:行业标准  作者:中企检测认证网  浏览:1

团体标准编制范围

《云网协同:云端AI模型部署与更新规范要求》

本标准规定了云端AI模型部署与更新的总体架构、主要技术要求、预期目标等要求。

本标准适用于云端AI模型部署的管理、维护、部署、归档等规范要求。其他组织的云端AI模型部署与更新可参照执行。

团体标准编制目的、意义或必要性

2021年5月24日,国家发展改革委员会、中央网信办、工业和信息化部、国家能源局联合印发的《全国一体化大数据中心协同创新体系算力枢纽实施方案》要求加速建设全国一体化算力网络。此外中国政府出台了多项政策,鼓励人工智能行业发展与创新,如《关于支持建设新一代人工智能示范应用场景的通知》、《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》等。基于云端的AI模型部署与更新呈现爆发式增长。《中华人民共和国网络安全法》和《中华人民共和国数据安全法》分别于2017年6月1日和2021年9月1日开始执行,对网络、信息安全提出明确要求,并明确运营者的安全义务。

随着算力芯片技术的突破,为原有多种AI核心技术带来新生,并带动了人工智能技术的高速发展,各式各样的AI能力以及影响了我们生活的方方面面。在大量AI技术的快速演进的过程中,消耗的算力资源也非常的大,算力成本也越来越高,因此越来越多的企业和组织开始将AI应用部署到云端,以便更好地服务于广大用户。但云端野蛮式生长会带来一些问题:

(1)海量AI模型的部署,质量层次不齐,没有统一的标准来约束云端的模型,导致用户之间、企业之间、平台之间的难以建立建康、互信的供需关系;(2)云端AI模型涉及到大量的用户数据,如何保证数据安全和隐私成为至关重要的问题。制定规范可以确保AI模型在部署和更新过程中遵循严格的安全标准,防止数据泄露和滥用。(3)AI模型的部署和更新可能会对现有系统产生影响,甚至导致系统崩溃。

为解决以上难点,需要通过对云端AI模型的数据管理、模型功能和性能的度量、模型兼容性的度量、模型的版本控制标准、模型的法律和伦理要求等方面进行标准化管理,因此云端AI模型部署与更新就是为了处理这样的问题,为AI算法工程师提供模型训练和产出要求,实现对模型的质量、兼容性、效率的约束;为云平台服务提供商提供AI模型部署与更新的管理依据;为AI能力运维人员提供AI模型部署的准入条件,实现高质量的能力发布;通过建立AI模型基于云端的孵化到发布生产全流程的约束机制、激励机制、和合作机制,形成基于云端的AI模型典型的部署和更新模式,带动人工智能的安全高效发展的典型模式,带动人工智能企业向“高质量、高安全、高效率”转型升级,实现公司科技经济效益、社会效益、安全合规的协调优化。

基于以上目的和意义,有必要建立云网协同系列标准。此系列标准第 18 部分云端AI模型部署与更新规范,包括数据管理、模型管理、模型部署、模型更新等。

团体标准主要技术内容

1、总体架构

云端AI模型部署与更新引擎通过从云端AI模型的质量、效率、安全的角度出发,嵌入孵化到生产的各个细节,对各环节之间的衔接过程、过程产物和质量参数进行分析。在孵化、部署、维护、监控等过程嵌入监控点,从模型、数据集、引擎等方面进行审核,在实现AI模型功能不受影响的前提下,提升整个链条的市场竞争力,实现高效率发展、高安全发展、高稳定发展。

图 1 云端AI模型部署与更新整体构成

2、主要技术要求:

(1)模型管理

模型分类,模型至少分为以下几类:1)训练模型:从未训练过的模型,需要通过训练集进行训练。2)验证模型:已经训练过的模型,但在实际部署之前,需要在验证集上进行验证,以评估模型的性能。3)部署模型:经过验证的模型,已经被部署到生产环境,用于实际服务。

模型版本管理,每个模型都应该有一个唯一的版本,用于标识不同批次的模型。版本应至少包含以下信息:1)版本号:用于唯一标识当前模型的版本。2)发布日期:模型版本发布的日期。3)模型介绍:模型文件大小、文件格式以及模型用途和使用方式说明。4)版本描述:对当前模型的改进和变更的描述。

模型部署,模型的部署方式应根据实际业务需求和硬件环境来选择。在模型部署前,应在进行充分的稳定性测试和压力测试,以确保模型在生产环境中的性能和可靠性。

模型评估,模型发布前应收集模型的运行状态和性能数据,并能够进行监控和评估。模型的监控至少包含如下指标:1)准确率:模型的正确预测率。2)召回率:模型正确预测为正样本的样本占实际为正样本的样本的比例。3)精确率:模型正确预测为正样本的样本占实际为正样本的样本的比例。4)F1 值:精确率和召回率的调和平均值,用于衡量模型在正负样本上的平衡表现。5)算力需求:应评估模型应具备的基础算力需求,以及典型应用场景的算力需求。如GPU、CPU、内存、存储等算力使用量,以及芯片架构、型号、品牌、依赖库等底层环境需求。

根据实时收集的监控指标数据,应能够对模型进行评估和持续优化。如果评估发现问题应支持回滚到之前的版本。

(2)模型发布

发布的AI模型应确保与各大主流深度学习框架及云端、本地部署环境的高度兼容性,如支持TensorFlow、PyTorch 等框架,并能在国内主流云服务商的基础设施上顺利部署。模型应提供便捷的部署包或镜像,便于用户在不同环境上迅速部署和启用。

算力资源标准说明:发布时,AI模型需详细阐述其运行过程对硬件资源的需求参数,包括但不限于GPU、CPU、内存、存储等硬件需求,以及在单一设备或多设备分布式部署时的策略。同时,附带典型业务场景下的资源消耗参考数据,帮助使用者评估自有资源是否足以支撑模型的有效运行。

数据接口规范:模型对外提供的接口应遵循统一标准,如支持 RESTful API、gRPC 接口等主流通信协议,确保与外部系统间的数据交换便捷顺畅。模型输入数据格式应遵循业界认可的标准格式(如文本、图像、音频等),并明确声明数据预处理步骤和格式要求。同时,模型输出应清晰定义输出格式(如文本、图像、音频等),以适应不同应用场景的需求。

(3)模型维护

内容安全:模型输出内容应符合国家法律法规和社会道德规范,不得产生或传播任何形式的危险、违法、暴力、仇恨、歧视等不当信息。模型开发者应建立完善的滥用风险评估机制,识别潜在的滥用场景和风险点,并采取有效的技术防护措施,防止模型被用于非法活动或虚假信息的制造。

隐私与数据保护:在处理个人隐私数据时,应严格遵守《中华人民共和国个人信息保护法》及相关配套政策,制定并执行全面的数据安全管理制度。应建立实时的风险监测和应急响应体系,确保在发现安全风险或突发事件时,能够立即启动应急预案,采取有效措施,控制和减少损失。

服务可用性:模型服务应保证高可用性,正常运行时间应达到99.9%,全年计划内中断时间不得超过8小时。对于关键服务型模型,在人机交互场景下的平均响应时间应控制在2秒以内。

版本兼容性:模型升级更新过程中,新版本应确保与旧版本向后兼容,以保障现有应用的连续性和稳定性,避免因版本更新导致的大规模适配调整。版本管理流程应统一规范,确保透明和可追溯。

无障碍访问:应为残障人士等特殊群体提供无障碍访问解决方案,确保他们能够平等无障碍地获取和使用模型服务,满足国家无障碍要求标准。

版本控制与演进管理:应建立完整的模型版本控制和演进管理机制,详细记录每个版本的更新历史和变更详情。新版本上线前,必须进行全面的测试验证,确保新版本的稳定性和性能。

性能监控与故障响应:应构建模型性能监控系统,实时监测模型的运行状态,对于发现的异常和故障,应及时进行定位和故障分析,并在规定时间内制定并执行恢复方案。

基础设施冗余与容灾:基础设施应实现数据和计算资源的冗余备份,制定并执行完善的容灾和恢复预案,确保关键服务的持续运行。数据处理应遵循FAIR(可查找、可访问、可互操作和可复用)原则。

AI伦理与合规:严格遵守国家AI伦理标准和规范,制定并全面执行企业AI伦理政策,确保模型的开发和应用符合伦理道德标准。应建立有效的AI伦理审查机制,对模型的开发、应用和更新进行全面的伦理审查,确保模型符合伦理道德规范。

偏见与歧视消除:持续评估并消除模型在人口统计学特征(如年龄、性别、种族等)方面的潜在偏见和歧视,确保模型的公平性和包容性。应建立有效的偏见检测和消除机制,定期对模型进行偏见评估,并采取措施消除模型中的偏见和歧视。

人机交互准则:制定规范的人机交互准则,确保人类用户能够对模型发出合理的指令和进行必要的修正,体现以人为本的设计理念。人机交互界面应易于理解和使用,并提供必要的安全保障措施,防止用户误操作或被模型误导。

(4)模型归档

模型归档是模型生命周期管理的重要组成部分,有助于模型版本的追溯、复现和持续优化。以下为模型归档的规范化约束与指导建议:

数据集归档:应全程保存模型训练、优化、微调过程的各阶段数据集,确保决策输出路径具备可解释性和可追溯性,提高模型运行的透明度和可信度。若涉及隐私和敏感信息,须确保数据已脱敏或匿名化处理,并遵循相关法规要求。

模型文件归档:按照模型版本进行归档,每个版本包含模型文件、权重文件、训练日志、参数配置文件等。每个模型版本应附带详细的训练报告,评估报告等内容。如模型涉及多个组件或模块,每个组件的版本也应一并归档。

训练引擎和依赖库记录:记录每个模型版本所使用的训练引擎版本以及依赖的第三方库版本。提供训练环境的配置信息,确保模型在相同环境下能够复现。

算法描述与理论依据:对模型所使用的算法进行详尽描述,包括原理、特点、优缺点等。如有必要,提供算法设计和实现的相关论文、专利等参考资料。

版本管理与变更记录:采用版本控制系统(如Git)对模型代码、配置文件等进行版本管理,记录每次变更的提交信息和作者。设立专门的模型版本库,按照日期、版本号等有序存放各个版本的模型及相关资料。

团体标准与国内外标准情况简要说明

经查询,目前国内与云网协同的标准有关的标准有:

ITU-T M.3173.1《云和SDN网络协同管理接口需求》

ITU-T Y.2324《基于网络演进的云网协同编排器功能架构》

YD/T 4199.1-2023 《基于云网协同的上云业务用户体验质量评价体系》

参编人员要求

与云端AI模型部署与更新相关的研发、生产、经营的各机关企事业单位、科研院所、高校、采购单位、供应商单位有关于本标准规定范围及适用领域的研发人员、应用人员、项目工程师、项目经理、技术采购等,与此标准规范适用相关的从业人员均可参与编制。

参编流程

1、盖章并提交团体标准参编申请表(见附件);

2、签订协议;

2、加入编制组;

4、参与编制工作。

联系人信息

联系电话:17603075005

本文内容整合网站:中国政府网百度百科最高人民法院知乎国家认证认可监督管理委员会国家知识产权局市场监督总局

TOP
2008 - 2022 © 中企检测认证网 版权所有  
发表评论
0评