团体标准编制范围
《算力网络 第8部分:资源分配与调度算法要求》:
本标准规定了算力网络资源分配与调度算法引擎的总体架构、主要技术要求、预期目标等要求。
本标准适用于算力网络资源分配与调度算法引擎进行技术架构设计、功能设计和软件开发。其他组织的算力网络资源分配与调度算法可参照执行。
团体标准编制目的、意义或必要性
2021年5月,国家发改委正式发布了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,建设全国一体化算力网络枢纽节点,加强绿色数据中心建设,推动老旧基础设施转型升级。2021年11月,中国移动通信集团发布《算力网络白皮书》,阐释中国移动对算力网络的产生背景、核心理念、应用场景、发展路径以及技术创新理念。
算力是数字化时代的基础设施和核心动能,需求侧科技进步与产业数字化、供给侧算力技术迭代共同驱动算力发展。算力的发展难以满足全行业计算需求,催生算力网络的建设。随着数字化进程加速,算力也在自发性迭代,但仍无法完全满足全行业计算需求,出现了以下三种矛盾:
(1)海量数据计算需求增加,而算力呈现东多西少、互联网多传统行业少等特点,在区域及行业分布不均,供求失衡;
(2)算力自身架构不断迭代,GPU、DPU、FPGA等异构芯片的出现增加了算力度量和统筹管理的难度;
(3)算力逐渐渗透各行业和场景,但对偶发性算力需求激增的场景仍缺乏弹性应对措施。
为解决以上难点,需要通过对分散、异构的算力进行感知、连接和统筹调度,以匹配终端计算需求,因此,算力网络资源分配与调度算法引擎应运而生。算网资源分配与调度需要关注提升智能感知技术,保障算网资源精确匹配终端需求。算网调度层作为算力网络的神经中枢连接着算网资源和应用,向下对接底层算力资源并进行注册和标识,向上解析终端业务场景的算力需求并智能分解至各个使能平台。算网调度层以算力感知、算力编排和算力路由为核心,现已处于探索和初步实施阶段。其中:
(1)算力感知需要对底层异构资源进行统一标识和纳管,是算网调度的基础,也是连接资源供需方的关键环节,目前仍缺乏技术标准体系支撑;
(2)算力编排需要统筹数据、技术和行业经验进行逻辑编排和架构建设;
(3)算力路由正推进通告管理路径的建设和探索,同时基于底层算力虚拟化技术实现更灵活的调度。
基于以上目的和意义,有必要建立算力网络系列标准。此系列标准第 8 部分资源分配与调度算法规范,是算力网络资源分配与调度算法引擎的总体要求、包括系统框架、主要技术要求、预期目标等。
1、总体架构
算网资源分配与调度算法引擎通过网络对算力的感知、触达、编排、调度能力,在算网拓扑的任何一个接入点,为用户的任何计算任务提供灵活、实时、智能匹配的最优算力资源,支持云-边-端anywhere与anytime的多方算力需求。
根据算网资源请求与算网资源供给的状态,对算网进行算力资源和网络资源的统一编排计算,动态生成端到端的最优算网节点、算网路径、及编排调度策略,解决算网资源的供需难以匹配、利用率低、使用成本高、资源碎片严重、和应用部署不合理等问题。
图 1 算力网络资源分配与调度算法引擎整体构成
2、主要技术要求:
(1)算法分类与设计原则
算法分类:阐述多种资源分配与调度算法,包括但不限于:营销策略层面的演化博弈动态竞价、零和博弈动态竞价、强化学习动态竞价、意图识别需求分析;资源编排层面的多因子综合评估、纳什均衡博弈、离线规划融合编排、强化学习动态编排;网络路由层面的深度优先路径搜索、广度优先路径搜索、流量拥塞避免、基于规则算网路径评估;算力调度层面的基于规则算网节点评估、DQN动态算力分配、异构算力的图聚类、节点资源消耗预测等。每种算法的特点、适用场景及其优缺点逐一分析,以便用户根据具体需求选择合适的算法。
设计原则:算法设计应遵循高效性、准确性、稳定性、可扩展性和用户友好性等原则。高效性要求算法在合理的时间内给出解;准确性要求算法提供的解接近最优;稳定性指算法在不同输入下表现一致;可扩展性意味着算法能够适应问题规模的变化;用户友好性则强调算法的易用性和可理解性。
(2)算法实现框架与模块化设计
实现框架:描述算法实现的软件架构,包括算法的输入输出接口、数据处理流程、算法执行引擎等关键组件。框架设计将考虑模块化,以便算法的维护和扩展。
模块化设计:强调算法组件的模块化,使得算法的不同部分(如初始化、搜索策略、更新机制等)可以独立开发和优化,便于团队协作和知识共享。
(3)算法性能评估与优化
性能评估指标:定义一系列量化指标来评估算法的性能,如时间复杂度、空间复杂度、收敛速度、解的质量、鲁棒性等。这些指标将帮助用户评估和比较不同算法的性能。
优化策略:提供算法优化的策略和方法,如参数调整、算法融合、多目标优化等,以提升算法在特定问题上的表现。
(4)算法测试与验证
测试流程:规定一套标准化的测试流程,包括单元测试、集成测试、性能测试和压力测试,确保算法在各种条件下的稳定性和可靠性。
验证方法:提供算法验证的方法,包括理论分析、仿真实验和实际案例研究,以证明算法的有效性和适用性。
(5)安全性、兼容性与可维护性
安全性:强调算法实现过程中的安全性考虑,包括数据加密、访问控制、异常处理等,以防止潜在的安全风险。
兼容性:确保算法能够在不同的操作系统、硬件平台和编程语言环境中运行,提供详细的兼容性指南和适配建议。
可维护性:讨论算法的可维护性,包括代码的可读性、可扩展性和文档化,以及如何设计算法以便于未来的维护和升级。
四、X项团体标准与国内外标准情况简要说明
经查询,目前与算力网络相关的标准有:
YD/T 4255-2023《算力网络 总体技术要求》
GB/T 42888-2023《信息安全技术 机器学习算法安全评估规范》
算力网络的总体技术架构和技术要求,包括算力网络的总体架构和接口描述,以及算力服务技术要求、算力路由技术要求、算网编排管理技术要求。对算网编排调度做了总体的要求,为本次算网资源分配和调度算法提供了依据。
参编人员要求
与算力网络相关的研发、生产、经营的各机关企事业单位、科研院所、高校、采购单位、供应商单位有关于本标准规定范围及适用领域的研发人员、应用人员、项目工程师、项目经理、技术采购等,与此标准规范适用相关的从业人员均可参与编制。
参编流程
1、盖章并提交团体标准参编申请表(见附件);
2、签订协议;
2、加入编制组;
4、参与编制工作。
联系人信息
联系电话:17603075005