基于注意力机制的Transformer模型并行计算架构设计研究

ASDS

Applied Statistics and Data Science

3066-84333066-8441

Art and Design

10.61369/ASDS.2025070016

Article

基于注意力机制的Transformer模型并行计算架构设计研究https://artdesignp.com/journal/ASDS/1/7/10.61369/ASDS.2025070016苏泽宇

2025

2025-09-20

研究针对大规模Transformer模型训练所面临的计算效率和资源瓶颈，提出一种基于注意力机制的并行计算体系结构设计方法。在分析Transformer模型计算特点和并行要求的基础上，设计分层任务划分策略，优化计算负荷分配；建立混合并行通讯调度框架，降低交互代价，实现计算和存储资源的高效协同管理；构建弹性容错机制，保证分布式训练的稳定性。重点解决自注意机制二次复杂性导致的计算困难，以及大规模模型训练过程中通信和存储瓶颈。从细粒度的并行设计和系统优化两个方面，为百亿参数的 Transformer模型的高效训练提供切实可行的技术方案。注意力机制,Transformer模型,并行计算,架构设计

[1] 徐晓轶, 毛艳芳, 吕晓祥. 基于Transformer 和关键词信息聚合的电力科研成果命名实体识别[J]. 计算机应用,2024,44(S2):66-71.[2] 石彬, 成苗, 张绍兵, 曾尚. 基于模糊核估计和交替Transformer 的二维码图像去运动模糊算法[J]. 计算机应用,2024,44(S2):234-239.[3] 钟来民, 陆卫忠, 傅启明, 马洁明, 崔志明, 吴宏杰. 基于Transformer-BiLSTM 特征融合的DNA 结合蛋白预测方法[J]. 微电子学与计算机,2023,40(12):1-9.[4] 廖健文, 杨盈昀, 卢玥. 基于稀疏Transformer 的长短时序关联动作识别算法[J]. 中国传媒大学学报( 自然科学版),2023,30(06):56-63.[5] 唐雷, 许子祥, 高广谓. 基于Transformer 与注意力聚合的人脸超分辨率[J]. 计算机与数字工程,2023,51(12):2977-2983.[6] 唐梦瑶, 黄江涛. 基于盒注意力机制和Transformer 的人脸微表情识别方法[J]. 人工智能科学与工程,2023,(09):57-67.[7] 熊巍, 熊承义, 高志荣, 陈文旗, 郑瑞华, 田金文. 通道注意力嵌入的Transformer 图像超分辨率重构[J]. 中国图象图形学报,2023,28(12):3744-3757.[8] 石德硕, 李军侠, 刘青山. 自注意力融合调制的弱监督语义分割[J]. 中国图象图形学报,2023,28(12):3758-3771.[9] 郑晓旭, 舒珊珊, 文成玉. 基于注意力多分支卷积和Transformer 的手写文本识别[J]. 成都信息工程大学学报,2023,38(06):649-655.[10] 刘华咏, 黄聪, 金汉均. 注意力增强的视觉Transformer 图像检索算法[J]. 电子测量技术,2023,46(23):50-55.