<?xml version="1.1" encoding="utf-8"?>
<article xsi:noNamespaceSchemaLocation="http://jats.nlm.nih.gov/publishing/1.1/xsd/JATS-journalpublishing1-mathml3.xsd" dtd-version="1.1" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><front><journal-meta><journal-id journal-id-type="publisher-id">ASDS</journal-id><journal-title-group><journal-title>Applied Statistics and Data Science</journal-title></journal-title-group><issn>3066-8433</issn><eissn>3066-8441</eissn><publisher><publisher-name>Art and Design</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.61369/ASDS.2025070016</article-id><article-categories><subj-group subj-group-type="heading"><subject>Article</subject></subj-group></article-categories><title>基于注意力机制的Transformer模型并行计算架构设计研究</title><url>https://artdesignp.com/journal/ASDS/1/7/10.61369/ASDS.2025070016</url><author>苏泽宇</author><pub-date pub-type="publication-year"><year>2025</year></pub-date><volume>1</volume><issue>7</issue><history><date date-type="pub"><published-time>2025-09-20</published-time></date></history><abstract>研究针对大规模Transformer模型训练所面临的计算效率和资源瓶颈，提出一种基于注意力机制的并行计算体系结构设计方法。在分析Transformer模型计算特点和并行要求的基础上，设计分层任务划分策略，优化计算负荷分配；建立混合并行通讯调度框架，降低交互代价，实现计算和存储资源的高效协同管理；构建弹性容错机制，保证分布式训练的稳定性。重点解决自注意机制二次复杂性导致的计算困难，以及大规模模型训练过程中通信和存储瓶颈。从细粒度的并行设计和系统优化两个方面，为百亿参数的 Transformer模型的高效训练提供切实可行的技术方案。</abstract><keywords>注意力机制,Transformer模型,并行计算,架构设计</keywords></article-meta></front><body/><back><ref-list><ref id="B1" content-type="article"><label>1</label><element-citation publication-type="journal"><p>[1] 徐晓轶, 毛艳芳, 吕晓祥. 基于Transformer 和关键词信息聚合的电力科研成果命名实体识别[J]. 计算机应用,2024,44(S2):66-71.[2] 石彬, 成苗, 张绍兵, 曾尚. 基于模糊核估计和交替Transformer 的二维码图像去运动模糊算法[J]. 计算机应用,2024,44(S2):234-239.[3] 钟来民, 陆卫忠, 傅启明, 马洁明, 崔志明, 吴宏杰. 基于Transformer-BiLSTM 特征融合的DNA 结合蛋白预测方法[J]. 微电子学与计算机,2023,40(12):1-9.[4] 廖健文, 杨盈昀, 卢玥. 基于稀疏Transformer 的长短时序关联动作识别算法[J]. 中国传媒大学学报( 自然科学版),2023,30(06):56-63.[5] 唐雷, 许子祥, 高广谓. 基于Transformer 与注意力聚合的人脸超分辨率[J]. 计算机与数字工程,2023,51(12):2977-2983.[6] 唐梦瑶, 黄江涛. 基于盒注意力机制和Transformer 的人脸微表情识别方法[J]. 人工智能科学与工程,2023,(09):57-67.[7] 熊巍, 熊承义, 高志荣, 陈文旗, 郑瑞华, 田金文. 通道注意力嵌入的Transformer 图像超分辨率重构[J]. 中国图象图形学报,2023,28(12):3744-3757.[8] 石德硕, 李军侠, 刘青山. 自注意力融合调制的弱监督语义分割[J]. 中国图象图形学报,2023,28(12):3758-3771.[9] 郑晓旭, 舒珊珊, 文成玉. 基于注意力多分支卷积和Transformer 的手写文本识别[J]. 成都信息工程大学学报,2023,38(06):649-655.[10] 刘华咏, 黄聪, 金汉均. 注意力增强的视觉Transformer 图像检索算法[J]. 电子测量技术,2023,46(23):50-55.</p><pub-id pub-id-type="doi"/></element-citation></ref></ref-list></back></article>
