<?xml version="1.1" encoding="utf-8"?>
<article xsi:noNamespaceSchemaLocation="http://jats.nlm.nih.gov/publishing/1.1/xsd/JATS-journalpublishing1-mathml3.xsd" dtd-version="1.1" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"><front><journal-meta><journal-id journal-id-type="publisher-id">TACS</journal-id><journal-title-group><journal-title>Technology and Application of Computer Science</journal-title></journal-title-group><issn>2998-8926</issn><eissn>2998-8934</eissn><publisher><publisher-name>Art and Design</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.61369/TACS.2025060043</article-id><article-categories><subj-group subj-group-type="heading"><subject>Article</subject></subj-group></article-categories><title>基于HDFS海量小文件读取的研究与设计</title><url>https://artdesignp.com/journal/TACS/2/6/10.61369/TACS.2025060043</url><author>彭建烽</author><pub-date pub-type="publication-year"><year>2025</year></pub-date><volume>2</volume><issue>6</issue><history><date date-type="pub"><published-time>2025-03-28</published-time></date></history><abstract>基于HDFS存储海量小文件读取效率不高的问题，对HDFS存储的海量小文件读取进行优化。通过引入新型并行处理框架 Spark，对系统相关的小文件进行合并，并为合并后的文件建立索引，进而提升海量小文件读取效率。</abstract><keywords>HDFS,海量小文件,Spark,合并,索引</keywords></article-meta></front><body/><back><ref-list><ref id="B1" content-type="article"><label>1</label><element-citation publication-type="journal"><p>&amp;nbsp;[1] 刘超.基于云环境的海事局船检平台的设计与实现[D].桂林理工大学,2020.DOI:10.27050/d.cnki.gglgc.2020.000547.&amp;nbsp;[2] 李文武,张建锋,王景林.基于EHDFS的海量小文件存储与检索方法[J].计算机工程与设计, 2022(002):043.&amp;nbsp;[3] 田峰.基于HDFS的海量小文件存储系统的研究与实现[D].西安电子科技大学,2021.&amp;nbsp;[4] 张祥俊,伍卫国.基于FastDFS的数字媒体系统设计与实现技术研究[J].计算机技术与发展, 2019, 29(5):6.&amp;nbsp;[5] 高朝艳,鹿虹,黄娟,等.基于HDFS的小文件存储技术研究[J].电信技术研究, 2020(3):10-15.</p><pub-id pub-id-type="doi"/></element-citation></ref></ref-list></back></article>
