基于HDFS海量小文件读取的研究与设计

TACS

Technology and Application of Computer Science

2998-89262998-8934

Art and Design

10.61369/TACS.2025060043

Article

基于HDFS海量小文件读取的研究与设计https://artdesignp.com/journal/TACS/2/6/10.61369/TACS.2025060043彭建烽

2025

2025-03-28

基于HDFS存储海量小文件读取效率不高的问题，对HDFS存储的海量小文件读取进行优化。通过引入新型并行处理框架 Spark，对系统相关的小文件进行合并，并为合并后的文件建立索引，进而提升海量小文件读取效率。HDFS,海量小文件,Spark,合并,索引

 [1] 刘超.基于云环境的海事局船检平台的设计与实现[D].桂林理工大学,2020.DOI:10.27050/d.cnki.gglgc.2020.000547. [2] 李文武,张建锋,王景林.基于EHDFS的海量小文件存储与检索方法[J].计算机工程与设计, 2022(002):043. [3] 田峰.基于HDFS的海量小文件存储系统的研究与实现[D].西安电子科技大学,2021. [4] 张祥俊,伍卫国.基于FastDFS的数字媒体系统设计与实现技术研究[J].计算机技术与发展, 2019, 29(5):6. [5] 高朝艳,鹿虹,黄娟,等.基于HDFS的小文件存储技术研究[J].电信技术研究, 2020(3):10-15.