ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2024 > 3期 > 记录:数据与存储
大数据中的数据清洗与预处理技术研究
赵恩毅

【摘要】针对当前大数据中的数据清洗与预处理技术的瓶颈问题,本文首先分析了 Hadoop 框架下的数据处理效率问题,并对数 据清洗中的数据冗余、数据不一致、错误数据和缺失数据 4 个质量问题进行了深入探讨。 其次为提高效率提出了基于任务合并的优 化技术,特别是在 MapReduce 中减少轮数的策略。 最后引入了 FLI 三层体系,该体系包括 Foundation、Logic 和 Interface 3 个层次,通过 任务合并技术协同实现数据处理的最大化效率。 该策略结合 FLI 体系,确保了大数据处理的高效和高质量。 

【关键字】大数据;数据清洗;数据预处理;Hadoop 框架