ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】针对当前大数据中的数据清洗与预处理技术的瓶颈问题,本文首先分析了 Hadoop 框架下的数据处理效率问题,并对数 据清洗中的数据冗余、数据不一致、错误数据和缺失数据 4 个质量问题进行了深入探讨。 其次为提高效率提出了基于任务合并的优 化技术,特别是在 MapReduce 中减少轮数的策略。 最后引入了 FLI 三层体系,该体系包括 Foundation、Logic 和 Interface 3 个层次,通过 任务合并技术协同实现数据处理的最大化效率。 该策略结合 FLI 体系,确保了大数据处理的高效和高质量。