基于 MapReduce 微博数据清洗的研究与实现
王国珺,林 峰
【摘要】随着互联网、云计算、物联网、大数据、人工智能、5G 网络等技术的飞速发展,数据成指数幂增长,微博数据暴增,这些数据表现的信息中蕴含的知识越来越得到人们的重视。然而这些数据往往具有多源异构性,例如关系库中的结构化数据,以 XML 或 JSON 格式存储的半结构化数据,或图片、视频类的非结构化数据,本文主要以 XML 半结构化数据的存储格式为例进行基于 MapReduce 技术的微博数据清洗过程的研究和测试。
【关键字】MapReduce;微博;清洗;XML