ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2021 > 11期 > 信息:技术与应用
基于 MapReduce 微博数据清洗的研究与实现
王国珺,林 峰

【摘要】随着互联网、云计算、物联网、大数据、人工智能、5G 网络等技术的飞速发展,数据成指数幂增长,微博数据暴增,这些数据表现的信息中蕴含的知识越来越得到人们的重视。然而这些数据往往具有多源异构性,例如关系库中的结构化数据,以 XML JSON 格式存储的半结构化数据,或图片、视频类的非结构化数据,本文主要以 XML 半结构化数据的存储格式为例进行基于 MapReduce 技术的微博数据清洗过程的研究和测试。

【关键字】MapReduce;微博;清洗;XML