ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2026 > 4期 > 记录:数据与存储
基于 Hadoop 的新闻数据分析与可视化
闫常娜,陶 冶(通信作者)
【摘要】随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。 为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以 Hadoop 生态为基础的新闻数据全生命周期管理系统,采用集中式爬虫与分布式处理相融合的方式,利用 Python、分布式文件系统(HDFS)以及 HBase 完成数据采集与分布式存储;其次,提出规则驱动和统计模型相结合的轻量化分析方法,依托 Spark 与动态词库实现热点追踪、主题分类以及地域关联分析;最后,运用 DataEase构建可视化平台,给出适用于区域舆情监测的具有时效性、可解释性的即用型解决方案。 测试结果表明:该系统可实现单日接近 1.3万条新闻数据的高效采集,军事关键词提取准确率达 92.7%,可视化数据延迟 8 s 完成渲染更新。

【关键字】 Hadoop;新闻数据分析;数据可视化;HBase;Spark
【PDF】