【摘要】随着大数据的应用越来越广泛,新闻数据分析亟须能够处理多源异构的信息系统。 为解决中小新闻机构因缺少数据全流程处理手段造成的低效采集与大量重复计算的问题,本文首先建立了以 Hadoop 生态为基础的新闻数据全生命周期管理系统,采用集中式爬虫与分布式处理相融合的方式,利用 Python、分布式文件系统(HDFS)以及 HBase 完成数据采集与分布式存储;其次,提出规则驱动和统计模型相结合的轻量化分析方法,依托 Spark 与动态词库实现热点追踪、主题分类以及地域关联分析;最后,运用 DataEase构建可视化平台,给出适用于区域舆情监测的具有时效性、可解释性的即用型解决方案。 测试结果表明:该系统可实现单日接近 1.3万条新闻数据的高效采集,军事关键词提取准确率达 92.7%,可视化数据延迟 8 s 完成渲染更新。