ISSN 1009-5624 CN 10-2021/TQ    主管:中国乐凯集团有限公司    主办:北京乐凯科技有限公司

中国知网全文收录期刊
万方数据库收录期刊
RCCSE中文学术期刊
维普资讯网/超星域出版 全文收录
中国核心期刊(遴选)数据库收录期刊
首页 > 刊期 > 2022 > 6期 > 记录:数据与存储
基于数学模型的海量数据中用户信息提取方法
潘东阳

【摘要】针对传统方法在海量数据中用户信息提取应用中提取到的用户信息量比较少,提全率比较低,为此提出基于数学模型的海量数据中用户信息提取方法。首先利用网络爬虫技术对互联网网页和网站中海量数据进行爬取,并利用TSIHD 标签对文字数据中不规则、格式错误的数据信息进行修复整理;以统计法作为理论依据,对网页的页面访问序列划分成用户会话的关联单元,剔除其中与用户无关的记录,挖掘用户关联的海量数据;利用 B P 神经网络对海量数据进行学习和训练,提取到网络爬虫爬取到的数据中用户信息特征;最后根据数据特征淘过滤规则建立数学模型,利用数学模型提取到数据中用户信息。经实验证明,设计方法提全率高于传统方法,能够实现全面提取海量数据中用户的信息。

【关键字】数学模型;海量数据;用户信息;网络爬虫;BP 神经网络