ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】针对传统方法在海量数据中用户信息提取应用中提取到的用户信息量比较少,提全率比较低,为此提出基于数学模型的海量数据中用户信息提取方法。首先利用网络爬虫技术对互联网网页和网站中海量数据进行爬取,并利用TSIHD 标签对文字数据中不规则、格式错误的数据信息进行修复整理;以统计法作为理论依据,对网页的页面访问序列划分成用户会话的关联单元,剔除其中与用户无关的记录,挖掘用户关联的海量数据;利用 B P 神经网络对海量数据进行学习和训练,提取到网络爬虫爬取到的数据中用户信息特征;最后根据数据特征淘过滤规则建立数学模型,利用数学模型提取到数据中用户信息。经实验证明,设计方法提全率高于传统方法,能够实现全面提取海量数据中用户的信息。