信息记录材料

首页 > 刊期 > 2026 > 1期 > 记录：数据与存储

高被引学者学术影响力预测：多源数据融合的可解释性机器学习研究

潘瑾琼

【摘要】针对当前学术影响力预测方法精度不足且缺乏可解释性的问题，本文以３３９名中国高被引学者为研究对象，通过采集引文索引类数据库（ＷｏＳ）、机构网站等多源数据，构建了一种包含社会特征和出版引用特征的多维预测框架，运用支持向量回归、梯度提升回归等７种机器学习算法预测学者总被引量。研究结果表明：极端梯度提升（ＸＧＢ）模型经特征优化后达到最佳性能，Ｒ２值达到０.７３。沙普利加性解释（ＳＨＡＰ）分析揭示，除学科影响外，平均影响因子、学术年龄和主题变化是决定总被引量的三大核心因素。此外，研究发现化学、材料科学、地理科学等学科的学者具有更高的被引潜力。本研究为学者提升学术影响力提供量化依据，为构建多元化学术评价体系、实现精准化资源配置和个性化学者画像系统建设提供实用工具，推动科研管理和人才评价体系的优化升级。

【关键字】高被引学者；机器学习；被引量预测；沙普利加性解释（ＳＨＡＰ）

【PDF】