高被引学者学术影响力预测:多源数据融合的可解释性机器学习研究
潘瑾琼
【摘要】针对当前学术影响力预测方法精度不足且缺乏可解释性的问题,本文以339名中国高被引学者为研究对象,通过采集引文索引类数据库(WoS)、机构网站等多源数据,构建了一种包含社会特征和出版引用特征的多维预测框架,运用支持向量回归、梯度提升回归等7种机器学习算法预测学者总被引量。研究结果表明:极端梯度提升(XGB)模型经特征优化后达到最佳性能,R2值达到0.73。沙普利加性解释(SHAP)分析揭示,除学科影响外,平均影响因子、学术年龄和主题变化是决定总被引量的三大核心因素。此外,研究发现化学、材料科学、地理科学等学科的学者具有更高的被引潜力。本研究为学者提升学术影响力提供量化依据,为构建多元化学术评价体系、实现精准化资源配置和个性化学者画像系统建设提供实用工具,推动科研管理和人才评价体系的优化升级。
【关键字】高被引学者;机器学习;被引量预测;沙普利加性解释(SHAP)
【PDF】