ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】针对大语言模型(LLM)能力评估维度单一、灵活性不足及难以适应开放域复杂任务的问题,本研究提出一种基于LLM与工具学习的层次化思维树评估方法。该方法通过动态构建思维评估树,精准定位知识领域并分解评估问题;采用工具增强的节点评估机制,自主调用外部工具获取信息,最终聚合节点结果生成综合性评估报告。结果表明:该方法能显著提升评估维度的多样性、结果的可解释性以及对复杂任务的适应能力,为大模型评估提供了动态可靠的解决方案。