电工、电子、电拖技能实训设备
立式通用电工、电子、电拖实训设备
电子技能及生产工艺实训设备
高性能电工、电子、电拖、电气实训设备
维修电工实训考核设备
供配电技术实训装置
农村通信系统线路实训装置
工厂电气控制供电实训装置
PLC可编程实训装置
PLC编程及自动化实验室设备
家用电器实训设备
PLC控制液压与气动实训装置
机电一体化实训设备
变频调速、工业自动化实训装置
数控机床电气维修实训考核设备
普通机床实训设备
机床电气技能培训及考核装置
钳工实验台、焊铆工实训设备
智能楼宇实训设备
工程制图实验室设备
财会模拟实验室设备
化工过程控制实训装置
风能、太阳能发电实训装置
煤矿安全技术培训装置
轨道交通实训系统设备
船舶、智能数码产品实训装置
机械工程技能实训设备
工程机械模拟教学仪
汽车模拟驾驶器
汽车发动机实训设备
汽车全车电器实验台
汽车空调系统实验台
汽车实物解剖模型
汽车底盘实训设备
汽车变速器实训台
汽车发动机拆装及翻转架设备
汽车示教板
汽车程控电教板
透明汽车教学模型
汽车整车综合实训系统
汽车驾校培训设备
新能源汽车教学实训装置
汽车实验箱
立式通用电工、电子、电拖实验室成套设备
电工、模电、数电、电气控制实验室设备
军用车辆实训教学设备
注塑机演示模型
工业机器人实训设备
农机教学设备
无人机装配综合实训装置
智能网联汽车实训设备
高级电工、电子、电机实验室设备
电工、电子、电气、电机实验室设备
数控技术实验室设备
家用电器电子实验室设备
单片机微机实验装置
传感器综合实验台
空调制冷制热实验室设备
多媒体数字语音设备
透明仿真教学电梯模型
理化生实验室设备
环境工程实验装置
流体力学实验室设备
热工类教学实验装置
化工原理实验装置
化工单元操作实训装置
制药工程实验装置
采暖通风和空调制冷实验装置
化学工程化学工艺实验装置
教学实验箱
机械示教陈列柜
机械多媒体仿真设计综合实验装置
机械创新教学模型
中学理科教学仪器
机械教学挂图
机械试验设备
心肺复苏模拟人
教学类软件
新闻中心主页 > 技术文章 >

北京大学发布化学大模型基准SUPERChem


发布时间:2025-12-30

近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准SUPERChem。该基准针对当前化学知识水平评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型(LLM)化学推理分析能力的新体系,旨在推动化学智能评测的深入发展。

2025年,随着开源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。

从基础教育、化学奥赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理分析能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。

研究团队依托北京大学化学与分子工程学院高水平的学生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了SUPERChem基准,填补了化学深度推理评估的空白。

SUPERChem总览与例题

SUPERChem题库的三阶段审核流程

SUPERChem题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格评审的三阶段审核。题目源自专业改编,并采用防泄漏设计,避免LLM依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。

目前,SUPERChem先期发布500道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析等四大化学核心领域。为细粒度评估LLM思考过程,SUPERChem引入推理路径一致性(Reasoning Path Fidelity,RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正“理解”化学。

前沿模型在SUPERChem上的表现

评测结果显示,SUPERChem具有较高难度与区分度。在化学专业低年级本科生闭卷测试中,人类准确率为40.3%。参与评测的前沿模型中,表现最佳的GPT-5(High)准确率为38.5%,表明其化学推理能力与低年级本科生水平相当,尚未超越人类基础专业认知。

前沿模型的正确率与RPF关系

分析RPF指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro和GPT-5(High)在取得较高准确率的同时,其推理逻辑也更符合专家路径;而DeepSeek-V3.1-Think虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。

输入模态对不同模型的影响

在依赖多模态输入的题目中,视觉信息对不同模型影响各异。对Gemini-2.5-Pro等强推理模型,图像输入可提升准确率;而对GPT-4o等推理能力较弱的模型,图像信息会造成干扰。这表明在科学任务中需根据模型能力匹配合适的输入模态。

为进一步探究LLM推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节。这反映出当前LLM在涉及反应性与分子结构理解的核心任务上仍存在短板。

推理断点所属化学能力分布

综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。

SUPERChem项目由北京大学化学与分子工程学院和元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。近百位化学与分子工程学院博士生和高年级本科生参与题库构建与审核,其中包括多位国际与中国化学奥林匹克决赛获奖选手。174位北京大学化学专业低年级本科生参与了人类基线测试。

SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师,计算机学院杨仝老师的指导下开展。项目获得北京大学计算中心与高性能计算平台资源支持,来自Chemy、好未来、质心教育等机构和化学与分子工程学院邹鹏、郑捷等多位教授的题目素材支持以及高杨、龙汀汀老师的专业协助。


返回顶部 ↑

网站首页 | 关于我们 | 产品展示 | 新闻中心 | 售后服务 | 技术文章 | 产品导航 | 联系我们
相关产品: 支付宝, 百度, 点击这里给我发消息 点击这里给我发消息
友情链接: 财会模拟实验室设备 ,
邮箱:285729858@qq.com 沪ICP备16028912号-1