AI大模型高考成绩出炉
由上海人工智能实验室旗下的司南评测体系OpenCompass近日对7个AI大模型进行了高考9个科目的全科目测试,以全面评估大模型的实际应用能力。
参与测试的模型来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室商汤、法国Mistral开源模型以及OpenAI闭源模型GPT-4o。
根据河南省高考分数线,文科成绩最高的AI模型达到一本线,而理科成绩最高的模型只能达到二本线。
文科状元由阿里通义千问大模型获得,分数为546分。理科状元由上海人工智能实验室商汤联合研发的浦语文曲星获得,分数为468.5分。
在文科科目中,AI模型表现出了较好的知识储备和理解能力。然而,在理科科目中,AI模型的数理推理能力普遍较弱。
特别是在涉及图表题目的问题上,AI模型的得分率仅为37.64%,表明所有大模型在图片理解和运用方面还有很大的提升空间。
阅卷老师指出,尽管大模型在基础知识掌握上表现不错,但在逻辑推理和知识灵活应用方面仍存在差距。
例如,在回答主观题时,大模型常常无法完全理解题干,导致答非所问。在解答数学题时,大模型的解题过程较为机械,逻辑性较差。