AI作答高考卷,测出了什么?

光明网 光明网评论员

2024-06-24 17:08

大模型作答高考卷,一个有意思的实验: 2024年全国高考结束后,上海人工智能实验室的司南评测体系(Open Compass)选取了包括GPT-4o在内的中外6个开源模型,针对高考全国新课标I卷“语数外”三门课程进行了全卷能力测试。结果显示,阿里巴巴的Qwen2-72B语文成绩夺冠,124分;GPT-4o英语成绩居首(似毫无疑问),111分。6个大模型均是数学“学渣”,最高分也没有超过80分。

大模型在高考季刷一下话题,很有趣,因为信息披露有限,也不必得出一些可以较真的结论。只是在测评中,也有一些大模型训练的蛛丝马迹可以捕捉,助人们更丰富地理解AI。

比如,6个模型在语文卷中现代文阅读部分得分差距不大,却在文言文考题中差距极大,垫底的是来自法国Mistral的对话模型。这可以略窥不同模型在训练材料中的语言占比,感受一下欧洲大模型对汉语训练材料的看重程度到底几何。

比如,阅卷老师表示,多数模型无法理解“本体”“喻体”“暗喻”等语文概念,写作文不像写作文,更像问答题。这是因为AI输出本质上是一种基于数据的模式匹配,而不是传递人的情感体验,因此无法生成文章之为文章的那个情感纽带,生成文章字里行间的“潜台词”,故而只有“回答”而不能“作文”。

比如,6个大模型都折戟数学,远未达到及格水平。尤其耐人寻味的是,它们对数学主观题目的回答“具有迷惑性”,甚至出现了过程错误但答案正确的情况。这句话说白了就是,大模型没有足够的逻辑推理能力,但在学到人类这个深度能力之前,它先学会了用数据占有优势撒谎,还可以编造复杂谎言。

实际上,“语数外”三科阅卷老师在整体点评时都提到了主观题的问题,除了语文数学上述问题之外,英语阅卷人也提出了大模型的作文超字问题——英语已经是三科中客观性最强的科目。这意味着,大模型在处理复杂上下文时可能会遇到困难,难以准确理解多义性、歧义性和语境变化。而这种多义性与歧义性,以及兼纵理性与情感的处理要求,恰恰是今天大模型们要进军的医疗、司法等领域决策过程的特征。

在现实世界里,高考是选拔赛,也是成人礼。综合理解卷面上的问题与背后的考察意图,是“人”成熟的一个标识,继续社会化的重要准备。大模型“参加”这次高考,作为一个黑盒模型,决策过程难以解释,面对稍微复杂一点的语境,调试性又明显不足,看来还没到说成熟的时候。

编辑: 张燕   主编:单士兵      审核: 刘咏
版权声明:

凡注明来源重庆日报的作品,版权均属重庆日报所有,未经授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:重庆日报网”。违反上述声明者,本网将追究其相关法律责任。

除来源署名为重庆日报稿件外,其他所转载内容之原创性、真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考并自行核实。

相关新闻
网站首页| 重报集团| 关于我们| 广告业务| 投稿信箱

Copyright © 2000-2022 CQNEWS Corporation, All Rights Reserved.

重庆日报版权所有 未经书面授权 不得复制或建立镜像

地址:重庆市渝北区同茂大道416号 邮编:401120 广告招商:023-63907707 传真:023-63907104 举报电话:023-63823333   违法和不良信息举报中心热线:12377

互联网新闻信息服务许可证编号50120180001 互联网出版许可证号:(署)网出证(渝)字002号  渝ICP备17015920号

渝公网安备 50011202500747号