最近,纽约大学斯特恩商学院的数据科学教授 Panos Ipeirotis 经历了一场从“狂喜”到“脊背发凉”的心路历程。他开设了一门名为《AI/ML 产品管理》的新课,收到的第一批作业让他惊叹:学生们的作业水平,整齐划一地达到了麦肯锡咨询报告的水准。逻辑严密、排版精美、用词考究。但当他走进教室,随机点了几名“优等生”解释自己的推导逻辑时,空气凝固了。有人支支吾吾,有人答非所问,有人甚至连自己作业里引用的专业名词是什么意思都不知道。这不再是单纯的“抄作业”,这是一场利用大模型进行的大规模“学术义肢”实验。面对被 AI 全副武装的学生,Panos 教授决定玩一场大的:“既然你们用 AI 假装天才,那我就用 AI 做你们的判官。”
他花了不到 110 元人民币,给全班 36 人办了一场实时语音口试。结果证明:在赛博判官面前,靠 AI 包装出来的“学霸”,底裤都被看穿了。

“作业”已死:当逻辑变成了一种可以购买的廉价插件

过去几十年,高等教育的评估体系建立在一个默认的契约之上:我布置作业,你输出文字,文字代表你的思考。但在这个连 PPT 都能由 NotebookLM 一键生成的时代,这个契约彻底崩塌了。正如 Panos 所说:“如果一个人连自己交的作业都讲不明白,那么这份书面作业,就根本没测出我们想要评估的真实能力。”现在的学生,哪怕对项目一窍不通,只要把原始资料喂给 Claude 或ChatGPT,几秒钟内就能得到一份满分答卷。更可怕的是,这种“AI 伪装”已经进化到了连经验丰富的教授都无法通过文本分析来识别真伪的地步。既然“结果”可以伪造,那就只能考查“过程”口试,这种最古老、最硬核的考核方式,成为了 Panos 教授最后的救命稻草。

105元人民币的“邪修”实验:AI 考官是如何炼成的?

口试好,谁都知道,但为什么以前大规模铺不开?因为太贵了。36 个学生,每人半小时,两个教授就要耗掉 30 个小时。按纽约大学教授的时薪计算,这门课的考核成本将是一个天文数字。于是,Panos 教授选择了“邪修”。他利用 ElevenLabs 的语音代理平台,配合 Claude、Gemini、OpenAI 的 API,缝合出了一个 24 小时不间断工作的“赛博考官”。
105元人民币的“邪修”实验:AI 考官是如何炼成的?
1. 它是如何工作的?这个 AI 考官不是一个简单的聊天机器人。

它由三个子 Agent 协作:

  • 身份验证 Agent: 像保安一样核对学号,防止替考。
  • 项目讨论 Agent: 这是最狠的一招。教授把每个小组的项目细节、数据来源、模型选型全部注入 AI 的“记忆”。当你接入对话时,AI 会精准地针对你的项目细节发问。
  • 案例分析 Agent: 随机从课程案例库中抽查。
2. 成本账本:极致的性价比
成本账本:极致的性价比
这场实验的最终账单让所有人震惊。36 名学生,总共进行了超过 1200 分钟的对话,总成本仅为 15 美元(约 105 元人民币):

  • Claude (主评分模型): 8 美元
  • ElevenLabs (语音费): 5 美元
  • Gemini/OpenAI (辅助评分): 2 美元 平摊下来,每人仅需不到 3 元人民币。

这种成本结构,直接宣告了传统大规模标准化考试的终结。

审判现场:AI 比人类教授更毒辣,也更公平

这场实验最精彩的部分,在于 AI 如何识别“南郭先生”。1. 废话检测器

废话检测器
在人工面试中,学生往往可以通过绕圈子、拽名词来蒙混过关。但 AI 考官被设定了极其严密的“逻辑追踪”。比如,当 AI 问你“为什么选择这个评估指标”,如果你回答一段模棱两可的套话,AI 会在下一轮对话中立刻追问:“既然你提到了这个指标,请解释它在处理长尾数据时的具体数学表现。”数据显示,耗时最长的学生(64 分钟)得分往往很低,因为他们在不断地用废话填补逻辑黑洞;而真正的学霸只用了 9 分钟就拿到了 19 分(满分 20)。
2. “三堂会审”评分制为了防止单个 AI 模型产生偏见,Panos 教授参考了 Andrej Karpathy 的思路,搭建了一个“LLM 评分委员会”。

  • Claude、Gemini、ChatGPT 独立打分。
  • 然后让它们看到彼此的理由,进行“庭内辩论”。
  • 最后由 Claude 担任首席大法官,出具包含原话引用的“判决书”。
结果非常有意思:最初,Gemini 是个“老好人”,打分偏高;但在看到 Claude 犀利地指出学生在“实验设计”上的漏洞后,Gemini 会立刻修正自己的评分标准。

那些踩过的坑:AI 也懂“官僚主义”?

尽管效果惊艳,但 Panos 教授在博文中也分享了一系列让人哭笑不得的“翻车”细节。
  • 声音的“压迫感”: 他们最初用了某位权威教授的声音模型,结果学生反馈“像在被严厉训斥”,导致由于过度紧张而发挥失常。最后他们发现,考官的声音需要有“理解感”而非“权威感”。
  • 不给思考时间: AI 的反应速度太快了。学生刚停顿 5 秒想组织语言,AI 就立刻追问:“你还在听吗?没听懂我可以换个问法。”这种连珠炮式的进攻让学生崩溃。最后教授不得不硬性规定:AI 必须等待 10 秒以上才能追问。
  • “伪随机”陷阱: 当教授让 AI 随机抽题时,AI 竟然表现出了人类的偏好。它特别喜欢选案例库里的某个知名大厂案例。最后只能通过代码层面的硬随机数来强制分配题目。

反思:当 AI 成为评估标准,教育将走向何方?

这场实验结束后,Panos 教授收集了学生的反馈,结果耐人寻味。
反思:当 AI 成为评估标准,教育将走向何方?
83% 的学生表示这种考试“压力极大”,远超笔试。 但同时,70% 的学生承认,AI 确实考出了他们的真实水平。这给了全球教育者一个沉重的思考: 长期以来,我们的教育是否在鼓励一种“纸面繁荣”?我们培养的是会解决问题的人,还是会利用工具粉饰结果的“PPT 战神”?Panos 教授在原文中说了一句震耳发聩的话:“以毒攻毒,方为上策。”如果学生已经在用 AI 替代大脑,那么教授唯一的出路就是用 AI 进化成更高级的判官。这不是技术的竞赛,而是对“理解”一词的夺回。
课后作业的时代可能真的落幕了。未来,你对知识的掌握将不再体现在你交上去的精美 PDF 里,而体现在你面对一个 24 小时不休息、不疲惫、逻辑严密到变态的 AI 考官时,能否在 10 分钟内清晰地阐述出你的灵魂。AI 正在让口试这种原本“昂贵且不可规模化”的精英评估方式,变得平民化。这或许是教育最坏的时代,因为混日子的门槛变高了;但这一定是学习最好的时代,因为真正的才华,将不再被淹没在平庸的文字游戏里。原文链接: Fighting Fire with Fire: Scalable Oral Exams with AI|以上图片来自网络,版权归原作者所有,如有侵权请联系删除。

💡 领克数云 · 连接全球学术资源的智能平台

领克数云 · 连接全球学术资源的智能平台
领克数云(LinkED Cloud),是一款专为全球高校师生打造的学术智能连接平台。我们通过AI技术与教育服务的深度融合,为学生和导师搭建一个高效、安全、透明、无中介抽成的学术辅导桥梁。
平台核心特性
✅ 智能匹配,精确对接学生只需发布学习需求,系统即可根据学科、背景、偏好,智能匹配适合的导师,快速对接、灵活预约。

✅ 实名认证,信息透明

平台导师均通过学历/身份实名审核,辅导过程公开可追溯,避免踩坑,让你安心学习。

✅ 0抽成直连,价格更合理

我们不是中介,不抽成、不强制打包。学生的每一分钱都直接支付给导师本人,支持按小时预约,自由灵活。

✅ 支持多样需求,一站解决

无论是留学文书、课业辅导、论文辅导还是科研项目,我们都能提供合适的方案。

✅ 线上云课堂,沉浸式互动

平台内嵌自研的“领课云”系统,支持预约、上课、资料共享、录屏等功能,全面提升线上教学体验。

适合谁用?
想找靠谱导师的留学生 / 海本 / 海硕想灵活接单辅导的高校老师 / 博士 / 博后

对教育中介不信任,希望透明合作、自主选择

为什么选择领克数云?因为我们相信,教育可以更自由、更平等、更智能。在这里,你不会被中介绑定,也不会被信息不对称误导。一切由你选择,我们只提供最好的技术与支持。如果你还没体验过,可以直接注册看看~