还记得你在历史课本上看到的那些破损石碑、残缺不全的铭文吗?它们曾记录着帝国的诏令、平民的哀思、自由的抗争,静默地躺在风沙与岁月中,等待后人解读。

过去,这些石碑往往因为字迹剥落、内容残缺而被束之高阁,等待历史学家用一生去拼图。

但现在,AI 站出来说:“让我来。”

2025年7月,一篇名为《Contextualizing ancient texts with generative neural networks》的论文在《Nature》杂志上震撼发布。

Google DeepMind 联合诺丁汉大学和多位国际研究者,推出了一款全新的AI模型——Aeneas,一个多模态生成式神经网络,专门用来破解古代拉丁铭文的秘密。

它不止能补字,还能预测时间和地点,甚至检索平行文本,像一个穿越千年的历史学家助手。

01铭文:碎片中的历史密码

铭文(Inscriptions),是古代社会在石头、金属、陶片等媒介上刻下的信息。它们没有修饰、不为出版,是最直接的历史证据。

比如古罗马的法律条文、奴隶解放证明、祭祀记录、帝王功绩,这些都藏在铭文中。

但由于年代久远,这些文字常常部分缺失、被风化、遭破坏,尤其是出土于公共场所或墓葬的铭文,常常存在严重的结构性缺口。

你想象一下——一块铭文上写着“皇帝X于……年颁布……法令”,关键的信息“年份”和“法令内容”都不见了。

对于历史研究者而言,这意味着推断需要依靠背景知识、语言习惯、其他铭文做比对,而这一过程极其耗时,甚至可能完全无解。

更难的是,不少铭文属于“唯一存世版本”,一旦残损,就再也无法通过比对其他文本来修复。

02Aeneas 登场:AI 帮你补上缺失文字

于是,Aeneas 诞生了。

这是历史学者与 AI 工程师跨界合作的产物,背后团队来自 Google DeepMind、诺丁汉大学、牛津大学、巴黎高等师范等机构。

这也是继 Ithaca(古希腊铭文AI)后,第二个面向人文学研究的大型 AI 架构。

Aeneas 能做什么?

  • 修复缺失文字:预测被风化、破损或不明长度的内容,恢复原貌
  • 判断铭文出土地:对应古罗马帝国的 62      个行政区(如高卢、不列颠、叙利亚)
  • 估算铭文年代:跨越从公元前 700 年到公元 800 年的 1500 年历史
  • 检索语境平行铭文:提供相似样本,辅助判断上下文与语言风格
图片

Aeneas 的强大不仅因为它懂“语言”,更因为它具备“多模态理解能力”——图像和文字的结合。

它的输入包含两部分:

  1. 铭文的图像(石碑照片、拓片等)
  2. 铭文的转录文本(哪怕是残缺的)

这意味着,模型不仅能分析拉丁文语义,还能识别石头表面风格、字体排布、符号布局等特征。这对判断地理、年代尤其关键。

例如,某些字体样式可能只出现在罗马共和国晚期,某些装饰只流行于高卢地区,AI 能够从这些非语言信息中推断出时空坐标。

03技术细节揭秘:Aeneas 的“读心术”

Aeneas 的技术核心是一种生成式神经网络架构,具体包括:

  • 字符级Transformer编码器:不同于常见的词级模型,它使用字符作为最小单元,更适合处理古代拼写变化和缩略形式
  • 多模态融合模块:将图像视觉特征与文本语义信息融合处理,建立更丰富的上下文
  • 上下文检索器:基于相似性,在整个数据库中找到与目标铭文最接近的“对照组”
  • 生成式修复解码器:可基于语义与历史规律,推测并生成缺失内容,甚至在缺失长度未知的情况下依然有效

这些模块协同工作,就像让 AI 拥有了一位历史学者的眼睛、耳朵与直觉。

04Aeneas 的“战绩”:人机对抗实测

研究团队并未止步于理论建模。他们做了一个大动作:

组织了“古代历史学家 vs Aeneas”测试实验,邀请了来自多个国家的 23 位铭文学专家参加,层次涵盖硕士、博士、教授。

任务包括:

  • 对破损铭文进行文字修复
  • 判断铭文的出土省份
  • 估算铭文的写作时间

实验结果:

  • 人机协作 > 单独 AI 或单独人类
  • 修复任务中,协同正确率显著提升
  • 地理归属准确率达 72%
  • 年代判断平均误差仅 13 年,部分任务中中位误差为 0

更惊喜的是:

  • 90% 的学者认为模型推荐的“平行铭文”非常有启发性
  • 44% 的学者表示,在 AI 参与下,自己做决策时更有信心

这不是传统意义上的“比拼”,而是一种“增强”:AI 补人之所短,人在关键判断中提供语境判断。

05数据宝藏:历史铭文数据库大融合

Aeneas 之所以强大,离不开它背后的大数据库。

研究团队整合了多个铭文数据库:

  • EDR(Epigraphic Database Roma)
  • EDH(Epigraphic Database Heidelberg)
  • EDCS(Epigraphic Database Clauss Slaby)

数据涵盖 176,861 条拉丁铭文,其中约 5% 附带图像。

所有数据通过 Trismegistos ID 标准化标注,统一格式、去重、清理杂质,并采用 OCR/图像识别工具提升图文对齐精度。

这相当于给 AI 提供了“千年图书馆”,让它不仅会“读”,还会“对比、理解与分析”。

06奥古斯都碑文:Aeneas 的经典实战

《Res Gestae Divi Augusti》(奥古斯都功绩实录),是一块经典的罗马铭文,内容关于罗马第一位皇帝奥古斯都的政治遗训。

长期以来,学者对该碑文的刻写时间存在争议,主要集中于公元前10-前1年与公元10-20年两个时段。

图片

研究团队将该铭文输入 Aeneas,模型给出了两段语言风格与时代特征的判定,恰巧对应上述两种学术观点。

这说明,AI 可以在学术争议中提供“第三视角”,帮助做出量化支持。

07Aeneas 的未来:从工具到伙伴

Aeneas 的意义不只是“更快地修复”,而是为人文学研究打开了三扇门:

1. 人机协作范式转变

不再是人类孤军奋战,也不是 AI 独立运算,而是“你出题,我补全”,共同探索未知。

2. 跨媒介研究可能性

Aeneas 架构适用于非拉丁铭文,如希腊文、莎草纸、钱币、碑铭、泥板等,可拓展到埃及学、亚述学、宗教考古等领域。

3. 教育科研双重赋能

对于学生、初学者、非拉丁文背景研究者,Aeneas 提供了重要的“平行文本搜索入口”,降低学术门槛。

08仍有不足,但前景光明

Aeneas 并非完美。

  • 图像配对比例仍低(约5%)
  • 某些省份数据不均,模型预测偏弱
  • 不同铭文类型间的风格迁移仍需改进

但这也是为什么研究团队开放了模型代码、开放 API 接口,并提供公开实验平台:predictingthepast.com

下一步,他们希望:

  • 与大模型(如Gemini、ChatGPT)集成,实现问答式学术探索
  • 扩大数据集,强化视觉模态影响力
  • 探索 AI 与教育的融合路径,为历史课程注入新活力

09AI 不是替代,而是延伸

历史研究从来不只是“找对答案”,而是建构解释、发现关联、还原真相。

Aeneas 提供的,是一种新的“协作式认知结构”:让机器发现蛛丝马迹,让人类做最终判断。

正如研究团队所言:

“我们希望,未来的历史,不再被遗忘,而是被重新理解。”

让 AI 补全的历史,不是假的历史。

它是——我们对真相,更进一步的尝试。

参考论文:https://www.nature.com/articles/s41586-025-09292-5

Aeneas 项目官网:https://www.predictingthepast.com/

求点赞

求分享

求喜欢

领克数云 · 连接全球学术资源的智能平台

图片

领克数云(LinkED Cloud),是一款专为全球高校师生打造的学术智能连接平台。

我们通过AI技术与教育服务的深度融合,为学生和导师搭建一个高效、安全、透明、无中介抽成的学术辅导桥梁。

平台核心特性

✅ 智能匹配,精确对接

学生只需发布学习需求,系统即可根据学科、背景、偏好,智能匹配适合的导师,快速对接、灵活预约。

✅ 实名认证,信息透明

平台导师均通过学历/身份实名审核,辅导过程公开可追溯,避免踩坑,让你安心学习。

✅ 0抽成直连,价格更合理

我们不是中介,不抽成、不强制打包。学生的每一分钱都直接支付给导师本人,支持按小时预约,自由灵活。

✅ 支持多样需求,一站解决

无论是留学文书、课业辅导、论文辅导还是科研项目,我们都能提供合适的导师。

✅ 线上云课堂,沉浸式互动

平台内嵌自研的“领课云”系统,支持预约、上课、资料共享、录屏等功能,全面提升线上教学体验。

适合谁用?

  • 想找靠谱导师的留学生 / 海本 / 海硕
  • 想灵活接单辅导的高校老师 / 博士 / 博后
  • 对教育中介不信任,希望透明合作、自主选择

为什么选择领克数云?

因为我们相信,教育可以更自由、更平等、更智能。

在这里,你不会被中介绑定,也不会被信息不对称误导。

领克数云-学生端

图片

领克数云-导师端

图片

一切由你选择,我们只提供最好的技术与支持。

如果你还没体验过,可以直接注册看看~