还记得你在历史课本上看到的那些破损石碑、残缺不全的铭文吗?它们曾记录着帝国的诏令、平民的哀思、自由的抗争,静默地躺在风沙与岁月中,等待后人解读。
过去,这些石碑往往因为字迹剥落、内容残缺而被束之高阁,等待历史学家用一生去拼图。
但现在,AI 站出来说:“让我来。”
2025年7月,一篇名为《Contextualizing ancient texts with generative neural networks》的论文在《Nature》杂志上震撼发布。
Google DeepMind 联合诺丁汉大学和多位国际研究者,推出了一款全新的AI模型——Aeneas,一个多模态生成式神经网络,专门用来破解古代拉丁铭文的秘密。
它不止能补字,还能预测时间和地点,甚至检索平行文本,像一个穿越千年的历史学家助手。
01铭文:碎片中的历史密码
铭文(Inscriptions),是古代社会在石头、金属、陶片等媒介上刻下的信息。它们没有修饰、不为出版,是最直接的历史证据。
比如古罗马的法律条文、奴隶解放证明、祭祀记录、帝王功绩,这些都藏在铭文中。
但由于年代久远,这些文字常常部分缺失、被风化、遭破坏,尤其是出土于公共场所或墓葬的铭文,常常存在严重的结构性缺口。
你想象一下——一块铭文上写着“皇帝X于……年颁布……法令”,关键的信息“年份”和“法令内容”都不见了。
对于历史研究者而言,这意味着推断需要依靠背景知识、语言习惯、其他铭文做比对,而这一过程极其耗时,甚至可能完全无解。
更难的是,不少铭文属于“唯一存世版本”,一旦残损,就再也无法通过比对其他文本来修复。
02Aeneas 登场:AI 帮你补上缺失文字
于是,Aeneas 诞生了。
这是历史学者与 AI 工程师跨界合作的产物,背后团队来自 Google DeepMind、诺丁汉大学、牛津大学、巴黎高等师范等机构。
这也是继 Ithaca(古希腊铭文AI)后,第二个面向人文学研究的大型 AI 架构。
Aeneas 能做什么?
- 修复缺失文字:预测被风化、破损或不明长度的内容,恢复原貌
- 判断铭文出土地:对应古罗马帝国的 62 个行政区(如高卢、不列颠、叙利亚)
- 估算铭文年代:跨越从公元前 700 年到公元 800 年的 1500 年历史
- 检索语境平行铭文:提供相似样本,辅助判断上下文与语言风格
Aeneas 的强大不仅因为它懂“语言”,更因为它具备“多模态理解能力”——图像和文字的结合。
它的输入包含两部分:
- 铭文的图像(石碑照片、拓片等)
- 铭文的转录文本(哪怕是残缺的)
这意味着,模型不仅能分析拉丁文语义,还能识别石头表面风格、字体排布、符号布局等特征。这对判断地理、年代尤其关键。
例如,某些字体样式可能只出现在罗马共和国晚期,某些装饰只流行于高卢地区,AI 能够从这些非语言信息中推断出时空坐标。
03技术细节揭秘:Aeneas 的“读心术”
Aeneas 的技术核心是一种生成式神经网络架构,具体包括:
- 字符级Transformer编码器:不同于常见的词级模型,它使用字符作为最小单元,更适合处理古代拼写变化和缩略形式
- 多模态融合模块:将图像视觉特征与文本语义信息融合处理,建立更丰富的上下文
- 上下文检索器:基于相似性,在整个数据库中找到与目标铭文最接近的“对照组”
- 生成式修复解码器:可基于语义与历史规律,推测并生成缺失内容,甚至在缺失长度未知的情况下依然有效
这些模块协同工作,就像让 AI 拥有了一位历史学者的眼睛、耳朵与直觉。
04Aeneas 的“战绩”:人机对抗实测
研究团队并未止步于理论建模。他们做了一个大动作:
组织了“古代历史学家 vs Aeneas”测试实验,邀请了来自多个国家的 23 位铭文学专家参加,层次涵盖硕士、博士、教授。
任务包括:
- 对破损铭文进行文字修复
- 判断铭文的出土省份
- 估算铭文的写作时间
实验结果:
- 人机协作 > 单独 AI 或单独人类
- 修复任务中,协同正确率显著提升
- 地理归属准确率达 72%
- 年代判断平均误差仅 13 年,部分任务中中位误差为 0
更惊喜的是:
- 90% 的学者认为模型推荐的“平行铭文”非常有启发性
- 44% 的学者表示,在 AI 参与下,自己做决策时更有信心
这不是传统意义上的“比拼”,而是一种“增强”:AI 补人之所短,人在关键判断中提供语境判断。
05数据宝藏:历史铭文数据库大融合
Aeneas 之所以强大,离不开它背后的大数据库。
研究团队整合了多个铭文数据库:
- EDR(Epigraphic Database Roma)
- EDH(Epigraphic Database Heidelberg)
- EDCS(Epigraphic Database Clauss Slaby)
数据涵盖 176,861 条拉丁铭文,其中约 5% 附带图像。
所有数据通过 Trismegistos ID 标准化标注,统一格式、去重、清理杂质,并采用 OCR/图像识别工具提升图文对齐精度。
这相当于给 AI 提供了“千年图书馆”,让它不仅会“读”,还会“对比、理解与分析”。
06奥古斯都碑文:Aeneas 的经典实战
《Res Gestae Divi Augusti》(奥古斯都功绩实录),是一块经典的罗马铭文,内容关于罗马第一位皇帝奥古斯都的政治遗训。
长期以来,学者对该碑文的刻写时间存在争议,主要集中于公元前10-前1年与公元10-20年两个时段。
研究团队将该铭文输入 Aeneas,模型给出了两段语言风格与时代特征的判定,恰巧对应上述两种学术观点。
这说明,AI 可以在学术争议中提供“第三视角”,帮助做出量化支持。
07Aeneas 的未来:从工具到伙伴
Aeneas 的意义不只是“更快地修复”,而是为人文学研究打开了三扇门:
1. 人机协作范式转变
不再是人类孤军奋战,也不是 AI 独立运算,而是“你出题,我补全”,共同探索未知。
2. 跨媒介研究可能性
Aeneas 架构适用于非拉丁铭文,如希腊文、莎草纸、钱币、碑铭、泥板等,可拓展到埃及学、亚述学、宗教考古等领域。
3. 教育科研双重赋能
对于学生、初学者、非拉丁文背景研究者,Aeneas 提供了重要的“平行文本搜索入口”,降低学术门槛。
08仍有不足,但前景光明
Aeneas 并非完美。
- 图像配对比例仍低(约5%)
- 某些省份数据不均,模型预测偏弱
- 不同铭文类型间的风格迁移仍需改进
但这也是为什么研究团队开放了模型代码、开放 API 接口,并提供公开实验平台:predictingthepast.com
下一步,他们希望:
- 与大模型(如Gemini、ChatGPT)集成,实现问答式学术探索
- 扩大数据集,强化视觉模态影响力
- 探索 AI 与教育的融合路径,为历史课程注入新活力
09AI 不是替代,而是延伸
历史研究从来不只是“找对答案”,而是建构解释、发现关联、还原真相。
Aeneas 提供的,是一种新的“协作式认知结构”:让机器发现蛛丝马迹,让人类做最终判断。
正如研究团队所言:
“我们希望,未来的历史,不再被遗忘,而是被重新理解。”
让 AI 补全的历史,不是假的历史。
它是——我们对真相,更进一步的尝试。
参考论文:https://www.nature.com/articles/s41586-025-09292-5
Aeneas 项目官网:https://www.predictingthepast.com/
求点赞
求分享
求喜欢
领克数云 · 连接全球学术资源的智能平台
领克数云(LinkED Cloud),是一款专为全球高校师生打造的学术智能连接平台。
我们通过AI技术与教育服务的深度融合,为学生和导师搭建一个高效、安全、透明、无中介抽成的学术辅导桥梁。
平台核心特性
✅ 智能匹配,精确对接
学生只需发布学习需求,系统即可根据学科、背景、偏好,智能匹配适合的导师,快速对接、灵活预约。
✅ 实名认证,信息透明
平台导师均通过学历/身份实名审核,辅导过程公开可追溯,避免踩坑,让你安心学习。
✅ 0抽成直连,价格更合理
我们不是中介,不抽成、不强制打包。学生的每一分钱都直接支付给导师本人,支持按小时预约,自由灵活。
✅ 支持多样需求,一站解决
无论是留学文书、课业辅导、论文辅导还是科研项目,我们都能提供合适的导师。
✅ 线上云课堂,沉浸式互动
平台内嵌自研的“领课云”系统,支持预约、上课、资料共享、录屏等功能,全面提升线上教学体验。
适合谁用?
- 想找靠谱导师的留学生 / 海本 / 海硕
- 想灵活接单辅导的高校老师 / 博士 / 博后
- 对教育中介不信任,希望透明合作、自主选择
为什么选择领克数云?
因为我们相信,教育可以更自由、更平等、更智能。
在这里,你不会被中介绑定,也不会被信息不对称误导。
领克数云-学生端
领克数云-导师端
一切由你选择,我们只提供最好的技术与支持。
如果你还没体验过,可以直接注册看看~