人工智能识别死海古卷并非出自一人之手

大部份的死海古卷(Dead Sea Scrolls)都没有署名,所以无法知道是由哪位抄写员誊写的,而且学者也很难根据字迹的特徵辨认某份手稿是由一位,还是多位抄写员完成。但是,根据《PLOS ONE》期刊最新发表的文章,大以赛亚书卷的研究加入人工智慧的技术后,科学家发现该手稿应该是由两位抄写员共同完成,而且其中一位还试图模仿另一位的笔迹。

如同我们之前的报导,这些希伯来抄本(完整和零散的手稿加起来约有 900 份,都保存在泥罐裡)分散在死海北部库姆兰定居点附近的各个洞穴中,最早由生活于此的贝都因人在 1946 至 1947 年间发现。(故事应该是这样,一名牧羊人在找一隻走失的羊时,乱丢一颗石头,刚好击中一个泥罐,就发现了书卷。)

罗马人约在西元 73 年时摧毁了库姆兰定居点,歷史学家相信爱赛尼派 (Essenes)的文士为保护这些手稿因而将它们藏在洞穴中,因为洞穴中的环境条件和天然石灰岩,手稿可以保存千年以上不是问题。这些手稿可以追溯至西元前 3 世纪到西元 1 世纪之间。

某些手稿已经用放射性碳定年法和同步辐射法分析过,这些技术可以让科学家了解这手稿裡笔迹的特徵。一名以色列科学家欧朗.奥柏曼(Oren Ableman)则是在 2018 年时将红外线显微镜连接电脑,用来分析从 1950 年代就一直保存在香菸盒裡的书卷碎片。

2019 年一项「圣殿书卷」的研究则指出这些抄本表面带有一些特殊的硫酸盐类(像是硫、钠、石膏、钙),这可能是这些文本能完整保存的原因。而去(2020)年,科学更发现了收藏在曼彻斯特大学裡的四份书卷竟然藏有文字,内容很可能是以圣经西结书裡的经文,原本学界都以为这些书卷是空白的。 

最近的研究聚焦在「大以赛亚书卷(编号 1QIsa)」,这是在库姆兰洞穴 1 发现的书卷之一,也是在洞穴发现的所有文本中,唯一被完整保存的书卷,只有一小部份的表皮脱落了。这份书卷共写在 17 张皮纸上,总长约 732 公分、宽 25 公分,包含了圣经以赛亚书的全部内容,因此大以赛亚书卷被公认为是近一千年来发现最古老、最完整的手抄本。(以色列博物馆和 Google 合作了一项死海古卷计画,将以赛亚书卷数位化并加上英文翻译。)

多数学者认为以赛亚书卷由同一位文士抄写而成,因为字迹看起来相当一致,但也有少数学者认为是由两位文士各完成一半的书卷,只是一方模仿了另一方的笔迹。该 AI 研究的共同作者,荷兰格罗宁根大学的教授麦拉登・波波维奇(Mladen Popović)表示:「科学家试着找出决定性的证据来证明笔迹出自同一人,或不同人之手,比如某个特定字母的特徵。」波波维奇同时也是格罗宁根大学专门研究死海古卷的库姆兰机构的院长。

人工智能识别死海古卷并非出自一人之手
死海古卷。Photo Credit: iStock

传统认笔迹的方式都是非常主观的,都是靠专家的个人经验。这门学问其中一个困难处在于,每位抄写员的书写方式不可能一模一样,因此很难判定笔迹来自同一人的细微变化,或是两个笔迹很像的人。更麻烦的是,不同人也可能有相同的书写方式,因为他们接受了相同的训练。或同一人也可能因为疲倦、受伤、使用不同书写工具等等的原因而改变字迹。

波波维奇表示:「人眼是很厉害的,可以把以上因素都考量进去。专家可以判断笔迹来自不同人之手,但是无法明确告诉你他的判断依据。另外,让专家消化书卷裡的海量资讯几乎是不可能的。」其中一个希伯来字母「Aleph」在整份大以赛亚书卷至少出现了五千次,用人眼比对这五千个字母根本不可能,但波波维奇认为人工智慧和特徵辨识的技术正可以解决这个难题。

首先,波波维奇和他的同仁蓝伯特・舒马克(Lambert Schomaker),以及硕士学生马鲁夫・戴利(Maruf Dhali)开发了一个人工神经网络,用来训练电脑将字迹和皮纸或是莎草纸分开(或称二元化),以确保数位影像捕捉到所有的笔迹。舒马克表示:

「完整保存字迹是很重要的,因为古代墨水的痕迹直接与人的肌肉运动有关,所以是非常个人化的。」

接下来他们製作了一张 12 x 12 全形「Aleph」和「Bet」字母的图表,他们认为在文本当中所有形状相似的图案为同一个字母。这张图有助于研究笔迹的变化,但是比起一个完整的字母本身,片段的字迹更能让研究人员得到有力的结论。

最后发现,该书卷来自两人之手,就算研究团队将杂讯加到影像裡做进一步的验证,得出实验结果仍是一样的。研究甚至指出,儘管两人的笔迹很像,但是其中一人的字体变化比较大,这可能代表两人受到同样的训练。

最后波波维奇的团队製作了一张用来做视觉分析的「热点图」。他们把书卷裡出现的所有 Aleph 字母抓出来,根据前 27 列和后 27 列的字母分别产生一个均化的 Aleph 字母,最后产生的两个字母透过人眼就可以很清楚看到差别,也就代表书卷的第二部份是由不同人抄写而成的。

波波维奇表示:

「与其以前靠印象的方式,现在我们用电脑以量化分析和统计分析的技术可以证明书卷是由不同人抄写而成了,而且还能证明两人的笔迹有显着的不同。」

但是该研究仍不完全排除字迹的差别可能是因为抄写员累了、受伤、使用不同的书写工具的可能性,只是「该书卷由两位抄写员完成」是比较直截了当的解释。研究人员也表示,这项研究证明了笔迹的研究若能和其他领域合作,将有许多益处。接下来,研究人员想将此技术应用到其他死海书卷的研究上。

提到这项发现的重要性时,波波维奇表示:「我们现在有能力辨认出不同的抄写员了,虽然我们无法知道他们名字,但透过他们的笔迹,感觉我们终于能和他们握手交流了。」

参考:
Popović M, Dhali MA, Schomaker L (2021) Artificial intelligence based writer identification generates new evidence for the unknown scribes of the Dead Sea Scrolls exemplified by the Great Isaiah Scroll (1QIsaa). PLoS ONE 16(4): e0249769. doi:10.1371/journal.pone.0249769

本文来自INSIDE,经授权后发布,本文观点不代表沙鸥科报立场,转载请联系原作者。

相关文章

  • MIT研究人员找到新方法提升聊天机器人性能

    研究人员发现了一种新的方法,能显著提高像ChatGPT一样的大型语言模型的性能。当人工智能与人之间持续对话时,这些模型常常会出现故障,导致性能急剧下降。研究人员发现,这个问题出在语言模型处理过往“记忆”的方式…

    2024-02-18
  • 在科学出版中如何利用人工智能?

    学术出版领域随着技术进步发生了显著变化。当前围绕生成式人工智能(AI) 或大型语言模型 (LLM) 的讨论尤为热烈。此类工具的功能已远超简单的语法检查或翻译软件,其在出版流程中的介入值得深思。 LLM 是强大的写作辅…

    2024-02-17
  • OpenAI再现黑科技!发布文字生影片AI“Sora”

    OpenAI今天正式发表文字转影片生成式AI「Sora」!就跟DALL-E一样,只要给出文字叙述(或静态图片也可以),Sora可以自动生成1080p动画,各种不同的角色、动作类型和背景细节全方位配件生成! 经过,Sora 可以生成各…

    2024-02-16
  • LPU:比NVIDIA GPU 更快的AI芯片

    这个「Groq」不是马斯克的「Grok」!AI 晶片公司Groq 称创造了「世界上最快的大型语言模型速度」,在社群上示范的影片因极快的生成速度(1 秒内就生成数百字的回覆)而引发关注和讨论。 Groq 其实并非一款全新AI 模…

    2024-02-22
  • 图灵测试是人工智能的标准吗?

    图灵测试是人工智能的标准吗? 王培(美国天普大学计算机与信息科学系) 随着人工智能成为热门话题,“图灵”(Alan M. Turing,1912.6.23~1954.6.7)这个名字也逐渐广为人知。一个常见的说法是把他提出的“图灵测试”…

    2016-05-24
  • Google发布AI模型Gemini

    2月8日晚间,Google发布了新的AI模型免费版Gemini和收费版的Gemini Advanced,并上线了新的网站和Android移动APP。 Gemini 的前身是Bard,Bard 是 Google AI 开发的大型语言模型 (LLM),于 2023 年 2 月 6 日首次发…

    2024-02-09