MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

漫漫塵埃下,掩藏了許多曾經輝煌燦爛古代文明,但我們現在卻無法清晰地知道,這些地方究竟發生了什麼。

搞懂這些歷史的最佳方式,就是找到他們的文字記載。However,記載文字的石碑可以被考古學家們挖出來,但這些古文字究竟什麼意思,現代的人們看不懂,需要語言學家們耗盡青春來推測。

現在,MIT CSAIL和Google大腦的研究者出手了,他們用機器學習破譯了烏加里特文和線性文字B。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

△ 烏加里特王宮

烏加里特文,Ugaritic,是一種楔形文字,屬於閃米特語族。從字面上來看,就知道它是一個叫做烏加里特(Ugarit)的文明使用的語言,這個文明位於當今地中海沿岸的敘利亞,在公元前6000年前後就初現蹤跡,在公元前1190年前後滅亡。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

△ 烏加里特文

線性文字B,Linear B,由一種人類還沒有破譯出來的線性文字A演化而來,主要存活於公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語的一種古代書寫形式。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

△ 線性文字B

研究者們利用同一語族內不同語言之間的聯系,用機器學習的方法來破譯這兩種失傳的語言,這是破譯古代語言的新方法,也將對羅曼語族的語言學研究有巨大的影響和提升。

這個方法讓許多人驚嘆:

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

簡直是現代版的羅塞塔石碑!

PS,羅塞塔石碑是一塊用3種語言寫了同一個內容的石碑,幫助語言學家們讀懂古文字。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

希望能先把動物和植物的語言破譯了,可以發現打開新世界的大門。

人類語言總相通

這項研究的核心方法,是藉助人類語言的相似性。

比如,知乎用戶@拉隊短 在介紹歐洲語言相似性的時候,舉了這麼個栗子:

句子「那是六月末潮濕陰沉的一個夏日。」

英語:It was a humid, grey summer day at the end of June.

丹麥語:Det var en fugtig, grå sommerdag i slutningen af juni.

瑞典語:Det var en fuktig, grå sommardag i slutet av juni.

挪威語:Det var en fuktig, grå sommerdag i slutten av juni.

冰島語:Það var rakur, grár sumardagur í lok júní.

看,長得差不多嘛,畢竟同屬印歐語系日耳曼語族,單詞的分布位置、句子的結構都很相似,如果你能看懂一種語言,就能大致猜測和它「血緣」關系近的另一種語言。

模型訓練

為了破解這兩種文字,研究者們提出了一個基於字符的seq2seq模型。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

模型主要包含通用字符嵌入、剩餘連接、單調排列正則化幾個部分。

其中,線性文字B的字母和希臘文需要進行對應。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

之後,藉助神經解密算法,在具有不同語言特徵的多種語言中提供強大的性能。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

你懂的語言,和你不懂的語言

在算法模型的基礎之下,需要的語料庫除了待破解的烏加里特文和線性文字B,還需要一些現在的人類能看懂的語言。

研究團隊選擇了羅曼語族的數據庫,包含意大利語、西班牙語和葡萄牙語三種語言的同源語音轉錄,需要對它們進行同源檢測。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

因此,數據集就用到上面這些,Symbols指的是語言中的字符,Token則是語言學中類似於單詞的存在。

准確率

運行成果還不錯,烏加里特文在無噪聲條件下優於現有方法3.1%,在有噪聲條件下優於現在的貝葉斯方法5.5%。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

而線性文字B,在無噪聲條件下准確率高達84.7%,在更具挑戰性的LinearB名稱數據集中達到67.3%的准確度。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

在羅曼語族同源識別任務中,西班牙語准確度提升3.4%,葡萄牙語提升1.6%。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

線性文字B的祖先,線性文字A還沒有被人類破譯,它被譽為考古界聖杯。

未來,在這項研究起作用的情況下,或許可以像藉助羅曼語族三種語言的數據庫一樣,直接用機器藉助其他已知的人類語言,實現暴力破解。

想破腦殼的語言學家們,可以把工作重心放到別的事情上了。

作者介紹

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

這項研究的一作Jiaming Luo,正在MIT CSAIL讀博,專注NLP研究,此前他也曾在北大從事情緒分析方面的研究。

MIT&Google大腦用AI破解失傳的古代文字,被稱「現代版羅塞塔石碑」

Luo同學的導師,也是這項研究的第三位作者Regina Barzilay,她是MIT CSAIL的教授,2017曾因NLP方面的研究獲得麥克阿瑟獎金,除了NLP之外,她還研究深度學習在化學和腫瘤學方面的應用。

來源:華人頭條B

來源:華人號:文化印象