MIT&Google大腦用AI破解失傳的古代文字，被稱「現代版羅塞塔石碑」

漫漫塵埃下，掩藏了許多曾經輝煌燦爛古代文明，但我們現在卻無法清晰地知道，這些地方究竟發生了什麼。

搞懂這些歷史的最佳方式，就是找到他們的文字記載。However，記載文字的石碑可以被考古學家們挖出來，但這些古文字究竟什麼意思，現代的人們看不懂，需要語言學家們耗盡青春來推測。

現在，MIT CSAIL和Google大腦的研究者出手了，他們用機器學習破譯了烏加里特文和線性文字B。

△ 烏加里特王宮

烏加里特文，Ugaritic，是一種楔形文字，屬於閃米特語族。從字面上來看，就知道它是一個叫做烏加里特（Ugarit）的文明使用的語言，這個文明位於當今地中海沿岸的敘利亞，在公元前6000年前後就初現蹤跡，在公元前1190年前後滅亡。

△ 烏加里特文

線性文字B，Linear B，由一種人類還沒有破譯出來的線性文字A演化而來，主要存活於公元前1500年到公元前1200年的克里特島和希臘南部，是希臘語的一種古代書寫形式。

△ 線性文字B

研究者們利用同一語族內不同語言之間的聯系，用機器學習的方法來破譯這兩種失傳的語言，這是破譯古代語言的新方法，也將對羅曼語族的語言學研究有巨大的影響和提升。

這個方法讓許多人驚嘆：

簡直是現代版的羅塞塔石碑！

PS，羅塞塔石碑是一塊用3種語言寫了同一個內容的石碑，幫助語言學家們讀懂古文字。

希望能先把動物和植物的語言破譯了，可以發現打開新世界的大門。

人類語言總相通

這項研究的核心方法，是藉助人類語言的相似性。

比如，知乎用戶@拉隊短在介紹歐洲語言相似性的時候，舉了這麼個栗子：

句子「那是六月末潮濕陰沉的一個夏日。」

英語：It was a humid, grey summer day at the end of June.

丹麥語：Det var en fugtig, grå sommerdag i slutningen af juni.

瑞典語：Det var en fuktig, grå sommardag i slutet av juni.

挪威語：Det var en fuktig, grå sommerdag i slutten av juni.

冰島語：Það var rakur, grár sumardagur í lok júní.

看，長得差不多嘛，畢竟同屬印歐語系日耳曼語族，單詞的分布位置、句子的結構都很相似，如果你能看懂一種語言，就能大致猜測和它「血緣」關系近的另一種語言。

模型訓練

為了破解這兩種文字，研究者們提出了一個基於字符的seq2seq模型。

模型主要包含通用字符嵌入、剩餘連接、單調排列正則化幾個部分。

其中，線性文字B的字母和希臘文需要進行對應。

之後，藉助神經解密算法，在具有不同語言特徵的多種語言中提供強大的性能。

你懂的語言，和你不懂的語言

在算法模型的基礎之下，需要的語料庫除了待破解的烏加里特文和線性文字B，還需要一些現在的人類能看懂的語言。

研究團隊選擇了羅曼語族的數據庫，包含意大利語、西班牙語和葡萄牙語三種語言的同源語音轉錄，需要對它們進行同源檢測。

因此，數據集就用到上面這些，Symbols指的是語言中的字符，Token則是語言學中類似於單詞的存在。

准確率

運行成果還不錯，烏加里特文在無噪聲條件下優於現有方法3.1％，在有噪聲條件下優於現在的貝葉斯方法5.5％。

而線性文字B，在無噪聲條件下准確率高達84.7％，在更具挑戰性的LinearB名稱數據集中達到67.3％的准確度。

在羅曼語族同源識別任務中，西班牙語准確度提升3.4%，葡萄牙語提升1.6%。

線性文字B的祖先，線性文字A還沒有被人類破譯，它被譽為考古界聖杯。

未來，在這項研究起作用的情況下，或許可以像藉助羅曼語族三種語言的數據庫一樣，直接用機器藉助其他已知的人類語言，實現暴力破解。

想破腦殼的語言學家們，可以把工作重心放到別的事情上了。

作者介紹

這項研究的一作Jiaming Luo，正在MIT CSAIL讀博，專注NLP研究，此前他也曾在北大從事情緒分析方面的研究。

Luo同學的導師，也是這項研究的第三位作者Regina Barzilay，她是MIT CSAIL的教授，2017曾因NLP方面的研究獲得麥克阿瑟獎金，除了NLP之外，她還研究深度學習在化學和腫瘤學方面的應用。

來源：華人頭條B

來源：華人號：文化印象

MIT&Google大腦用AI破解失傳的古代文字，被稱「現代版羅塞塔石碑」

學生憑運動步數可得打折優惠浙江工商大學食堂獲贊

青島社21年11月 1/12 Monkey125 成品

《妖精的尾巴》公會內部實機展示還可發起決鬥申請

《九龍風水傳》續作預告公布採用新渲染技術打造

BANDAI DX 戴卡卡盒（暫稱）和膠囊怪獸卡

《飛向月球》將於10月登陸Steam 主機版跳票到2020年

這菜比蘿卜營養，比韭菜清腸，5塊錢煮一鍋，春天不懂吃它就虧了

SquareEnix: 21年12月 Structure Arts系列 1/72 Frost 地獄之壁ver. 6機套裝

《堡壘之夜》PVE技能點獲取攻略

NEO半導體推出X-NAND，兼顧SLC的速度和QLC的密度

《刺客英靈殿》是育碧第2賺錢的遊戲孤島6首發強勢

真劫匪點評《俠盜獵車手Online》「名鑽豪劫」還給了專業意見