學(xué)術(shù)出版商 Springer Nature 出版了第一本由機(jī)器學(xué)習(xí)生成的書(shū)籍——《鋰離子電池:機(jī)器生成的當(dāng)前研究摘要》,它概述了鋰離子電池領(lǐng)域的最新研究成果,大約250頁(yè)。
與電池研究一樣有趣的是,它只與該項(xiàng)目的實(shí)際目的相關(guān)。人工智能的創(chuàng)造者,在本書(shū)的廣泛而有趣的序言中,解釋了他們的意圖更多的是開(kāi)始討論機(jī)器生成的科學(xué)文獻(xiàn),從作者問(wèn)題到技術(shù)和道德問(wèn)題。
換句話(huà)說(shuō),他們的目的是產(chǎn)生問(wèn)題,而不是答案。他們有豐富的問(wèn)題??
誰(shuí)是機(jī)器生成內(nèi)容的創(chuàng)始人?算法的開(kāi)發(fā)人員可以被視為作者嗎?或者是從初始輸入開(kāi)始的人(例如“鋰離子電池”作為術(shù)語(yǔ))并調(diào)整各種參數(shù)?是否有指定的發(fā)起人?誰(shuí)決定一臺(tái)機(jī)器應(yīng)該首先產(chǎn)生什么?從道德的角度來(lái)看,誰(shuí)對(duì)機(jī)器生成的內(nèi)容負(fù)責(zé)?
這里面用到的技術(shù),是由Springer Nature和法拉克福歌德大學(xué)共同開(kāi)發(fā)的一種先進(jìn)算法:Beta Writer。它使用的是基于相似性的聚類(lèi)分析,將海量的源文檔排列成連貫的章節(jié),然后創(chuàng)建文章的簡(jiǎn)潔摘要,同時(shí),將文章內(nèi)部加入超鏈接,這樣利于讀者進(jìn)一步閱讀原始的文章。
AI這種創(chuàng)新化的結(jié)構(gòu)化摘錄成書(shū),有利于研究人員更高效地管理海量信息,以及人們從海量?jī)?nèi)容里快速選擇、使用和處理相關(guān)領(lǐng)域的文檔。
他們之間已經(jīng)進(jìn)行了激烈的辯論,他們的同行以及與他們合作制作這本書(shū)的專(zhuān)家,研究人員清楚地知道這只是一個(gè)開(kāi)始。但正如Henning Schoenenberger在序言中所寫(xiě)的那樣,我們必須從某個(gè)地方開(kāi)始,這就像任何地方一樣好。
確實(shí),我們已經(jīng)成功地開(kāi)發(fā)了第一個(gè)原型,這也表明還有很長(zhǎng)的路要走:大型文本語(yǔ)料庫(kù)的提取性總結(jié)仍然不完善,而且有時(shí)復(fù)述文本、語(yǔ)法和短語(yǔ)聯(lián)想仍然顯得笨拙。但是,由于我們要突出顯示機(jī)器生成內(nèi)容的當(dāng)前狀態(tài)和剩余邊界,我們明確決定不對(duì)任何文本進(jìn)行手動(dòng)修改或復(fù)制編輯。
正如他們所說(shuō),這本書(shū)本身就是不完美和笨重的。但聽(tīng)起來(lái)自然的語(yǔ)言只是人工智能?chē)L試的任務(wù)之一,因?yàn)樗雎哉w的成功是錯(cuò)誤的。
人工智能在這個(gè)高度技術(shù)性的主題上分發(fā)了數(shù)千篇關(guān)于1,086篇論文,分析它們以找到關(guān)鍵詞,參考文獻(xiàn),“代詞回指”等等。然后根據(jù)他們的發(fā)現(xiàn)對(duì)論文進(jìn)行聚類(lèi)和組織,以便以邏輯的、基于章的方式呈現(xiàn)。
代表性的句子和摘要必須從論文中提取,然后重新制定以供審查,這既是出于版權(quán)的原因,也是因?yàn)樵牡恼Z(yǔ)法在新的背景下可能不起作用。(團(tuán)隊(duì)談到的專(zhuān)家說(shuō),他們應(yīng)該盡可能接近原文的意思,避免“創(chuàng)造性”的解釋。)
想象一下,論文中最好的句子開(kāi)頭是“因此,正如2014年論文所建議的那樣,它產(chǎn)生的絕緣系數(shù)提高了24%。”
AI必須很好地理解論文,它知道“它”是什么,并且在重構(gòu)句子時(shí),將“it”替換為該項(xiàng),并且知道它可以取消“因此”和最后的旁注。
這必須完成數(shù)千次模擬,并且許多邊緣情況會(huì)彈出模型不能正確處理或產(chǎn)生一些公認(rèn)的笨拙的用語(yǔ)。例如:“這種研究的主要目的是獲得具有優(yōu)異性能的材料,如高容量、快速的鋰離子擴(kuò)散速率,易于操作和穩(wěn)定的結(jié)構(gòu)。”
最終,這本書(shū)具有可讀性和可以想象的有用性,已經(jīng)將大約一萬(wàn)頁(yè)的研究歸結(jié)為大約250頁(yè)。但正如研究人員所說(shuō),這一承諾要大得多。
這本書(shū)里面包含了2016-2018年發(fā)表過(guò)的150多篇權(quán)威研究論文。僅在過(guò)去3年,關(guān)于鋰電子電池的研究論文就發(fā)表了超出53000篇,這對(duì)試圖學(xué)習(xí)這一領(lǐng)域的科學(xué)家是一個(gè)巨大的挑戰(zhàn),但AI的自動(dòng)掃描和總結(jié)輸出,能讓科學(xué)家們把更多時(shí)間用在重要的研究上。
這里的目標(biāo)似乎并不遙遠(yuǎn),就是能夠告訴一項(xiàng)服務(wù)“給我一份50頁(yè)的生物工程最后4年的總結(jié)。
文本的靈活性意味著您也可以用西班牙語(yǔ)或韓語(yǔ)請(qǐng)求它。參數(shù)化意味著您可以輕松調(diào)整輸出,強(qiáng)調(diào)區(qū)域和作者或排除關(guān)鍵字或無(wú)關(guān)緊要的主題。
可以預(yù)見(jiàn),未來(lái)的學(xué)術(shù)出版以及各類(lèi)書(shū)籍,將不再只是人為創(chuàng)造,而是有更多形式出現(xiàn),包括了混合人機(jī)文本生成的書(shū)籍或完全由機(jī)器學(xué)習(xí)生成的文本。
【來(lái)源:前瞻網(wǎng)】