創(chuàng)澤機器人 |
CHUANGZE ROBOT |
近日,MIT材料科學與工程系李巨、Tonio Buonassisi、任之初等人在Nature Reviews Materials的Comment欄目發(fā)表題為“Autonomous experiments using active learning and AI”的文章,介紹了由主動學習和AI驅(qū)動的智能自主實驗。
主動學習和自動化并不能讓人類輕松地擺脫實驗室的工作。在它們對新材料研究產(chǎn)生實質(zhì)性的影響之前,我們必須非常仔細地部署人工智能系統(tǒng),確保它們能夠穩(wěn)定地運行,并且能夠應(yīng)對各種偏差,包括隨機噪聲(stochastic errors)和因人類對所研究的問題認知不足而導致的認知性偏差(epistemic errors)。如今,隨著自動化和AI逐漸普及,我們需要認真考慮自主實驗室的可重復性、可重配置性和實驗互通性這些關(guān)鍵因素。
探索新材料是一個勞動密集型過程。愛迪生為了發(fā)明白熾燈泡,測試了數(shù)千種燈絲。現(xiàn)如今,便宜的自動化設(shè)備讓結(jié)合機器人和主動學習算法的新研究方法成為可能。雖然在預算和空間有限的情況下,構(gòu)建完全自動化的實驗平臺是非常具有挑戰(zhàn)性的,但是在半自動化的工作流上也可以取得不錯的進展。例如,在儀器之間完全可以保留傳統(tǒng)的手動轉(zhuǎn)移樣品,并不一定要使用機械臂或者是傳送帶之類的自動化。只要實驗結(jié)果高度可重復,即使使用一些基本的機器學習方法,比如高斯過程回歸和貝葉斯優(yōu)化,就已經(jīng)能很好地解決許多材料優(yōu)化問題。
就像把孩子養(yǎng)大需要幾十年時間,并且在這過程中需要教他們各種各樣的東西一樣,人們不應(yīng)該期望在知識基礎(chǔ)比較有限的情況下,由主動學習(active learning)驅(qū)動的實驗一開始就非常有效。這個學習過程在開始時往往是非常脆弱的。教一個小孩子走路需要很多手把手的引導,同樣地,驅(qū)動實驗的人工智能在一開始也需要很多指導,即使其調(diào)用的自動化平臺看似十分“穩(wěn)定高效”。
01 認知性偏差的挑戰(zhàn)
能夠獲得長期可復現(xiàn)的數(shù)據(jù)集是自動化平臺有能力開展主動學習的衡量標準。當一個實驗重復兩次產(chǎn)生不同的結(jié)果時,差異主要來自兩個方面:偶然性偏差和認知性偏差。偶然性偏差源于隨機性,可以通過提升自動化占比和在模型中引入高斯過程噪聲核來有效緩解,因此相對容易處理。相比之下,認知性偏差則可能會影響自主化實驗的成功,尤其是在主動學習算法還未經(jīng)過優(yōu)化調(diào)整的情況下。認知性誤差,從本質(zhì)上講,就是由于我們科研工作者的“知識偏見”——我們認為一些變量在多次試驗中是恒定的,但實際上它們在“悄悄”地變化。
以我們實驗室的自動化滴涂碳基底樣品過程為例,有段時間我們發(fā)現(xiàn)即便是重復同樣的實驗,樣品的性能差異也很大。直到有一天,我們注意到碳基底可能是各向異性的,也就是說我們切割它的方式(從市場上買來的片狀切成條狀)是一個重要的變量,直接決定了滴涂后樣品擴散的方向和最終面積。而在此之前,我們一直很自信地默認這個基底是各向同性的。諸如此類的知識偏見,很可能將直接導致整個機器學習項目失敗。
為什么可復現(xiàn)性對主動學習特別關(guān)鍵?手動實驗不也面臨這個問題嗎?答案是肯定的,但人類的經(jīng)驗和靈活性大大緩解了這個問題。想象一個學生發(fā)現(xiàn)了一種合成方法,重復了10次,其中2次得到了非常令人興奮的結(jié)果。學生會怎么做?誤差區(qū)間太大,無法發(fā)表,所以學生和導師會討論、調(diào)整設(shè)置,最終找出統(tǒng)計異常背后的原因(例如,中間反應(yīng)產(chǎn)品的外來水分含量)。
統(tǒng)計上的異常源于我們沒能找齊決定了實驗結(jié)果的變量全集。如果我們選擇忽略而不是去深入調(diào)查和試圖理解我們漏了哪個隱藏變量,其結(jié)果就是,我們發(fā)現(xiàn)自己的實驗難以復現(xiàn)。《自然》雜志的一項調(diào)查顯示,文獻中不可復現(xiàn)性的主要原因是選擇性報告,其本質(zhì)也是類似的——文獻只披露了實驗變量全集的一個子集(也許作者自身也未意識到)。如果我們還沒搞清楚誤差來源就輕率地啟動一個主動學習項目,這可能會浪費大量時間和金錢。算法會錯誤地將特殊的噪聲視為信號,從而給出糟糕的建議,正所謂“garbage in, garbage out”。
另一方面,如果我們仔細地去排除認知性偏差,找出隱藏變量,可能會有意想不到的科學發(fā)現(xiàn),就像青霉素是由于意外真菌污染而未能培養(yǎng)細菌培養(yǎng)物所發(fā)現(xiàn)的。人類非常擅長扭轉(zhuǎn)“實驗失敗”,因為我們有著出色的因果推理能力(用福爾摩斯的話說,“一旦排除了所有可能性,無論剩下的是多么看似不現(xiàn)實的推論,必定就是事實”)。可惜的是,樸素的主動學習方法并做不到這些,因為它們被設(shè)定了過于簡化的世界觀,而且沒有太多先驗的物理知識。
與傳統(tǒng)機器學習技術(shù)不同,大型語言模型如ChatGPT能生成科學上合理的猜想。未來,我們有望利用更先進和全面的自主實驗室來驗證這些由大模型生成的假說。比如,我們可以在受控的氣氛反應(yīng)室內(nèi)自動重復合成程序,以探究實驗結(jié)果對不同氣體分壓的依賴性。隨著自動實驗引入計算機視覺(在某些方面已超過人類視覺),以及借助于龐大的先驗知識庫,AI系統(tǒng)將能更精確地跟蹤實驗室條件(例如濕度、背景輻射、前體材料的紋理和不均勻性)。因此,隨著AI系統(tǒng)逐漸整合多模態(tài)傳感器,弄清認知誤差的可能原因并針對性地調(diào)整工作流程只是時間問題。大型語言模型結(jié)合具有通用感覺運動功能的強化學習,以及下文所述的“新控制論”,很可能是實驗室自動化革命的下一個步驟。
02 AI驅(qū)動的自主實驗室網(wǎng)絡(luò)
隨著AI系統(tǒng)變得更加復雜和強大,預算和空間的限制,模塊化的云實驗室設(shè)施將變得有必要。這類新型實驗室不僅需要能重新編譯和鏈接各種實驗設(shè)備,還需要確保多個自動實驗室之間的互通性。一個包括實驗和理論兩個方面的龐大的AI網(wǎng)絡(luò)將被建立,以實現(xiàn)實驗室級的勞動分工、規(guī)模經(jīng)濟和互相制衡。例如,當某個AI實驗室制備出了具有突破性性能的樣品后,AI網(wǎng)絡(luò)會負責將(i)該制備方案發(fā)送至負責理論研究的AI實驗室進行分析,(ii)在該實驗室本地復制多份物理樣品并傳送至多個專門負責測試的AI實驗室,(iii)制備方案本身分發(fā)至負責制備同類型材料的AI實驗室以進行對抗性的復現(xiàn)測試。
今天的材料合成、表征和性能測試的設(shè)備主要是為人類用戶設(shè)計的。未來,自主實驗室每臺設(shè)備都需要具有兩個接口,一個主接口服務(wù)于物聯(lián)網(wǎng)上的AI系統(tǒng),另一個用于人類操作。每個設(shè)備模塊將更像是軟件庫中的子程序,其物理樣品輸入/輸出規(guī)范將被明確且嚴格地定義。設(shè)備鏈將具備快速和自動的重配置能力,以滿足不同科研項目的需求。值得注意的是,重新配置并不意味著需要將設(shè)備物理移動以組成一條流水線,因為輪式機器人和小型無人機將負責模塊之間的樣品傳送。
雖然自主材料研究實驗室的概念早在1950年代就已經(jīng)出現(xiàn),但至今成功的案例仍然較少。目前在學術(shù)界,實驗室大多還是以人為核心,且每個實驗室的建設(shè)預算僅限于幾百萬美元或更少。這通常意味著單個實驗室只有自家“一招鮮”或“幾招鮮”的手段,這使得它們在識別認知誤差或迅速適應(yīng)工作流變化方面表現(xiàn)不佳。當懷疑有些不尋常的情況發(fā)生時,人類研究員會向校園內(nèi)從事不同領(lǐng)域的同事尋求幫助,請他們進行補充測量。這種靈活性在科研探索過程中是非常重要的,反觀我們今天的以機器和AI為核心的自主實驗室案例,由于規(guī)模太小,還無法做到類似的靈活性。
為了解決這個問題,不同的自主實驗室需要實現(xiàn)更好的協(xié)同工作。例如,讓AI有能力將一個物理樣品及其對應(yīng)的元數(shù)據(jù)從一個實驗室傳送到另一個實驗室。這樣的任務(wù)需要我們建立標準化的數(shù)據(jù)和樣品傳輸協(xié)議,比如規(guī)定用于傳輸液體、粉末、凝膠、顆粒和單晶材料的膠囊,它們需要與易于稱重、尺寸測量以及光學和化學表征設(shè)備相兼容,還需要能有效防止外界污染。此外,我們可能還需要重新考量設(shè)計建筑和基礎(chǔ)設(shè)施,例如無人或者是機器人和人類研究人員共同工作的全新的建筑架構(gòu)。
AI時代已經(jīng)來臨。為了在實驗研究和材料發(fā)現(xiàn)中充分釋放AI的潛力,為硅基智慧提供“手”(材料合成加工/樣品轉(zhuǎn)移/設(shè)備模塊重組)和“眼睛”(材料表征/多模態(tài)感測)至關(guān)重要。建立一個穩(wěn)健的AI對于現(xiàn)實世界的感知反饋系統(tǒng)絕非易事。但是,隨著AI實驗室的正確配置和相互鏈接(核心是標準化接口和模塊化設(shè)備),以及全球廣泛共享的專業(yè)知識,強大的AI自主實驗室可能會徹底改變材料研究。
未來云端實驗室可以被建設(shè)在太陽能/風能充足的荒漠中,科研人員可以從全世界任意一個地方控制云端實驗室。園區(qū)內(nèi)的兩大主體——數(shù)據(jù)流和物質(zhì)流,將分別由互聯(lián)的AI網(wǎng)絡(luò)和機器人網(wǎng)絡(luò)負責運載。(本圖由MidJourney + Adobe Firefly生成)
云端實驗室內(nèi)部由一個個的模塊組成。每一個模塊就像一個代碼中的函數(shù),有著清楚的輸入輸出規(guī)范,例如輸入的材料樣品必須符合某個標準化的尺寸/形態(tài)。不同模塊之間由輪式機器人或小型無人機進行樣品傳送。
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線消毒機器人 消毒機器人價格 展廳機器人 服務(wù)機器人底盤 核酸采樣機器人 機器人代工廠 智能配送機器人 噴霧消毒機器人 圖書館機器人 導引機器人 移動消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 消殺機器人 導覽機器人 |