當大家還在討論AI是否能進行複雜推論的時候,另一個有"破壞力創造"的進步卻在悄然發生。那就是AI與基因編輯技術的結合!!
我曾經參與生物晶片公司的營運, 所以從實務上深入分析這個應用帶來的影響, 但是如果產業知識對您過於艱澀, 您可以直接看我的結論。
基因工程技術的引入徹底改變了生物醫學研究,使得對基因資訊進行精確修改成為可能。然而,創建一個高效的基因編輯系統需要對CRISPR技術和複雜的實驗系統有深入的理解。雖然大型語言模型(LLM)在各種任務中表現出了前景,但它們往往缺乏特定知識,難以準確解決生物學設計問題。
在由DeepMind領軍Stanford U.及Princeton U.實驗室的這項工作中,該報告介紹了CRISPR-GPT,這是一個融合了領域知識和外部工具的LLM agent,可以自動化和增強CRISPR基因編輯實驗的設計過程。CRISPR-GPT利用LLM的推理能力,幫助選擇CRISPR系統、設計向導RNA、推薦細胞遞送方法、起草實驗方案,並設計驗證實驗以確認編輯結果。該報告展示了CRISPR-GPT在協助非專家研究人員從頭開始進行基因編輯實驗方面的潛力,並在一個真實世界的案例中驗證了agent的有效性。此外,該報告探討了與自動化基因編輯設計相關的倫理和監管考量,強調需要負責任和透明地使用這些工具。該報告的工作旨在彌補初學生物研究人員與CRISPR基因組工程技術之間的差距,並展示LLM agent在促進複雜生物學發現任務中的潛力。
背景
基因編輯技術代表了一項開創性的科學進步,它使得精確改變生物體的遺傳物質成為可能。這一創新技術在生物學和醫學的各個領域都得到了廣泛應用,從糾正導致囊性纖維化、血友病和鐮刀型貧血等疾病的基因缺陷,到為對抗癌症、心血管疾病、神經退行性疾病和感染等複雜疾病提供新策略。最著名的基因編輯系統之一被稱為CRISPR-Cas9。它是從細菌用作免疫防禦的天然發生的基因組編輯系統改編而來。除了CRISPR-Cas9,最近的進展還促成了CRISPR啟動/干擾、CRISPR基礎上的Prime編輯和Base編輯技術的發展。CRISPR啟動/干擾,也稱CRISPRa/CRISPRi,能夠通過表觀遺傳調控來增強基因表達或沉默特定基因的活性。被認為是DNA的"搜索和替換"方法的Prime編輯可以在不引入雙鏈斷裂的情況下進行精確編輯。另一方面,Base編輯可以在目標位置直接、不可逆地將一種DNA鹼基轉換為另一種,進一步擴大了精確基因組修飾的工具箱。所有這些技術在醫學、農業及其他領域都有廣泛的應用潛力,提高了基因組編輯在尋求治療遺傳疾病和其他應用方面的能力。
設計基因編輯實驗需要深入理解一系列技術以及目標器官相關的生物學。CRISPR Cas基礎編輯的工作原理是與一個短的"向導"序列(導向RNA)的RNA相互作用,該序列與細胞DNA中的特定目標序列結合,類似於細菌從CRISPR陣列產生的RNA片段。當導入細胞時,導向RNA識別預定的DNA序列,Cas酶(通常是Cas9或其他)在目標位置切割DNA,模仿細菌中的過程。在設計這類實驗時,有許多考慮因素,包括選擇合適的基因編輯系統、開發最佳的導向序列和驗證方法。這通常需要大量的領域專業知識、對目標器官生物學的理解以及反復試驗。開發人工智能輔助計算工具來幫助基因編輯有巨大的前景,可以讓技術更容易獲得,加速科學和治療的發展。
大型語言模型(LLM)已經在語言技能方面展示了非凡的能力,並包含了大量的世界知識,近似於人工通用智能的某些方面。最近的研究還探索了用外部工具增強LLM,提高它們解決問題的能力和效率。LLM也展示了作為工具製造者和黑盒優化器的潛力。研究人員探索了用於各種應用領域的基於LLM的專門模型,以及用於解決科學和數學任務的模型。例如,ChemCrow使用工具增強LM來解決一系列與化學相關的任務,如對乙酰氨基酚的合成,而Coscientist也由GPT-4驅動並整合了自動實驗,在優化鈀催化的交叉偶聯反應方面取得了成功。
然而,一般用途的LLM並不知道如何設計生物學實驗。儘管運用大型語言模型(LLM)來輔助基因編輯實驗的設計前景誘人,但目前最先進的通用模型在這一專業領域存在明顯不足。這些模型雖然知識儲備豐富,卻缺乏精確、最新的特定領域知識,而這對於準確設計生物學實驗至關重要。
通用LLM的一個關鍵局限性是它們傾向於產生自信但不準確的回應,即當被要求回答專業生物學查詢時的 "幻覺"。例如,當被要求為靶向特定人類基因(如EMX1或EGFR)設計向導RNA(gRNA)序列時,像ChatGPT-3/ChatGPT-4這樣的通用LLM往往會用高置信度給出錯誤序列。然而,它們提供的gRNA序列通常與任何已知的基因組區域都不對應。這種差異可以通過將LLM生成的序列與NCBI的BLAST等數據庫中的參考序列進行比對來輕易發現,BLAST可以將序列與人類基因組和轉錄組比對。如果不經過適當的審核,這種虛構的設計序列不僅缺乏實用性,還可能誤導研究人員,導致資源和時間的浪費。
此外,通用LLM產生的回應通常缺乏實驗設計所需的基本細節,如具體材料、方案、非目標效應考量、gRNA效率和特異性。這些資訊上的差距可能讓研究人員,尤其是基因編輯領域的新手,無法為實驗的實際執行做好準備。
值得注意的是,生成的回應可能包含大量與基因編輯實驗設計無直接關係的資訊。這種無關的文字會導致混淆和誤導,使研究人員難以識別最相關和最實用的資訊。
所有這些局限性都凸顯了開發專門針對基因編輯實驗設計的新型LLM的必要性。這些模型需要整合深入、精確的領域知識和批判性評估並生成可行實驗解決方案的能力,從而克服通用LLM在設計CRISPR基因編輯實驗時面臨的當前障礙。
CRISPR-GPT概述
在基因工程快速發展的領域,CRISPR技術已成為精確基因編輯的關鍵工具。儘管它很有前景,但設計CRISPR實驗的複雜性——從向導RNA(gRNA)的選擇到預測非目標效應——對那些剛接觸該領域的人來說帶來了重大挑戰。為了彌合這一差距,該報告推出了CRISPR-GPT,這是一種新型解決方案,它將大型語言模型(LLM)的優勢與特定領域知識和計算工具相結合,專門用於CRISPR基因編輯任務。
CRISPR-GPT的核心是一個量身定制的LLM驅動的設計和規劃agent。這個agent的引擎不僅利用了基因編輯領域領先從業者的專家知識,還整合了對最新文獻的廣泛回顧以及一套計算工具包,包括向導RNA設計工具。
CRISPR-GPT Agent的創新之處在於通過簡化複雜的過程為一系列可管理的步驟,實現基因編輯實驗的自動化設計:
- CRISPR系統的選擇:根據實驗需要量身定制CRISPR系統的選擇。
- gRNA設計:根據Broad Institute的金標準guideRNA庫和CRISPRPick工具包,包括預先設計的gRNA庫,優化guideRNA序列的效率和特異性。
- 遞送方法選擇:就將CRISPR組分導入目標細胞的最有效方法提供建議。
- 非目標效應預測:評估預期編輯的同時可能出現的意外改變。
- 實驗方案的推薦:根據實驗目標量身定制分步過程。
- 驗證方法推薦和引物設計:推薦驗證編輯的最佳方法,並幫助設計相關引物。
這種方法利用連續思考推理模型和狀態機,確保即使是基因編輯的新手也能反復完善他們的實驗設計,以達到滿足他們具體研究需求的方案。此外,CRISPR-GPT還提供:
- 一個自由問答模式,用於精確解答臨時查詢。
- 一個用於深入分析預設計gRNA的非目標預測模式。
當使用者在實驗設計過程中遇到其他問題時,這些功能可以為使用者提供幫助。
考慮到圍繞基因編輯(尤其是人類應用)的倫理和安全問題,該報告已經將保障措施整合到CRISPR-GPT中。這些措施包括限制其在人類受試者中的使用、確保遺傳資訊隱私的措施,以及對潛在意外後果的警示,反映了該報告致力於在與基因編輯技術相關的更廣泛的科學和倫理討論中負責任地使用這些工具。
方法和算法
大型語言模型
CRISPR-GPT agent由以下4個核心模塊組成:LLM規劃器、工具提供者、任務執行器和LLM Agent,後者作為與使用者的介面,用於接收輸入和傳達輸出。
任務執行器以狀態機的形式運行,提供穩健的子目標分解和進度控制。該報告以狀態機的形式為CRISPR-GPT實現了22個任務,總結於表1。狀態機負責為當前任務提供充分的指示,並引導使用者通過多輪文字互動完成決策。通過這些狀態機,該報告為任務執行器手動分解每個任務為子目標。具體而言,每個狀態負責一個特定的子目標。轉移邏輯被很好地定義,因此任務執行器可以根據當前進度適當地轉移到另一個子目標。
該報告有4個預定義的元任務,支援4種基因編輯相關實驗的完整流程;見表1。此外,LLM規劃器可以根據使用者的元請求生成定制的任務清單。相應任務的狀態機被鏈接在一起,形成一個更大的狀態機以支援整個流程。
(2)知道有哪些工具可用,並從中選擇最佳工具。
在CRISPR-GPT中,該報告沒有直接向LLM公開API的介面,而是將API的使用包裝在狀態中,並通過手寫的指示和回應公開更加使用者友好和LLM友好的文本介面。通俗地說,該報告是在教使用者(人類agent和LLM agent)如何使用這些工具。這些工具包括Google網路搜索、運行Primer3等程式,以及從外部向導RNA庫、研究論文和實驗方案中檢索資訊。
LLM規劃器根據使用者的請求自動生成任務清單。大型語言模型(如GPT-4、Gemini和Claude)可以作為LLM驅動的agent的推理核心,以解決現實世界的決策問題。該報告採用流行的ReAct提示技術,其中LLM被提示輸出連續思考推理路徑和從可能的行動集合中選出的最終行動。為了讓LLM執行任務分解,該報告提供一個表格,其中包含所有任務的描述和依賴關係作為LLM的提示。基於LLM的內部知識以及該報告手動編寫的任務描述和任務分解指示,LLM可以智能地分析使用者的請求,並將使用者的請求分解為一系列任務,同時考慮任務之間的依賴關係。分解後,相應的狀態機被鏈接在一起以完成所有任務。任務分解的提示格式可以在附錄B中找到。
為了提高魯棒性,該報告不允許LLM在自動執行過程中動態添加/刪除新任務(新狀態機)。然而,該報告相信這是邁向更智能的CRISPR-GPT版本的重要一步,並將其作為未來的工作。
LLM-Agent根據使用者的元請求自動與任務執行器互動。在解決自動化CRISPR基因編輯任務這一複雜挑戰時,該報告通過序貫決策的視角來構建問題。這一視角將使用者與自動化系統之間的互動框定為一系列步驟,每一步都需要精確的決策以朝著實驗設計和執行的最終目標前進。該報告系統的核心是LLM-agent,它充當使用者與狀態機之間的中介。這個狀態機源自初始任務分解步驟,有效地將基因編輯過程分解為一個結構化的動作和決策序列。在這個序列的每一步,狀態機都向LLM-agent呈現一個當前狀態。這個狀態封裝了手頭任務的描述,並指定了使用者需要提供的任何輸入以推進進程。
LLM-agent的角色是解釋當前狀態並代表使用者做出明智的決定。為了有效地做到這一點,agent可能會利用各種資訊,包括:
- 當前狀態固有的指示,
- 使用者提出的具體請求,
- 當前任務會話中過去互動的歷史,
- 已整合到系統中的外部計算工具的結果。
這些資訊被整合到LLM-agent的提示中,然後agent利用其能力來確定最合適的下一步行動。這些提示的格式和結構旨在優化決策過程。
使用者監督是該系統的一個關鍵組成部分。雖然LLM-agent自主運作,但使用者並沒有被排除在這個過程之外。相反,該報告鼓勵他們監控任務的進展並與agent互動。這種設置確保LLM-agent的任何錯誤或誤解都能被使用者及時發現和糾正,維持基因編輯實驗設計的準確性和完整性。這種自動化方法強調人類專業知識與人工智能之間的協同合作。通過利用LLM-agent處理和應對複雜資訊的能力,該報告為設計CRISPR基因編輯實驗提供了一種更高效、更使用者友好的體驗。序貫決策框架不僅簡化了任務執行過程,而且確保使用者的輸入仍然是實驗規劃和設計的基石。
人工評估
為了評估CRISPR-GPT agent在協助基因編輯和實驗設計方面的有效性,該報告組織了一個由12位CRISPR和基因編輯研究領域專家組成的多元化小組。這12位專家根據既定標準,對三種模式對實驗設計任務的回應進行了1(差)到5(優)的評分。為了提供一個比較視角,該報告使用類似的提示生成了ChatGPT 3.5和ChatGPT 4.0(模型版本gpt-4-0613)的輸出,並使用相同的標準進行評估。
生物學實驗和濕實驗驗證
該報告通過人工-agent協作使用ChatGPTv4 API的CRISPR-GPT進行了生物學實驗,作為該報告方法的真實世界濕實驗驗證。具體而言,該報告讓獨立的科學家(他們不熟悉基因編輯實驗)使用CRISPR-GPT來協助他們在一個癌症研究項目中進行基因敲除(KO)實驗。詳細的方法如下。
細胞系和細胞培養。A375細胞系在添加了10%胎牛血清(FBS,Gemini Bio)、100 U/ml青霉素和100ug/ml鏈黴素(Gibco)的DMEM高糖、GlutaMAX(Gibco)中培養,溫度為37 ∘C,CO2濃度為5%。
crRNA克隆。通過Golden Gate組裝方法使用BbsI或Esp3I(NEB)將4個crRNA(TGFBR1/SNAI1/BAX/BCL2L1)克隆到表達Cas12a的骨架載體中。使用U6測序引物通過Sanger測序驗證構建: 5'-GACTATCATATGCTTACCGT-3'。
慢病毒包裝和轉導。通過使用PEI轉染試劑(Sigma-Aldrich)將組裝好的慢病毒載體與VSV-G包膜和Delta-Vpr包裝質粒共轉染到HEK-293T細胞中來產生慢病毒。轉染48小時後收集上清液。使用8µg/mL polybrene通過1000*g 45分鐘的離心感染,以低MOI轉導A375細胞。24小時後,用1µg/mL嘌呤霉素篩選細胞以建立穩定表達的細胞系。
gDNA提取、PCR和測序。7天後使用QuickExtract(Lucigen)從篩選的細胞中提取基因組DNA。然後根據製造商的說明,使用含有Illumina測序接頭的引物和Phusion Flash高保真PCR Master Mix(ThermoFisher Scientific)擴增目標位點。在Illumina MiSeq平臺上生成配對末端讀數(150 bp)。
結果
CRISPR-GPT利用LLM的推理能力、領域知識、檢索技術和外部工具,為基因編輯實驗設計任務提供全面的解決方案。它支持廣泛的基因編輯場景,包括單基因敲除、無雙鏈斷裂的鹼基編輯、通過prime編輯進行插入/缺失/替換,以及用於基因激活或抑制的表觀遺傳編輯(CRISPRa和CRISPRi)。
CRISPR-GPT通過三個模塊協助研究人員進行基因編輯實驗設計
CRISPR-GPT agent通過三個不同的模塊幫助研究人員設計基因編輯實驗。"元模式"為一般基因編輯場景(稱為元任務)提供專家定義的流程,使使用者,特別是基因編輯領域的新手,能夠使用這些流程。"自動模式"根據使用者輸入自動生成定制的必要設計任務清單,幫助各個層次的使用者實現目標。"問答模式"作為一個高級GPT-4聊天機器人,在整個設計過程中解答使用者與CRISPR和基因編輯相關的查詢。
元模式
"元模式"涉及使用4種CRISPR基礎基因編輯系統(元任務)規劃和實施22個獨特的基因編輯實驗設計任務。它利用預定義的流程來幫助使用者徹底完成一個元任務。在這種模式下,CRISPR-GPT agent引導使用者完成設計基因編輯實驗所需的每個任務。這包括選擇合適的CRISPR系統、推薦遞送方法、設計sgRNA、預測sgRNA非靶向效率、選擇實驗方案以及計劃驗證實驗。
對於每一個設計任務,CRISPR-GPT agent都與使用者互動,應用各種技術和外部工具來提供最佳解決方案。例如,在選擇CRISPR系統時,CRISPR-GPT不斷與使用者互動,提供指示並收集資訊,根據已發表的方案提出選項。對於遞送方法推薦等與上下文相關的任務,CRISPR-GPT不僅會推薦常用方法,還會根據使用者的要求通過網路搜索提供定制解決方案。對於sgRNA/pegRNA設計,來自現有設計和出版物的多物種資料庫使CRISPR-GPT能夠根據使用者資訊快速提出預設計的sgRNA。在sgRNA/pegRNA設計之後,使用者可以根據CRISPR-GPT提供的詳細指示和代碼評估設計的指引的潛在非靶向效應。完成設計任務後,CRISPR-GPT根據互動歷史提供選定的方案,包括CRISPR系統選擇和遞送方法。最後,對於驗證任務,CRISPR-GPT利用外部API(如Primer3)來幫助使用者設計用於驗證實驗的引物。
自動模式
"自動模式"也有助於規劃和執行13個獨特的基因編輯實驗設計任務。與"元模式"不同的是,它不依賴預定義的元任務和流程;相反,它使用LLM-規劃器將使用者的請求分解為一系列依賴任務。例如,如果使用者請求"設計sgRNA以敲除人類EGFR",CRISPR-GPT agent會從請求中識別關鍵字,並列出必要的設計任務,如"CRISPR/Cas系統選擇"和"用於敲除的sgRNA設計"。此外,它使用來自初始請求的資訊(例如,靶基因"EGFR"和物種"人類")來自動填充相關欄位並生成sgRNA設計,而不需要使用者重複輸入。同時,CRISPR-GPT闡明其選擇背後的理由,允許使用者跟蹤該過程並在必要時進行修正。
問答模式
在"元模式"和"自動模式"的設計任務中,CRISPR-GPT agent通過"問答模式"即時回應或建議CRISPR和基因編輯相關的查詢。例如,在選擇CRISPR系統後,尋求有關所選系統(如Cas12a)更多資訊的使用者可以通過提問"Q: 什麼是Cas12a?"來快速獲得答案。CRISPR-GPT利用其知識庫以及來自該領域專家選定資料庫的文件檢索,迅速提供準確、相關的資訊。
CRISPR-GPT通過人工專家評估在基因編輯設計任務中優於通用LLM
為了評估CRISPR-GPT agent的性能,該報告邀請了12位CRISPR和基因編輯領域的專家,設計了一組任務來測試CRISPR-GPT在協助研究人員進行實驗設計方面的能力。結果從四個不同方面進行評估:準確性、推理、完整性和簡潔性。準確性反映CRISPR-GPT是否能提供關於CRISPR研究和方法學當前狀態的準確資訊。推理評估CRISPR-GPT是否能對建議的設計提供有見地的、有充分依據的解釋。完整性確保使用者收到CRISPR實驗設計所需的所有資訊。最後,簡潔性確保CRISPR-GPT向使用者提供與設計任務直接相關的資訊,不必要的資訊最少。所有評估者都被要求對三種模式下的任務集在這四個方面進行1(差)到5(優)的評分。使用等效的提示生成ChatGPT 3.5和ChatGPT 4.0的回應,並使用相同的標準進行評分。
該報告觀察到,在該報告設計的任務集中,CRISPR-GPT在所有三種模式下的準確性明顯高於通用LLM-agent,因為該報告在CRISPR和基因編輯領域採用了大量領域知識來確保CRISPR-GPT agent的魯棒性。而ChatGPT 3.5和ChatGPT 4.0等通用LLM agent產生的回應由於已知的問題(包括領域知識不足和幻覺)而包含更多細微的事實錯誤。同時,該報告發現CRISPR-GPT和通用LLM agent在不同的任務集上都表現出良好的推理能力。對於"自動模式"相關的任務,CRISPR-GPT表現出更好的推理能力,這可能是由於agent中編碼的更好的提示技術。正如該報告所預期的那樣,"完整性"是通用LLM-agent在執行基因編輯實驗設計任務時的主要問題。它們通常可以為設計提供一般性指導,但由於缺乏領域知識和外部工具,無法提供設計細節。相反,CRISPR-GPT在設計任務中表現出更好的"完整性"性能分數,使使用者能夠僅根據CRISPR-GPT提供的資訊執行基因編輯實驗。值得注意的是,ChatGPT 3.5和4.0在"問答"模式下的"完整性"性能分數優於CRISPR-GPT。這種結果是由於"完整性"和"簡潔性"之間有意的權衡。通用LLM-agent直接生成的答案通常包含大量無關資訊,以便向使用者提供更完整的回應。這通常會讓使用者感到困惑,難以抓住關鍵資訊。在這種情況下,該報告有意設計CRISPR-GPT在所有不同模式下向使用者提供簡潔準確的答案,因此CRISPR-GPT在"簡潔性"性能分數上表現一致更好。
總的來說,通過專家的評估,該報告發現CRISPR-GPT在各個方面都表現出顯著優於通用LLM-agent的性能,用於基因編輯實驗設計任務。儘管如此,CRISPR-GPT在更複雜的基因編輯場景和罕見的生物案例中遇到了困難。未來可以通過更多最新的領域知識和更好的外部工具集來進一步擴展和改進它。
CRISPR-GPT通過真實世界的應用展示其功效
為了展示CRISPR-GPT在協助研究人員設計基因編輯實驗方面的能力,該報告通過與CRISPR-GPT的持續互動,在人類A375細胞系中進行了基因敲除實驗。
在這個實驗中,該報告的目標是在人類A375細胞系中分別敲除4個基因(TGFBR1、SNAI1、BAX、BCL2L1)。首先,該報告選擇"元模式"從頭設計基因敲除實驗。按照CRISPR-GPT中選擇CRISPR系統的指示,該報告選擇了AsCas12a,因為該報告希望進行多位點編輯並降低潛在的非靶向編輯率。對於在A375細胞中遞送CRISPR系統,該報告遵循CRISPR-GPT的建議,使用慢病毒轉導,以確保Cas酶和sgRNA的穩定表達。
然後,基於這些資訊,該報告能夠獲得Cas12a質粒(之前已有)。在設計sgRNA時,該報告特別針對人類TGFBR1/SNAI1/BAX/BCL2L1基因,充分意識到CRISPR-GPT提出的人類基因編輯的倫理影響。CRISPR-GPT從已發表的文庫中為每個基因提供了4個sgRNA序列,所以該報告能夠訂購合成序列。
隨後,CRISPR-GPT提供了gRNA克隆的方案。然後提供了詳細的說明,使用必要的質粒和病毒包裝組分,通過磷酸鈣轉染HEK293T細胞來產生慢病毒。在此之後,該報告完全按照CRISPR-GPT生成的方案,通過轉導過程,包括細胞培養程式、添加慢病毒以及使用聚凝乙烯(polybrene)促進高效轉導。為了進行驗證,該報告在CRISPR-GPT中選擇了新一代測序(NGS)用於突變檢測和敲除驗證,並遵循CRISPR-GPT agent提供的方案。為了準備NGS,該報告根據方案使用DNeasy Blood & Tissue Kit從細胞中提取基因組DNA。對於PCR引物設計這一關鍵步驟,該報告向CRISPR-GPT提供了詳細的序列資訊,它自動返回了一組用Primer3設計的引物,專門用於擴增目標位點。在該報告實驗的最後階段,CRISPR-GPT建議該報告在PCR產物上連接Illumina接頭用於文庫構建,並強調有必要用NCBI BLAST檢查引物特異性。這最後的驗證步驟對於防止錯配和確保測序結果能準確反映預期的基因組編輯至關重要。
最後,該報告分析了NGS的資料,觀察到在所有4個靶基因上都有持續高比例的預期編輯結果。通過這一過程,CRISPR-GPT提供了:(1)CRISPR系統選擇(2)向導RNA設計(3)遞送系統推薦(4)質粒和病毒載體選擇以及克隆方案(5)組織培養、細胞轉導程式(6)細胞收集和基因編輯效率量化方法(7)測序引物設計和讀出驗證方案。因此,該報告的專業知識與CRISPR-GPT的計算指導之間的動態互動,對執行一個精確且在倫理上審慎的基因編輯實驗至關重要。
安全和倫理問題
當使用AI工具來指導基因組編輯時,會出現安全和倫理問題,從非法改變人類基因組的風險到涉及使用者基因組資訊時的隱私問題。
減輕人類可遺傳編輯的風險
CRISPR-Cas9等技術已經使改變人類基因組成為可能,這帶來了一些倫理和安全風險。特別是,生殖細胞和胚胎基因組編輯帶來了許多倫理挑戰,包括是否允許使用這項技術來增強正常的人類特徵(如身高或智力)。基於對倫理和安全的考量,生殖細胞和胚胎基因組編輯目前在美國和許多其他國家是非法的。為了確保CRISPR-GPT遵循可遺傳基因組編輯暫緩令中給出的指引。
CRISPR-GPT採用一種機制,以確保在所有任務中,使用者無法繞過現有步驟詢問他們正在編輯哪個生物體。agent會檢查編輯目標是否屬於人類組織或器官。如果發現編輯目標是人類器官,將觸發以下解決方案:當使用者繼續設計人類基因編輯實驗時發出警告說明。提供這個國際暫緩令的連結並註明。要求使用者在繼續之前確認他們理解風險並已閱讀這個國際指南。
保護使用者基因組資料隱私
其他問題與使用者資料隱私有關,特別是當使用AI工具可能交換人類基因組序列資訊時。該報告遵循醫療保健中的資料隱私和HIPAA隱私規則。儘管基因組規模的序列從根本上與身份相關,但最長20 bp的DNA片段被認為是安全的,無法識別人類身份。CPISPR-GPT配備了以下功能,以避免向公共LLM模型提供任何可識別的私人人類/患者序列。具體而言,該報告的解決方案是:
- CRISPR-GPT永遠不會在伺服器上儲存任何可識別的長基因組序列,這可能會洩露患者的私人資訊。
- CRISPR-GPT實現了一個過濾器,在將提示發送到外部LLM之前,檢測提示中是否包含任何≥20bp的A/T/G/C/U序列。在檢測到這種序列存在後,agent會發出錯誤警告,要求使用者手動刪除輸入中的此類序列。通過這種方式,避免將此類敏感資訊洩露給公共LLM模型。
CRISPR-GPT agent展示了LLM在自動化和增強複雜生物學實驗設計過程方面的非凡潛力。通過無縫整合LLM與領域知識、外部工具和模組化任務執行系統,CRISPR-GPT使研究人員能夠以前所未有的輕鬆和效率來駕馭CRISPR基因編輯實驗的複雜領域。CRISPR-GPT的多模態功能包括元任務流程、互動提示和隨需問答支援。研究人員可以利用agent的專業知識來規劃和執行基因編輯實驗,從CRISPR系統選擇和向導RNA設計到自動起草詳細的方案和驗證策略。這種簡化的工作流程不僅加速了設計過程,而且降低了出錯和疏漏的風險,從而提高了研究成果的品質和可重複性。
雖然在化學等其他科學領域存在LLM agent,但涉及活體材料的生物學實驗的複雜性需要一套不同的考量。與通常遵循明確方案的化學反應不同,生物學實驗需要複雜的程式,以考慮活體系統的動態特性。CRISPR-GPT通過提供針對具體實驗環境量身定制的詳細、分步指導來解決這一挑戰,確保研究人員能夠有效地駕馭使用活細胞和有機體的細微差別。
此外,CRISPR-GPT的自由風格提示和即時問答能力使其有別於許多現有的agent。研究人員可以提出非結構化的查詢,並獲得情境化的回應,促進與agent更自然、更直觀的互動。這一特性在面對實驗過程中可能出現的意外挑戰或不可預見的情況時非常有價值,使研究人員能夠尋求及時指導並根據需要調整他們的方法。
儘管CRISPR-GPT具有令人印象深刻的能力,但它並非沒有局限性。雖然agent可以設計單個組分,如向導RNA和引物,但它目前缺乏從自然語言輸入生成完整構建或載體的能力。這一局限性突顯了一個未來發展的領域。例如,基因編輯的模組化設計領域的最新進展,如FragMID,可以與CRISPR-GPT整合,實現LLM賦能研究人員探索和優化CRISPR設計和客製化策略的潛力,從而帶來更高效的基因編輯。
展望未來,CRISPR-GPT與自動化實驗室平臺和機器人技術的整合蘊藏著巨大的前景。通過連接計算設計和物理執行,研究人員可以利用agent的專業知識來編排端到端的自動化實驗,最大限度地減少人工干預,加速發現的步伐。
https://arxiv.org/pdf/2404.18021
個人見解
從第三方角度來看,這篇題為《CRISPR-GPT:一個自動化基因編輯實驗設計的大型語言模型Agent》的論文無疑代表了人工智能技術在生物醫學領域應用的一個重要里程碑。
本文的核心創新點在於巧妙地將大型語言模型(LLM)與領域知識和外部工具相結合,構建了一個名為CRISPR-GPT的智能agent,以協助研究人員設計和優化CRISPR基因編輯實驗。通過采用多種互動模式,如專家定義的元任務流程、自動任務分解、自由問答等,該系統將復雜的實驗設計過程分解為一系列易於管理的步驟,大大降低了技術門檻。
這一成果的意義首先體現在其對基因編輯技術的普及和應用的推動作用上。CRISPR作為一項革命性的生物技術,其在基礎研究和應用開發領域的前景不可限量。然而,設計一個成功的CRISPR實驗對於許多科研新手而言卻是一個巨大的挑戰。CRISPR-GPT的出現為他們提供了一個智能助手,引導他們以最優的方案和流程開展實驗,有望顯著提升這一領域的研究效率和產出。
同時,這項研究也為利用人工智能和大數據來驅動科學發現勾勒了一幅藍圖。通過無縫整合LLM的語言理解和推理能力,專家知識庫的權威解釋,以及各種任務專用的外部工具,CRISPR-GPT建立了一種全新的人機協作范式。這種范式不僅可以在基因編輯領域復制,也可以推廣到其他高度專業化、任務複雜的學科領域。可以想見,隨著這一模式的成熟和發展,我們有望看到越來越多的"AI科學家"在各個前沿領域崛起,成為人類專家強有力的助手和夥伴。
當然,本文也坦誠地指出了這一方案的局限性和有待完善之處。比如CRISPR-GPT目前還不能直接生成端到端的實驗流程,在處理一些複雜任務時也會遇到困難。這些問題為未來工作指明了努力的方向,比如進一步擴充其任務編排能力,引入更豐富的知識和工具,並在更多場景中予以測試和打磨。
此外,在充分肯定這一突破性成果的同時,我們也要理性看待其局限性和潛在風險。在技術層面,類似系統的有效性和可靠性還有待在更廣泛的實驗中得到嚴格驗證。在倫理層面,雖然CRISPR-GPT已經設置了一些基本的防護措施,但隨著應用場景的拓展,我們恐怕還需要更細緻入微、更具前瞻性的倫理規範框架。在實用層面,這類智能工具能否真正融入科研的日常工作流程,提高生產力的同時又不帶來過度依賴等問題,也是一個值得關注和研究的問題。
總的來說,CRISPR-GPT作為將LLM技術引入生物醫學研究的一次重要嘗試,其價值和意義不容小覷。它為攻克疾病、增進人類福祉提供了一個全新的思路和工具,展現了人工智能在賦能科學探索方面的巨大潛力。同時,它也為其他學科應用類似模式提供了有益的參考和借鑒。未來,隨著技術的不斷進步,倫理的持續審慎,以及跨領域協作的深入推進,相信這樣的智能輔助系統必將在更廣闊的疆域上大放異彩,開啟科學研究的智能化新紀元。我們有理由對這一前景充滿期待。
沒有留言:
發佈留言