CRISPR基因編輯技術自2013年被科學家首次證明可以在哺乳動物細胞內實現高效的基因組編輯以來,正在徹底改變生物醫學基礎研究和臨床研究領域。越來越多的研究者已經在包括開發新型基因編輯工具酶或者優化向導RNA(gRNA)的設計方面進行了很多嘗試,希望可以借此提高CRISPR的性能。
(資料圖片僅供參考)
利用合成gRNA-靶序列的高通量文庫允許直接在細胞環境下中便捷和高通量地收集gRNA活性數據,由此建立的計算模型來預測gRNA的活性比較可靠。在以往的研究中,約10000至50000條合成的gRNA-靶序列被用于量化gRNA的靶向效率、特異性或修復結果。
然而,人類基因組有6108個具有NGG PAM的潛在gRNA,這導致早期研究中采樣的gRNA覆蓋率僅為0.002%-0.009%。在這個采樣范圍內,已有的計算工具預測的gRNA活性和用于建模的實測gRNA活性相關性約為0.8(Spearman相關性),還有很大上升空間。并且截至目前,還沒有一個從多個維度預測gRNA活性(如,gRNA切割活性、gRNA脫靶活性、gRNA切割后基因組修復的圖譜)的綜合工具。
近日,西湖大學生命科學學院馬麗佳研究員團隊在Cell Discovery期刊發表了題為:Deep sampling of gRNA in the human genome and deep-learning-informed prediction of gRNA activities的研究論文。
該論文介紹了團隊開發的一種基于全新策略構建的深度學習模型,能有效預測CRISPR多維gRNA性能。
首先,研究人員將74萬條gRNA(740k文庫)及gRNA靶點序列合成在一條oligo上(每個gRNA靶點序列包括20-nt上游基因組序列、20-nt靶標序列、3-nt PAM序列和20-nt下游基因組序列),該文庫除了團隊設計的gRNA之外,還包含多個已發表的CRISPR KO screening(通過CRISPR系統構建基因組文庫進行高通量基因敲除篩選)文庫,包括Brunello、GecKOv2、Sabatini、TorontoKoV3和YusaKoV1。740k文庫占人類基因組中所有具有NGG-PAM的gRNA數量的約0.16%(遠高于以往研究中0.002%~0.009%的覆蓋率)。隨后通過慢病毒轉導入穩定表達SpCas9的人體細胞系內,對合成的gRNA靶點序列上下游設計引物PCR進行深度測序即可實現高通量地檢測gRNA的活性,同時還可評估對應gRNA切割基因組后,基因組的修復圖譜(圖1)。
圖1:高通量檢測gRNA體內活性策略的流程圖
為了開發gRNA活性預測模型,研究人員首先比較了九種機器學習算法,包括七種傳統算法和兩種基于深度學習的算法,結果發現RNN是在所有測試算法中性能最好,實測的gRNA效率和預測效率之間的Spearman相關系數在0.875到0.911之間。值得注意的是,相比這項研究中使用了74萬條gRNA,以往的研究只用了1萬至5萬條gRNA序列的數據進行深度學習模型構建。
那么,在數據量和模型性能之間,什么數據量是生物學實驗投入和模型性能獲益之間的最佳值呢?
帶著這個疑問,研究團隊又將740k文庫分為8個子庫,分別疊加子文庫行深度模型構建,利用十折交叉驗證進行評估,最終建立了8組模型,結果表明隨著文庫大小的增加,8組模型的預測性能Spearman相關系數中位數從0.810逐漸提高到0.898。在包含超過220k個gRNA后,模型性能趨于平穩。本研究給出了gRNA數據規模對提升模型性能的重要參考,對后續類似工作如何設計實驗具有重要的指導意義。隨著一系列建模參數的測試,研究人員最終確定將63bp的序列(23bp靶序列和上游、下游各20bp)作為RNN模型的輸入序列,并將其訓練得到的深度學習模型命名為“AIdit_ON”(圖2)。
圖2:建立預測gRNA活性的AIdit_ON模型的流程圖
為了進一步評估AIdit_ON模型在不同細胞類型中的泛化性能,研究人員基于多個公開可用的內源數據集,比較了AIdit_ON和11個已發表的計算工具,結果顯示AIdit_ON模型在所有公共數據集中的表現要優于所有其他模型(圖3)。同樣地,對于本研究產出的不同細胞系內源的gRNA活性數據(293T n=78;K562 n=75;H1 n=71),AIdit_ON模型的表現也優于其他模型(圖3)。
圖3:不同數據集的indel頻率和12個模型預測效率之間的Spearman相關系數的熱圖
此外,K562和Jurkat細胞中740k文庫的數據集使研究人員能夠進一步檢測這兩種細胞類型中DSB(DNA雙鏈斷裂)誘導的基因組修復結果。在仔細分析Jurkat和K562細胞的DSB修復圖譜時候,研究人員有了意外的發現。在K562中,超過65%的SpCas9/gRNA誘導的DSBs被修復為缺失類型(Deletion),這與以往研究的大多數細胞類型中發現的現象一致。相反,插入(Insertion)在Jurkat細胞中占主導地位(大于60%)(圖4)。研究人員大膽假設,Jurkat細胞的一種獨特特性可能是導致Insertion主導修復結果的原因。經過驗證,研究人員證實了他們的猜想,他們找到了一個在Jurkat特異性高表達的基因DNTT,該基因是控制Jurkat中DSB修復的主導基因。敲除Jurkat中的DNTT會改變其修復結果,使其與K562細胞的修復結果更相似。相反,在K562細胞中過表達DNTT時,Insertion成為最主要的DSB修復圖譜。這些數據表明,由SpCas9/gRNA介導的DSB誘導的修復結果是DNTT依賴性的。
為構建精準預測DSB修復圖譜模型,研究人員首先為每個修復類別訓練了一個單獨的XGBoost模型,這些模型的輸出結合序列特征和微同源特征成為最終模型訓練的特征。在K562數據上訓練的模型被命名為AIdit_DSB_K562,在Jurkat數據上訓練過的模型被稱為AIdit_DSB_Jurkat。為了評估模型的泛化性能,研究人員比較了已公開發表的預測模型ForeCasT和Lindel,在所有非Jurkat細胞系的測試數據集中,AIdit_DSB_K562模型的表現優于Lindel和ForeCasT模型。基于從不同系收集的其他公共數據集的結果,包括REP1、CHO、E14TG2A和HAP1,也證明了AIdit_DSB_K562模型的優越性能。AIdit_DSB_Jurkat對非Jurkat數據的預測效力低,但在Jurkat測試數據集中實現了高精準的預測。根據DSB修復的DNTT依賴性,后續研究人員可以用DNTT的表達量來指導模型選擇和預測不同細胞類型特異的SpCas9/gRNA DSB修復圖譜。這個重要現象的發現,解釋了有些情況下模型預測性能無法在不同細胞類型中實現泛化的原因,其實是背后的基本生物學原理決定的。這也提示生物學數據指導下的AI模型,既需要產生足夠的、與問題直接相關的數據,也需要考量有生物學意義的參數。
圖4:SpCas9誘導的DSB修復類型在Jurkat WT, Jurkat DNTT-KO,K562 WT和K562 DNTT-OE細胞中的分布。
最后,研究人員應用了類似的策略來衡量SpCas9/gRNA在非匹配靶序列上的脫靶活性。研究人員設計了一個包含180萬條gRNA脫靶序列的文庫(180k),并基于該文庫產生的高通量測序數據構建了預測SpCas9/gRNA脫靶活性的機器學習模型,即AIdit_OFF。結果表明,在多個GUIDE-seq測試數據集上相對于應用較廣的CFD模型,AIdit_OFF無論特異性還是召回率表現的都更好,且將預測gRNA脫靶位點的精準率平均提高了2.6倍。