新手如何開始基因組測序數據分析
作為生命科學領域的“圈內人”,如果你還不知曉近期基因組測序的飛速發展,那你就實在太out了。。。這項技術在短短5年時間里,從一種令人仰望的技術變成了實驗室里的常規操作,僅僅就去年一年時間,這項技術就應用到了千人基因組計劃、人類微生物計劃這兩項重要的研究項目中,識別了大量孟德爾遺傳疾病相關的基因,比如朱伯特綜合癥(Joubert Syndrome),米勒費雪綜合癥(Miller Syndrome),還破解了蘋果,虱子,以及前段時間侵襲海地的霍亂弧菌的基因組,實力確實不可小窺。
然而由于這一領域的發展速度飛快,因此一些新接觸的實驗人員可能會感到茫然無措:雖然這些研究人員都具有實體測序實驗操作經驗,但是如何處理獲得的龐大數據是一個巨大挑戰。幸運的是,目前已經有了一些免費的,或者說是低成本的多元化工具,以及活躍的用戶群,可以幫助我們解決其中的一些問題,包括大部分新手都會提的一個問題——從那兒開始?以下的這些測序專家會從這一zui常見的新手問題開始,一一幫助我們解答疑惑。
需要什么IT基礎設備?
簡而言之:視情況而定。測序數據集信息量都很大,但不是所有的數據集都一樣,比如說,*基因組測序項目包括原始測序數據,比對數據,變異檢出數據等,每個樣品都能達到上百GB,而像ChIP-Seq數據集(例如染色體免疫共沉淀實驗數據)就小得多了,才幾個GB而已。
因此要回答需要多少空間來存儲所有數據這個問題,也是視情況而定。弗吉尼亞州立聯邦大學生物標記研究及個性化醫療中心有一臺2010年早期購買的ABI SOLiD 4測序儀,目前這個中心有大約35TB(即35000GB)的磁盤空間來存儲數據,其中一些保存在實驗室內,但是大部分實際上都外包了,比如1575個個體甲基化測序數據。中心主任Edwin van den Oord說,“僅僅是實驗室里產生的數據不需要這么大的空間”,但即使是35TB的空間還是不夠的,“我們需要購買更多的磁盤才能分析這些數據”。來自杜克大學的Kevin Shianna實驗室完成了200個*基因組測序,以及另外100個基因組外顯子(即蛋白編碼區域)測序,目前他們有300TB磁盤空間,而且其中大部分都是滿的!
除了磁盤空間外,另外一個關鍵的元素就是電腦的運作能力,數據文件如此之大,往往不能通過臺式機來準確分析,因此需要計算機PC集群(cluster)——一種特別的ad-hoc超級電腦(ad-hoc:電腦到電腦網絡),電腦之間通過網絡鏈接,由許多小電腦并聯組成。舉例而言,杜克大學所用的一種軟件工具:Sequence Variant Analyzer(能注釋基因變異,以及這些變異在基因組中位置)就是“一個內存怪獸”,Shianna說,“它至少需要24-32GB的內存空間。”
如果沒有這些設備該怎么辦?
許多高校都提供集群資源服務,但也不是每個都有,對于沒有集群設施的研究人員來說,可以尋找一些Web,云模式(cloud-based)為基礎的來替代,比如Amazon Web Services,這是一種可以提供基礎設施的計算平臺服務,包括云計算平臺EC2(Elastic Compute Cloud)——擁有幾乎無限的計算設施,和云儲存服務S3(simple storage service)——提供在線存儲服務。每個人都可以在AWS上建立自己的戶頭,這要求有一臺實體的機器,一個計算機界面來連接網絡,然后通過Amazon的云服務進行數據分析。
這種付費系統靈活性很大,通過Amazon(或其它的云服務平臺,比如Google和Microsoft)完成繁重的高計算量任務,研究人員就能從購買,維修和升級IT設備這些繁雜的事情中脫身,DNAnexus公司總裁Andreas Sundquist說,“我看到Amazon預算好像訂了十萬個CPU,還有上百個PB(1PB=1000TB)磁盤”,“世界上能接觸到這么多計算機和磁盤的地方非常少”,一些無私的研究人員還研發了一種預先組態(preconfigured)生物信息學為基礎的虛擬Linux機器,作為一個Amazon鏡像系統(Amazon Machine Image),這種打包的服務器環境能運行需要的軟件和應用程序,
除此之外,還可以試試賓州的Galaxy (galaxy.psu.edu/),其網頁介紹道,“Galaxy能幫助你完成其它任何地方都無法完成的分析,而且無需安裝或者下載任何東西,你可以分析多重比對,比較基因組注釋,解析宏基因組樣品等更多得多的應用”,這一系統包含有大量的文檔資料和教程視頻,來自凱撒西儲大學的Mark Adams將Galaxy稱為“一個能整合不同類別數據,查詢數據,協調性尤其好的系統”。
對于云計算有更高要求的研究人員就可以嘗試下一些商業公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通過直接上傳,或者聯網的測序儀上接收數據,進行變異查找,RNA表達分析和ChIP-Seq分析。Sundquist說,“你不用考慮這些分析在哪里進行,也不用考慮結果存儲在哪里,這些DNAnexus云計算都能幫你做到”。這些服務(AWS)的價格是20美元/GB/2年(科研單位),5美元/GB(測序機構)。