2012年4月5日 星期四

NIH千人基因組計劃數據將免費對外開放


據國外網站報導,美國國立衛生研究院(NIH)3月29日宣布,他們的千人基因組計劃的全部數據將免費對外開放。這些數據總量達到200TB,是世界上最大的人類基因變異數據集。亞馬遜旗下的雲計算公司——“亞馬遜網絡服務”將存儲這個龐大的數據庫。

千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關係的研究奠定基礎。所有數據免費對外開放意味著更多科學家可以利用這些數據進行研究,以更快的速度得出基因型與癌症、糖尿病等疾病間關係的發現。這項計劃於2008年啟動,立基於全世界26個國家和地區的2600多人的基因組。其中1700人的DNA排序結果將在不久後公佈並進行雲存儲,餘下900人的DNA將在2012年進行排序。

國立衛生研究院的千人基因組計劃是一項規模更大的舉措組成部分,用於管理科學研究產生的海量數據——數據管理本身就是一門科學。由於類似千人基因組計劃這樣的數據集規模龐大,很少有研究人員具備處理能力,因此也就無法使用。根據國立衛生研究院的計算,千人基因組計劃的數據如果列印出來,可放滿1600萬個檔案櫃;如果使用標準DVD存儲,需要3萬多張DVD。

對於科學家和他們所在的研究機構來說,千人基因組計劃數據進行雲存儲無疑是一個好消息,他們無需擁有更大帶寬,數據存儲和分析處理能力便可獲取這些數據。亞馬遜網絡服務公司首席產品經理德帕克·辛格表示:“這意味著所有研究人員和實驗室都可以獲取完整的千人基因組計劃數據,無論它們規模大小和預算多少。他們可​​以立即對這些數據進行分析,而無需在這方面投入資源。通常情況下,他們需要大量硬體、設施和人員才能獲取這些數據。由於無需投入資源便可獲得研究所需數據,科學家可以加快研究步伐。”

對於亞馬遜網絡服務公司來說,存儲千人基因組計劃的數據可能也是一個好消息。美國《紐約時報》報導稱,處理如此海量數據需要極大的運算能力,亞馬遜網絡服務公司可以要求獲得額外的資源,用於進一步處理或者分析這些數據。

白宮認為雲存儲千人基因組計劃數據是他們的“大數據研究和發展倡議”所提出的解決方案的一個典範。美國科學和技術政策辦公室29日宣布,將有2億多美元投向6個聯邦機構,用於推動大數據計算領域的研究——包括大數據分析——以及大數據在科學探索、環境和生物醫學研究、教育以及國家安全領域的應用。

IEEE網站相關報導(英文)

沒有留言:

張貼留言