為什麼說生物資訊學是真正的大資料專業?

時間 2021-06-02 04:44:12

1樓:路西

就談一點資料質量,現在組學相關資料只有genome sequence是相對準確的,其它具備時空性質的組學資料,比如轉錄組,蛋白質組,表觀遺傳組等不具備可重複性,在將來都會被顛覆。這些都受限於生物學系統的複雜性,實驗技術和產出資料平台的不完備。如果資料是不可重複的,只是量大是毫無意義的。

2樓:徐卓菲

另外,再有乙個例子,由Charles Y. Chiu教授開發的大名鼎鼎的mNGS分析流程SURPI,預設需要需要512 GB記憶體以上的伺服器。

所以說,生物資訊學分析從硬體需求來看,的確是貨真價實的大資料應用,超過了很多其他專業對計算硬體的需求。

3樓:簡佐義

2020-11-25更新:我再補充點直觀的資料。

葉綠體基因組夠小了吧,組裝乙個葉綠體基因組需要約150G記憶體。

組裝乙個4.5G的植物基因組,需要約1T記憶體,產生的中間檔案大概20T(三代PacBio測序資料60X,組裝軟體:Falcon)。

幾百個樣本的動植物重測序生信分析,極致週期情況下,可能會呼叫幾百台ECS伺服器同時運算。

乙個專案:300個動物的轉座子分析,產生的計算費用就7萬。

談一下我的理解。先看乙個表。

舉幾個例子:

(1)科研上測人的基因組,習慣上測30X,也就是每乙個鹼基測30次,那麼30*3G就是90G了。乙個專案測5個人的,得到的資料差不多要500G硬碟來裝了(不考慮壓縮的情況)。處理這些資料,對計算資源的要求可想而知,普通筆記本和台式電腦肯定不行了,得上伺服器。

測序公司一年測無數個樣本,他們的計算機集群的儲存空間都是按多少Pb算的。

(2)腫瘤基因檢測為什麼現在以panel(也就是一些基因的組合)為主?部分專案上WES(全外顯子組,就是乙個人的所有基因),幾乎沒有公司的產品是上全基因組的。首先測太多資料沒有必要是一回事,測序成本的考量也是一方面。

因為即便2Mb的panel,動輒幾千上萬X的有效資料要求,測序成本是很可觀的。

(3)病原巨集基因組測序目前被質疑靈敏度不夠,也是因為乙個樣本測序的資料量太大,要考慮成本問題。

總之,行業現在的策略是,全基因組太大,我就測全外顯子組,全外顯子也大,我就測大Panel,大Panel也貴,就整個小Panel。做出多樣化的產品,滿足不同支付能力的客戶的需求。

所以,雖然目前獲取生命DNA的序列資訊非常容易,但考慮到成本,也不是可以任性想怎麼測就怎麼測的。一方面單個樣本的資料量大,其次人群佇列(十萬人口,百萬人口,甚至一中國人口)的資料,那就更大了。大到不可承受,只能控制住資料規模,在成本與效益之間尋求平衡。

大資料的大,不僅在於規模,還在於複雜。規模大,需要巨大的計算資源;複雜,對從業人員的專業技能要求高。試想幾卡車鈔票要點,能叫大資料嗎?

因此,生物資訊學作為利用生物學知識與計算機工具處理大規模且複雜的資料,是真正的大資料。

大資料時代下的生物資訊學專業與生物資訊學職業?

生物資訊從大面上至少可以分成,開車的和造輪子的,搞汽車裝修的這幾類。除了開車的,其餘很少能夠接觸T以上的資料。我最近在實驗室做一些分析,我也不知道算不算大資料,反正一周樣本都跑下來,快10個T了。現在測序很便宜,乙個樣本測個幾百G,然後平行幾個樣本的事情以後肯定會越來越多。什麼是真正的生物大資料時代...

什麼是生物資訊學?生物資訊學中計算機和大資料各扮演什麼樣的角色?

張旭東 當研究樣本量小 研究物件只是一兩個基因的時候,實驗結果用個小本記一下就行了,不用統計學方法,更用不上計算機程式設計,高效能計算。但是隨著高通量測序技術的發展和人類基因組計畫的完成,大資料 大樣本量的時代來了。樣本量大了,你需要科學的統計學方法 資料量大了,你需要高效的計算機程式設計。數學 計...

生物資訊學入門需要具備什麼能力?

梁澤航 首先是對測序原理的理解,這樣才能知道你處理資料需要做什麼以及為什麼要這麼做。幾個比較主流的大類 RNA seq 各種IP 免疫共沉澱 甲基化 晶元等,都有已經比較好的流程,先學會流程,跑起來。然後涉及到的統計學概念要懂,比如p值 correlation之類的要懂 胡煜 換個角度,破下題,可操...