基因體序列資料庫建置及分析探勘系統

基因體序列資料庫建置及分析探勘系統

基因體序列資料庫建置及分析探勘系統

剛剛將有相當難度的 “基因體序列資料庫建置及分析探勘系統” 程式寫好。

透過這新建立的系,可以將我過去分析眾多基因體序列資料結構化,接下來就可以進一步將這些資料,用統計、資料探勘或是人工智慧的方式進一步分析,找出更多未知的疾病基因。

說有難度的原因是基因體資料實在太大 ; 若是用一般的指令,我電腦512g的 記憶體容量一下子就耗盡,不然就是慢到幾個禮拜才能跑完。不過這幾天在極度燒腦狀態下發展出一堆新的處理模式,解決了這些問題,並將分析時間控制在合理範圍內。例如我測試這程式將156個個案的whole exome sequencing,每個案例包含數千萬個正常及異常基因點,排好為表格,然後跑70萬次Chi-square檢定,整個過程,約四小時可完成。

我習慣自己寫程式分析資料,因為這樣可以掌握細節,有需要隨時可修正程式碼以改進分析效果。之前我臉書上分享的基因案例分析都是用自己的程式分析的。另外還有一套 “基因體人工智慧分析系統”,雖然還沒放到臨床上使用,它產生的數據,倒也讓我及同伴寫了六篇5分以上的論文。

下一步要發展什麼 ? 應該就是AI multi-omics及系統醫學了。

人生病其實都有跡可循,特別是特定疾病傾向或是初期疾病,可以由身體複雜龐大的數據中,看到線索,特別是基因體資訊,所以分析這些資料,讓我們有機會在疾病爆發之前就先辦認並將之阻斷,避免大病,這是我積極發展基因體醫學的原因。

標籤