結合優選算法 利用可視化進行高級數據分析的五個步驟

【導語】在大多數科學研究中,大量的實驗數據的統計分析工作通常由計算和統計方麵的技術專家完成。 遺憾的是,這些專家不是相應領域研究的專家,這可能導致分析中的缺陷。 如果,研究人員本人能夠輕鬆使用工具和方法來處理和分析數據,那麼肯定會獲得豐富研究成果。
◆ ◆ ◆
問題
許多科學家都麵臨著共同的挑戰,特別是那些分子生物學領域科學家,他們的實驗產生了大量的數據。對於如此海量的數據,人們需要軟件工具來有效地解釋其數據。
如今,麵臨日益增長的大數據,計算機軟件仍大多側重於數據處理,通過麵向技術專家的用戶界麵,以標準的統計方法來呈現數據結果。 因此,科學家/研究者很難深入解釋這些數據,大量的數據分析工作隻能由專業的生物信息學家和生物統計學家來執行。 然而,這個模式並不盡如人意,因為通常情況下,科學家才是最了解該研究領域的人。
◆ ◆ ◆
解決方案
結合優選算法,可視化方法可以在某種程度上應對這些挑戰,並可使更多使用者去探索和分析數據。可視化技術,給大家提供了一種快速識別重要結構和模式的積極有效的方法,而且反饋信息也很易於理解。 從團體化的視角來看,這也是一種很重要的方法,因為它使更多的科學家能夠分析和討論實驗數據和結果,進而推動創新。
當使用可視化來識別數據中新的子組數據和模式時,我們建議使用五步法來確保可重複的顯著的結果。 此分析步驟的是出於多方麵的考慮, 最基本的意圖是嚐試在數據中識別全新的組或模式, 另一方麵是為了探索數據,並且僅檢測預期的模式,這是一種質量控製的好辦法。 通過應用這個五步法,科學家就可以研究大量複雜的數據集,而不必成為統計專家。 該方法在下麵更詳細地描述,但是一些基本概念需在此交代清楚, 它可應用於任何類型的生命科學行業數據,可以是高維度數據和樣本數據,例如 RNA-seq,基因表達陣列,蛋白質組學,DNA甲基化,代謝組學等等。
第一步:降低數據維度
首先,高維數據需要被降階到較低的維度,使得其可以進行3D繪製。 為此,我們建議使用主成分分析(Principal Component Analysis, PCA)的方法。另外,還需要用數據染色工具來增強信息,並用過濾器等工具來篩選數據集的部分。
在五步法的起始階段,研究人員會對活動數據集中存在的最強信號進行檢測和去除。 一旦識別了該信號就可以去除它,以便查看是否存在其他模煳但仍然可辨認的信號。移除一個強信號,通常會導致活動樣本和或變量(特征)的減少。
第二步:評估信噪比
該過程的第二步是通過使用PCA、投影分數和隨機化來評估數據中的信噪比。 投影分數會顯示檢測的信號或模板的視覺強度。
第三步:方差濾波去除噪聲
第三步是通過方差濾波去除“噪聲”。 如果研究人員可以在其活動數據集中看到顯著的信噪比,那麼他們應該嚐試去除一些最可能貢獻噪聲的活躍變量。 為了識別所需的方差過濾量,用戶可以使用由PCA可視化和投影得分的方法來獲得方差過濾量。 通過測試多個不同的方差設置,可以更容易找到清晰的模式。
第四步:統計測試
第四步,統計測試是可選的執行步驟,可以應用於五步過程的任何/所有其他階段,也就是說,可以在初始分析期間執行,或者當某個步驟重複的時候執行,或者在步驟結束時執行,或者不做也可以。 被測數據組可以是預定義的,或者是在迭代過程中確定下來的。 (建議對第二個數據集去驗證發現的數據結構和數組)
第五步:搜索子組或群集
最後一步,使用圖形來細化子組或群集的搜索。 例如,在網絡或圖形中連接樣本,使其可以搬升至更高的維度(即,大於三個維度,可以用3D PCA圖來表示),因為在樣本圖中創建的圖形是基於所有活動變量的空間距離,所以它可以使用戶對數據結構有更深入的了解。
重複這五個步驟,直到無法再找出新的數據結構。
原文發布時間為:2016-11-16
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-31 11:32:25