微生物組學(xué)的研究從最初的單個(gè)微生物形態(tài)研究,逐漸深入到微生物的DNA、RNA、蛋白、代謝層面,而這些也衍生出來(lái)了一系列的組學(xué)研究技術(shù)。從初始的形態(tài)學(xué)觀(guān)測,到DNA層面的擴增子,宏基因組技術(shù)研究其微生物組成和功能,進(jìn)而到宏轉錄組、宏蛋白組、宏代謝組等宏表型組學(xué)的研究。多樣性和宏基因組指明【who is there】有哪些微生物和【what are they doing】這些微生物有哪些功能?而蛋白代謝層面,則可以解決【what have really happened】的問(wèn)題,哪些過(guò)程是實(shí)際產(chǎn)生的,這些與表型又有著(zhù)什么樣的關(guān)聯(lián)。
而近年來(lái),關(guān)鍵詞“microbiome and metabolome”、“metagenome and metabolome”也是逐漸備受關(guān)注的熱點(diǎn)話(huà)題,PubMed搜索發(fā)文量也是逐年上升的趨勢。
那么如何來(lái)進(jìn)行微生物和代謝組聯(lián)合分析呢?聯(lián)合分析的圖表又怎么解讀?莫慌,本次小編就為大家帶來(lái)詳細介紹。
首先,我們進(jìn)入百邁客云平臺,打開(kāi)代謝組分析結題報告,在報告左側找到聯(lián)合分析模塊,然后選擇與微生物聯(lián)合分析個(gè)性化,再在右側選擇需要參與分析的微生物報告,之后進(jìn)入第二步參數設置,示例圖如下:
第二步參數設置:整體層面選擇相關(guān)性分析方法、相關(guān)性系數閾值,相關(guān)性的p值。一般默認選擇pearson相關(guān)性算法,相關(guān)性系數0.8,相關(guān)性p值選擇0.05。分組對應關(guān)系:這里指的是微生物和代謝組的樣本對應關(guān)系,比如A組樣本既做了微生物也做了代謝組,那么就選擇代謝組的A組和微生物組的A組放到一起,具體示例圖如下:
提交分析:等待分析完成獲得分析報告結果,一般任務(wù)運行周期1-2h。任務(wù)運行完成后,在聯(lián)合分析結果處查看分析完成的報告和結果,示例圖如下:
結果解讀
微生物和代謝組聯(lián)合分析從兩個(gè)層面去進(jìn)行聯(lián)合,整體層面去展示微生物和代謝物之間的整體相關(guān)性,比如普氏分析、代謝物聚類(lèi)-菌群相關(guān)性分析;從差異層面則基于不同的差異處理組,去進(jìn)一步聯(lián)系表型關(guān)系,看具體的微生物和代謝之間的關(guān)系是否與生物的表型差異相關(guān),這里則主要有差異代謝物和菌群相關(guān)性分析、協(xié)慣量分析、典范對應分析、隨機森林分析等,接下來(lái)我們就這些分析和大家具體看下怎么解讀和應用。

整體分析流程圖
整體層面
1、普氏分析
普氏分析(Procrustes analysis)是一種多元統計學(xué)中的形狀比較分析的方法,即通過(guò)分析形狀分布,比較兩組數據一致性。普氏分析是基于匹配兩個(gè)數據集中的對應點(diǎn)(坐標),通過(guò)平移、旋轉和縮放其中一個(gè)數據集中點(diǎn)的坐標以匹配另一數據集中對應點(diǎn)的坐標,并最小化點(diǎn)坐標之間的偏差平方和(表示為M2)。對應點(diǎn)坐標之間的偏差稱(chēng)為矢量殘差(vector residuals),越小的矢量殘差代表了兩數據集具有更高的一致性。
由于兩組數據集的屬性不同,并不適合用來(lái)直接比較,可分別對兩個(gè)數據集降維排序分析,并提取特征軸的坐標。本分析選用 PCoA 分別對微生物組(屬水平)和代謝組進(jìn)行降維排序,之后進(jìn)行Procrustes分析,比較微生物組與代謝組之間的相似和變異情況。

普氏分析結果圖
注:圖中不同顏色代表不同的分組;每個(gè)線(xiàn)段代表一個(gè)樣本,線(xiàn)段一端實(shí)心圓點(diǎn)代表微生物組數據樣本點(diǎn),線(xiàn)段另一端實(shí)心三角形代表相同樣本的代謝組數據樣本點(diǎn);連線(xiàn)代表兩排序構型的矢量殘差,可評價(jià)二者間的變異情況,連線(xiàn)越短,表示兩個(gè)數據集之間一致性越高。Monte Carlo Label Permutations P 表示由 Monte Carlo 算法模擬生成的 p-value,p

文章案例
圖注:Procrustes分析:第一列圖表包含微生物組數據(紅點(diǎn)),第二列包含代謝組數據(綠點(diǎn))。第一行包含盲腸數據,第二行包含乙狀結腸數據。對盲腸微生物組(A)、盲腸代謝組(B)、乙狀結腸微生物組(D)和乙狀結腸代謝組(E)進(jìn)行主成分分析。然后進(jìn)行樣本點(diǎn)間(C和F) Procrustes分析。Procrustes圖上的線(xiàn)越長(cháng),表明微生物組和代謝組的對象內差異越大。所示的顯著(zhù)性值是使用Vegan R軟件包中的protest函數計算的,該函數進(jìn)行重復的對稱(chēng)Procrustes分析以估計顯著(zhù)性。
引用:McHardy I H, Goudarzi M, Tong M, et al. Integrative analysis of the microbiome and metabolome of the human intestinal mucosal surface reveals exquisite inter-relationships[J]. Microbiome, 2013, 1(1): 1-19.
2、雙向正交偏最小二乘法(O2PLS)
雙向正交偏最小二乘法(Two-way orthogonal partial least squares,O2PLS)通過(guò)對兩個(gè)數據組間的整合分析,評估兩個(gè)數據集之間的內在相關(guān)性。兩組數據是否可建立O2PLS模型,可判斷數據組間是否存在關(guān)聯(lián)性。O2PLS模型一方面可反映不同數據組間的整體影響,另一方面可直接體現不同變量在模型中的權重(權重越大,意味著(zhù)該變量的變化對另一個(gè)組學(xué)的擾動(dòng)更劇烈),從而更加精準地發(fā)現關(guān)鍵調節現象。O2PLS 為非監督建模,可客觀(guān)描述兩數據組間是否存在關(guān)聯(lián)趨勢,盡可能從源頭上避免假陽(yáng)性關(guān)聯(lián)。該方法先對菌落和代謝的數據進(jìn)行UV scaling預處理,再構建群落和代謝O2PLS模型,計算每個(gè)樣本的得分,得到聯(lián)合得分圖;然后計算每種微生物和代謝物的載荷值,得到載荷圖。聯(lián)合得分圖指示了兩個(gè)數據矩陣之間的關(guān)系,具有高載荷值的代謝物/微生物被認為是兩個(gè)數據集相似性所必需的。最后選擇前兩個(gè)維度載荷值長(cháng)度 top15 代謝物/微生物繪制柱狀圖。

O2PLS 聯(lián)合樣本得分圖(左)、O2PLS 模型微生物和代謝物的載荷圖(中)、O2PLS 關(guān)聯(lián)程度大的微生物/代謝物柱狀圖(右)
左圖注:圖中點(diǎn)的形狀(圓點(diǎn)和三角形)代表不同分組的樣本,點(diǎn)的顏色代表不同的組學(xué)樣本,紅色代表微生物組樣本,藍色表示代謝物樣本,圖中橫縱坐標表示代謝組和微生物組聯(lián)合的得分。
中圖注:圖中點(diǎn)的顏色代表不同組學(xué)數據,紅色代表微生物,藍色代表代謝物。橫縱坐標表示聯(lián)合載荷值。載荷值長(cháng)度 top15 代謝物/微生物表示為T(mén)op,用實(shí)心三角形表示,其它的代謝物/微生物表示為Others,用實(shí)心圓點(diǎn)表示。
右圖注:圖中展示了載荷值長(cháng)度 top10 的代謝物和載荷值長(cháng)度 top15 的微生物,紅色柱子代表微生物,藍色柱子代表代謝物。橫坐標表示聯(lián)合載荷軸 1,縱坐標表示代謝物/微生物。
3、代謝物聚類(lèi)-微生物相關(guān)性分析
相關(guān)性分析(correlation analysis)是指對兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jì)蓚€(gè)變量因素的相關(guān)密切程度?;谄栠d相關(guān)系數,可以度量環(huán)境樣本中物種多樣性與代謝物之間的關(guān)聯(lián)程度。從整體水平對代謝物和菌群進(jìn)行相關(guān)性分析,相關(guān)性分析結果以熱圖,和弦圖,網(wǎng)絡(luò )圖三種形式展現。
(1)代謝物簇-微生物相關(guān)性熱圖:一種代謝物簇/微生物可能與多種微生物/代謝物簇具有相關(guān)性,保留至少含一組相關(guān)性的pvalue 滿(mǎn)足 CCP<0.05 的數據,然后進(jìn)行熱圖的繪制。熱圖可以通過(guò)顏色梯度來(lái)反應各種代謝物與各個(gè)微生物分類(lèi)之間的相關(guān)性大小,并且可以對多樣性和代謝物進(jìn)行聚類(lèi)分析。

代謝物簇-微生物相關(guān)性熱圖
注:圖右側為微生物(門(mén)水平),下方為代謝物簇,左側和上方分別為微生物和代謝物簇的聚類(lèi)樹(shù)狀圖。不同顏色代表皮爾遜相關(guān)系數的大小,絕對值越接近于 1,相關(guān)性越高。紅色表示正相關(guān),而綠色表示負相關(guān)。星號表示代謝物簇和微生物之間顯著(zhù)性相關(guān)(p<0.05),*、**和***表示相關(guān)性顯著(zhù)程度依次增強,分別表示 p<0.05,p<0.01和 p<0.001.
(2)代謝物簇-微生物和弦圖:將top30 頻數的代謝物簇/微生物的相關(guān)性結果表,保留至少含一組相關(guān)性系數絕對值在Top 30(按照相關(guān)系數絕對值從大到小排序)內的數據 ,用于相關(guān)性弦圖的繪制。

代謝物簇-微生物相關(guān)性和弦圖
注:弦圖有兩種形式:文件名含label的和弦圖,代謝物簇/微生物名稱(chēng)在圈外展示;文件名含legend的和弦圖,代謝簇在左下角展示,微生物在右下角展示。弦圖左半圈為代謝物,右半圈為微生物,每一條弦表示該代謝物與該微生物具有顯著(zhù)相關(guān)性,紅色弦代表正相關(guān),綠色弦代表負相關(guān)。弦的寬度越寬,表示與這個(gè)代謝物或微生物相關(guān)的頻數 count 越多。
(3)代謝物簇-微生物網(wǎng)絡(luò )圖:利用代謝物簇-微生物和弦圖的相關(guān)性系數表,用于相關(guān)性網(wǎng)絡(luò )圖的繪制。

代謝物簇-微生物相關(guān)性網(wǎng)絡(luò )圖
注: 圖中代謝物簇用藍色方形標出,微生物用紅色圓形標出。實(shí)線(xiàn)代表正相關(guān),虛線(xiàn)代表負相關(guān)。

文章案例:結腸微生物組和血清代謝組之間的聯(lián)系
熱圖顯示了ND組和3xtg組的代謝物概況和特定細菌家族和屬的相對豐度之間的關(guān)聯(lián)。紅到藍的比例:從正到負的關(guān)聯(lián)。Pearson’s correlations與數據分布一致,經(jīng)Shapiro-Wilk測試驗證。*p < 0.05.
引用:Sanguinetti E, Collado M C, Marrachelli V G, et al. Microbiome-metabolome signatures in mice genetically prone to develop dementia, fed a normal or fatty diet[J]. Scientific Reports, 2018, 8(1): 1-13.

相似性分析和spearman相關(guān)分析結果的說(shuō)明
(A) Procrustes analysis (PA):連接兩點(diǎn)的線(xiàn)的長(cháng)度表示兩個(gè)數據集之間樣本的一致性。(B) O2PLS模型:O2PLS模型中具有較大的荷載值,被認為是它們相似性的重要因素。(C) 微生物和代謝物之間的spearman相關(guān)性的Circos圖。(D) 不同的代謝物和屬于韌皮部的微生物之間的spearman相關(guān)網(wǎng)絡(luò )。
引用:Ni Y, Yu G, Chen H, et al. M2IA: a web server for microbiome and metabolome integrative analysis[J]. Bioinformatics, 2020, 36(11): 3493-3498.
差異層面
1、差異代謝物-菌群相關(guān)性分析
基于差異代謝物和差異菌群(genus 屬水平)進(jìn)行相關(guān)性分析,不對差異代謝物進(jìn)行降維處理,其他分析原理同整體層面的代謝物聚類(lèi)-微生物相關(guān)性分析。也是以相關(guān)性熱圖,和弦圖,網(wǎng)絡(luò )圖三種形式展現。

差異代謝物-差異菌群相關(guān)性熱圖(左)、差異代謝物-差異菌群相關(guān)性和弦圖(右上)、差異代謝物-差異菌群相關(guān)性網(wǎng)絡(luò )圖(右下)
2、協(xié)慣量分析
協(xié)慣量分析(coinertia analysis)可用于兩組變量的分析,常見(jiàn)于生態(tài)學(xué)中研究植被與環(huán)境的關(guān)系,隨后被運用到多組學(xué)聯(lián)合分析中。選擇差異微生物(屬水平),并將微生物將按照門(mén)劃分類(lèi),結合差異代謝物可展現出差異代謝物和微生物(屬水平)之間的關(guān)系,也能體現微生物不同類(lèi)群間的分布情況,一般情況下同類(lèi)群的微生物分布相對集中,不同的差異分組中的同類(lèi)微生物分布可能不同。
3、典范對應分析
典范對應分析(canonical correspondence analysis, CCA),是基于對應分析發(fā)展而來(lái)的一種排序方法,將對應分析與多元回歸分析相結合,每一步計算均與環(huán)境因子進(jìn)行回歸,又稱(chēng)多元直接梯度分析。將差異代謝物視為環(huán)境因子,與差異菌群(屬水平)進(jìn)行典型對應分析能揭示菌群的分布特點(diǎn)的同時(shí)也能挖掘與之相關(guān)聯(lián)的代謝物。

協(xié)慣量分析結果圖(左)、典范對應分析分析結果圖(右)
左圖注:圖中一個(gè)圓代表一個(gè)微生物,不同的顏色表示不同的分類(lèi)(按門(mén)劃分,按照門(mén)名稱(chēng)排序,前15個(gè)門(mén)顯示對應門(mén)名稱(chēng),其他門(mén)通稱(chēng)為*_other),三角形是代謝物;微生物、代謝物與原點(diǎn)連線(xiàn)形成的夾角反映了代謝物和微生物之間的相關(guān)性,銳角為正相關(guān),鈍角為負相關(guān),直角為不相關(guān)。
右圖注:圖中的點(diǎn)表示微生物,箭頭為代謝物(為了更清晰的展示代謝物,根據圖幅,統一將箭頭的長(cháng)度進(jìn)行了一定比例的縮放),僅展示箭頭長(cháng)度top5 的代謝物名稱(chēng)。微生物和原點(diǎn)連線(xiàn)與箭頭形成的夾角反映了代謝物和微生物之間的相關(guān)性,銳角為正相關(guān),鈍角為負相關(guān),直角為不相關(guān)。

文章案例:瘤胃微生物和代謝物的相關(guān)性分析
(A) 差異代謝物和OTU之間的相關(guān)性分析。(B) 差異代謝物和微生物之間的限制性對應分析。(C) 差異代謝物和微生物區系之間的相關(guān)熱圖。*P < 0.05; **P < 0.01; ***P < 0.001.
引用:Liu X, Sha Y, Lv W, et al. Multi-omics reveals that the rumen transcriptome, microbiome and its metabolome co-regulate cold season adaptability of Tibetan sheep[J]. Frontiers in microbiology, 2022: 887.
4、隨機森林分析
在機器學(xué)習中,隨機森林(Random Forest)是一個(gè)含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別的眾數而定。在隨機森林中,集成模型中的每棵樹(shù)構建時(shí)的樣本都是由訓練集經(jīng)過(guò)有放回抽樣得來(lái)的。隨機森林構建過(guò)程的隨機性能夠產(chǎn)生具有不同預測錯誤的決策樹(shù)。通過(guò)取這些決策樹(shù)的平均,能夠消除部分錯誤。隨機森林建??梢栽诜诸?lèi)時(shí)評估特征的重要性。隨機森林建模被廣泛應用于少樣本、高特征維度的數據集建模中。在多組學(xué)聯(lián)合分析中,可以通過(guò)對模型特征的排序篩選出對模型重要的特征,從而起到篩選biomarker的目的。還可以通過(guò)不同組學(xué)的單獨建模與合并數據建模的ROC曲線(xiàn)(受試者回歸曲線(xiàn),Receiver Operating Characteristic curve)對比,評估哪種組學(xué)能更好地分離對照組和實(shí)驗組。

隨機森林分類(lèi)器特征重要性排序箱線(xiàn)圖(左)、隨機森林分類(lèi)器ROC曲線(xiàn)圖(右)
左圖注:將兩組數據合并建模并按模型特征重要性從大到小排序,圖片顯示top 20的特征,依據K重交叉驗證結果作箱線(xiàn)圖。

文章案例:使用隨機森林模型評估預測IHH暴露能力的ROC曲線(xiàn)
右圖注:虛線(xiàn)顯示訓練集K重交叉驗證的平均ROC曲線(xiàn),實(shí)線(xiàn)顯示獨立驗證的ROC曲線(xiàn)。不同顏色虛線(xiàn)和實(shí)線(xiàn)分別表示代謝組、微生物組(屬水平)分別建模以及合并建模的ROC曲線(xiàn)。
綠色曲線(xiàn)代表每個(gè)小鼠模型內的分類(lèi)準確性。紫色ROC曲線(xiàn)對應于使用來(lái)自ApoE-/-小鼠模型的腸道微生物組(a)和代謝組(b)數據訓練的模型,以預測Ldlr-/-小鼠的IHH暴露。紅色曲線(xiàn)顯示的是在A(yíng)poE-/-小鼠上測試的Ldlr-/-小鼠的微生物組(c)和代謝組(d)數據。IHH:間歇性低氧和高碳酸血癥。
引用:Tripathi A, Xu Z Z, Xue J, et al. Intermittent hypoxia and hypercapnia reproducibly change the gut microbiome and metabolome across rodent model systems[J]. MSystems, 2019, 4(2): e00058-19.