哈佛大学单细胞课程|笔记汇总 (五)
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
哈佛大學單細胞課程|筆記匯總 (四)
(五)Count Normalization and Principal Component Analysis
獲得高質量的單細胞后,單細胞RNA-seq(scRNA-seq)分析工作流程的下一步就是執行聚類。聚類的目標是將不同的細胞類型分成獨特的細胞亞群。為了進行聚類,我們確定了在細胞之間表達差異最大的基因。
數值標準化
標準化最重要的目的就是使表達水平在細胞之間和/或細胞內更具有可比性。那么在標準化中主要需要處理的因素包括:
測序深度:考慮測序深度是比較細胞之間基因表達的必要條件。在下面的示例中,每個基因在細胞2中的表達似乎都增加了一倍,但這是細胞2具有兩倍測序深度的結果。
因此,要準確比較細胞之間的表達,有必要對測序深度進行標準化 (什么?你做的差異基因方法不合適?)。
基因長度:需要基因長度來比較同一細胞內不同基因之間的表達。基因長度越長比對到的reads理論上會越多。如下圖所示:低表達的較長基因測序到的reads數與較高表達的短基因相差不大。
如果進行的是5’末端或3’末端測序,則不需要考慮基因長度的影響;
如果使用全長測序則需要考慮。
主成分分析(PCA)
PCA是對數據降維的技術,可以用來展示樣品差異和相似性,這里推薦一個學習視頻:StatQuest's video(https://www.youtube.com/watch?v=_UVHneBUBW0)
下面是PCA的示例模擬過程,幫助理解:
如果你已經定量了兩個樣本(或細胞)中四個基因的表達,則可以繪制這些基因的表達值,其中一個樣本在x軸上表示,另一個樣本在y軸上表示,如下所示:
我們可以沿代表最大變化的方向在數據上畫一條線,在此示例中為對角線,數據中變化第一大的變量。數據集中的最大變異是在組成兩個端點的基因。我們還看到基因在該線的上方和下方有些不同。我們可以在該條線的中點繪制另一條與其垂直的線,代表數據中變化第二大的變量。
末端附近的基因 (B, C)是變異最大的基因。這些基因在數學上對線的方向影響最大。
例如,基因C值的微小變化將極大地改變較長線的方向,而基因A或基因D的微小變化對其幾乎沒有影響。
我們還可以旋轉整個圖,保證線條方向是從左到右和從上到下。現在,可以將這些線視為代表變化的軸。這些軸本質上是“主成分”,其中PC1代表數據的最大差異,PC2代表數據的第二大差異。
如果有N個細胞,以此類推。。。(PCA主成分分析實戰和可視化 | 附R代碼和測試數據)
確定PCs后,則需要對每個PC進行評分,按照以下步驟對所有樣本PC對(sample-PC pairs)計算分數:
(1)首先,根據基因對每個PC的影響程度,為其分配“影響力”評分。對給定PC沒有任何影響的基因得分接近零,而具有更大影響力的基因得分更高。PC線末端的基因將產生更大的影響,因此它們將獲得更大的分數,但兩端的符號相反。
(2)確定影響分數后,使用以下公式計算每個樣本的分數:
Sample1 PC1 score = (read count * influence) + ... for all genes以我們的2個樣本示例,以下是分數的計算方式:
## Sample1 PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51 PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7## Sample2 PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21 PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5(3)一旦為各個樣本的所有PC計算了這些分數,就可以將其繪制在簡單的散點圖上。下面是示例圖:
對于具有大量樣本或細胞的數據集,通常會繪制每個樣本/細胞的PC1和PC2分數。由于這些PC解釋了數據集中最大的變化,因此更相似的樣本/細胞將在PC1和PC2聚在一起。請參見下面的示例:
Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb
對于我們的單細胞數據,我們最終會選擇10-100 PC去對細胞進行聚類分析,而不是全部基因。
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的哈佛大学单细胞课程|笔记汇总 (五)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跟随美国博导12年,我学到最深刻的不是科
- 下一篇: 花器官身份基因与靶基因间的调控进化情况