當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

哈佛大学单细胞课程|笔记汇总（五）

發布時間：2025/3/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了哈佛大学单细胞课程|笔记汇总（五）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

生物信息學習的正確姿勢

NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?（Nature重磅綜述|關于RNA-seq你想知道的全在這）、ChIP-seq分析?（ChIP-seq基本分析流程）、單細胞測序分析?(重磅綜述：三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘（典型醫學設計實驗GEO數據分析 (step-by-step)）、批次效應處理等內容。

哈佛大學單細胞課程|筆記匯總（四）

（五）Count Normalization and Principal Component Analysis

獲得高質量的單細胞后，單細胞RNA-seq（scRNA-seq）分析工作流程的下一步就是執行聚類。聚類的目標是將不同的細胞類型分成獨特的細胞亞群。為了進行聚類，我們確定了在細胞之間表達差異最大的基因。

數值標準化

標準化最重要的目的就是使表達水平在細胞之間和/或細胞內更具有可比性。那么在標準化中主要需要處理的因素包括：

測序深度：考慮測序深度是比較細胞之間基因表達的必要條件。在下面的示例中，每個基因在細胞2中的表達似乎都增加了一倍，但這是細胞2具有兩倍測序深度的結果。

因此，要準確比較細胞之間的表達，有必要對測序深度進行標準化 (什么？你做的差異基因方法不合適？)。

基因長度：需要基因長度來比較同一細胞內不同基因之間的表達。基因長度越長比對到的reads理論上會越多。如下圖所示：低表達的較長基因測序到的reads數與較高表達的短基因相差不大。

如果進行的是5’末端或3’末端測序，則不需要考慮基因長度的影響；
如果使用全長測序則需要考慮。

主成分分析（PCA）

PCA是對數據降維的技術，可以用來展示樣品差異和相似性，這里推薦一個學習視頻：StatQuest's video（https://www.youtube.com/watch?v=_UVHneBUBW0）

下面是PCA的示例模擬過程，幫助理解：

如果你已經定量了兩個樣本（或細胞）中四個基因的表達，則可以繪制這些基因的表達值，其中一個樣本在x軸上表示，另一個樣本在y軸上表示，如下所示：

我們可以沿代表最大變化的方向在數據上畫一條線，在此示例中為對角線，數據中變化第一大的變量。數據集中的最大變異是在組成兩個端點的基因。我們還看到基因在該線的上方和下方有些不同。我們可以在該條線的中點繪制另一條與其垂直的線，代表數據中變化第二大的變量。

末端附近的基因 (B, C)是變異最大的基因。這些基因在數學上對線的方向影響最大。

例如，基因C值的微小變化將極大地改變較長線的方向，而基因A或基因D的微小變化對其幾乎沒有影響。

我們還可以旋轉整個圖，保證線條方向是從左到右和從上到下。現在，可以將這些線視為代表變化的軸。這些軸本質上是“主成分”，其中PC1代表數據的最大差異，PC2代表數據的第二大差異。

如果有N個細胞，以此類推。。。(PCA主成分分析實戰和可視化 | 附R代碼和測試數據)

確定PCs后，則需要對每個PC進行評分，按照以下步驟對所有樣本PC對（sample-PC pairs）計算分數：

（1）首先，根據基因對每個PC的影響程度，為其分配“影響力”評分。對給定PC沒有任何影響的基因得分接近零，而具有更大影響力的基因得分更高。PC線末端的基因將產生更大的影響，因此它們將獲得更大的分數，但兩端的符號相反。

（2）確定影響分數后，使用以下公式計算每個樣本的分數：

Sample1 PC1 score = (read count * influence) + ... for all genes

以我們的2個樣本示例，以下是分數的計算方式：

## Sample1 PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51 PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7## Sample2 PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21 PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

（3）一旦為各個樣本的所有PC計算了這些分數，就可以將其繪制在簡單的散點圖上。下面是示例圖：

對于具有大量樣本或細胞的數據集，通常會繪制每個樣本/細胞的PC1和PC2分數。由于這些PC解釋了數據集中最大的變化，因此更相似的樣本/細胞將在PC1和PC2聚在一起。請參見下面的示例：

Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb

對于我們的單細胞數據，我們最終會選擇10-100 PC去對細胞進行聚類分析，而不是全部基因。

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結

以上是生活随笔為你收集整理的哈佛大学单细胞课程|笔记汇总（五）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：跟随美国博导12年，我学到最深刻的不是科
下一篇：花器官身份基因与靶基因间的调控进化情况