日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

哈佛大学单细胞课程|笔记汇总 (五)

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 哈佛大学单细胞课程|笔记汇总 (五) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

生物信息學習的正確姿勢

NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。

哈佛大學單細胞課程|筆記匯總 (四)

(五)Count Normalization and Principal Component Analysis

獲得高質量的單細胞后,單細胞RNA-seq(scRNA-seq)分析工作流程的下一步就是執行聚類。聚類的目標是將不同的細胞類型分成獨特的細胞亞群。為了進行聚類,我們確定了在細胞之間表達差異最大的基因。

數值標準化

標準化最重要的目的就是使表達水平在細胞之間和/或細胞內更具有可比性。那么在標準化中主要需要處理的因素包括:

測序深度:考慮測序深度是比較細胞之間基因表達的必要條件。在下面的示例中,每個基因在細胞2中的表達似乎都增加了一倍,但這是細胞2具有兩倍測序深度的結果。

因此,要準確比較細胞之間的表達,有必要對測序深度進行標準化 (什么?你做的差異基因方法不合適?)。

基因長度:需要基因長度來比較同一細胞內不同基因之間的表達。基因長度越長比對到的reads理論上會越多。如下圖所示:低表達的較長基因測序到的reads數與較高表達的短基因相差不大。

  • 如果進行的是5’末端或3’末端測序,則不需要考慮基因長度的影響;

  • 如果使用全長測序則需要考慮。

主成分分析(PCA)

PCA是對數據降維的技術,可以用來展示樣品差異和相似性,這里推薦一個學習視頻:StatQuest's video(https://www.youtube.com/watch?v=_UVHneBUBW0)

下面是PCA的示例模擬過程,幫助理解:

如果你已經定量了兩個樣本(或細胞)中四個基因的表達,則可以繪制這些基因的表達值,其中一個樣本在x軸上表示,另一個樣本在y軸上表示,如下所示:

我們可以沿代表最大變化的方向在數據上畫一條線,在此示例中為對角線,數據中變化第一大的變量。數據集中的最大變異是在組成兩個端點的基因。我們還看到基因在該線的上方和下方有些不同。我們可以在該條線的中點繪制另一條與其垂直的線,代表數據中變化第二大的變量。

末端附近的基因 (B, C)是變異最大的基因。這些基因在數學上對線的方向影響最大。

例如,基因C值的微小變化將極大地改變較長線的方向,而基因A或基因D的微小變化對其幾乎沒有影響。

我們還可以旋轉整個圖,保證線條方向是從左到右和從上到下。現在,可以將這些線視為代表變化的軸。這些軸本質上是“主成分”,其中PC1代表數據的最大差異,PC2代表數據的第二大差異。

如果有N個細胞,以此類推。。。(PCA主成分分析實戰和可視化 | 附R代碼和測試數據)

確定PCs后,則需要對每個PC進行評分,按照以下步驟對所有樣本PC對(sample-PC pairs)計算分數:

(1)首先,根據基因對每個PC的影響程度,為其分配“影響力”評分。對給定PC沒有任何影響的基因得分接近零,而具有更大影響力的基因得分更高。PC線末端的基因將產生更大的影響,因此它們將獲得更大的分數,但兩端的符號相反。

(2)確定影響分數后,使用以下公式計算每個樣本的分數:

Sample1 PC1 score = (read count * influence) + ... for all genes

以我們的2個樣本示例,以下是分數的計算方式:

## Sample1 PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51 PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7## Sample2 PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21 PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5

(3)一旦為各個樣本的所有PC計算了這些分數,就可以將其繪制在簡單的散點圖上。下面是示例圖:

對于具有大量樣本或細胞的數據集,通常會繪制每個樣本/細胞的PC1和PC2分數。由于這些PC解釋了數據集中最大的變化,因此更相似的樣本/細胞將在PC1和PC2聚在一起。請參見下面的示例:

Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb

對于我們的單細胞數據,我們最終會選擇10-100 PC去對細胞進行聚類分析,而不是全部基因

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結

以上是生活随笔為你收集整理的哈佛大学单细胞课程|笔记汇总 (五)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。