日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

一文看懂PCA主成分分析

發(fā)布時(shí)間:2025/3/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一文看懂PCA主成分分析 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測(cè)序分析?(重磅綜述:三萬(wàn)字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程 (原理、代碼和評(píng)述))、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。

主成分分析簡(jiǎn)介

主成分分析 (PCA, principal component analysis)是一種數(shù)學(xué)降維方法, 利用正交變換 (orthogonal transformation)把一系列可能線性相關(guān)的變量轉(zhuǎn)換為一組線性不相關(guān)的新變量,也稱(chēng)為主成分,從而利用新變量在更小的維度下展示數(shù)據(jù)的特征。

主成分是原有變量的線性組合,其數(shù)目不多于原始變量。組合之后,相當(dāng)于我們獲得了一批新的觀測(cè)數(shù)據(jù),這些數(shù)據(jù)的含義不同于原有數(shù)據(jù),但包含了之前數(shù)據(jù)的大部分特征,并且有著較低的維度,便于進(jìn)一步的分析。

在空間上,PCA可以理解為把原始數(shù)據(jù)投射到一個(gè)新的坐標(biāo)系統(tǒng),第一主成分為第一坐標(biāo)軸,它的含義代表了原始數(shù)據(jù)中多個(gè)變量經(jīng)過(guò)某種變換得到的新變量的變化區(qū)間;第二成分為第二坐標(biāo)軸,代表了原始數(shù)據(jù)中多個(gè)變量經(jīng)過(guò)某種變換得到的第二個(gè)新變量的變化區(qū)間。這樣我們把利用原始數(shù)據(jù)解釋樣品的差異轉(zhuǎn)變?yōu)槔眯伦兞拷忉寴悠返牟町悺?br />

這種投射方式會(huì)有很多,為了最大限度保留對(duì)原始數(shù)據(jù)的解釋,一般會(huì)用最大方差理論或最小損失理論,使得第一主成分有著最大的方差或變異數(shù) (就是說(shuō)其能盡量多的解釋原始數(shù)據(jù)的差異);隨后的每一個(gè)主成分都與前面的主成分正交,且有著僅次于前一主成分的最大方差 (正交簡(jiǎn)單的理解就是兩個(gè)主成分空間夾角為90°,兩者之間無(wú)線性關(guān)聯(lián),從而完成去冗余操作)。

主成分分析的意義

  • 簡(jiǎn)化運(yùn)算。

    在問(wèn)題研究中,為了全面系統(tǒng)地分析問(wèn)題,我們通常會(huì)收集眾多的影響因素也就是眾多的變量。這樣會(huì)使得研究更豐富,通常也會(huì)帶來(lái)較多的冗余數(shù)據(jù)和復(fù)雜的計(jì)算量。

    比如我們我們測(cè)序了100種樣品的基因表達(dá)譜借以通過(guò)分子表達(dá)水平的差異對(duì)這100種樣品進(jìn)行分類(lèi)。在這個(gè)問(wèn)題中,研究的變量就是不同的基因。每個(gè)基因的表達(dá)都可以在一定程度上反應(yīng)樣品之間的差異,但某些基因之間卻有著調(diào)控、協(xié)同或拮抗的關(guān)系,表現(xiàn)為它們的表達(dá)值存在一些相關(guān)性,這就造成了統(tǒng)計(jì)數(shù)據(jù)所反映的信息存在一定程度的冗余。另外假如某些基因如持家基因在所有樣本中表達(dá)都一樣,它們對(duì)于解釋樣本的差異也沒(méi)有意義。這么多的變量在后續(xù)統(tǒng)計(jì)分析中會(huì)增大運(yùn)算量和計(jì)算復(fù)雜度,應(yīng)用PCA就可以在盡量多的保持變量所包含的信息又能維持盡量少的變量數(shù)目,幫助簡(jiǎn)化運(yùn)算和結(jié)果解釋。

  • 去除數(shù)據(jù)噪音。

    比如說(shuō)我們?cè)跇悠返闹苽溥^(guò)程中,由于不完全一致的操作,導(dǎo)致樣品的狀態(tài)有細(xì)微的改變,從而造成一些持家基因也發(fā)生了相應(yīng)的變化,但變化幅度遠(yuǎn)小于核心基因 (一般認(rèn)為噪音的方差小于信息的方差)。而PCA在降維的過(guò)程中濾去了這些變化幅度較小的噪音變化,增大了數(shù)據(jù)的信噪比。

  • 利用散點(diǎn)圖實(shí)現(xiàn)多維數(shù)據(jù)可視化。

    在上面的表達(dá)譜分析中,假如我們有1個(gè)基因,可以在線性層面對(duì)樣本進(jìn)行分類(lèi);如果我們有2個(gè)基因,可以在一個(gè)平面對(duì)樣本進(jìn)行分類(lèi);如果我們有3個(gè)基因,可以在一個(gè)立體空間對(duì)樣本進(jìn)行分類(lèi);如果有更多的基因,比如說(shuō)n個(gè),那么每個(gè)樣品就是n維空間的一個(gè)點(diǎn),則很難在圖形上展示樣品的分類(lèi)關(guān)系。利用PCA分析,我們可以選取貢獻(xiàn)最大的2個(gè)或3個(gè)主成分作為數(shù)據(jù)代表用以可視化。這比直接選取三個(gè)表達(dá)變化最大的基因更能反映樣品之間的差異。(利用Pearson相關(guān)系數(shù)對(duì)樣品進(jìn)行聚類(lèi)在樣品數(shù)目比較少時(shí)是一個(gè)解決辦法)

  • 發(fā)現(xiàn)隱性相關(guān)變量。

    我們?cè)诤喜⑷哂嘣甲兞康玫街鞒煞诌^(guò)程中,會(huì)發(fā)現(xiàn)某些原始變量對(duì)同一主成分有著相似的貢獻(xiàn),也就是說(shuō)這些變量之間存在著某種相關(guān)性,為相關(guān)變量。同時(shí)也可以獲得這些變量對(duì)主成分的貢獻(xiàn)程度。對(duì)基因表達(dá)數(shù)據(jù)可以理解為發(fā)現(xiàn)了存在協(xié)同或拮抗關(guān)系的基因。

  • 因?yàn)樵氖怯肦markdown轉(zhuǎn)碼而來(lái),格式顯示不規(guī)范,請(qǐng)移步原文鏈接查看。

    你可能還想看

    • PCA主成分分析實(shí)戰(zhàn)和可視化 | 附R代碼和測(cè)試數(shù)據(jù)

    • 用了這么多年的PCA可視化竟然是錯(cuò)的!!!

    • 還在用PCA降維?快學(xué)學(xué)大牛最?lèi)?ài)的t-SNE算法吧(附Python/R代碼)

    • WGCNA分析,簡(jiǎn)單全面的最新教程?(這里面也有PCA的妙用)

    高顏值免費(fèi)在線繪圖

    往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)

    后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

    總結(jié)

    以上是生活随笔為你收集整理的一文看懂PCA主成分分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。