當前位置：首頁 > 运维知识 > linux >内容正文

linux

文件读取 linux_Linux 进程、线程、文件描述符的底层原理

發(fā)布時間：2025/3/12 linux 17 豆豆

生活随笔收集整理的這篇文章主要介紹了文件读取 linux_Linux 进程、线程、文件描述符的底层原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說到進程，恐怕面試中最常見的問題就是線程和進程的關系了，那么先說一下答案：在 Linux 系統(tǒng)中，進程和線程幾乎沒有區(qū)別。

Linux 中的進程其實就是一個數據結構，順帶可以理解文件描述符、重定向、管道命令的底層工作原理，最后我們從操作系統(tǒng)的角度看看為什么說線程和進程基本沒有區(qū)別。

一、進程是什么

首先，抽象地來說，我們的計算機就是這個東西：

這個大的矩形表示計算機的內存空間，其中的小矩形代表進程，左下角的圓形表示磁盤，右下角的圖形表示一些輸入輸出設備，比如鼠標鍵盤顯示器等等。另外，注意到內存空間被劃分為了兩塊，上半部分表示用戶空間，下半部分表示內核空間。

用戶空間裝著用戶進程需要使用的資源，比如你在程序代碼里開一個數組，這個數組肯定存在用戶空間；內核空間存放內核進程需要加載的系統(tǒng)資源，這一些資源一般是不允許用戶訪問的。但是注意有的用戶進程會共享一些內核空間的資源，比如一些動態(tài)鏈接庫等等。

我們用 C 語言寫一個 hello 程序，編譯后得到一個可執(zhí)行文件，在命令行運行就可以打印出一句 hello world，然后程序退出。在操作系統(tǒng)層面，就是新建了一個進程，這個進程將我們編譯出來的可執(zhí)行文件讀入內存空間，然后執(zhí)行，最后退出。

你編譯好的那個可執(zhí)行程序只是一個文件，不是進程，可執(zhí)行文件必須要載入內存，包裝成一個進程才能真正跑起來。進程是要依靠操作系統(tǒng)創(chuàng)建的，每個進程都有它的固有屬性，比如進程號(PID)、進程狀態(tài)、打開的文件等等，進程創(chuàng)建好之后，讀入你的程序，你的程序才被系統(tǒng)執(zhí)行。

那么，操作系統(tǒng)是如何創(chuàng)建進程的呢？對于操作系統(tǒng)，進程就是一個數據結構，我們直接來看 Linux 的源碼：

struct?task_struct?{
????//?進程狀態(tài)
????long??????????????state;
????//?虛擬內存結構體
????struct?mm_struct??*mm;
????//?進程號
????pid_t?????????????pid;
????//?指向父進程的指針
????struct?task_struct???*parent;
????//?子進程列表
????struct?list_head????? children;
????//?存放文件系統(tǒng)信息的指針
????struct?fs_struct??????*fs;
????//?一個數組，包含該進程打開的文件指針
????struct?files_struct???*files;
};

task_struct就是 Linux 內核對于一個進程的描述，也可以稱為「進程描述符」。源碼比較復雜，我這里就截取了一小部分比較常見的。

我們主要聊聊mm指針和files指針。mm指向的是進程的虛擬內存，也就是載入資源和可執(zhí)行文件的地方；files指針指向一個數組，這個數組里裝著所有該進程打開的文件的指針。

二、文件描述符是什么

先說files，它是一個文件指針數組。一般來說，一個進程會從files[0]讀取輸入，將輸出寫入files[1]，將錯誤信息寫入files[2]。

舉個例子，以我們的角度 C 語言的printf函數是向命令行打印字符，但是從進程的角度來看，就是向files[1]寫入數據；同理，scanf函數就是進程試圖從files[0]這個文件中讀取數據。

每個進程被創(chuàng)建時，files的前三位被填入默認值，分別指向標準輸入流、標準輸出流、標準錯誤流。我們常說的「文件描述符」就是指這個文件指針數組的索引，所以程序的文件描述符默認情況下 0 是輸入，1 是輸出，2 是錯誤。

我們可以重新畫一幅圖：

對于一般的計算機，輸入流是鍵盤，輸出流是顯示器，錯誤流也是顯示器，所以現在這個進程和內核連了三根線。因為硬件都是由內核管理的，我們的進程需要通過「系統(tǒng)調用」讓內核進程訪問硬件資源。

PS：不要忘了，Linux 中一切都被抽象成文件，設備也是文件，可以進行讀和寫。

如果我們寫的程序需要其他資源，比如打開一個文件進行讀寫，這也很簡單，進行系統(tǒng)調用，讓內核把文件打開，這個文件就會被放到files的第 4 個位置，對應文件描述符 3：

明白了這個原理，輸入重定向就很好理解了，程序想讀取數據的時候就會去files[0]讀取，所以我們只要把files[0]指向一個文件，那么程序就會從這個文件中讀取數據，而不是從鍵盤：

同理，輸出重定向就是把files[1]指向一個文件，那么程序的輸出就不會寫入到顯示器，而是寫入到這個文件中：

錯誤重定向也是一樣的，就不再贅述。

管道符其實也是異曲同工，把一個進程的輸出流和另一個進程的輸入流接起一條「管道」，數據就在其中傳遞，不得不說這種設計思想真的很巧妙：

到這里，你可能也看出「Linux 中一切皆文件」設計思路的高明了，不管是設備、另一個進程、socket 套接字還是真正的文件，全部都可以讀寫，統(tǒng)一裝進一個簡單的files數組，進程通過簡單的文件描述符訪問相應資源，具體細節(jié)交于操作系統(tǒng)，有效解耦，優(yōu)美高效。

三、線程是什么

首先要明確的是，多進程和多線程都是并發(fā)，都可以提高處理器的利用效率，所以現在的關鍵是，多線程和多進程有啥區(qū)別。

為什么說 Linux 中線程和進程基本沒有區(qū)別呢，因為從 Linux 內核的角度來看，并沒有把線程和進程區(qū)別對待。

我們知道系統(tǒng)調用fork()可以新建一個子進程，函數pthread()可以新建一個線程。但無論線程還是進程，都是用task_struct結構表示的，唯一的區(qū)別就是共享的數據區(qū)域不同。

換句話說，線程看起來跟進程沒有區(qū)別，只是線程的某些數據區(qū)域和其父進程是共享的，而子進程是拷貝副本，而不是共享。就比如說，mm結構和files結構在線程中都是共享的，我畫兩張圖你就明白了：

所以說，我們的多線程程序要利用鎖機制，避免多個線程同時往同一區(qū)域寫入數據，否則可能造成數據錯亂。

那么你可能問，既然進程和線程差不多，而且多進程數據不共享，即不存在數據錯亂的問題，為什么多線程的使用比多進程普遍得多呢？

因為現實中數據共享的并發(fā)更普遍呀，比如十個人同時從一個賬戶取十元，我們希望的是這個共享賬戶的余額正確減少一百元，而不是希望每人獲得一個賬戶的拷貝，每個拷貝賬戶減少十元。

當然，必須要說明的是，只有 Linux 系統(tǒng)將線程看做共享數據的進程，不對其做特殊看待，其他的很多操作系統(tǒng)是對線程和進程區(qū)別對待的，線程有其特有的數據結構，我個人認為不如 Linux 的這種設計簡潔，增加了系統(tǒng)的復雜度。

在 Linux 中新建線程和進程的效率都是很高的，對于新建進程時內存區(qū)域拷貝的問題，Linux 采用了 copy-on-write 的策略優(yōu)化，也就是并不真正復制父進程的內存空間，而是等到需要寫操作時才去復制。所以 Linux 中新建進程和新建線程都是很迅速的。

以上就是全部內容，如果有幫助的話，不妨點個在看，我看看操作系統(tǒng)相關的文章閱讀數據怎么樣，不錯的話以后可以再寫寫操作系統(tǒng)方面的小知識。

總結

以上是生活随笔為你收集整理的文件读取 linux_Linux 进程、线程、文件描述符的底层原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：嵌入式系统的知识体系、学习误区及学习建议
下一篇： linux 其他常用命令