當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

.net线程池内幕

發(fā)布時間：2023/12/4 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 .net线程池内幕小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文通過對.NET4.5的ThreadPool源碼的分析講解揭示.NET線程池的內(nèi)幕，并總結(jié)ThreadPool設(shè)計的好與不足。

線程池的作用
線程池，顧名思義，線程對象池。Task和TPL都有用到線程池，所以了解線程池的內(nèi)幕有助于你寫出更好的程序。由于篇幅有限，在這里我只講解以下核心概念：

線程池的大小
如何調(diào)用線程池添加任務(wù)
線程池如何執(zhí)行任務(wù)

Threadpool也支持操控IOCP的線程，但在這里我們不研究它，涉及到task和TPL的會在其各自的博客中做詳解。

線程池的大小
不管什么池，總有尺寸，ThreadPool也不例外。ThreadPool提供了4個方法來調(diào)整線程池的大小：

SetMaxThreads
GetMaxThreads
SetMinThreads
GetMinThreads

SetMaxThreads指定線程池最多可以有多少個線程，而GetMaxThreads自然就是獲取這個值。SetMinThreads指定線程池中最少存活的線程的數(shù)量，而GetMinThreads就是獲取這個值。
為何要設(shè)置一個最大數(shù)量和有一個最小數(shù)量呢？原來線程池的大小取決于若干因素，如虛擬地址空間的大小等。比如你的計算機是4g內(nèi)存，而一個線程的初始堆棧大小為1m，那么你最多能創(chuàng)建4g/1m的線程（忽略操作系統(tǒng)本身以及其他進程內(nèi)存分配）；正因為線程有內(nèi)存開銷，所以如果線程池的線程過多而又沒有被完全使用，那么這就是對內(nèi)存的一種浪費，所以限制線程池的最大數(shù)是很make sense的。
那么最小數(shù)又是為啥？線程池就是線程的對象池，對象池的最大的用處是重用對象。為啥要重用線程，因為線程的創(chuàng)建與銷毀都要占用大量的cpu時間。所以在高并發(fā)狀態(tài)下，線程池由于無需創(chuàng)建銷毀線程節(jié)約了大量時間，提高了系統(tǒng)的響應(yīng)能力和吞吐量。最小數(shù)可以讓你調(diào)整最小的存活線程數(shù)量來應(yīng)對不同的高并發(fā)場景。

如何調(diào)用線程池添加任務(wù)
線程池主要提供了2個方法來調(diào)用：QueueUserWorkItem和UnsafeQueueUserWorkItem。
兩個方法的代碼基本一致，除了attribute不同，QueueUserWorkItem可以被partial trust的代碼調(diào)用，而UnsafeQueueUserWorkItem只能被full trust的代碼調(diào)用。

public static bool QueueUserWorkItem(WaitCallback callBack)
{
StackCrawlMark stackMark = StackCrawlMark.LookForMyCaller;
? ? return ThreadPool.QueueUserWorkItemHelper(callBack, (object) null, ref stackMark, true);
}

QueueUserWorkItemHelper首先調(diào)用ThreadPool.EnsureVMInitialized()來確保CLR虛擬機初始化（VM是一個統(tǒng)稱，不是單指java虛擬機，也可以指CLR的execution engine），緊接著實例化ThreadPoolWorkQueue，最后調(diào)用ThreadPoolWorkQueue的Enqueue方法并傳入callback和true。

[SecurityCritical]

public void Enqueue(IThreadPoolWorkItem callback, bool forceGlobal)

{

ThreadPoolWorkQueueThreadLocals queueThreadLocals = (ThreadPoolWorkQueueThreadLocals) null;

if (!forceGlobal)

queueThreadLocals = ThreadPoolWorkQueueThreadLocals.threadLocals;

if (this.loggingEnabled)

FrameworkEventSource.Log.ThreadPoolEnqueueWorkObject((object) callback);

if (queueThreadLocals != null)

{

queueThreadLocals.workStealingQueue.LocalPush(callback);

}

else

{

ThreadPoolWorkQueue.QueueSegment comparand = this.queueHead;

while (!comparand.TryEnqueue(callback))

{

Interlocked.CompareExchange<ThreadPoolWorkQueue.QueueSegment>(ref comparand.Next, new ThreadPoolWorkQueue.QueueSegment(), (ThreadPoolWorkQueue.QueueSegment) null);

for (; comparand.Next != null; comparand = this.queueHead)

Interlocked.CompareExchange<ThreadPoolWorkQueue.QueueSegment>(ref this.queueHead, comparand.Next, comparand);

}

this.EnsureThreadRequested();

}

ThreadPoolWorkQueue主要包含2個“queue”(實際是數(shù)組)，一個為QueueSegment（global work queue），另一個是WorkStealingQueue(local work queue)。兩者具體的區(qū)別會在Task/TPL里講解，這里暫不解釋。
由于forceGlobal是true，所以執(zhí)行到了comparand.TryEnqueue(callback)，也就是QueueSegment.TryEnqueue。comparand先從隊列的頭(queueHead)開始enqueue，如果不行就繼續(xù)往下enqueue，成功后再賦值給queueHead。
讓我們來看看QueueSegment的源代碼：

public QueueSegment()

{

this.nodes = new IThreadPoolWorkItem[256];

}

public bool TryEnqueue(IThreadPoolWorkItem node)

{

int upper;

int lower;

this.GetIndexes(out upper, out lower);

while (upper != this.nodes.Length)

{

if (this.CompareExchangeIndexes(ref upper, upper + 1, ref lower, lower))

{

Volatile.Write<IThreadPoolWorkItem>(ref this.nodes[upper], node);

return true;

}

return false;

}

這個所謂的global work queue實際上是一個IThreadPoolWorkItem的數(shù)組，而且限死256，這是為啥？難道是因為和IIS線程池(也只有256個線程）對齊？使用interlock和內(nèi)存寫屏障volatile.write來保證nodes的正確性，比起同步鎖性能有很大的提高。最后調(diào)用EnsureThreadRequested，EnsureThreadRequested會調(diào)用QCall把請求發(fā)送至CLR，由CLR調(diào)度ThreadPool。

線程池如何執(zhí)行任務(wù)
線程被調(diào)度后通過ThreadPoolWorkQueue的Dispatch方法來執(zhí)行callback。

internal static bool Dispatch()

{

ThreadPoolWorkQueue threadPoolWorkQueue = ThreadPoolGlobals.workQueue;

int tickCount = Environment.TickCount;

threadPoolWorkQueue.MarkThreadRequestSatisfied();

threadPoolWorkQueue.loggingEnabled = FrameworkEventSource.Log.IsEnabled(EventLevel.Verbose, (EventKeywords) 18);

bool flag1 = true;

IThreadPoolWorkItem callback = (IThreadPoolWorkItem) null;

try

{

ThreadPoolWorkQueueThreadLocals tl = threadPoolWorkQueue.EnsureCurrentThreadHasQueue();

while ((long) (Environment.TickCount - tickCount) < (long) ThreadPoolGlobals.tpQuantum)

{

try

{

}

finally

{

bool missedSteal = false;

threadPoolWorkQueue.Dequeue(tl, out callback, out missedSteal);

if (callback == null)

flag1 = missedSteal;

else

threadPoolWorkQueue.EnsureThreadRequested();

}

if (callback == null)

return true;

if (threadPoolWorkQueue.loggingEnabled)

FrameworkEventSource.Log.ThreadPoolDequeueWorkObject((object) callback);

if (ThreadPoolGlobals.enableWorkerTracking)

{

bool flag2 = false;

try

{

try

{

}

finally

{

ThreadPool.ReportThreadStatus(true);

flag2 = true;

}

callback.ExecuteWorkItem();

callback = (IThreadPoolWorkItem) null;

}

finally

{

if (flag2)

ThreadPool.ReportThreadStatus(false);

}

else

{

callback.ExecuteWorkItem();

callback = (IThreadPoolWorkItem) null;

}

if (!ThreadPool.NotifyWorkItemComplete())

return false;

}

return true;

}

catch (ThreadAbortException ex)

{

if (callback != null)

callback.MarkAborted(ex);

flag1 = false;

}

finally

{

if (flag1)

threadPoolWorkQueue.EnsureThreadRequested();

}

return true;

}

while語句判斷如果執(zhí)行時間少于30ms會不斷繼續(xù)執(zhí)行下一個callback。這是因為大多數(shù)機器線程切換大概在30ms，如果該線程只執(zhí)行了不到30ms就在等待中斷線程切換那就太浪費CPU了，浪費可恥啊！
Dequeue負責找到需要執(zhí)行的callback：

public void Dequeue(ThreadPoolWorkQueueThreadLocals tl, out IThreadPoolWorkItem callback, out bool missedSteal)

{

callback = (IThreadPoolWorkItem) null;

missedSteal = false;

ThreadPoolWorkQueue.WorkStealingQueue workStealingQueue1 = tl.workStealingQueue;

workStealingQueue1.LocalPop(out callback);

if (callback == null)

{

for (ThreadPoolWorkQueue.QueueSegment comparand = this.queueTail; !comparand.TryDequeue(out callback) && comparand.Next != null && comparand.IsUsedUp(); comparand = this.queueTail)

Interlocked.CompareExchange<ThreadPoolWorkQueue.QueueSegment>(ref this.queueTail, comparand.Next, comparand);

}

if (callback != null)

return;

ThreadPoolWorkQueue.WorkStealingQueue[] current = ThreadPoolWorkQueue.allThreadQueues.Current;

int num = tl.random.Next(current.Length);

for (int length = current.Length; length > 0; --length)

{

ThreadPoolWorkQueue.WorkStealingQueue workStealingQueue2 = Volatile.Read<ThreadPoolWorkQueue.WorkStealingQueue>(ref current[num % current.Length]);

if (workStealingQueue2 != null && workStealingQueue2 != workStealingQueue1 && workStealingQueue2.TrySteal(out callback, ref missedSteal))

break;

++num;

}

因為我們把callback添加到了global work queue，所以local work queue(workStealingQueue.LocalPop(out?callback))找不到callback，local work queue查找callback會在task里講解。接著又去global work queue查找，先從global work queue的起始位置查找直至尾部，因此global work quque里的callback是FIFO的執(zhí)行順序。

public bool TryDequeue(out IThreadPoolWorkItem node)

{

int upper;

int lower;

this.GetIndexes(out upper, out lower);

while (lower != upper)

{

// ISSUE: explicit reference operation

// ISSUE: variable of a reference type

int& prevUpper = @upper;

// ISSUE: explicit reference operation

int newUpper = ^prevUpper;

// ISSUE: explicit reference operation

// ISSUE: variable of a reference type

int& prevLower = @lower;

// ISSUE: explicit reference operation

int newLower = ^prevLower + 1;

if (this.CompareExchangeIndexes(prevUpper, newUpper, prevLower, newLower))

{

SpinWait spinWait = new SpinWait();

while ((node = Volatile.Read<IThreadPoolWorkItem>(ref this.nodes[lower])) == null)

spinWait.SpinOnce();

this.nodes[lower] = (IThreadPoolWorkItem) null;

return true;

}

node = (IThreadPoolWorkItem) null;

return false;

}

使用自旋鎖和內(nèi)存讀屏障來避免內(nèi)核態(tài)和用戶態(tài)的切換，提高了獲取callback的性能。如果還是沒有callback，那么就從所有的local work queue里隨機選取一個，然后在該local work queue里“偷取”一個任務(wù)(callback)。
拿到callback后執(zhí)行callback.ExecuteWorkItem()，通知完成。

總結(jié)
ThreadPool提供了方法調(diào)整線程池最少活躍的線程來應(yīng)對不同的并發(fā)場景。ThreadPool帶有2個work queue，一個golbal一個local。執(zhí)行時先從local找任務(wù)，接著去global，最后才會去隨機選取一個local偷一個任務(wù)，其中g(shù)lobal是FIFO的執(zhí)行順序。Work queue實際上是數(shù)組，使用了大量的自旋鎖和內(nèi)存屏障來提高性能。但是在偷取任務(wù)上，是否可以考慮得更多，隨機選擇一個local太隨意。首先要考慮偷取的隊列上必須有可執(zhí)行任務(wù)；其次可以選取一個不在調(diào)度中的線程的local work queue，這樣降低了自旋鎖的可能性，加快了偷取的速度；最后，偷取的時候可以考慮像golang一樣偷取別人queue里一半的任務(wù)，因為執(zhí)行完偷到的這一個任務(wù)之后，下次該線程再次被調(diào)度到還是可能沒任務(wù)可執(zhí)行，還得去偷取別人的任務(wù)，這樣既浪費CPU時間，又讓任務(wù)在線程上分布不均勻，降低了系統(tǒng)吞吐量！

另外，如果禁用log和ETW trace，可以使ThreadPool的性能更進一步。

原文地址： http://www.cnblogs.com/newbier/p/6192882.html

.NET社區(qū)新聞，深度好文，微信中搜索dotNET跨平臺或掃描二維碼關(guān)注

總結(jié)

以上是生活随笔為你收集整理的.net线程池内幕的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：中间件和微服务，Docker以及原生云架
下一篇： Visual Studio中使用Git