日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

dpdk对虚拟化的支持调研

發(fā)布時(shí)間:2023/12/9 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 dpdk对虚拟化的支持调研 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄:

  • 虛擬化
  • dpdk的實(shí)現(xiàn)研究
    • virtio
    • vhost
    • SR-IOV
    • 熱遷移相關(guān)
  • 研究拓展

本文記錄近期對(duì)dpdk在虛擬化和云計(jì)算領(lǐng)域應(yīng)用的研究成果,內(nèi)容梳理如下。

虛擬化

虛擬化,抽象來說,就是將物理資源邏輯化。具體來說,虛擬技術(shù)的實(shí)現(xiàn)是在系統(tǒng)中加入一個(gè)虛擬化層(也就是hypervisor),將下層的物理資源(如disk,nic,cpu,memory等)抽象成另一種形式的資源,提供給上層應(yīng)用,通過空間上的分割,時(shí)間上的分時(shí)以及模擬,將一份資源抽象成多份。
虛擬化能帶來的好處不言而喻,可以顯著提高物理資源的使用效率,能夠進(jìn)行動(dòng)態(tài)分配、資源管理和負(fù)載的相互隔離,并提供高安全性和自動(dòng)化。虛擬化還為云計(jì)算提供支持,主要提供按需的服務(wù)配置和軟件定義的資源編排等。
X86平臺(tái)的虛擬化實(shí)現(xiàn)主要有三部分:CPU虛擬化、內(nèi)存虛擬化和IO虛擬化。

  • CPU虛擬化
    intel引入VT-x來提升CPU虛擬化效率和虛擬機(jī)安全性(參見圖1)。VT-x擴(kuò)展了傳統(tǒng)的x86處理器架構(gòu),它引入了兩種操作模式:VMX root operation(根虛擬化操作)和VMX non-root operation(非根虛擬化操作),統(tǒng)稱為VMX操作模式。 此外,還支持虛機(jī)熱遷移特性。

    圖1.支持intel VT-x的虛擬化架構(gòu)
    為了建立這種兩個(gè)操作模式的架構(gòu),VT-x設(shè)計(jì)了一個(gè)Virtual-Machine Control Structure(VMCS,虛擬機(jī)控制結(jié)構(gòu))的數(shù)據(jù)結(jié)構(gòu),包括了Guest-State Area(客戶狀態(tài)區(qū))和Host-State Area(主機(jī)狀態(tài)區(qū)),用來保存虛擬機(jī)以及主機(jī)的各種狀態(tài)參數(shù),并提供了VM entry和VM exit兩種操作在虛擬機(jī)與VMM之間切換,并在切換時(shí)會(huì)自動(dòng)查詢和更新VMCS,加速guest狀態(tài)切換時(shí)間。這樣非根模式下敏感指令不再是直接執(zhí)行或者通過陷入再模擬的方式執(zhí)行,而是通過VM exit和VM entry這兩個(gè)操作完成切換,既解決了虛擬機(jī)的隔離問題,又解決了性能問題。
    關(guān)于VT-x的詳細(xì)介紹,還可以參考這里和這里。
  • 內(nèi)存虛擬化
    內(nèi)存虛擬化的核心任務(wù)是實(shí)現(xiàn)地址空間虛擬化,一般的實(shí)現(xiàn)原理是這樣的:

    圖2:地址空間虛擬化實(shí)現(xiàn)
    通過兩次地址轉(zhuǎn)化來支持地址空間虛擬化:GVA(Guest Virtual Address)->GPA(Guest Physical Address)->GMA(Host Physical Address).其中VA->PA的轉(zhuǎn)換由guest完成,通常是通過VMCS中的客戶機(jī)狀態(tài)域CR3指向的頁(yè)表來指定;PA->MA的轉(zhuǎn)換由宿主機(jī)完成,一般在guest建立時(shí)就分配好固定的物理內(nèi)存,并采用一定的數(shù)據(jù)結(jié)構(gòu)記錄響應(yīng)的映射關(guān)系。
    傳統(tǒng)的IA架構(gòu)只支持一次地址轉(zhuǎn)換,即CR3指向的頁(yè)表來實(shí)現(xiàn)虛擬地址到物理地址的轉(zhuǎn)化(即VA->PA的轉(zhuǎn)化),這和上面的過程中要求的兩次地址轉(zhuǎn)換是矛盾的,因此為解決這個(gè)問題,Intel引入了VT-x技術(shù),在原有的一次地址轉(zhuǎn)換基礎(chǔ)上,又引入了EPT頁(yè)表實(shí)現(xiàn)PA->MA的轉(zhuǎn)換,從而在硬件上支持了兩次地址轉(zhuǎn)化,大大提高了地址轉(zhuǎn)換的性能。
    關(guān)于EPT的工作原理如圖3描述::

    圖3:EPT工作原理
    首先根據(jù)VA的地址和CR3指向的頁(yè)表計(jì)算出PA,在通過EPT頁(yè)表實(shí)現(xiàn)PA->MA的地址轉(zhuǎn)化。關(guān)于內(nèi)存虛擬化的詳細(xì)介紹,還可以參考這里和這里。
  • IO虛擬化
    IO虛擬化包括管理虛擬設(shè)備和物理硬件之間的IO請(qǐng)求的路由選擇。實(shí)現(xiàn)方式可以劃分為:全虛擬化、半虛擬化,IO透?jìng)?#xff0c;SR-IOV。
    其中全虛擬化是指客戶機(jī)的所有功能或總線結(jié)構(gòu)都可以在宿主機(jī)上進(jìn)行模擬,宿主機(jī)通過截獲客戶機(jī)的I/O請(qǐng)求,通過軟件來完全模擬硬件。盡管這樣模擬得很徹底,但效率卻比較低(需要由VMM來捕獲特權(quán)指令和翻譯地址)。
    半虛擬化是指客戶機(jī)能夠感知自己是虛擬機(jī),執(zhí)行特權(quán)指令時(shí)直接向hypervisor call調(diào)用,省去指令的翻譯過程,從而提升性能。
    I/O透?jìng)魇侵钢苯訉⑽锢碓O(shè)備分配給虛擬使用,這種方式需要硬件平臺(tái)具備I/O透?jìng)骷夹g(shù),能獲取到近乎本地的性能,且CPU開銷小。透?jìng)鞯氖褂猛ǔ=Y(jié)合intel VT-D來使用。
    SR-IOV主要用來解決透?jìng)鲿r(shí)一個(gè)物理硬件只能被一臺(tái)虛擬子機(jī)訪問的問題。SR-IOV需要網(wǎng)卡硬件支持,支持SR-IOV功能的網(wǎng)卡(PF)可以在Hypervior里面注冊(cè)成多個(gè)網(wǎng)卡(VF)(每個(gè)網(wǎng)卡都獨(dú)立的中斷ID、收發(fā)隊(duì)列、QOS管理機(jī)制),每個(gè)VF可以通過pass-through方式分配給虛擬子機(jī)。
    關(guān)于這塊的資料比較多,就不展開介紹,想了解的可以點(diǎn)這里和這里。

DPDK通過virtio和vhost PMD來實(shí)現(xiàn)IO的半虛擬化功能。此外,DPDK還支持I/O透?jìng)?#xff0c;SR-IOV等特性,進(jìn)一步提升IO性能。
除了X86服務(wù)器平臺(tái)的虛擬化,還有些比較重要的領(lǐng)域就是網(wǎng)絡(luò)虛擬化(NFV)和軟件定義網(wǎng)絡(luò)(SDN)。

  • NFV
    即網(wǎng)絡(luò)功能虛擬化,Network Function Virtualization。通過使用x86等通用性硬件以及虛擬化技術(shù),來承載很多功能的軟件處理。從而降低網(wǎng)絡(luò)昂貴的設(shè)備成本。可以通過軟硬件解耦及功能抽象,使網(wǎng)絡(luò)設(shè)備功能不再依賴于專用硬件,資源可以充分靈活共享,實(shí)現(xiàn)新業(yè)務(wù)的快速開發(fā)和部署,并基于實(shí)際業(yè)務(wù)需求進(jìn)行自動(dòng)部署、彈性伸縮、故障隔離和自愈等。關(guān)于NFV的概念可以參考這里。
    其中NFV框架中所有的軟件功能都由虛擬的VNF來實(shí)現(xiàn),虛機(jī)本身的性能就存在很大的優(yōu)化空間。當(dāng)考慮VNF性能時(shí),需要考慮本身的架構(gòu)設(shè)計(jì),以及NFVI能夠提供的硬件資源能力和交互接口等等。
    一般上在系統(tǒng)整體架構(gòu)上需要考慮如下幾點(diǎn):
    • VNF本身特性:計(jì)算密集型?IO密集型?內(nèi)存密集型?有可能是多種特性集一身
    • 系統(tǒng)資源的分配:評(píng)估VNF或者VNF子模塊對(duì)處理器、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)的需求
    • 網(wǎng)卡虛擬化接口的選擇:是否獨(dú)占物理網(wǎng)卡,獨(dú)占的化使用透?jìng)骷夹g(shù),否則需要共享。還需要考慮接口的性能、遷移性、維護(hù)性、安全性等
    • 網(wǎng)卡輪詢和中斷模式的選擇:輪詢模式CPU占比高,但網(wǎng)絡(luò)吞吐性能高,100%占有一個(gè)core來進(jìn)行收包是否合理? 中斷模式CPU占有率低,但處理小包的性能不高
    • 硬件加速功能的考慮:支持硬件卸載的網(wǎng)卡,定制的FPGA,QAT加速卡等是否可以和業(yè)務(wù)配合使用?
    • QOS保證:多VNF運(yùn)行在同一臺(tái)服務(wù)器時(shí),由于物理資源共享,各VNF對(duì)資源的使用率又不盡相同,可能會(huì)造成互相干擾性能下降
    • 是否需要支持動(dòng)態(tài)遷移:這個(gè)對(duì)IO,內(nèi)存,CPU等都會(huì)提出特殊要求
  • SDN
    SDN主要是一種實(shí)現(xiàn)網(wǎng)絡(luò)框架,最重要的三個(gè)概念是:可編程(開放的API接口)、控制平面與數(shù)據(jù)平面分離,以及集中式控制模型。基于SDN的網(wǎng)絡(luò)架構(gòu)可以更容易地實(shí)現(xiàn)網(wǎng)絡(luò)虛擬化。關(guān)于SDN的概念討論可以參考這里。
    目前DPDK對(duì)SDN的支持可以落在以下幾個(gè)點(diǎn)上:
    • 對(duì)數(shù)據(jù)轉(zhuǎn)發(fā)面的優(yōu)化,包括提升VNF的性能、和ovs的結(jié)合
    • SFC(軟件服務(wù)鏈)轉(zhuǎn)發(fā)性能優(yōu)化,多個(gè)SF之間的數(shù)據(jù)交互,可以不用過vswitch,而是直接通過virtio-pci進(jìn)行傳輸。

DPDK的實(shí)現(xiàn)

DPDK對(duì)I/O虛擬化的支持主要集中在I/O半虛擬化,通過提供virtio PMD 和 vhost后端加速驅(qū)動(dòng)來提升I/O處理性能;此外,對(duì)于SR-IOV虛擬出來的PF和VF也提供了VMDQ來支持,下面來分別展開介紹。

virtio

virtio是一種半虛擬化的設(shè)備抽象接口規(guī)范,在guest操作系統(tǒng)中實(shí)現(xiàn)的前端驅(qū)動(dòng)程序一般直接稱為virtio,在host操作系統(tǒng)實(shí)現(xiàn)的后端驅(qū)動(dòng)從程序通常稱為vhost。與guest端純軟件模擬I/O(如e1000,rt18139)相比,virtio可以提供很好的I/O性能,雖然同I/O透?jìng)骷夹g(shù)或者SR-IOV技術(shù)相比,目前在網(wǎng)絡(luò)吞吐率、時(shí)延以及抖動(dòng)性各方面相比都不具備優(yōu)勢(shì),相關(guān)的優(yōu)化工作正在進(jìn)行當(dāng)中。此外,使用virtio技術(shù)可以支持虛擬機(jī)的動(dòng)態(tài)遷移以及靈活的流分類規(guī)則。


圖4:常見的使用架構(gòu)
virtio主要有兩個(gè)版本,0.95和1.0,其規(guī)定的實(shí)現(xiàn)接口有PCI,MMIO和Channel IO方式,其中Channel IO方式是在1.0版本中新增的。PCI是現(xiàn)代計(jì)算機(jī)系統(tǒng)中普遍使用的一種總線接口,最新規(guī)范為PCI-e,DPDK目前只支持PCI接口方式。
Virtio 使用 virtqueue 來實(shí)現(xiàn)其 I/O 機(jī)制,每個(gè) virtqueue 就是一個(gè)承載大量數(shù)據(jù)的 queue。vring 是 virtqueue 的具體實(shí)現(xiàn)方式,針對(duì) vring 會(huì)有相應(yīng)的描述符表格進(jìn)行描述。框架如下圖所示:

圖5 virtio詳細(xì)框架
其中比較重要的幾個(gè)概念是:
  • 設(shè)備的配置:初始化、配置PCI設(shè)備空間和特性、中斷配置和專屬配置
  • 虛擬隊(duì)列的配置:virtqueue、vring、descriptor table、avaliable ring和used ring的使用
  • 設(shè)備的使用
    • 驅(qū)動(dòng)向設(shè)備提供緩沖區(qū)并寫入數(shù)據(jù)
    • 設(shè)備使用數(shù)據(jù)及歸還緩沖區(qū)

關(guān)于virtio的基本概念和設(shè)備操作可以參考這里,對(duì)于補(bǔ)充virtio相關(guān)基礎(chǔ)知識(shí)個(gè)人認(rèn)為介紹的足夠了。

dpdk對(duì)virtio的實(shí)現(xiàn)

virtio在linux內(nèi)核和dpdk都有相應(yīng)的驅(qū)動(dòng),其中l(wèi)inux內(nèi)核版本功能更加全面,dpdk版本更注重性能。可以先參考下內(nèi)核中對(duì)virtio的實(shí)現(xiàn)抽象層次:

  • 第一層抽象:底層PCI-e設(shè)備層,負(fù)責(zé)檢測(cè)PCI-e設(shè)備,并初始化設(shè)備對(duì)應(yīng)的驅(qū)動(dòng)程序,提供兩個(gè)抽象類:virtio_driver和virtio_device
  • 第二層抽像:中間virio虛擬隊(duì)列層,實(shí)現(xiàn)virtqueue,提供類:vring_virtqueue,vring等
  • 第三層抽象:上層網(wǎng)絡(luò)設(shè)備層,實(shí)現(xiàn)底層的兩個(gè)抽象類:virtio_net_driver和dev,能夠供應(yīng)用軟件將其看成普通的網(wǎng)口使用
    對(duì)應(yīng)的dpdk驅(qū)動(dòng)也是按照這個(gè)思路來進(jìn)行實(shí)現(xiàn)的,pmd驅(qū)動(dòng)文件的組成見下圖(參考17.05版本,目錄為:dpdk-17.05\drivers\net\virtio\):

    圖6:virtio pmd文件組成
    除了上圖中框出的文件,還有和virtio_user相關(guān)的文件主要用來實(shí)現(xiàn)類似KNI的exception path,這塊內(nèi)容放到其它篇幅再繼續(xù)研究,這里先跳過。
第一層抽象
//drivers\net\virio\virtio_pic.h/*第一大塊:virtio設(shè)備的配置相關(guān)宏定義*/ /* VirtIO PCI vendor/device ID. */ #define VIRTIO_PCI_VENDORID 0x1AF4 #define VIRTIO_PCI_LEGACY_DEVICEID_NET 0x1000 #define VIRTIO_PCI_MODERN_DEVICEID_NET 0x1041/** VirtIO Header, located in BAR 0* 具體的相關(guān)宏定義可參考virtio設(shè)備標(biāo)準(zhǔn)*/ #define VIRTIO_PCI_HOST_FEATURES 0 /* host's supported features (32bit, RO)*/ #define VIRTIO_PCI_GUEST_FEATURES 4 /* guest's supported features (32, RW) */ #define VIRTIO_PCI_QUEUE_PFN 8 /* physical address of VQ (32, RW) */ #define VIRTIO_PCI_QUEUE_NUM 12 /* number of ring entries (16, RO) */ #define VIRTIO_PCI_QUEUE_SEL 14 /* current VQ selection (16, RW) */ #define VIRTIO_PCI_QUEUE_NOTIFY 16 /* notify host regarding VQ (16, RW) */ #define VIRTIO_PCI_STATUS 18 /* device status register (8, RW) */ #define VIRTIO_PCI_ISR 19 /* interrupt status register, reading* also clears the register (8, RO) */ /* Only if MSIX is enabled: */ #define VIRTIO_MSI_CONFIG_VECTOR 20 /* configuration change vector (16, RW) */ #define VIRTIO_MSI_QUEUE_VECTOR 22 /* vector for selected VQ notifications(16, RW) *//* The bit of the ISR which indicates a device has an interrupt. */ #define VIRTIO_PCI_ISR_INTR 0x1 /* The bit of the ISR which indicates a device configuration change. */ #define VIRTIO_PCI_ISR_CONFIG 0x2 /* Vector value used to disable MSI for queue. */ #define VIRTIO_MSI_NO_VECTOR 0xFFFF/* VirtIO device IDs. virtio不止有網(wǎng)卡,還有存儲(chǔ)、內(nèi)存等等*/ #define VIRTIO_ID_NETWORK 0x01 #define VIRTIO_ID_BLOCK 0x02 #define VIRTIO_ID_CONSOLE 0x03 #define VIRTIO_ID_ENTROPY 0x04 #define VIRTIO_ID_BALLOON 0x05 #define VIRTIO_ID_IOMEMORY 0x06 #define VIRTIO_ID_9P 0x09/* Status byte for guest to report progress. * 當(dāng)驅(qū)動(dòng)初始化一個(gè)virtio設(shè)備時(shí),通過設(shè)備狀態(tài)來反應(yīng)進(jìn)度 */ #define VIRTIO_CONFIG_STATUS_RESET 0x00 #define VIRTIO_CONFIG_STATUS_ACK 0x01 #define VIRTIO_CONFIG_STATUS_DRIVER 0x02 #define VIRTIO_CONFIG_STATUS_DRIVER_OK 0x04 #define VIRTIO_CONFIG_STATUS_FEATURES_OK 0x08 #define VIRTIO_CONFIG_STATUS_FAILED 0x80/** Each virtqueue indirect descriptor list must be physically contiguous.* To allow us to malloc(9) each list individually, limit the number* supported to what will fit in one page. With 4KB pages, this is a limit* of 256 descriptors. If there is ever a need for more, we can switch to* contigmalloc(9) for the larger allocations, similar to what* bus_dmamem_alloc(9) does.** Note the sizeof(struct vring_desc) is 16 bytes.*/ #define VIRTIO_MAX_INDIRECT ((int) (PAGE_SIZE / 16))/* The feature bitmap for virtio net * 對(duì)網(wǎng)卡設(shè)備,一些feature的定義 */ #define VIRTIO_NET_F_CSUM 0 /* Host handles pkts w/ partial csum */ #define VIRTIO_NET_F_GUEST_CSUM 1 /* Guest handles pkts w/ partial csum */ #define VIRTIO_NET_F_MTU 3 /* Initial MTU advice. */ #define VIRTIO_NET_F_MAC 5 /* Host has given MAC address. */ #define VIRTIO_NET_F_GUEST_TSO4 7 /* Guest can handle TSOv4 in. */ #define VIRTIO_NET_F_GUEST_TSO6 8 /* Guest can handle TSOv6 in. */ #define VIRTIO_NET_F_GUEST_ECN 9 /* Guest can handle TSO[6] w/ ECN in. */ #define VIRTIO_NET_F_GUEST_UFO 10 /* Guest can handle UFO in. */ #define VIRTIO_NET_F_HOST_TSO4 11 /* Host can handle TSOv4 in. */ #define VIRTIO_NET_F_HOST_TSO6 12 /* Host can handle TSOv6 in. */ #define VIRTIO_NET_F_HOST_ECN 13 /* Host can handle TSO[6] w/ ECN in. */ #define VIRTIO_NET_F_HOST_UFO 14 /* Host can handle UFO in. */ #define VIRTIO_NET_F_MRG_RXBUF 15 /* Host can merge receive buffers. */ #define VIRTIO_NET_F_STATUS 16 /* virtio_net_config.status available */ #define VIRTIO_NET_F_CTRL_VQ 17 /* Control channel available */ #define VIRTIO_NET_F_CTRL_RX 18 /* Control channel RX mode support */ #define VIRTIO_NET_F_CTRL_VLAN 19 /* Control channel VLAN filtering */ #define VIRTIO_NET_F_CTRL_RX_EXTRA 20 /* Extra RX mode control support */ #define VIRTIO_NET_F_GUEST_ANNOUNCE 21 /* Guest can announce device on the* network */ #define VIRTIO_NET_F_MQ 22 /* Device supports Receive Flow* Steering */ #define VIRTIO_NET_F_CTRL_MAC_ADDR 23 /* Set MAC address *//* Do we get callbacks when the ring is completely used, even if we've* suppressed them?,暫未實(shí)現(xiàn) */ #define VIRTIO_F_NOTIFY_ON_EMPTY 24/* Can the device handle any descriptor layout? 用來優(yōu)化對(duì)vring的使用 */ #define VIRTIO_F_ANY_LAYOUT 27/* We support indirect buffer descriptors */ #define VIRTIO_RING_F_INDIRECT_DESC 28#define VIRTIO_F_VERSION_1 32 #define VIRTIO_F_IOMMU_PLATFORM 33/** Some VirtIO feature bits (currently bits 28 through 31) are* reserved for the transport being used (eg. virtio_ring), the* rest are per-device feature bits.*/ #define VIRTIO_TRANSPORT_F_START 28 #define VIRTIO_TRANSPORT_F_END 34/* The Guest publishes the used index for which it expects an interrupt* at the end of the avail ring. Host should ignore the avail->flags field. */ /* The Host publishes the avail index for which it expects a kick* at the end of the used ring. Guest should ignore the used->flags field. */ #define VIRTIO_RING_F_EVENT_IDX 29#define VIRTIO_NET_S_LINK_UP 1 /* Link is up */ #define VIRTIO_NET_S_ANNOUNCE 2 /* Announcement is needed *//** Maximum number of virtqueues per device.* 底層驅(qū)動(dòng)和設(shè)備對(duì)queue的支持*/ #define VIRTIO_MAX_VIRTQUEUE_PAIRS 8 #define VIRTIO_MAX_VIRTQUEUES (VIRTIO_MAX_VIRTQUEUE_PAIRS * 2 + 1)/* Common configuration */ #define VIRTIO_PCI_CAP_COMMON_CFG 1 /* Notifications */ #define VIRTIO_PCI_CAP_NOTIFY_CFG 2 /* ISR Status */ #define VIRTIO_PCI_CAP_ISR_CFG 3 /* Device specific configuration */ #define VIRTIO_PCI_CAP_DEVICE_CFG 4 /* PCI configuration access */ #define VIRTIO_PCI_CAP_PCI_CFG 5/*第二大塊:相關(guān)數(shù)據(jù)結(jié)構(gòu),主要是對(duì)設(shè)備的配置相關(guān)*/ /* This is the PCI capability header: */ struct virtio_pci_cap {uint8_t cap_vndr; /* Generic PCI field: PCI_CAP_ID_VNDR */uint8_t cap_next; /* Generic PCI field: next ptr. */uint8_t cap_len; /* Generic PCI field: capability length */uint8_t cfg_type; /* Identifies the structure. */uint8_t bar; /* Where to find it. */uint8_t padding[3]; /* Pad to full dword. */uint32_t offset; /* Offset within bar. */uint32_t length; /* Length of the structure, in bytes. */ };struct virtio_pci_notify_cap {struct virtio_pci_cap cap;uint32_t notify_off_multiplier; /* Multiplier for queue_notify_off. */ };/* Fields in VIRTIO_PCI_CAP_COMMON_CFG: */ struct virtio_pci_common_cfg {/* About the whole device. */uint32_t device_feature_select; /* read-write */uint32_t device_feature; /* read-only */uint32_t guest_feature_select; /* read-write */uint32_t guest_feature; /* read-write */uint16_t msix_config; /* read-write */uint16_t num_queues; /* read-only */uint8_t device_status; /* read-write */uint8_t config_generation; /* read-only *//* About a specific virtqueue. */uint16_t queue_select; /* read-write */uint16_t queue_size; /* read-write, power of 2. */uint16_t queue_msix_vector; /* read-write */uint16_t queue_enable; /* read-write */uint16_t queue_notify_off; /* read-only */uint32_t queue_desc_lo; /* read-write */uint32_t queue_desc_hi; /* read-write */uint32_t queue_avail_lo; /* read-write */uint32_t queue_avail_hi; /* read-write */uint32_t queue_used_lo; /* read-write */uint32_t queue_used_hi; /* read-write */ };struct virtio_hw;/*對(duì)virtio設(shè)備進(jìn)行操作的函數(shù)指針結(jié)構(gòu)*/ struct virtio_pci_ops {void (*read_dev_cfg)(struct virtio_hw *hw, size_t offset,void *dst, int len);void (*write_dev_cfg)(struct virtio_hw *hw, size_t offset,const void *src, int len);void (*reset)(struct virtio_hw *hw);uint8_t (*get_status)(struct virtio_hw *hw);void (*set_status)(struct virtio_hw *hw, uint8_t status);uint64_t (*get_features)(struct virtio_hw *hw);void (*set_features)(struct virtio_hw *hw, uint64_t features);uint8_t (*get_isr)(struct virtio_hw *hw);uint16_t (*set_config_irq)(struct virtio_hw *hw, uint16_t vec);uint16_t (*set_queue_irq)(struct virtio_hw *hw, struct virtqueue *vq,uint16_t vec);uint16_t (*get_queue_num)(struct virtio_hw *hw, uint16_t queue_id);int (*setup_queue)(struct virtio_hw *hw, struct virtqueue *vq);void (*del_queue)(struct virtio_hw *hw, struct virtqueue *vq);void (*notify_queue)(struct virtio_hw *hw, struct virtqueue *vq); };struct virtio_net_config;/*底層的device抽象*/ struct virtio_hw {struct virtnet_ctl *cvq;uint64_t req_guest_features;uint64_t guest_features;uint32_t max_queue_pairs;uint16_t started;uint16_t max_mtu;uint16_t vtnet_hdr_size;uint8_t vlan_strip;uint8_t use_msix;uint8_t modern;uint8_t use_simple_rxtx;uint8_t port_id;uint8_t mac_addr[ETHER_ADDR_LEN];uint32_t notify_off_multiplier;uint8_t *isr;uint16_t *notify_base;struct virtio_pci_common_cfg *common_cfg;struct virtio_net_config *dev_cfg;void *virtio_user_dev;struct virtqueue **vqs; };/** While virtio_hw is stored in shared memory, this structure stores* some infos that may vary in the multiple process model locally.* For example, the vtpci_ops pointer.* 針對(duì)多核的優(yōu)化,將常用訪問字段放到process的local mem里*/ struct virtio_hw_internal {const struct virtio_pci_ops *vtpci_ops;struct rte_pci_ioport io; };#define VTPCI_OPS(hw) (virtio_hw_internal[(hw)->port_id].vtpci_ops) #define VTPCI_IO(hw) (&virtio_hw_internal[(hw)->port_id].io)extern struct virtio_hw_internal virtio_hw_internal[RTE_MAX_ETHPORTS];/** This structure is just a reference to read* net device specific config space; it just a chodu structure* 這個(gè)結(jié)構(gòu)體更像是為上傳抽象提供的相關(guān)組合字段*/ struct virtio_net_config {/* The config defining mac address (if VIRTIO_NET_F_MAC) */uint8_t mac[ETHER_ADDR_LEN];/* See VIRTIO_NET_F_STATUS and VIRTIO_NET_S_* above */uint16_t status;uint16_t max_virtqueue_pairs;uint16_t mtu; } __attribute__((packed));/** How many bits to shift physical queue address written to QUEUE_PFN.* 12 is historical, and due to x86 page size.*/ #define VIRTIO_PCI_QUEUE_ADDR_SHIFT 12/* The alignment to use between consumer and producer parts of vring. */ #define VIRTIO_PCI_VRING_ALIGN 4096static inline int vtpci_with_feature(struct virtio_hw *hw, uint64_t bit) {return (hw->guest_features & (1ULL << bit)) != 0; }/* 第三大塊:函數(shù)聲明,對(duì)外提供的操作接口* Function declaration from virtio_pci.c*/ int vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw); void vtpci_reset(struct virtio_hw *);void vtpci_reinit_complete(struct virtio_hw *);uint8_t vtpci_get_status(struct virtio_hw *); void vtpci_set_status(struct virtio_hw *, uint8_t);uint64_t vtpci_negotiate_features(struct virtio_hw *, uint64_t);void vtpci_write_dev_config(struct virtio_hw *, size_t, const void *, int);void vtpci_read_dev_config(struct virtio_hw *, size_t, void *, int);uint8_t vtpci_isr(struct virtio_hw *);/*關(guān)于0.95和1.0的版本差異前面已經(jīng)介紹,具體的ops函數(shù)需要區(qū)分兩個(gè)版本分別實(shí)現(xiàn)*/ extern const struct virtio_pci_ops legacy_ops;//ver 0.95 extern const struct virtio_pci_ops modern_ops;//ver 1.0 extern const struct virtio_pci_ops virtio_user_ops;

關(guān)于實(shí)現(xiàn)這塊沒有太多需要解釋的,主要是針對(duì)頭文件中定義的相關(guān)函數(shù)和操作進(jìn)行實(shí)現(xiàn),需要注意的是需要區(qū)分legacy和modern兩種版本,簡(jiǎn)單看一個(gè)函數(shù)具體實(shí)現(xiàn)

//drivers\net\virio\virtio_pic.c /** 初始化函數(shù)中,需要根據(jù)virtio的特性自動(dòng)識(shí)別版本* Return -1:* if there is error mapping with VFIO/UIO.* if port map error when driver type is KDRV_NONE.* if whitelisted but driver type is KDRV_UNKNOWN.* Return 1 if kernel driver is managing the device.* Return 0 on success.*/ int vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw) {/** Try if we can succeed reading virtio pci caps, which exists* only on modern pci device. If failed, we fallback to legacy* virtio handling.*/if (virtio_read_caps(dev, hw) == 0) {PMD_INIT_LOG(INFO, "modern virtio pci detected.");virtio_hw_internal[hw->port_id].vtpci_ops = &modern_ops;hw->modern = 1;return 0;}/*如果失敗,就嘗試綁定legacy操作*/PMD_INIT_LOG(INFO, "trying with legacy virtio pci.");if (rte_pci_ioport_map(dev, 0, VTPCI_IO(hw)) < 0) {//跳過內(nèi)核管理的virtioif (dev->kdrv == RTE_KDRV_UNKNOWN &&(!dev->device.devargs ||dev->device.devargs->type !=RTE_DEVTYPE_WHITELISTED_PCI)) {PMD_INIT_LOG(INFO,"skip kernel managed virtio device.");return 1;}return -1;}virtio_hw_internal[hw->port_id].vtpci_ops = &legacy_ops;hw->modern = 0;return 0; }
第二層抽象

本層中比較重要的數(shù)據(jù)結(jié)構(gòu)是vring,virtqueue:

//drivers\net\virtio\virtio_ring.h /* 每個(gè)描述符代表guest側(cè)的一個(gè)數(shù)據(jù)緩沖區(qū),供guest和host傳遞數(shù)據(jù)。* 如果要傳遞的數(shù)據(jù)大于一個(gè)desc的容量,可以包含多個(gè)desc,由next串起來*/ struct vring_desc {uint64_t addr; /* Address (guest-physical). */uint32_t len; /* Length. */uint16_t flags; /* The flags as indicated above. */uint16_t next; /* We chain unused descriptors via this. */ };/* id is a 16bit index. uint32_t is used here for ids for padding reasons. */ struct vring_used_elem {/* Index of start of used descriptor chain. */uint32_t id;/* Total length of the descriptor chain which was written to. */uint32_t len; };/* vring的布局:num個(gè)vring_desc + available ring size + pad + used ring size* The standard layout for the ring is a continuous chunk of memory which* looks like this. We assume num is a power of 2.* NOTE: for VirtIO PCI, align is 4096. */struct vring {// The actual descriptors (16 bytes each)struct vring_desc desc[num];/*可用環(huán)表,由驅(qū)動(dòng)提供(寫入),設(shè)備使用(讀取)。*/__u16 avail_flags;__u16 avail_idx;__u16 available[num];__u16 used_event_idx;// Padding to the next align boundary.char pad[];/*已用環(huán)表,由設(shè)備提供(寫入),驅(qū)動(dòng)使用(讀取)*/__u16 used_flags;__u16 used_idx;struct vring_used_elem used[num];__u16 avail_event_idx;};/*vring size的計(jì)算公式*/vring_size(unsigned int num, unsigned long align) {size_t size;size = num * sizeof(struct vring_desc);size += sizeof(struct vring_avail) + (num * sizeof(uint16_t));size = RTE_ALIGN_CEIL(size, align);size += sizeof(struct vring_used) +(num * sizeof(struct vring_used_elem));return size; }

關(guān)于available ring和used ring中的flags字段,需要特別解釋下:

  • available ring flag:該環(huán)中的desc可能是可讀,也可能是可寫的。可寫的是指驅(qū)動(dòng)提供給設(shè)備的desc,供設(shè)備寫入后還需要傳回給驅(qū)動(dòng);可讀的則是用于發(fā)送驅(qū)動(dòng)的數(shù)據(jù)到設(shè)備中。flag可以用來標(biāo)示設(shè)備在使用了desc后是否發(fā)送中斷給驅(qū)動(dòng)。
  • used ring flag:表示已用環(huán)表的一些屬性,包括是否需要驅(qū)動(dòng)在回收了已用環(huán)表中的表項(xiàng)后發(fā)送提醒給設(shè)備。
//drivers\net\virtio\virtqueue.h struct virtqueue {struct virtio_hw *hw; /**< virtio_hw structure pointer. */struct vring vq_ring; /**< vring keeping desc, used and avail *//*** Last consumed descriptor in the used table,* trails vq_ring.used->idx.*/uint16_t vq_used_cons_idx;uint16_t vq_nentries; /**< vring desc numbers */uint16_t vq_free_cnt; /**< num of desc available */uint16_t vq_avail_idx; /**< sync until needed */uint16_t vq_free_thresh; /**< free threshold */void *vq_ring_virt_mem; /**< linear address of vring*/unsigned int vq_ring_size;/*用途,是收包,發(fā)包還是控制通道?*/union {struct virtnet_rx rxq;struct virtnet_tx txq;struct virtnet_ctl cq;};phys_addr_t vq_ring_mem; /**< physical address of vring,* or virtual address for virtio_user. *//*** Head of the free chain in the descriptor table. If* there are no free descriptors, this will be set to* VQ_RING_DESC_CHAIN_END.*/uint16_t vq_desc_head_idx;uint16_t vq_desc_tail_idx;uint16_t vq_queue_index; /**< PCI queue index */uint16_t offset; /**< relative offset to obtain addr in mbuf,具體使用可以參見宏VIRTIO_MBUF_ADDR*/uint16_t *notify_addr;struct rte_mbuf **sw_ring; /**< RX software ring. */struct vq_desc_extra vq_descx[0]; }; //todo:對(duì)virtqueue的使用接口

每個(gè)設(shè)備擁有多個(gè) virtqueue 用于大塊數(shù)據(jù)的傳輸。virtqueue 是一個(gè)簡(jiǎn)單的隊(duì)列(其中包括vring),guest 把 buffers 插入其中,每個(gè) buffer 都是一個(gè)分散-聚集數(shù)組。virtqueue 的數(shù)目根據(jù)設(shè)備的不同而不同,例如network 設(shè)備通常有 2 個(gè) virtqueue,一個(gè)用于發(fā)送數(shù)據(jù)包,一個(gè)用于接收數(shù)據(jù)包。

第三層抽象

本層實(shí)現(xiàn)virtio設(shè)備以及對(duì)設(shè)備的各種操作函數(shù)。對(duì)virtio設(shè)備的初始化配置以及特性設(shè)置主要集中在virtio_ethdev.c中實(shí)現(xiàn)。
這一步的實(shí)現(xiàn)代碼比較多,僅羅列一些比較重要的,感興趣的可深入閱讀相關(guān)接口。

/*驅(qū)動(dòng)初始化virtio設(shè)備 * 重新設(shè)置rte_eth_dev結(jié)構(gòu)及特性,最大化共用基礎(chǔ)結(jié)構(gòu),而沒有重新定義一個(gè)virtio dev structure * 在這個(gè)接口里還會(huì)和host進(jìn)行feature的協(xié)商,為device申請(qǐng)分配virtqueue,配置中斷等等 */ eth_virtio_dev_init(struct rte_eth_dev *eth_dev); /*為device分配virtqueue,首先獲取支持的最大隊(duì)列,再對(duì)每個(gè)隊(duì)列執(zhí)行初始化*/ virtio_alloc_queues(struct rte_eth_dev *dev); /*具體的一個(gè)隊(duì)列初始化函數(shù),在這個(gè)函數(shù)里會(huì)區(qū)分隊(duì)列類型,是收包,發(fā)包還是控制隊(duì)列*/ static int virtio_init_queue(struct rte_eth_dev *dev, uint16_t vtpci_queue_idx)/*另外比較重要的是,通過以上初始話過程,會(huì)賦值設(shè)備的dev_ops,rx_pkt_burst,tx_pkt_burst*/eth_dev->dev_ops = &virtio_eth_dev_ops;eth_dev->tx_pkt_burst = &virtio_xmit_pkts;rx_func_get(struct rte_eth_dev *eth_dev){struct virtio_hw *hw = eth_dev->data->dev_private;if (vtpci_with_feature(hw, VIRTIO_NET_F_MRG_RXBUF))eth_dev->rx_pkt_burst = &virtio_recv_mergeable_pkts;//如果打開mergeable特性的化elseeth_dev->rx_pkt_burst = &virtio_recv_pkts;//普通的收包函數(shù)}

設(shè)備初始化好后,virtio設(shè)備的使用主要包括兩部分:驅(qū)動(dòng)通過描述符列表和可用環(huán)表提供數(shù)據(jù)緩沖區(qū)給設(shè)備,設(shè)備使用數(shù)據(jù)緩沖區(qū)再通過已用環(huán)表還給驅(qū)動(dòng)。以網(wǎng)卡為例:網(wǎng)絡(luò)設(shè)備一般有兩個(gè)vq:發(fā)包隊(duì)列和接收隊(duì)列。驅(qū)動(dòng)添加要發(fā)送的包到發(fā)送隊(duì)列,然后設(shè)備讀取并發(fā)送完成后,驅(qū)動(dòng)再釋放這些包。反方向,設(shè)備將包寫入到接收隊(duì)列中,驅(qū)動(dòng)則在已用環(huán)表中處理這些包。
先看收包函數(shù):

//drivers\net\virtio\virtio_rxtx.c uint16_t virtio_recv_pkts(void *rx_queue, struct rte_mbuf **rx_pkts, uint16_t nb_pkts) {...num = (uint16_t)(likely(nb_used <= nb_pkts) ? nb_used : nb_pkts);num = (uint16_t)(likely(num <= VIRTIO_MBUF_BURST_SZ) ? num : VIRTIO_MBUF_BURST_SZ);if (likely(num > DESC_PER_CACHELINE))num = num - ((vq->vq_used_cons_idx + num) % DESC_PER_CACHELINE);/*驅(qū)動(dòng)一次性從收包隊(duì)列中獲取num個(gè)報(bào)文,實(shí)際上是讀取已用環(huán)表獲取描述符,*讀取完成后需要釋放desc到free chain中*/num = virtqueue_dequeue_burst_rx(vq, rcv_pkts, len, num);PMD_RX_LOG(DEBUG, "used:%d dequeue:%d", nb_used, num);/*將前面讀出來的報(bào)文賦值到二級(jí)指針rx_pkts中*/for (i = 0; i < num ; i++) {rxm = rcv_pkts[i];PMD_RX_LOG(DEBUG, "packet len:%d", len[i]);if (unlikely(len[i] < hdr_size + ETHER_HDR_LEN)) {PMD_RX_LOG(ERR, "Packet drop");nb_enqueued++;virtio_discard_rxbuf(vq, rxm);rxvq->stats.errors++;continue;}rxm->port = rxvq->port_id;rxm->data_off = RTE_PKTMBUF_HEADROOM;rxm->ol_flags = 0;rxm->vlan_tci = 0;rxm->pkt_len = (uint32_t)(len[i] - hdr_size);rxm->data_len = (uint16_t)(len[i] - hdr_size);hdr = (struct virtio_net_hdr *)((char *)rxm->buf_addr +RTE_PKTMBUF_HEADROOM - hdr_size);if (hw->vlan_strip)rte_vlan_strip(rxm);if (offload && virtio_rx_offload(rxm, hdr) < 0) {virtio_discard_rxbuf(vq, rxm);rxvq->stats.errors++;continue;}VIRTIO_DUMP_PACKET(rxm, rxm->data_len);/*把報(bào)文dump出來到rx_pkts*/rx_pkts[nb_rx++] = rxm;rxvq->stats.bytes += rxm->pkt_len;virtio_update_packet_stats(&rxvq->stats, rxm);}...../* 重新對(duì)used descriptor分配mbuf,并插入到可用隊(duì)列中 */error = ENOSPC;while (likely(!virtqueue_full(vq))) {new_mbuf = rte_mbuf_raw_alloc(rxvq->mpool);if (unlikely(new_mbuf == NULL)) {struct rte_eth_dev *dev= &rte_eth_devices[rxvq->port_id];dev->data->rx_mbuf_alloc_failed++;break;}error = virtqueue_enqueue_recv_refill(vq, new_mbuf);if (unlikely(error)) {rte_pktmbuf_free(new_mbuf);break;}nb_enqueued++;}/*可用隊(duì)列更新后,要通知host端設(shè)備*/if (likely(nb_enqueued)) {vq_update_avail_idx(vq);if (unlikely(virtqueue_kick_prepare(vq))) {virtqueue_notify(vq);PMD_RX_LOG(DEBUG, "Notified");}}return nb_rx; }

再看發(fā)包函數(shù):

virtio_xmit_pkts(void *tx_queue, struct rte_mbuf **tx_pkts, uint16_t nb_pkts) {......virtio_rmb();//加鎖/*如果已用環(huán)表空間不足,將已經(jīng)傳輸完成的釋放掉*/if (likely(nb_used > vq->vq_nentries - vq->vq_free_thresh))virtio_xmit_cleanup(vq, nb_used);for (nb_tx = 0; nb_tx < nb_pkts; nb_tx++) {struct rte_mbuf *txm = tx_pkts[nb_tx];int can_push = 0, use_indirect = 0, slots, need;.../* 實(shí)際的發(fā)包函數(shù),將txm中的數(shù)據(jù)通過txvq發(fā)送出去 */virtqueue_enqueue_xmit(txvq, txm, slots, use_indirect, can_push);txvq->stats.bytes += txm->pkt_len;virtio_update_packet_stats(&txvq->stats, txm);}txvq->stats.packets += nb_tx;/*通知host*/if (likely(nb_tx)) {vq_update_avail_idx(vq);if (unlikely(virtqueue_kick_prepare(vq))) {virtqueue_notify(vq);PMD_TX_LOG(DEBUG, "Notified backend after xmit");}}return nb_tx; }virtqueue_enqueue_xmit(struct virtnet_tx *txvq, struct rte_mbuf *cookie,uint16_t needed, int use_indirect, int can_push) {....do {start_dp[idx].addr = VIRTIO_MBUF_DATA_DMA_ADDR(cookie, vq);start_dp[idx].len = cookie->data_len;start_dp[idx].flags = cookie->next ? VRING_DESC_F_NEXT : 0;idx = start_dp[idx].next;} while ((cookie = cookie->next) != NULL);if (use_indirect)idx = vq->vq_ring.desc[head_idx].next;vq->vq_desc_head_idx = idx;if (vq->vq_desc_head_idx == VQ_RING_DESC_CHAIN_END)vq->vq_desc_tail_idx = idx;vq->vq_free_cnt = (uint16_t)(vq->vq_free_cnt - needed);//把cookie內(nèi)容放入desc中,更新可用環(huán)表vq_update_avail_ring(vq, head_idx); }

關(guān)于virtio的其它學(xué)習(xí)資料,還可以參考這里以及這里。

vhost

vhost就是virtio-net的后端驅(qū)動(dòng),關(guān)于dpdk vhost這部分資料總結(jié)和介紹,可以參考之前整理的文檔:

  • dpdk vhost研究(一)
  • dpdk vhost研究(二)
  • dpdk vhost研究(三)

SR-IOV

SR-IOV 是PCI-SIG的一個(gè)IOV的規(guī)范,目的是提供一種標(biāo)準(zhǔn)規(guī)范,通過為虛擬機(jī)提供獨(dú)立的內(nèi)存空間,中斷,DMA流,來繞過VMM實(shí)現(xiàn)數(shù)據(jù)移動(dòng)。SR-IOV 架構(gòu)被設(shè)計(jì)用于將單個(gè)設(shè)備通過支持多個(gè)VF,并減少硬件的開銷。
SR-IOV 引入了兩種類型:

  • PF: 包含完整的PCIe 功能,包括SR-IOV的擴(kuò)展能力,其包含用于配置和管理 SR-IOV 的功能。可以使用 PF 來配置和控制 PCIe 設(shè)備,且 PF 具有將數(shù)據(jù)移入和移出設(shè)備的完整功能。
  • FV: 包含輕量級(jí)的PCIe 功能。其包含數(shù)據(jù)移動(dòng)所需的所有資源,且具有一套經(jīng)過仔細(xì)精簡(jiǎn)的配置資源集。

要實(shí)現(xiàn)SRIOV功能,前提條件就是網(wǎng)卡硬件首先要支持SRIOV,其次主板要支持intel VT-d技術(shù)。
SR-IOV的結(jié)構(gòu)圖實(shí)現(xiàn)如下:


圖7 SR-IOV架構(gòu)圖
以上圖為例逐個(gè)解釋關(guān)鍵詞:
  • PF就是物理網(wǎng)卡所支持的一項(xiàng)PCI功能,PF可以擴(kuò)展出若干個(gè)VF
  • VF是支持SRIOV的物理網(wǎng)卡所虛擬出的一個(gè)“網(wǎng)卡”或者說虛出來的一個(gè)實(shí)例,它會(huì)以一個(gè)獨(dú)立網(wǎng)卡的形式呈現(xiàn)出來,每一個(gè)VF有它自己獨(dú)享的PCI配置區(qū)域,并且可能與其他VF共享著同一個(gè)物理資源(公用同一個(gè)物理網(wǎng)口)
  • PF miniport driver即PF驅(qū)動(dòng)是工作于Hyper-V虛擬化平臺(tái)父區(qū)域的,并在VF之前最先加載
  • VF miniport driver即VF驅(qū)動(dòng)是工作于Hyper-V虛擬化平臺(tái)子區(qū)域的,即guestOS;需要注意的是,VF及PF之間是隔離的,任何經(jīng)由VF驅(qū)動(dòng)或所執(zhí)行的結(jié)果都不會(huì)影響到其他的VF或PF
  • Network Interface Card即物理網(wǎng)卡,在啟用SRIOV之后會(huì)生成若干vport,物理NIC所要做的就是轉(zhuǎn)發(fā)physical port與vport之間的流量
  • physical port顧名思義就是物理網(wǎng)口,在SRIOV場(chǎng)景中physical port充當(dāng)一個(gè)面向?qū)ν獾木W(wǎng)絡(luò)媒介
  • VPort是個(gè)抽象出來的接口,類似于物理網(wǎng)口,它們被映射給每一個(gè)VF或者PF,供parentOS或guestOS來使用
  • 啟用SRIOV之后,物理NIC將通過VF與虛擬機(jī)(VF driver)進(jìn)行數(shù)據(jù)交互,反之亦然。那么這樣一來即可跳過中間的虛擬化堆棧(即VMM層),以達(dá)到近乎于純物理環(huán)境的性能;這一點(diǎn)也是SRIOV最大的價(jià)值所在。
    關(guān)于更詳細(xì)的介紹資料和實(shí)驗(yàn)數(shù)據(jù)對(duì)比,可以參考這里和這里
    關(guān)于dpdk使用SR-IOV的參考資料在這里。
    摘自上面的資料,使用SR_IOV技術(shù)和純物理機(jī),以及用戶態(tài)的ovs性能對(duì)比如下:


    圖8:不同技術(shù)的性能對(duì)比
    比較典型的IMIX流量中小包占比會(huì)在50%~60%之間,從上表可以看到SR-IOV的測(cè)試數(shù)據(jù)中小包處理能力在70%左右,這就表明該技術(shù)在實(shí)際的使用環(huán)境中能夠應(yīng)對(duì)絕大多數(shù)場(chǎng)景;而OVS在此方面的優(yōu)化還需要繼續(xù)努力。
    另外關(guān)于dpdk使用SR-IOV的配置,可以參考如下:





    熱遷移相關(guān)

    從上面的介紹了解,要使用DPDK技術(shù),在VM中可以使用virtio驅(qū)動(dòng),也可以使用硬件網(wǎng)卡提供的SR-IOV VF來支持。對(duì)于熱遷移來說,就需要針對(duì)兩種驅(qū)動(dòng)單獨(dú)考慮。

    如何使用

    DPDK關(guān)于使用兩種驅(qū)動(dòng)的測(cè)試用例在官網(wǎng)有提供,可以參考:

    • Live Migration of VM with SR-IOV VF,由于這種驅(qū)動(dòng)是硬件提供switch來完成報(bào)文到VF的分發(fā),很難去感知VM的遷移,因此需要借助其他技術(shù)來實(shí)現(xiàn)遷移,文中提到的使用bond口就是當(dāng)前的實(shí)現(xiàn)方案
    • Live Migration of Vm with Virtio on host running vhost-user,這種驅(qū)動(dòng)中使用的vswitch功能,因此還是比較好實(shí)現(xiàn)VM的遷移的。

    結(jié)合ovs的測(cè)試方法,可以參考這里。

    代碼相關(guān)支持

    對(duì)代碼的修改主要是由以下patch來完成:

    • Patch 1 handles VHOST_USER_SET_LOG_BASE, which tells us where
      the dirty memory bitmap is.
    //通過mmap將要遷移的dirty memory設(shè)置成shared狀態(tài),可供對(duì)端讀寫 static int vhost_user_set_log_base(struct virtio_net *dev, struct VhostUserMsg *msg) {int fd = msg->fds[0];uint64_t size, off;void *addr;if (fd < 0) {RTE_LOG(ERR, VHOST_CONFIG, "invalid log fd: %d\n", fd);return -1;}if (msg->size != sizeof(VhostUserLog)) {RTE_LOG(ERR, VHOST_CONFIG,"invalid log base msg size: %"PRId32" != %d\n",msg->size, (int)sizeof(VhostUserLog));return -1;}size = msg->payload.log.mmap_size;off = msg->payload.log.mmap_offset;RTE_LOG(INFO, VHOST_CONFIG,"log mmap size: %"PRId64", offset: %"PRId64"\n",size, off);/** mmap from 0 to workaround a hugepage mmap bug: mmap will* fail when offset is not page size aligned.*/addr = mmap(0, size, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);close(fd);if (addr == MAP_FAILED) {RTE_LOG(ERR, VHOST_CONFIG, "mmap log base failed!\n");return -1;}/** Free previously mapped log memory on occasionally* multiple VHOST_USER_SET_LOG_BASE.*/if (dev->log_addr) {munmap((void *)(uintptr_t)dev->log_addr, dev->log_size);}dev->log_addr = (uint64_t)(uintptr_t)addr;dev->log_base = dev->log_addr + off;dev->log_size = size;return 0; }
    • Patch 2 introduces a vhost_log_write() helper function to log
      pages we are gonna change. 對(duì)端vm通過同步這些page即可完成狀態(tài)的遷移。
    //rte_vhost_log_write->vhost_log_write static inline void __attribute__((always_inline)) vhost_log_write(struct virtio_net *dev, uint64_t addr, uint64_t len) {uint64_t page;if (likely(((dev->features & (1ULL << VHOST_F_LOG_ALL)) == 0) ||!dev->log_base || !len))return;if (unlikely(dev->log_size <= ((addr + len - 1) / VHOST_LOG_PAGE / 8)))return;/* To make sure guest memory updates are committed before logging */rte_smp_wmb();page = addr / VHOST_LOG_PAGE;while (page * VHOST_LOG_PAGE < addr + len) {vhost_log_page((uint8_t *)(uintptr_t)dev->log_base, page);page += 1;} }static inline void __attribute__((always_inline)) vhost_log_page(uint8_t *log_base, uint64_t page) {log_base[page / 8] |= 1 << (page % 8); }
    • Patch 3 logs changes we made to used vring.
    //rte_vhost_log_used_vring->vhost_log_used_vring static inline void __attribute__((always_inline)) vhost_log_used_vring(struct virtio_net *dev, struct vhost_virtqueue *vq,uint64_t offset, uint64_t len) {vhost_log_write(dev, vq->log_guest_addr + offset, len); }
    • Patch 4 sets log_shmfd protocol feature bit, which actually
      enables the vhost-user live migration support.
    #define VHOST_USER_PROTOCOL_F_LOG_SHMFD 1 #define VHOST_USER_PROTOCOL_FEATURES ((1ULL << VHOST_USER_PROTOCOL_F_MQ) | \(1ULL << VHOST_USER_PROTOCOL_F_LOG_SHMFD) |\(1ULL << VHOST_USER_PROTOCOL_F_RARP) | \(0ULL << VHOST_USER_PROTOCOL_F_REPLY_ACK) | \(1ULL << VHOST_USER_PROTOCOL_F_NET_MTU))

    RARP報(bào)文

    構(gòu)造免費(fèi)ARP報(bào)文RARP來解決vm遷移后的丟包問題

    研究拓



    作者:分享放大價(jià)值
    鏈接:http://www.jianshu.com/p/08ba1ea13729
    來源:簡(jiǎn)書
    著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

    轉(zhuǎn)載于:https://www.cnblogs.com/allcloud/p/7717181.html

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

    總結(jié)

    以上是生活随笔為你收集整理的dpdk对虚拟化的支持调研的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。