當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

LIDC-IDRI肺结节数据集xml解释及读取

發(fā)布時間：2024/1/18 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 LIDC-IDRI肺结节数据集xml解释及读取小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

LIDC-IDRI 鏈接
這篇博客也有介紹
下邊介紹該數(shù)據(jù)集的xml格式及用python讀取.

xml_path = ‘xml說明文件絕對路徑’ with open(xml_path, 'r') as xml_file:markup = xml_file.read() xml = BeautifulSoup(markup, features="xml")

使用 BeautifulSoup對其解析.
得到的markup內(nèi)容為:

觀察markup,根據(jù)xml的格式讀取其內(nèi)容.
提取步驟為:
一:提取患者號,患者號的標(biāo)識符為< SeriesInstanceUid >

patient_id = xml.LidcReadMessage.ResponseHeader.SeriesInstanceUid.text

二:提取專家對該病例做出的診斷,標(biāo)識符為< readingSession >

reading_sessions = xml.LidcReadMessage.find_all("readingSession")

三:在每一個 readingSession里邊找結(jié)節(jié)信息,包括< unblindedReadNodule >和< nonNodule >
(一).先找< unblindedReadNodule >
1.

for reading_session in reading_sessions:nodules = reading_session.find_all("unblindedReadNodule")for nodule in nodules:nodule_id = nodule.noduleID.text

2.找到結(jié)節(jié)編號noduleID
nodule_id = nodule.noduleID.text
3.再找< characteristics >,如果找到,則表示此結(jié)節(jié)為大結(jié)節(jié),則可提取 CT號,然后搜索< roi >,每個< roi >< /roi >之間即為結(jié)節(jié)的坐標(biāo)信息.
< characteristics >中內(nèi)容為:

內(nèi)容說明為:

4.找到< roi >

rois = nodule.find_all("roi")

5.提取< roi >< /roi >中的坐標(biāo)信息.
每對< roi >< /roi >中的< imageZposition >< /imageZposition >中的數(shù)據(jù)表示層位置,結(jié)節(jié)坐標(biāo)位置則在每對< roi >< /roi >中的< edgeMap > < /edgeMap >中,< imageSOP_UID >< /imageSOP_UID >中的數(shù)據(jù)是每張CT圖像唯一的UID標(biāo)識.
6.如果只找到< roi >沒有找到< characteristics >,則表示小結(jié)節(jié),只需提取中心坐標(biāo)即可.
(二).再找< nonNodule >
表示非結(jié)節(jié),找到所需的非結(jié)節(jié)信息.

當(dāng)然也可以根據(jù)< roi >< /roi >的個數(shù)來確定是屬于< unblindedReadNodule >或者< nonNodule >.因?yàn)?lt; nonNodule >里邊只有一個< roi >< /roi >,而< unblindedReadNodule >里邊大于1個< roi >< /roi >.

總結(jié)

以上是生活随笔為你收集整理的LIDC-IDRI肺结节数据集xml解释及读取的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。