LIDC-IDRI肺结节数据集xml解释及读取
LIDC-IDRI 鏈接
這篇博客也有介紹
下邊介紹該數(shù)據(jù)集的xml格式及用python讀取.
使用 BeautifulSoup對其解析.
得到的markup內(nèi)容為:
觀察markup,根據(jù)xml的格式讀取其內(nèi)容.
提取步驟為:
一:提取患者號,患者號的標(biāo)識符為< SeriesInstanceUid >
二:提取專家對該病例做出的診斷,標(biāo)識符為< readingSession >
reading_sessions = xml.LidcReadMessage.find_all("readingSession")三:在每一個 readingSession里邊找結(jié)節(jié)信息,包括< unblindedReadNodule >和< nonNodule >
(一).先找< unblindedReadNodule >
1.
2.找到結(jié)節(jié)編號noduleID
nodule_id = nodule.noduleID.text
3.再找< characteristics >,如果找到,則表示此結(jié)節(jié)為大結(jié)節(jié),則可提取 CT號,然后搜索< roi >,每個< roi >< /roi >之間即為結(jié)節(jié)的坐標(biāo)信息.
< characteristics >中內(nèi)容為:
內(nèi)容說明為:
4.找到< roi >
rois = nodule.find_all("roi")5.提取< roi >< /roi >中的坐標(biāo)信息.
每對< roi >< /roi >中的< imageZposition >< /imageZposition >中的數(shù)據(jù)表示層位置,結(jié)節(jié)坐標(biāo)位置則在每對< roi >< /roi >中的< edgeMap > < /edgeMap >中,< imageSOP_UID >< /imageSOP_UID >中的數(shù)據(jù)是每張CT圖像唯一的UID標(biāo)識.
6.如果只找到< roi >沒有找到< characteristics >,則表示小結(jié)節(jié),只需提取中心坐標(biāo)即可.
(二).再找< nonNodule >
表示非結(jié)節(jié),找到所需的非結(jié)節(jié)信息.
當(dāng)然也可以根據(jù)< roi >< /roi >的個數(shù)來確定是屬于< unblindedReadNodule >或者< nonNodule >.因?yàn)?lt; nonNodule >里邊只有一個< roi >< /roi >,而< unblindedReadNodule >里邊大于1個< roi >< /roi >.
總結(jié)
以上是生活随笔為你收集整理的LIDC-IDRI肺结节数据集xml解释及读取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jmeter函数助手到底在哪
- 下一篇: 网站代码验证工具