English         

LISS:一个公开的肺部疾病常见征象数据库

    摘要

    肺部CT征象的自动分析与处理对肺部疾病的计算机辅助诊断(CAD)有重要意义,日益得到人们的关注。构建有较大规模的公共CT征象数据库,对于促进相关领域的研究和发展是十分必要的。LISS数据库就是这样的一个公共数据库。该数据库共包含了511个2D征象数据与166个3D征象数据,分别来自于271个病例。其中,2D征象对应于252个病例,包括9种常见征象,分别是:毛玻璃影(Ground Glass Opacity,GGO)、分叶征(Lobulation)、钙化(Calcification)、空洞空泡(Cavity & Vacuolus)、毛刺征(Spiculation)、胸膜牵拉(Pleural Dragging)、支气管通气征(Air bronchogram)、支气管粘液栓(Bronchial Mucus Plugs)、阻塞性肺炎(Obstructive pneumonia)。3D征象对应于19个病例,均为GGO。数据库中记录了CT图层序列、由专业放射科医生标注的征象区域及其征象类别等关键信息。同时,所有涉及病人隐私的信息均已去除。LISS征象数据库除了可以为计算机辅助诊断方法的研究提供支持外,还可在医学教育、医疗设备审批等方面发挥作用。

    概述

    在目前的医疗领域,CT图像扮演了重要角色,它在众多疾病的诊断中发挥重要作用。例如,CT图像可以用来鉴别肿块(或结节)性质(solid, mucinous, or fatty),也可用来寻找肿块(或结节)的内部结构或边缘的轻微改变。为进行疾病诊断,放射科医生会进一步抽取病变组织的CT图像模式,这种图像模式就是CT征象(CT imaging sings, or CT patterns, etc.)。目前CT征象并没有一个严格的定义,我们认可上述对CT征象的经验性描述。

    在肺部CT征象的计算机辅助检测方面,我们发现相应研究工作在逐年增加,例如目前已有许多关于对肺部CT图像上毛玻璃影(Ground Glass Opacity,GGO)征象检测的工作,也有一些工作涉及到空洞(Cavity)、阻塞性肺炎(Obstructive pneumonia)、支气管粘液栓(Bronchial Mucus Plugs)等征象的检测。

    LISS数据库是一个肺部CT征象的公开资源,总体目标是为CAD方法研究提供大数据库支持,并为相关的医疗教育提供帮助。总的来说,一个定义较好的征象数据库可以有以下几方面应用:

         (1) 数据库及相应管理系统可以为计算机辅助的疾病诊断提供很大方便,并可为医生对疾病的回顾性研究提供帮助。例如,在疾病诊断方面,当放射科医生阅片时,他可以从数据库中检索含有与当前片子征象相似的以往的片子,从而帮助他做出决策。

       (2) 对于CAD研究者来说,公开的征象数据库可以使得不同的CAD技术得到合理评估。此外,许多对肺部医学图像感兴趣的研究者可能没有足够的医学图像,他们会期待出现一个公开可用的征象库。

    (3) 使用征象数据库进行教学比不使用它会更有效率。来自数据库的大量视觉信息将会帮助学生更容易地理解和记忆相关知识。

       (4) 医疗设备监管部门可能会需要一个大型的CT征象库以验证CAD设备,进而决定是否颁发证书。

    LISS数据库从CT征象的角度研究肺部病变,并包括了9种肺部疾病常见CT征象(详细征象类别见数据和数据格式部分)。它包括271个病例图像资源及相应的放射科医生的标注信息。为了能公开使用数据库,其CT图像中的所有私有数据被删除或做替换处理。

    数据和数据格式

    LISS数据库包含9种类型的肺部疾病CT征象。病例及征象对应的感兴趣区域(ROIs)的数量统计如下表所示。

    

    CT图像的标注信息以纯文本格式存储。一种CT征象的所有标注信息被存储在一个文件中,并且用征象名字作为文件名。例如,文件GGO.txt记录了所有GGO征象的标注信息。标注文件的首行供标注软件使用,其它用户应忽略之。对于剩余的行,每行表示一个病变区域,格式为:”PAx IMx num1 num2 num3 num4”。例如,“PA18 IM17 307 333 321 348”表示第18个病例(patient)的第17张图层(slice)有一个病变区域,后续的四个数字代表包裹该区域的矩形框的左上角和右下角坐标。若一个图层有多个病变区域,则标注文件中会有多行数据是关于该图层的。

    我们不区分训练数据和测试数据,因此研究者应该说明他们使用的训练集和测试集,以方便其它研究者重现其研究成果。

    使用规则

    尽管病例CT数据的收集及该站点的维护需要很多努力,我们仍决定尽力维护该站点作为公开资源运行,以促进常见CT征象的CAD研究和相关合作。我们不会对使用LISS数据库所做的研究工作的出版设置任何障碍,同时我们要求下载和(或)使用LISS数据库的单位和个人遵守以下规则:

     (1) 从该站点(及所指其它链接)下载的LISS数据库资源只能用于科研目的。例如,可以在科研中用于训练或开发新算法。LISS数据库及相关数据禁止被用于商业产品的研究和开发。

   (2) 当相关数据和(或)基于该数据的算法结果被用在科研出版中(期刊、会议论文、技术报告、会议展示等),则必须注明数据来源。

    (3) 如果您(部分)基于LISS数据库进行相关研究并出版文献,则必须通知本数据库维护者,以便我们维护一个与该数据库相关的出版物列表。

    关于下载

    你可以从以下网址下载LISS数据库: https://drive.google.com/folderview?id=0BxVNNFR7ky-ZMVNkd2kzRFhmOTg&usp=drive_web.该网址指向的页面中,‘documents.rar’ 文件包含标注信息和其它相关文件; 为方便下载,2D CT 图像资源被分为4个部分: Images_2D(0-100),Images_2D(100-200), Images_2D(200-300), Images_2D(300-363);‘Images_3D.rar’ 文件包含3D CT图像资源。

     注意您需要在同意上述使用协议的前提下才可下载、使用这些数据。

    关于引用

    目前我们已出版了关于LISS数据库的论文,这篇论文介绍了LISS数据库的许多方面内容,比这里的内容更为详细。该论文可以在IEEE网站下载: http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?arnumber=6924794.

     如果您的出版物中使用了LISS数据库和(或)本论文中的相关内容,您需要在您的出版物中引用本论文:

     Guanghui Han, Xiabi Liu, Feifei Han, I Nyoman Tenaya Santika, Yanfeng Zhao, Xinming Zhao,and Chunwu Zhouet, "The LISS—A Public Database of Common Imaging Signs of Lung Diseases for Computer-Aided Detection and Diagnosis Research and Medical Education," IEEE Trans. Biomedical Engineering, vol.62, no.2, pp.648-656,Feb.2015.

    联系方式

    如果你对该数据库有任何疑问,请给韩光辉发邮件咨询(hanguanghui@bit.edu.cn)。

    地址:北京市海淀区中关村南大街5号北京理工大学机器学习与多媒体检索实验室;邮编:100081.

    注:本项目受国家自然科学基金(No. 81171407)资助。

 

 

地址:北京理工大学中心教学楼901. 电话 +86-010-68913447