BRAIN：机器学习：基于EEG的跨中心、跨方案的意识状态分类器

设为首页 | 加入收藏

网站首页 > 新闻中心 > 脑科学新闻

培训中心

联系方式

手机：18580429226
联系电话：023-63084468
联系人：杨晓飞
联系邮箱：syfmri@163.com
联系地址：重庆市渝中区青年路38号重庆国际贸易中心2004#

信息内容

BRAIN：机器学习：基于EEG的跨中心、跨方案的意识状态分类器

发布者：admin 发布时间：2018/11/8

来自法国国家信息与自动化研究所的Engemann等人在Brain杂志上发文，测试了不同的EEG配置、EEG生物标记、分类模型在辨别意识障碍患者时的性能差异，结果表明：相对于单一生物标记，他们开发的基于多种生物标记的DOC-Forest模型在不同EEG配置下具有更强的鲁棒性；在诸多EEG生物标记中，与theta和alpha频带动态波动相关的标记影响最大。

确定意识障碍患者的意识状态是一个具有挑战性的实践和理论问题。最近的研究结果表明，从EEG中提取的大脑活动的多种标记物可以作为人脑的意识状态的指标。此外，在临床实践中，人们发现利用机器学习方法可以帮助区分不同的意识状态。然而，由于实际使用中遇到的EEG配置、EEG实验类型和来自不同中心的人种的不同，这些EEG标记在面对信号变异时的可靠性尚不清楚。

为此，来自法国的Parietal小组的Engemann等人在Brain发文研究此问题，在这项研究中，分析了在两个独立研究中心(Paris Pitie -Salpe trie are和Lie 'ge)获得的327份关于意识障碍患者(148名反应迟钝的觉醒综合症[unresponsive wakefulness syndrome]和179名最低意识状态患者[minimally conscious state])和66份健康对照组的记录。

我们的研究第一次表明，基于非参数分类器的决策树提供了鲁棒的样本外表现，预测的曲线下的面积(AUC)为0.77，但当使用不同的EEG配置(不同数量和位置的电极、分段数量，平均AUC = 0.750 ± 0.014)时，这一预测只达到边缘显著。在第二步中，我们观测了基于多个和单个EEG特征的分类器泛华到来自不同病人群、EEG实验类型和不同中心的记录数据。然而，多模态的表现最好，从Paris 1到Paris 2数据集的预测AUC为0.73，从Paris到Liege数据集的预测AUC为0.78。通过仿真模拟，我们随后证明，随着EEG特征稳定性的降低，不同的EEG配置用于特征提取或作为加入的噪声，多变量模式分类比单变量分类具有决定性的性能优势。此外，我们还表明，即使高达20%的诊断标签被随机推翻，从Paris到Liege的泛化性能仍然保持稳定。最后，与最近的文献一致，通过对我们分类器的学习决策规则的分析，我们发现与theta和alpha频带动态波动相关的标记具有独立的信息，影响最大。我们的研究结果表明，在不同的临床和习得环境中，EEG意识标记物可以被机器学习方法可靠、经济和自动地识别。

关键词：EEG;意识障碍;生物标志物;机器学习;诊断

Abbreviations：

AUC = areaunder the curve曲线下面积;

DOC = disorders of consciousness意识障碍;

MCS = minimally conscious state最低意识状态;

MVPA =multivariate pattern analysis多变量模式分析;

UWS = unresponsive wakefulness syndrome反应迟钝的觉醒综合症;

wSMI = weighted symbolic mutual information加权符号互信息

1引言

患有意识障碍(disorders of consciousness，DOC)的患者证明，在缺乏意识行为证据的情况下，保持清醒是可能的。尽管为达到共识人们做出了最大的努力，但目前的诊断程序依赖于人类的相互作用，因此很容易出错。如果依赖临床医生的判断而没有标准化的行为评估，DOC患者的误诊程度可能超过40%。即使在使用诸如昏迷恢复量表修订版(Coma Recovery Scale-Revised，CRS-R)等诊断工具时，如果患者在短时间内没有反复评估，误诊率仍然很高。此外，在某些情况下，这些患者存在意识加工的证据只能通过功能性神经成像获得，在这种情况下，患者有时会表现出对其大脑活动的有意调节。这些患者被称为隐蔽意识（covert awareness）或认知运动分离(cognitive motor dissociation，CMD)患者。

在DOC中，我们可以区分昏迷状态、反应迟钝的失眠综合症(UWS，前人所说的植物人状态)和最低意识状态(MCS)。睁开眼睛有助于区分UWS患者和昏迷患者。此外，MCS而非UWS患者显示出意识的迹象(即MCS中的视觉追踪和MCS+中的命令遵循)，而未显示功能性的沟通或物体使用。然而，我们相信这些患者有部分地和波动的对自己和周围环境的认知，并且更有可能康复，这强调了可靠的诊断工具的重要性。

在过去的20年里，非侵入性脑成像已经补充了检测意识的行为评估。早先的睡眠研究和神经学评估揭示出在delta (2–4 Hz), theta (4–8 Hz) 和alpha (8–12 Hz)频带上显示出优先改变的EEG振幅。PET研究显示，与健康对照组相比，DOC患者的葡萄糖摄取总体上有所下降。一些功能性核磁共振研究显示，DOC患者不同皮层下和新皮层通路的功能连接中断。从那以后，认知科学的进步使得人们能够从越来越精细的大脑活动模式中推断出意识。因此，高级新皮层网络之间的周期性互动，以及大脑对刺激反应的形态和复杂性，都与意识状态有关，这导致了意识存在许多各种假设性的标记。

随着最近神经影像学的发展趋势，越来越多的意识神经标记可能的最好的方法是多变量模式分析(MVPA)。事实上，机器学习算法可以通过训练来从未知的生理标记组合中最好地预测单个病人的医疗状况。通常情况下，分类器会根据大脑数据来优化区分临床标签。然后，通过将分类器的预测与实际诊断进行比较来评估泛化性能。在缺乏独立数据集的情况下，通过将数据细分为训练集和测试集，并对测试集得分进行平均，进行交叉验证以估计样本外的性能。然而，值得注意的是，当样本量较小时，交叉验证往往过于乐观，使得在相当比例的神经影像学研究中，表面价值的解释是无效的。MVPA用于DOC患者研究的例子包括分析静息状态FC的模式，指令追随的频谱响应以及大脑代谢来区分幽闭症患者和UWS。

在此背景下，EEG特别有趣，因为这种神经生理学技术传达了认知操作的丰富的时间信息。目前，大规模处理大量EEG数据的挑战可以用自动化的EEG处理方法来解决。然而，对认知理论和EEG方法的偏好在各个实验室之间是不一致的，这极大地阻碍了大量数据资源的开发，这些数据资源非常适合于高保真机器学习。迄今为止，发现的EEG标记物可分为四个概念家族。诱发标记物（Evoked markers）是基于对认知实验的时间锁定事件相关分析。其他家族包含独立于实验类型的标记，包括利用大脑网络交互的连接标记、利用时间序列信息特性的信息论标记和量化神经元振荡或随机带宽阈限的动态频谱标记。然而，由于DOC反映了几个认知和神经系统的成分，而不是单一的维度，从而激发了大家对标记进行侧写的思考，使得情况变得更加复杂。在最近的一项研究中，Sitt等人(2014)使用支持向量机(SVM)分类器，分析了150多个高精度EEG记录中的几十个EEG标记物。有趣的是，标记物的组合协同效果优于单个标记物。同样的，Chennu等人(2017)利用图论对alpha频带的连接进行总结分析，提出了一种基于SVM的方法，对104名严重脑损伤患者(89名患者中有DOC存在)数据进行了训练和交叉验证。

尽管如此，对脑损伤患者意识状态的交叉预测的广泛的大规模尝试仍然缺失，并且几个实际的问题仍然没有回答：单个EEG记录的最佳持续时间是多少?患者应该接受哪些任务?应该使用多少个电极，它们应该放在哪里?一个单一的机器学习算法能对来自不同临床中心的数据进行分析吗?基于当前EEG标记点的模型是否对独立数据实现前瞻性推广?单一标记是否足够强大?多元分类器何时能提供最明显的优势？

为了解决这些问题，我们严格地探讨了意识的EEG标记物的鲁棒性和有效性。使用鲁棒性的极端随机树算法(Geurts et al., 2006, ET或Extra-Trees（Extremely randomized trees，极端随机树）是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似，都是由许多决策树构成。)开发了一个分类器来区分UWS和MCS患者(我们称之为DOC-Forest)。该分类器使用了来自Paris医院的249名患者和来自Lie`ge大学医院的78名患者的总共28种潜在的意识的EEG标记物进行训练和测试。我们首先展示了不同的EEG配置(电极数量、位置和分段数量)和EEG实验内容(听觉刺激或静息状态)在EEG标记物的分布和性能上都有显著的差异。然而，我们发现，通过利用可靠的EEG标记所传递的信息，DOC-Forest对这种变异相对免疫。我们随后展示了两个独立数据集的样本外泛化能力：来自Paris的107个任务EEG记录(之前没有分析过)和来自Lie`ge大学医院的78份静息状态的EEG记录。此外，我们还证明了DOC-Forest的泛化性能明显优于单变量标记。最后，通过研究个体标记对DOC-Forest决策的影响，我们发现alpha-频带功率、theta-频带的连接和时间序列复杂度携带了关于意识状态的互补性信息。

2材料与方法

2.1被试

本次研究共纳入了327份来自于我们专家中心的268名不同患者的脑电图记录(表1)。患者被评估为不同程度的(损伤时间)延迟(脑损伤后的亚急性或慢性阶段)，以明确意识的实际状态。临床评估至少在Paris数据集中进行三次，在Liege数据集中进行五次，所有病例在不同的日期由训练有素的临床医生进行，并系统地包括CRS-R。CRS-R分数从0到23不等，反映了个体在听觉、视觉、运动、视觉运动、交流和唤醒功能的不同等级有序的测试项目上是否有反应。根据最好的评估，每个病人都被诊断出患有UWS或MCS。在所有中心，数据采集协议包括多次临床评估和至少一次EEG记录。对于一些病人，有一些EEG记录，我们后来用统计模型进行了解释。不同数据集的记录数量差异很大；然而，MCS与UWS患者的比例大致平衡。所有数据集中男性患者多于女性患者。年龄分布相似；然而，对于静息态数据集来说，延迟明显更高。同样，静息状态数据集的病因分布也不同，但比例与文献一致。

表1. 三个数据集的病人信息

2.1实验范式

分级听觉oddball任务(Paris 1 & 2数据集)：任务相关的脑电图信号来源于‘Local-Global’协议，旨在研究无意识和有意识的听觉加工。相应地，大脑对两种类型的听觉事件的反应被记录下来：自动处理短时间范围的违背和长时间范围的违背，它们的识别依赖于明确的工作记忆努力。为了获得最佳的认知表现，患者在镇静停止后至少24小时进行记录。可能改变脑电图的药物，例如肌弹性蛋白和抗癫痫药物没有得到控制。在每次记录开始时，对脑电图信号质量进行评估。如果观察到癫痫发作或其他明显可识别的异常活动，则停止记录。脑电图记录采集用250HZ，使用256个电极(EGI)，顶点参考。带通过滤(从0.5到45Hz使用6和8阶FFT-based巴特沃斯滤波器)。然后，相对于第一个声音的出现，数据分段为-200ms--1336ms。参考Engemann等人(2015)中，基于自适应异常值检测的分段被剔除。随后，使用平均参考并基线校正。

静息态(Liege dataset): 数据被分段成1536ms，匹配基于任务态数据的长度，随机间隔匹配听觉任务的试次间隔。另外，采用相同的数据采集预处理方案。

2.3意识的可能的脑电图标记物的选择与计算

我们详细提取了Sitt等人（2014）假定的28个脑电图生物标志物。标记物可分为信息论、连通性、频谱和诱发反应标记物四个概念族（表2）。在Sitt等人(2014)所描述的几个连通性度量中，我们只考虑了theta频带中的加权符号互信息(weighted symbolic mutual information，wSMI)度量，而之前的研究表明，从理论上讲，与意识相关的远程连接模式最能被这个度量标准稳健而准确地评估。注意，对于静息状态脑电图的分析，我们没有使用诱发反应markers，因为这些markers只用于Paris数据集中使用的任务。

表2. 潜在的意识EEG 生物标记

临床神经科学中常用的标记物通常是在一般水平上定义的，可以在多个电极、时间点或频带上观察到。为了描述低级特性，我们从每个标记中计算了四个汇总统计信息(图1)。为汇总分段，我们要么计算80%截尾均值，要么计算标准差(SD)。然后用均值或标准差来总结电极，总共得到四种组合（图1A）。我们把这些标记子类型称为‘mean,mean’,‘std,mean’,‘mean,std’and‘std,std’，在图中，简写为‘m,m’, ‘s,m’,‘m,s’,‘s,s’。有关的完整列表和缩写，请参见表2。

使用指定的Python软件库进行计算，实现了Sitt等人(2014)的biomarker提取功能。提取的标记与参考数据集的原始值和分组结果紧密匹配，定性地重复。

2.4统计分析

2.4.1脑电图标记物对意识障碍的分类

采用单变量和多变量机器学习策略，根据脑电图标记物对诊断进行分类。为了便于跨研究进行比较，我们还计算了单个标记上的无模型时的表现，如Sitt等人(2014)。使用曲线下面积(AUC)评估性能（see Supplementary material‘Area underthe curve metric’section）。对多变量和单变量模式分析，我们选择了极端随机树算法，它的非参数设计有助于鲁棒性分类。为了补充来自单变量分类的见解，我们根据最佳实践建议从Extra-Trees中提取了所谓的变量重要性的度量，以增强可解释性。因此，我们的变量重要性得分反映了变量和诊断之间的互信息，同时制约其他变量。有关参数和模型调优的背景信息见补充信息（see Supplementary material‘Multivariatepattern classification’section）。为了在比较单变量标记和多变量标记的性能时使用统一标准，我们使用与DOC-Forest相同的方案。这使我们能够使用与多变量分析相同的框架，从单个标记中预测DOC诊断的概率。

2.4.2统计推断

我们使用百分位数的bootstrap(补充材料)将可视化扩展到假设检验中。为了评估样本外泛化，我们使用了两种互补的方法:对独立数据的保守验证(新的群体、不同的协议[实验设置]和实验室)和交叉验证(补充材料)。

2.4.3软件

所有数据都使用Python编程语言进行处理。为了简化机器学习的预处理和特征提取，我们开发了一个指定的软件库(available at https://github.com/nice-tools/nice)，建立在开源软件库MNE之上的和机器学习算法库。DOC-Forest方案是公开的(https://github.com/nicetools/nice)，鼓励社团一起努力建立病人意识状态的预测模型。本文使用的临床数据可以在合理的要求下提供，但由于涉及患者的临床信息的敏感性，伦理协议不允许公开数据共享。

3结果

3.1从脑电图特征对意识状态的鲁棒检测

3.1.1 UWS与MCS的多变量分类在EEG配置上是鲁棒性的

DOC-Forest分类器平均表现为AUC = 0.75(SD = 0.014)，与大多数其他标记个体相比，它们的表现更好，也更鲁棒(Fig. 2A, B, Supplementary Figs 1 and 2)，此外，随着电极数量的增加，其识别性能也有所提高(Fig. 2B),但在16个电极和5%的分段数据时分类性能已经分好了。重要的是，使用全部脑电图配置，其性能与Sitt等人(2014)之前报告的结果非常相似，并且优于任何其他标记物(Supplementary Fig. 2)。这些结果表明，在不同的脑电图配置下，DOC-Forest优先跟踪由一些少量的鲁棒标记传递的信息，而不是许多各种的EEG配置。

使用完整的配置，我们随后评估了不同病因组和不同程度的慢性疾病的分类成功的一致性(Supplementary material‘Consistencyof classification results in diagnostic subgroups’section)。对慢性病组（delay>30 days）和急性病组(delay<=30 days) 进行了比较。各病人组的分类性能均显著(即，缺氧、中风及脑外伤)。然而，在创伤性脑损伤患者中，表现略低，这表明这一组的异质性使其更难分类。在单个标记和DOC-Forest之间进行的额外的详细比较，见补充材料（Detailed comparison between individual markers andDOC-Forest）。

3.1.2 theta-和alpha频带振荡导致偏好分类器

虽然在我们的DOC-forest中的2000个决策树单独进行推理并不方便，但是我们仍然可以通过考虑变量重要性来分析脑电图标记对分类性能的相对贡献。这个多变量度量近似于一个标记和诊断之间的互信息，同时控制其他标记的贡献。无论何时，当标志物之间共享信息或模型识别出非线性交互效应时，变量重要性会系统地偏离单变量AUC。在检查了36种配置的所有DOC-forest分类器后，我们发现，平均而言，贡献最大的标记属于不同的概念家族（图2C）。具体来说，在theta频带和alpha频带功率上的置换熵和长程连通性在单变量识别和变量重要性方面排名最高。相比之下，诱发电位的标记的平均值通常低于0.89%，如果所有标记具有同等影响力时，这低于的预期值。我们观察到平均AUC与平均变量重要性之间存在正的非线性关系，可以看出，对于线性关联而言，表现优异的标记在比例上比预期的更重要（图2C）。

图1. EEG特征的提取

图2.不同EEG配置下的各种EEG生物标记的性能

3.2 利用意识的不变脑电图特征进行泛化

3.2.1 泛化到独立的数据、实验设计和配置

这里我们考虑了两个独立的人群：来自Paris（Paris2）的107个任务态数据，以及来自一个独立研究小组的78个静息态数据( 见Table 2)。当在Paris 1数据集上训练DOC-Forest，并在Paris 2数据集上测试算法时，每次使用完整的EEG配置时，我们观察到在AUC约为0.73的情况下，分类性能显著（图3A）。同样地，当对所有来自Paris的可用数据进行训练时(Paris 1 and Paris 2)，但不训练ERPs标记时（表1和图1A），在Lie`ge静息态数据的测试上，DOC-Forest的AUC是0.78。

随后，我们评估了我们在巴黎数据集上训练的分类器的泛化程度，以区分UWS和MCS，并对66个有意识控制的数据集进行了评估。DOC-Forest将94%的控制被试分类为(Paris local-global paradigm: 34 of 36, Lie`geresting state: 28 of 30)MCS。这一结果表明分类器用于区分UWS和MCS患者的模式可以外推到正常对照组。

此外，我们还在Liege数据集中发现了两名认知-运动分离患者。这些患者最初根据他们的行为被贴上UWS的标签，但使用核磁共振成像范式发现他们是有意识加工。这两例均被DOC-forest分类为MCS。

3.2.2 使用单变量标记进行泛化

基于连通性、信息论和频谱标记的单变量森林，其交叉验证性能在训练集上最高。所有单变量模型的泛化性能(0.04 ~ 0.14 AUC点)均低于DOC-Forest，只有alpha频带分类器的泛化性能明显优于虚拟分类器（图3，中间）。将变量重要性与每个标记的样本外性能进行比较，发现了正的非线性关联。结果表明，几个单变量模型在AUC值大于0.70的情况下表现出合理的泛化性能（如图3）。

图3. 不同数据集和方案下的泛化能力

引人注目的是，当不同的脑电图配置组合在一起时，泛化是成功的，例如100%的分段和32个电极进行训练，50%的分段和8个电极进行测试，尽管这导致了训练和测试集之间的解码差异。平均而言，DOC-Forest的表现明显高于三个对应的单变量森林中的任何一个（表3）。对交叉配置泛化模式的检查显示，性能的变化绝不是随机的，对于这两种泛化任务，这都支持了分段和电极的独特但不同的组合。

表3. 不同EEG配置下的平均泛化性能

3.2.2 对噪音的鲁棒性

由于DOC-Forest似乎对不匹配的EEG配置有弹性，我们通过向测试集中的标记添加噪声进行了应力测试（stress-test），直到分类失效（图5A）。毫不意外，单变量分类器很快就失效了，而DOC-Forest持续了很久才失效。另一个可能限制泛化性能的问题是诊断信息的质量。在第二次压力测试中，我们实证地评估了在面对越来越不准确的诊断训练标签时，从Paris到Lie`ge泛化的稳定性（图5B）。通过设计，这种模拟迫使DOC-Forest崩溃，最终产生系统错误的预测。然而，分类器仍然提供了合理的预测，即使高达30%的诊断标签被推翻。此外，对于本研究中使用的CRS-R重复3 -5次，有文献预测会有6%-17%的误诊，在这里属于弹性泛化范围。这些结果表明，DOC-Forest对数据中的噪声和诊断标签中的噪声都有较强的鲁棒性。

4 总结

使用极端随机树算法，基于28个公认的脑电图意识生物标志物，评估了对不同脑电图配置和单变量、多变量模式记录条件的鲁棒性。就我们所知，我们的研究代表了机器学习方法诊断UWS与MCS患者最广泛的验证。

结果表明，UWS与MCS患者可以用多变量分类器稳定地诊断出来，即使训练集和测试集的EEG配置不同（图4）。

图4. EEG配置变化时，不同数据集和方案的泛化能力

Theta和alpha频带标志物是鲁棒的分类特征，且在不同的实验设计和环境中可以泛化，也是从任务态到静息态泛化的主要标志物。

参考文献：Engemann D A, Raimondo F, King J R, et al. RobustEEG-based cross-site and cross-protocol classification of states ofconsciousness[J]. Brain, 2018, 141(11): 3179-3192.