引言
研究人员越来越多地将人工智能(AI)应用于大数据集,以推进健康研究。例如,使用人工智能进行研究可以包括开发自然语言处理模型,以比人类计算更快的速度处理大型数据集[1]。虽然这是为了改善社区健康这一有价值的目标而进行的,但至关重要的是要确保在整个过程中融入道德考虑,以减轻对个人和国家的潜在负面影响。不幸的是,实现这一目标的道路并不总是清晰的。在医学研究中,数据来自多个来源,涉及多个利益相关者,并在日益复杂、混乱和脆弱的系统中不断迭代
军事卫生系统(MHS)提供了一个用于研究的大型数据集类型的例子。该系统为960万受益人提供服务,其中约80%为非现役人员,包括190万儿童。受益人口普遍投保,能够从军事设施或私营部门获得护理,具有全国代表性,社会人口多样化[2,3,4]。该人群的纵向索赔数据集中保存在一个名为MHS数据存储库(MDR)的系统中,可通过MHS信息平台(MIP)访问,其中包括住院护理、门诊护理、实验室结果、药房数据等多个数据库[5,6]。正如一篇文章所描述的那样,这使MHS成为“美国‘未被发现’的卫生服务研究实验室”[6]。然而,该数据库的特定背景带来了其他卫生系统所没有的重大挑战
2014年对MHS的审查发现“MHS分析全系统医疗保健信息的能力存在重大差距”[7]。最终报告指出,“尽管MHS拥有丰富的数据,但分析这些数据并利用结果指导质量和患者安全决策的能力尚处于起步阶段”[7]。审查强调了“绩效可变性”,表明需要更好的分析来支持政策,并且必须与培训和教育计划保持一致[7]
在MHS和健康相关数据的背景下,人工智能的使用和应用可能会对国家安全构成威胁,并对个人隐私产生影响。此外,当涉及到政府机构或政府资助的研究机构的大数据时,还有许多伦理考虑和挑战。这些机构必须遵守法规,而私营企业在决策方面有更多的自由,有能力管理和使用数据。在军事卫生领域,关于伦理和大数据交叉点的持续讨论导致需要更深入地探索这些领域,并征求围绕结合大数据、人工智能工具和军事卫生与绩效信息的伦理的不同想法
为此,2018年12月10日,在马里兰州贝塞斯达的卫生科学统一服务大学(USUHS)召开了“健康与国家安全论坛:大数据的道德使用促进健康社区和强大国家”。该研讨会由卫生服务研究计划和USUHS创伤压力研究中心以及国家科学基金会资助的南方大数据创新中心合作举办。总共有来自大学、联邦机构和非营利组织的22人参加了会议。该研讨会旨在确定与使用大数据进行军事卫生研究相关的伦理问题。其既定目标是确定关键的伦理问题,确定减轻危害的机制,确定研究系统中的差距,并确定可能的解决方案。以下文本总结了当天围绕使用大型健康信息数据集进行研究的最佳伦理方法的讨论要点。重点放在国防部(DoD)卫生服务研究人员面临的独特挑战上。虽然研讨会是在2018年举行的,但会议记录在今天仍然具有相关性
大数据的伦理挑战
虽然世界充斥着数据,但“大数据”一词是指来自许多来源的数据;与其他数据合并;来自多个时间段、数据点、服务器和元数据。大数据代表了真实的人。因此,研究需要像对待人类受试者或整个人群一样认真地考虑数据。大数据的所有组成部分,包括收集、安全、访问和分析,都面临着伦理挑战[8]。军事健康数据这带来了额外的伦理挑战。初级卫生数据很容易用于患者护理,但次要用途,如用于改善卫生服务的研究,需要特别考虑。例如,很难找到具有适当数据和安全专业知识的分析师,他们将选择在政府而不是行业工作
伦理在军事卫生研究中尤为重要,因为科学家有保护人民和保护国家安全的双重义务[9,10]。例如,个别武装部队成员或其家属的健康数据可能表明可能对国家安全产生影响的部队部署行动。健康数据特别敏感,因为它可以揭示个人可能希望保密的信息。虽然有许多法律解决了健康数据的隐私或安全问题,包括《健康保险流通与责任法案》(HIPAA),但使用健康数据仍然存在风险。例如,数据可以以研究人员或研究对象从未想过的方式使用
平衡大数据的使用和安全
国防部的一个突出问题是获取数据本身的挑战。MHS拥有数百万服务人员及其家人的健康记录,为卫生服务研究创建了一个丰富的存储库,但为了访问MHS中的健康数据,需要满足许多要求。其中一些正在获得必要的许可和人员培训。然后是将回答研究所需的各种国防部数据集联系在一起的挑战,以及通过机构审查委员会(IRB)的批准程序和各种数据隐私外部审查的时间。虽然这些保障措施是为了保护人类受试者和国家安全,但必须在回答高优先级问题以改善MHS和完善该系统以改善约960万受益人的健康和医疗保健之间取得平衡
潜在的解决方案
道德是一项全面的努力。大数据健康研究需要在研究过程的每个步骤中进行伦理考虑:从设计研究问题到确定有效的数据收集方法,再到创建分析算法。将伦理纳入更广泛的研究工作的多种方法包括:创建有效的风险管理框架和数据治理政策;改善教育、信任和多样性;从现有系统中学习;重新思考审批流程;并将人类与人工智能的关系重新定义为合作而非竞争
风险管理框架
在健康数据上使用人工智能的风险很复杂,而且往往不熟悉。创建一个伦理风险管理框架,识别问题、评估风险、制定缓解计划、传达风险、寻求反馈、考虑社区和重新评估风险,可以促进伦理研究。虽然大数据是多样化的,但仍然有可能创建一个框架,促进研究人员道德行事、沟通风险和鼓励创新,同时具有足够的可塑性以适应各种项目。可以设计和整合风险预防机制,使研究人员能够为系统增加弹性或加强安全功能
尽管有最好的意图,但问题是不可避免的。数据不能像有缺陷的消费品那样被“召回”。它可以被无休止地复制或转移,变得无法追踪。道德和有效的风险管理框架可以缓解问题,并确保考虑采取道德措施。然而,遵循风险管理框架可能会产生额外的工作。除了更好地意识到不道德地处理数据的风险外,开发人员或分析师可能还需要切实的激励来承担这项工作。行为准则或检查表也可以促使员工“做正确的事”。
数据治理
数据治理是道德大数据研究的重要组成部分。当前的数据管理系统处理当今挑战的能力有限。伦理数据治理确保数据可查找、可访问、可互操作和可重用。它还需要了解预测和减轻风险的风险管理工具和机制。越来越多的组织正在任命一位负责任的管家来监督这一过程。伦理数据治理为一些问题制定了指导方针,例如将数据收集限制在满足研究问题所必需的范围内,在研究人员之间安全地共享原始数据,以及限制大型数据集的传输。有一个增长意识到共享数据会增加风险。网络安全是伦理难题的重要组成部分。数据治理计划必须包括数据的适当安全性,还必须考虑对基于云的服务、费用、风险和故障缓解的担忧
不同的研究问题需要不同的数据、多种算法或单独的分析。安全的数据存储库是数据治理的核心部分,根据研究人员的关联/需求为他们提供不同级别的访问权限。这样的数据存储库可能会增加成本,并需要专门的培训。数据素养是数据可访问性的另一面,需要工具来帮助数据解释。工具已经可用或正在开发中,以改善公众的数据解释,并鼓励研究人员在整个研究过程中考虑数据素养。数据治理计划还必须确保数据透明且可用。许多组织正在努力通过开发新平台来提高数据的可用性,包括退伍军人事务部(VA)和国防部
教育
跨利益相关者的教育,包括对学生、科学家、开发人员和社区成员的道德大数据研究,都很重要。大数据的道德使用应纳入整体数据和分析教育。一些组织正在努力创建一个负责任的大数据使用生态系统。可以鼓励各行业采用和宣传其做法,以建立透明度和促进信任。《加利福尼亚消费者隐私法》以欧盟的《通用数据保护条例》(GDPR)为蓝本,使个人能够决定如何使用他们的数据,包括从系统或收集中完全删除。公司还制定了数据道德规范,并为使用人工智能和大数据的员工提供了实际应用。一些组织还为大学生创建了免费的道德课程包,并表示致力于多样化的招聘实践,作为负责任和道德企业的一部分
多样性
多样性将改善数据伦理策略,以纠正研究和领导团队中的隐性偏见。偏见是人工智能中一个众所周知的问题[11]。一个聊天机器人在与推特用户互动后迅速变得粗鲁和种族主义的例子表明,在开发基于人工智能的应用程序时需要广泛考虑[12]。当一个辩论机器人的摄入量被精心策划而不是实时学习时,它的表现更好,因为它的开发人员能够控制偏见的程度。在每种情况下都对数据进行管理可能是不可行的,因为大数据有时会被用于其原始用例的次要用途,但在面向公众的应用程序中,道德可能需要它。
道德讨论需要包括不同背景、经验、意见和专业知识的团队来最好地解决复杂的问题。当科学家们寻求不同的意见以推进研究并找到解决方案时,研究就会得到加强。出于同样的目的,最初的数据治理计划最好由一个由专家和利益相关者组成的多元化委员会来确定,该委员会还定义了组织首席数据策略师的角色和职责。首席数据策略学家是一名专业人士,他将使用数据来推动可操作的决策
社区参与
了解其成员参与研究项目的社区可以提高社区对研究工作的信任程度,并促进伦理研究行为。一个有效的数据伦理体系在整个研究过程中考虑了社区的文化和观点
此外,参与者应该能够看到他们的数据是如何被使用的,研究得出了什么结论,以及他们是否会受到数据使用的影响。一个贡献受到重视的社区咨询小组可以改善研究过程,标记潜在的滥用行为,并在适当的时候批准数据的二次使用。然而,研究人员必须小心,不要让一个人承担代表整个社区的角色。例如,“退伍军人”是一个社区,但在其中,有不同年龄的退伍军人、男女退伍军人、城乡退伍军人,他们都有不同的观点
从其他模型中学习
道德数据实践可以从面临同样问题的其他组织和国家借鉴。例如,在一些国家,生物存储库必须遵守严格的安全规则,个人可以向政府监察员报告数据问题。政府和行业之间的分离以及相关数据共享也因国家而异。工业和一些国家的学术界更加一体化。各国对大型私人或商业团体收集私人信息的担忧也各不相同
出版业也可以提供经验教训,例如,研究人员必须声明他们在发表研究之前获得了知情同意。国防部和弗吉尼亚州的数据飞地也为大数据提供保护,限制了谁可以访问以及如何访问。数据保护公司也可能提供有价值的信息和信息丰富的例子。该行业的安全预防措施非常重要,它们往往会加密数据,在第三方访问个人数据时发出通知,控制个人数据访问,以及数据所有者对数据使用收费的能力。这一过程可以透明化、私有化,并在几乎所有其他领域都没有这些选择的时候,为数据所有者提供代理和财务激励
机构审查委员会(IRBs)
IRBs包括保护受试者的保障措施。然而,它们也有许多缺点,可能会使数据或主体变得脆弱。虽然现有的IRB大数据使用指南可能会有所帮助,但大多数IRB在HIPAA合规方面更有经验,可能不具备道德大数据健康研究所需的数据、隐私或网络安全专业知识。IRB也往往不涵盖数据收集的各个方面。例如,一些组织可能希望拥有研究成果的知识产权,并将其授权用于研究,而IRB很少处理知识产权问题
一些组织在IRB之外或代替IRB使用其他监督层,如信息安全官,以更快地审查研究提案。特别是其他联邦机构可能需要采取网络安全措施,并得到首席信息官的批准。不幸的是,这些额外的层可能会延误项目并让研究人员感到沮丧。在一些国家,IRB并不总是被强制要求。美国的一些社区不依赖IRB来保护他们,而是建立单独的代表委员会,从社区的角度审查项目,这也是众包或公民科学项目的常见做法
人类和人工智能之间的关系
人工智能通常被视为与人类控制相反,但实际上,人类和人工智慧之间的合作是成功的关键。有些事情机器可以比人类做得更好,有些事情人类可以比机器做得更好。在大数据中,人工智能的快速计算可以让研究人员有更多的时间来解释结果,这是人类超越机器的另一项微妙任务[12]。人工智能可以极大地帮助和提高人类的表现。例如,在x射线中检测结核病的算法与训练有素的放射科医生一样好,在资源有限的情况下可能有潜在的用例[13,14]。在高效的地方应该鼓励与人工智能的合作,但在不增加价值的地方不要过度依赖。在大多数情况下,需要人类的创造力来设计人工智能系统,对其进行微调,并分析结果。此外,正是人类知道什么时候打破规则以实现正义,什么时候我们只是在自动化不平等
研讨会以来的进展
自2018年12月研讨会以来,国防医疗管理系统(DHMS)的企业智能和数据解决方案(EIDS)部分采取了一系列措施,在确保保护人类受试者的同时简化数据访问。一个新的虚拟环境正在开发中,它将允许在集中、虚拟和安全的环境中访问数据和工具。这将包括标准化的业务规则和去标识策略,并限制将数据导出到外部存储库。这一过程的长期活动包括从国防卫生局(DHA)内部组织和其他利益相关者那里获得功能支持,以维持虚拟数据环境,同时建立数据治理流程和研究标准政策[15]
本次研讨会的信息已在美国军医协会的几次年会上通过随后的小组会议进行了分享。由USUHS卫生服务研究中心(CHSR)赞助的其他研讨会继续在全国范围内对感兴趣的研究人员进行MHS数据集使用限制和访问程序的培训。最后,CHSR还举办了多场网络研讨会和面对面培训,其中纳入了大型数据集伦理管理的经验教训。一个例子是开发一个教育研讨会围绕海军陆战队机构审查委员会和其他场所展示的《大数据管理10条简单规则》[9]。分别关注各级资历的军事和民用研究人员以及USUHS的教师,促进了整个研究生态系统对伦理考虑的讨论,并为与新的和发展中的研究人员进行交流提供了最佳机会
结论
大数据既强大又复杂,我们对如何最好地使用、解释和保护这些数据的理解是新的工作领域。人工智能在大数据中的应用带来了意想不到的后果,这对国防部来说可能包括对国家安全的威胁。因此,从提出问题到如何回答问题以及如何处理结果,大数据研究必须考虑伦理因素,例如使用这些数据为项目改革和规划提供信息对人口和医疗保健系统的益处。尽管有最好的意图,即使在强有力的网络安全保护的情况下,数据也容易受到意外滥用、故意滥用、未经授权的二次使用或危及隐私、公民自由或国家安全的应用程序枢纽的影响。MHS拥有纵向链接的数据库和严格的数据访问安全要求,既为其他卫生系统的讨论提供了信息,也为向他们学习数据安全和数据访问之间的最佳平衡提供了机会