什么是巨型数据？

更新 2013-11-30 8:05 AM 人气 10

标签:

【大纪元2013年11月30日讯】从电信资讯到生技制药，巨型数据在各行各业扮演着越来越重要的角色，但许多人还是不清楚，究竟什么是巨型数据？凌美秀博士说：“巨型数据有四项特征，巨量(volume)、多样(variety)、高速(velocity)、真实性(veracity)。”巨型数据是有待开发的全新资源，有着巨大的潜能。她举例说明，微软(Microsoft)耗费数百万美元、二十年的时间才发展出一套完善的拼字检查软体，然而谷歌(Google)利用数百万名使用者在搜寻视窗中键入的字词，竟然在短时间内就创造出品质超越微软的拼字检查软体。

“当我们把巨型数据应用在医药保健上，我们努力整合各种外界的数据，化为帮助临床新药研发的有用资讯”，凌博士举Vertex药厂的资讯部门为例，她的分析团队搜集150个临床试验的数据资料进行整合分析，并且搜集大量的研究报告、市场讯息、新闻报导，为Vertex 提供即时且最新的资讯，帮助决策团队适时地调整研发方向。

展望未来，凌博士大胆预测，透过病患回报生活品质，将改变实证医学(evidence-based medicine)的研究方式，未来新药的标签将不止写给医疗专业人员，而会提供更符合病患需求的生活品质与照护资讯。巨型数据更有机会带给病患量身订做的个人化医药(personalized medicine)。“数据是下个世纪的石油”，凌博士说，“关键在于如何将巨型数据转化为有价值的资讯。”

巨型数据让药物更安全

这个关键的转化过程，也正是各行各业专家急于解答的问题。杜胜伟博士以本身在哈佛医学院的研究，具体说明了巨型健保数据转化为药物资讯的过程。自2009年起，杜博士的研究团队与美国食品药物管理局(FDA)合作进行“微型前哨站计划”(Mini-Sentinel)。“虽说是微型，但其实这计划一点也不小”，杜博士说，“共有18所大型健康保险公司与我们合作，我们的资料库目前涵盖了1300万人、37亿条配药资讯、41亿条就医纪录。”

传统上，美国食品药物管理局采用的是被动的药物安全性通报网路，更新速度慢，而且仅仰赖医师主动通报，资料零散不完整。医药界常用的临床试验虽然是药物研发的黄金标准，然而试验人数往往太小，较为罕见的药物不良事件往往无法查觉。微型前哨站团队利用大量且即时的健康保险资料，进行分析比对，能够发掘许多传统网路无法获得的药物安全资讯。“例如我们发现抗凝血新药Pradaxa有造成严重出血的危险，根据我们的研究结果，美国食品药物管理局很快地公开发布了药物安全通知书”，杜博士表示。

整合18所大型保险公司的资料库并非易事，然而在杜博士团队五年的努力下，现在他们能顺利在五个工作天内解答美国食品药物管理局提出的药物安全性问题，范围从心血管药物到小儿科疫苗。“微型前哨站计划每年都在华盛顿特区举办研讨会。制药界、医师、病人团体、政府机关代表都来关心”，杜博士说，“我平时都和数据打交道，从没见过一个病人。在研讨会上，我看到自己的研究结果改变了医师的临床治疗，让我觉得很受鼓舞。”

对比微型前哨站计划与台湾全民健保资料库，杜博士认为台湾也有机会善用巨型数据的潜力。“健保申报资料应该有其正确性与研究价值，关键在于政府的决策”，杜博士说，“健保资料库是潜在的宝贵资源，然而研究者是否能取得完整的资料、资料的所有权都可能构成问题。要解决这些问题，需要决策者的决心。”

从基因图谱到个人化医学

除了健保数据外，巨型数据也在基础生物科学领域大放异彩。目前任教于哈佛医学院、公卫学院，执掌贝斯以色列女执事医学中心(BIDMC)老年基因体中心(GeriOMICS)的许益祥博士，以深入浅出的方式，从基础遗传学开始，介绍巨型数据对未来生物科技的影响。

许多人还记得，几个月前好莱坞影星安洁莉纳裘莉(Angelina Jolie)投书自陈进行预防性乳房切除的心路历程，引起媒体轰动。让她决定动手术的因素是基因筛检，她发现自己拥有家族遗传的致癌基因BRCA1与BRCA2，会大大提高罹患乳癌的风险。许博士提醒听众，透过全基因组关联分析技术(genome-wide association scan)，科学家从人类基因图谱中找到了越来越多遗传基因与人类疾病之间的关联，例如糖尿病、肥胖症等等。

每个人类细胞拥有30亿组DNA碱基对，本身就是一组天然的巨型数据。我们的基因序列大约有99.9%是相同的，然而就是0.1% 的不同，造就了每个人独一无二的身体结构与生化特性。“拥有基因资讯，我们可以找出高风险的民众，教导他们调整生活型态，以预防疾病的发生”，许博士说，“我们更可以根据人体基因寻找全新的药物治疗标靶、预测药物与人体的交互作用。”每个人对药物的独特反应，是许博士口中“天然的临床试验场所”。

次世代定序技术(next-generation sequencing)大大提升了基因定序的效率。在2007年以前，科学家进行一次基因定序需要数周的时间、花费上百万美元，然而到2013年，次世代定序技术进行基因定序只需要一天、花费数千美元，效率提高了不只上千倍。巨型数据促使基因遗传学研究突飞猛进，研究者借此更上一层楼，探索更多未知的领域，包括诱导性多能干细胞(iPS)、表观遗传学图谱(epigenetics roadmap)。许博士同时认为，未来巨型数据能帮助医药界进入个人化医学的时代。

资讯与隐私的两难

然而巨型数据也引起不少资讯安全与个人隐私的疑虑。Fish & Richardson律师事务所主持人Jose Sierra指出，美国国会在1996年通过健康保险转移和责任法案(HIPAA)，该法案规定，包括医疗服务提供者、健康保险公司等受保单位(covered entities)或其商务代理人(business associate)在建立、储存、传送受保护的电子医疗资讯(PHI)时，必须遵照该法案订立的标准，以保护病患隐私权益。

“美国大型医疗产业在处理巨型数据时，要问自己几个问题”，Jose说，“第一，我们的组织能不能归类为受保单位或商务代理人？第二、我们的组织有没有处理受保护的电子医疗资讯？如果答案是肯定的或不确定，请联络律师或HIPAA专家。”(张劭聿)◇