新闻源 财富源

2024年11月15日 星期五

财经 > 滚动新闻 > 正文

字号:  

碳云智能首席科学家李英睿:每个人都是大数据载体 生命是多维度系统

  • 发布时间:2016-01-20 12:13:00  来源:中国广播网  作者:佚名  责任编辑:罗伯特

  2016年1月20日,2016全球大数据峰会GBDC2016在京举行。碳云智能联合创始人及首席科学家、华大基因前科学家及华大科技CEO李英睿做了主题为《管理数字生活》的演讲。他认为,每个人都是大数据的载体,生命是一个多维度系统,希望数据科学和人工智能在未来能解决更多问题。以下是其演讲全文:

  李英睿:大家好,我的主题是:管理数字生活。今天我想跟大家讲讲现在的生物学怎么把人看成大数据的载体来做的。大家脑子里可能对基因都有一个概念,在我们讲的基因,我们每个人,我们知道我们有DNA从爸爸妈妈那边继承下来的遗传的物质。DNA实际上决定我们生活方方面面,它本身是有一个自定式的序列,它有四种所谓的(碱基序列)。和计算机相比,只不过计算机是以0101做标志的,我们的生物是通过ATCG的四进制进行标志。这个东西是非常好的数据载体,目前也有一些公司专门DNA做存储的介质。

  在这样的情况下我们来想一想生命是怎么来运作的?实际上一定程度上可以把生命视作自载的程序。每个人DNA我刚才讲过它本质是数据的序列。我们每个人自己的基因或者基因的序列,它实际上是每个人自己的这样的程序。这样的一个程序刚才我们在这个图里它叫所谓的生命的方程。在左边实际上生命的分子生物学的,就是底层的一些数据。中间在环境的影响之下,最后就会得到这样的所谓在外层的,我们可见的这样的一个表形数据。

  在左边这个分子生物学数据里,最主要的是什么东西呢?最主要的就是我们刚才谈到的基因。基因在环境的作用里,就像一个程序在运行环境或者在一个运行的参数的条件之下,它们最后会形成这样一个表形的结果。什么叫表形?表形就是各种各样的东西,比如像、身高、肤色,等等外在的我们能看到的每个人生命的描述。

  这样大家就理解,为什么在同样的环境下,不同的人会有这样不同的形状,在大家都抽烟,有的人会的肺癌,有的人不会。实际上人与人之间的程序,就是我们刚才谈到的基因和基因相关的分子的数据是不一样的。反过来讲的话,这个程序可以有不同的参数,即使是双胞胎他的程序非常相似的情况下,他在不同的环境里,他仍然会运行出来不同的结果。我们这样来理解我们的生命的话,就可以把生命整个看成是一个信息的系统来观察。

  我们通常讲大数据的时候,我们刚才谈了很多很多方面,在对人的描述的时候怎么讨论,我们如何把人的生命和生命的过程,整体上来讲的话用数据来进行描述。一位科学家提出模型,这个模型是有很多的不同的模型的。但是我觉得这个还比较清晰,我们来看一看。如果一个人我们要描述,就是刚才整个人的个体。从最左边开始的话,首先暴露的在什么样的环境里。中间他有各种各样分子的数据,刚才我们讲到的基因组,蛋白质,代谢,还有其他的身上的所有的微生物的菌群等等这样的分子生物的一些数据。在右边实际上就是有影像或者生物感应器的,这个是在医学或者病例里出现的。

  还有生活数据。刚才我们在谈的,我们目前谈到的绝大部分的大数据的时候,主要谈的实际上是右边的这三个:就是数字化的生活,就是刚才我们进行移动互联网的整个数据汇报的时候,主要谈的是数字化的生活。我们在现代的移动医疗里主要谈到的实际是最右边的另外两个,一个是感应器以及影像学数据。整个人内部的各个层次的数据,实际上现在反而是没有真正的去量化或者解读的,这个也是目前我们对于人类了解的一个很大的问题。但是这个问题正在被解决,这是一个调查,就是整个测量人的全部基因,他的成本曲线的变化。

  这个变化可以看到,在开始的时候,这是上十亿的数量级。在2012年的时候已经降到了1万美金以下,这是多少倍的变化呢?在今天的时候,大概在1千美金这样的一个数量级左右。我们可以看一下整个曲线,这是一个对数曲线,它实际上比我们通常谈到的IT行业的摩尔定律实际上是更快的。实际上现在我们在IT之后,就是所谓的生物技术BT,它是更快的速度在追赶IT的前进的步伐。这样的一个行业,它又恰恰填充到了我们刚才谈到的对人描述的数据,这个时候在未来它对我们产生了很多很多的想象。如果未来我们这样生物数据的采集,这个成本极低的时候,它会发生一个什么样的行业的变现?

  我们现在讲,刚才讲DT PLUS,我们在未来会不会存在某种情况下会存在类似于基因PLUS这样的一个行业呢?我们整个的人的,从刚才谈到的社会生活的数据,医疗影像的数据,以及我们身体内部的运行的实际的生理的分子的数据,以及环境的数据,在一起的时候,它会对我们的生活产生什么样的价值?我待会儿再来谈这个问题。

  另外一个,大家可以理解,就是我们谈生命的大数据的时候,我们每一个人自己实际上就是一个大数据的信息的载体。我们现在仍有很多的问题,我刚才谈的,为什么我们现在仍然没有把生命的很多的问题搞清楚?很大程度上就是因为生命,我们每一个人的数据非常的大。我们现在有这么多人,全国有13亿人口,世界有70亿人,这样的数据情况下,我们要想把人类本身进行一个完整的数学建模,这个是非常非常困难的问题,而且传统意义上来讲,一方面生物学家本身也不是通过数学建模的方式来进行这样的研究。

  反过来,就是我们现在的整个的数据的科学,以及这样的架构体系,它本身还没有涉足生物的领域。因为我刚才谈了,它是摩尔定律的快速的发展,但是大家还没有感受到这样的东西。在这样的基础之上,我们认为在现在我们实际上人工智能本身,包括数据和人工智能本身,还有非常非常重要的应用,这个应用就是专门用来分析人类的生命的大数据。在这样的基础之上,刚才各种各样的支撑,在生命科学就有可能得到使用,在这样一个基础上,它就有可能开启刚才我们谈到的这样的一个对于人类的有完整的数据的描述以及这样的结果。

  在这样的基础上我们为什么做这样的事情?大家知道今天人类的健康管理,实际上是很有历史的健康管理,我们总是在人类已经发生,我们个体发生生病的时候,我们再去医院进行相关的检修。但是事实上,我们在座的不管对任何一个机器,对汽车我们都知道,是要进行保养,对任何我们玩儿的东西都要进行保养,但是我们对人类本身没有保养的概念。为什么没有这个概念呢?因为我们不知道他应该怎么去保养。我们现在把人类进行全部的数据化的描述,以及相关的建模,我们的目标是什么?我们的目标实际上就是要构造一个有可能对人类的整个的生命的进程发生状态描述和预测的这样的一个系统。

  这个系统我们可以理解,就是他很像一个我们平时算命的所谓的水晶球。我们需要知道自己现在身体的状态是什么样的,未来会走向什么样。还有未来如果走向不好的结果的时候,到现在我们可以采取什么样的措施去进行干预,让整个系统按照我们想象的方式来进行运行,来走向未来。这个就是我们生命大数据和人工智能要研究的核心问题,就是对人的状态。大家记得衰老不是一天发生的,它是一个连续的过程。疾病也不是一天发生的,它也是一个连续的过程。因此我们现在做的事情,就是我们要在疾病之前,在未病的时候能够对这个趋势进行掌握,用我们的模型来进行干预和预测。这就是我们整个要研究的一个问题。

  一般在自然环境下,哺乳类的自然生命,我觉得人在120到150岁都是合理的预测,为什么现在达不到这个预测呢?有几个问题:第一,本身这个程序存在Bug。另外,我们在趋势预测里,我们生活运行的过程里,我们的参数给错了,或者整个运行的环境不适合,这个时候我们是不是也有可能会导致提前出现了问题?

  还有,我们整个运行的方法也出现了问题。这里有很多处理的方式,比如最常见的,就是我们本身基因上有比较大的问题,我们叫做遗传上的缺陷。遗传上自缺陷现在我们已经有些办法,可以对基因进行编辑。如果大家最近看生物相关的热点的话,你可以知道,现在我们的科学家已经可以对基因进行编辑,而且最近的情况,在去年的时候对一个英国的小女孩儿进行了基因编辑以后,他修改了她白血病的基因,让她重新变成了一个正常的血液的细胞。这个是现在的技术的力量,我们可以从底层来修改我们的程序的代码。

  另外,对整个运行的趋势进行预测和干预。这是其中的一个例子,也是刚才谈到的十层数据里的一层。这个一层是我们肠道里微生物的菌群。微生物的菌群的总体总量也不大,大概是1-2公斤,但是基因的数量,它有三万个以上。我们人类大概有多少呢?我们人类有不到三万个基因。这样的一个系统跟我们有关系,比如跟我们的糖尿病、心血管,甚至和神经所有的,现在所讲的生活习惯造成的慢性病都有关系。一方面来讲,这个菌群可以作为预测系统,另外它在我们的体外,它也可以成为未来我们干预慢性病,包括三高等的落脚点。

  还有我们这个行业讨论的一些问题叫精准医学。什么叫做精准医学?过往的所有的治疗或者干预的方案,它是对症的,就是你有这个症状我给你这样的医疗。刚才谈到人和人的程序代码本身是不一样的,他运行的状态也是不一样的。在这个系统我们要对这个系统干预的时候,要调成健康的状态,它有不同的处理方式。这个不同的处理方式就是对个人的,个体的,精准的处理。比如说我们每个人的孕妇都知道要吃叶酸。实际上在中国有三分之一的孕妇吃广义的叶酸是没有用处的。因为我们三分之一的人没有办法把药品的叶酸代谢成为生物里面的活性的叶酸。如果我们掌握这样的一个事情的时候,我们就马上知道,你现在要吃另外一种活性的叶酸,它才有可能达到预防胎儿畸形的问题。这个就是我们对整个预测的想法。

  我们重新来想这样的问题,什么是生命?不同的人肯定有不同的回答,但是今天的趋势上,希望看到生命实际上是一种多维度的信息的系统。我们希望了解这个信息系统它运作的规律,从而去干预这样的运作规律,而这个里面最重要的一点,就是我们视它为一个大数据的体系,我们希望能够有数据科学和人工智能等参与,把这个问题最终解决。谢谢大家。

大数据 详细

涨幅榜 更多

排名 股票名称 最新价 涨跌幅
1 紫光股份 80.14 10.01%
2 东软集团 15.94 10.01%
3 赛为智能 18.52 9.98%
4 航天信息 27.13 7.28%
5 天源迪科 17.00 6.25%

跌幅榜 更多

排名 股票名称 最新价 涨跌幅
1 天夏智慧 12.58 -5.77%
2 上海钢联 74.30 -3.19%
3 美的集团 52.84 -3.10%
4 南威软件 12.10 -2.97%
5 奥飞数据 75.28 -2.87%

热图一览

  • 股票名称 最新价 涨跌幅