2月20日,青岛大学数据科学与软件工程学院教授、博士、副院长李劲华在CIO时代APP微讲座栏目作了题为《大数据与生物信息学的应用研究与实践》的主题分享,他从大数据领域背景和有关科研工作(大数据在生物信息学方面的教学和研究工作)两大方面展开叙述。
一、相关背景
(一)生物信息学产生背景
众所周知,生物信息学是八十年代末随着人类基因组计划的启动而兴起的一门畸形交叉学科,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到解释数据所蕴含的生物学意义的目的。当前生物信息学发展的主要推动力来自于分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面。因此,目前的生物信息学可以狭义的定义为将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科,实质是理论概念与实践应用并重的学科。
生物信息学的产生与发展已有三十多年,美国人类基因组计划中对基因组信息学的定义是一门学科领域,包含着基因学组信息的获取、处理、存储、分配、分析和解释的所有方面。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测试工作发展极为迅速,提前完成了约四十多种生物的全基因测试与工作。截止到目前,仅登录在美国GeneBank的DNA系列总量便超过70亿碱基因对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测试所建立起来的EST数据库已超过数百万条,在这些数据基础上派生、整理出来的数据库已达5000多个。
这一切构成了一个生物学数据的海洋。这种科学数据的极速和海量积累在科学发展史上是空前的,但数据并不等于信息和知识,当然,它是信息和知识的源泉,关键在于如何从中对其进行挖掘。与正在以指数方式增长的生物学数据相比,人类相关知识的增长却十分缓慢。一方面是巨量的数据,另一方面是我们在医学、药物、农业与环境等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。
信息学大数据研究工作主要以分析海量多元组学数据为目标,组学大数据为生命科学带来了前所未有的机遇,在研究基因功能、疾病机理、精准医学等方面具有重要意义。大数据的规模性、多样性、高速性等这些特征为生物信息学带来了新的挑战,在数据计算方面,亟需解决中小实验室对计算资源的弹性需求;在数据分析方面,亟需多组学整合分析体系解决生物学问题。缺乏相应的生物学工具是大数据时代生命科学领域面临的主要瓶颈。
(二)青岛大学生物信息学研究背景
1.2009年,位于武汉大学的国家软件工程重点实验室在青岛举办暑期学校,首次听到西方学者提到计算机以生物学跨学科研究,主要包括基因测序、生物大数据可视化等。
2.2011年起,青岛大学与深圳华大基因研究院联合创立青岛大学华大基因创新班,培养大数据时代生物基因组学、生物信息学领域拔尖创新人才。在大学生入校后一个月的时间内,从全校九千多名不同专业学生中择优挑选30人,按照厚基础、宽口径、综合式、国际化的要求,在学科基础课和专业课程阶段设有两个选课模块,一个是医学检验,一个是信息处理。
3.2016年,与青岛大学医学部教授合作,共同申报获批了生物信息学二级学科的硕士点,研究方向主要是:序列和基因组学的分析、药物研发、生物学网络整合、数据挖掘和数据分析(主要是在生物学应用领域)、生物信息学软件方法学的研究。
二、生物信息学研究的主要内容、主要问题和关键技术
(一)生物信息学研究的主要内容
1.基因组学研究
基因组学包含了构成和维持一个生活有机体所必备的基本信息,由细胞内进行的多种分子生物学反应将这些信息转换为真正的生命现象。基因组的一部分编码蛋白质和RNA,其他部分调控这些大分子的表达。表达的蛋白质及RNA折叠为高度专一的三维结构,在体内的特定位置上实现这些功能,这些过程的大量细节都是在分子生物学研究的实验室里揭示出来的,形成大量数据,存储于数据库中。生物信息学试图从这些数据中提取新的生物学信息和知识,是一门植根于全面深入的实验事实和数据的理论生物学。
2.生物信息的收集、存储、管理与提供。
包括建立国际基本生物信息库和生物信息传输的国际网络系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。
3.基因组序列信息的提取和分析。
包括基因的发现与鉴定,如利用国际EST数据库和各自实验室测定的相应数据,经过大规模并行计算发现新基因和新SNPs以及各种功能位点;基因组中非编码区的信息结构分析,提出理论模型,阐明这些区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
4.生物信息分析的技术与方法研究。
包括发展有效的能支持大尺度作图与测序需要的软件、数据库以及若干数据库工具,如电子网格等远程通讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马尔科夫过程方法、神经网络方法、复杂性分析方法、密码学方法、多序列比较方法等;创建一切适用于基因组分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;
5.应用与发展研究。
汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
(二)研究问题
1.生物大数据的存储与管理
包括生物大数据的存储结构、存储标准、管理技术等,生物大数据数量大、结构复杂、存储标准多样,存在非结构化数据、半结构化数据和结构化数据等多种数据结构,如何选择分布式文件系统、分布式数据组合、分布式并行数据库系统也是生物大数据存储与管理技术的主要问题之一
2.生物大数据可视化
生物大数据由于数量巨大,具有普遍生物意义,合理的可视化可以帮助生物学家快速理解和分析生物数据。
3.生物大数据的分析与处理
整合多组学数据进行计算分析已解决实际的生物问题。
(三)关键技术
生物大数据领域中的关键技术有:
1.生物大数据标准化和集成、融合技术
研究组学数据、医疗数据和健康数据集成融合关键技术,研究开发组学、医疗和健康数据信息模型与集成引擎,研究基于国内外标准规范的消息、文档等接口实现技术,基于下一代互联网技术网络安全技术和高吞吐量传输技术。
2.生物大数据表述索引、搜索与存储访问技术
重点突破生物大数据资源描述和并行访问技术,构建生物大数据高效索引和可靠可扩展存储管理系统,基于语义的生物大数据资源检索、生物医疗数据关联搜索等关键技术,建立生物大数据资源搜索与获取服务系统。
3.心血管疾病和肿瘤疾病大数据处理分析与应用研究
分别针对心血管疾病和肿瘤疾病,集成电子病历、图像影像、临床检验数据等多类型数据(覆盖50万以上个体人群,总数据量50TB),开展医疗大数据的处理、存储、分析、应用研究,为提高重大疾病的诊治水平提供大数据支撑。
4.基于区域医疗与健康大数据处理分析与应用研究
选择覆盖100万以上个体人群,总数据量不少于100TB的区域医疗与健康数据,通过处理、存储、分析、整合,构建面向健康服务的知识库及支撑平台,并提供应用服务。
5.组学大数据中心和知识库构建与服务技术
集成包括基因组、蛋白质组等组学数据,总数据量不少于100TB,至少60%以上的数据提供对外访问,重点突破个人基因组可视化技术,组学注释与疾病风险评估技术,建立组学大数据知识库及搜索引擎、数据挖掘和可视化分析平台。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:李劲华
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。