7月3日(星期四)下午4点,来自香港大学钱玉麟(Francis Chin)教授在升华后楼215为我院师生带来了一场名为“Why Genome Assembly so Difficult?”的学术报告会。本次报告会主要内容是讲解讲解为什么序列拼接这么难,难在哪里,以及自己团队是如何做的序列拼接。最后介绍了宏基因组序列拼接方面的相关研究。
钱教授首先介绍序列拼接看起来十分简单,但实际上有四大困难,分别是测序错误、测序盲点、重复区域、计算内存限制。这将导致拼接任务变得复杂。然后钱教授介绍了自己团队如何基于De bruijn 图解决这些困难,及De bruijn图中k-mer大小的选择对拼接所造成的影响。通过在程序中使用多个k值(k是指k-mer的长度)、缩减图规模,解决内存限制以及重复区域的问题,利用统计规律解决测序错误的问题,然后展示了拼接效果。最后介绍了宏基因组测序的概念,阐明其难点在于将来自不同基因组的read分类,展示了自己团队的宏基因组方面的研究成果。在回答完在座师生提问后,此次报告会在掌声中圆满结束。