论文通讯作者、德克萨斯大学西南医学中心生物信息学系助理教授Jian Zhou博士表示:“尽管启动子对基因功能至关重要,但我们对这些遗传因子的运作机制仍知之甚少。通过数十年的研究,我们虽然识别了启动子的许多特征,但DNA序列如何指导转录过程的规则仍不明确。我们的研究揭示了这些序列在人类和其他哺乳动物体内的运作原理。”
转录是合成细胞执行功能所需蛋白的起始过程,其中RNA聚合酶蛋白附着在DNA链上,将编码信息复制或转录成RNA分子。RNA聚合酶结合的DNA区域即为启动子。
尽管已知人类启动子由数百个碱基对组成,并存在共同的碱基对序列模式,但这类序列在人类启动子中并非普遍存在,因此启动子运作的精确规则仍是一个谜。
为了解开这一谜团,研究团队开发了Puffin机器学习程序。该程序分析了数万个已知的人类启动子数据,发现它们由三种类型的序列模式组成:基序、起始子和三核苷酸。Puffin程序揭示了这些序列模式的排列方式如何影响基因的转录活性,并能预测RNA聚合酶如何优先转录DNA的单链或同时向相反方向转录两条链,这在人类基因中相当普遍。
更重要的是,Puffin程序显示,小鼠和其他哺乳动物的启动子运行规则与人类相似,并能预测启动子突变对转录活动的影响。这一预测结果与实验结果高度一致。
研究团队认为,Puffin程序不仅有助于理解启动子在健康细胞中的运作机制,还能揭示与疾病相关的启动子变化如何导致基因转录异常。此外,该程序已在免费网络服务器上开放使用,方便科学界测试感兴趣的启动子序列。他们进一步指出,类似的机器学习方法可能有助于揭示基因组中其他尚未充分理解的领域。