论文通讯作者Jian Zhou博士表示:“尽管启动子对基因功能至关重要,但我们对它们运作机制的了解仍不完整。我们的研究揭示了这些序列在人类和其他哺乳动物体内的工作原理。”
在转录过程中,RNA聚合酶蛋白识别并结合DNA上的启动子区域,将遗传信息转录成RNA分子,进而指导蛋白质的合成。然而,人类启动子通常包含数百个碱基对,且缺乏统一的特征序列,因此其调控机制一直是个谜。
Puffin程序通过分析大量人类启动子数据,发现它们由三种类型的序列模式组成:基序、起始子和三核苷酸。这些序列模式的特定排列方式能够激活或抑制基因的转录,并影响RNA聚合酶对DNA单链或双链的转录选择。这一发现揭示了启动子调控基因转录的复杂机制。
更重要的是,Puffin程序不仅适用于人类启动子,还能预测小鼠和其他哺乳动物启动子的运作规则。此外,该程序还能预测启动子突变对转录的影响,为疾病相关的基因转录变化提供了重要线索。
Puffin程序现已在免费网络服务器上开放使用,为科学界提供了测试任何感兴趣启动子序列的平台。研究人员相信,这种机器学习方法同样可以应用于基因组中其他尚未充分理解的领域,推动生物学研究的深入发展。