具体而言,亲本基因的存在产生了一个“填充”(fill)区域,而“复制-粘贴”过程则在新的基因座产生了一个“间隙”(gap)区域。通过将物种间的基因组进行两两比对,可以复现这些“填充”和“间隙”区域以获得候选的转座子区域。此外,根据逆转录转座的TPRT(target-site primed reverse transcription)机制,逆转录转座子的复制往往还需要借助其poly(A) 尾巴,且在插入新基因座后,逆转录转座子两侧还会形成标志性的TSD(target site duplications)序列。
因此,一旦retroSeeker确定了潜在的逆转录区域,它会立即利用动态规划算法对侧翼的TSD和poly(A)序列进行搜索和评分,最终获得高置信度的逆转录转座子候选。通过模拟数据和真实数据的测试,retroSeeker算法表现出高度特异性、高灵敏度和快速的运行速度。
应用retroSeeker算法于人、小鼠和果蝇基因组,retroSeeker鉴定了大批新类型的逆转录转座子,并解码它们的生物发生、表达、进化和潜在功能。由于retroSeeker可对转座子的插入位置进行单碱基精度的鉴定,研究团队发现大多数新的逆转录转座子表现出特定的L1内切酶切割基序,其中一些基序精确地位于插入位点上游的10个核苷酸。结合大规模的基因表达数据,发现大量的候选新功能基因可能通过逆转录转位机制产生,例如,一些蛋白编码基因本身不具备编码miRNA的能力,但是通过逆转录转座形成转座子后,能够进一步产生新的miRNA基因。有趣的是,研究团队还发现了组蛋白基因、线粒体基因和vault RNA基因通过逆转座子机制产生了新类型的逆转录转座子。结合ENCODE/CCLE大规模的组织/癌症表达数据,作者进一步阐明了逆转录转座子的组织特异性表达,并证明了它们在各种癌症类型中的普遍表达。最后,应用retroSeeker算法于更多物种的基因组,揭示了逆转录转座子的复杂进化模式,并发现了许多物种特异性的逆转录转座子事件。综上,该研究开不仅鉴定了逆转录转座子在各物种基因组的精确分布图谱,也为进一步阐明逆转录转座子的特性及其在生理和病理过程中的潜在作用提供了新算法。