www xx com-新算法可快速发现基因表达数据中的异常

卡内基梅隆大学的计算生物学家已经设计出一种算法,可以快速分类大量的www xx com表达数据,以发现可能值得进一步研究的意外现象。此外,该算法然后重新检查其自身的输出,查找它所犯的错误,然后进行纠正。

CMU计算生物学系教授CarlKingsford和Ph.D.CongMa的这项工作。计算生物学专业的学生,是首次尝试自动搜索通过www xx com测序或www xx com-seq(推断www xx com活性水平的主要方法)推断的www xx com表达中的这些异常情况。

正如他们今天在《细胞系统》杂志上所报道的那样,研究人员已经在两个普遍使用且以前未知的广泛使用的www xx com-seq文库中检测到88个异常-异常高或低水平的www xx com区域表达。

金斯福德说:“我们还不知道为什么会看到这88种奇怪的图案。”他指出,它们可能会成为进一步调查的对象。

尽管有机体的遗传构成是静态的,但是www xx com的活性水平或表达随时间变化很大。因此,www xx com表达分析已成为生物学研究以及诊断和监测癌症的主要工具。

异常对于研究人员可能是重要的线索,但是直到现在发现它们都是一个艰苦的,手动的过程,有时也被称为“序列注视”。金斯福德说,要发现一个异常可能需要检查200,000个转录物序列,即编码www xx comDNA信息的www xx com序列。因此,大多数研究人员将他们认为重要的www xx com区域归零,而很大程度上忽略了绝大多数潜在异常。

Ma和Kingsford开发的算法可以自动搜索异常,使研究人员可以考虑所有转录本序列,而不仅是他们希望看到异常的区域。这项技术可以发现许多新现象,例如在多组织www xx com-seq文库中发现的88个以前未知的常见异常。

但是马云指出,识别异常通常不是很清楚。例如,某些www xx com-seq“读段”是多个www xx com和转录本共有的,有时会被定位到错误的序列。如果发生这种情况,那么一个遗传区域可能会比预期的活跃得多。因此,该算******重新检查它检测到的任何异常,并查看当www xx com-seq读数在www xx com之间重新分布时它们是否消失。

马云说:“通过在可能的情况下纠正异常,我们减少了错误预测差异表达实例的数量。”