Сборка скэффолдов геномной последовательности на основе принципа максимального правдоподобия



© 2014, А.Ю. Васин

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Полный текст работы
Презентация

Аннотация

Было разработано и реализовано улучшение метода сборки скэффолдов геномной последовательности на основе принципа максимального правдоподобия. Для уточнения оценки расстояния между контигами используется принцип максимального правдоподобия и новая функция правдоподобия, которая учитывает не только пары чтений, но и несвязывающие пары чтений, а также наличие множества контигов, что позволяет повысить точное оценки расстояний между контигами.

Предложенный улучшенный метод был реализован и протестирован на примере бактерии Escherichia coli. Результаты работы метода были сравнены с результатами работы других распространенных сборщиков скэффолдов. Анализ результатов сравнения явно указывает на то, что улучшенных метод превосходит в точности оценок расстояний не только другие распространенные сборщики, но и исходный сборщик как по среднему отклонению от истинного расстояния, так и по проценту ситуаций, в которых точность оценки оказалась выше у предложенного метода.

Предлагаемый метод собирает скэффолды, обладающие лучшим качеством по сравнению с другими распространенными сборщиками на тестовых данных. Это указывает на перспективность развития и использования сборки скэффолдов на основе принципа максимального правдоподобия. Разработанный метод рекомендуется использовать как один из этапов сборки генома. Разработанный метод оценки расстояний рекомендуется использовать как для повышения качества уже построенных скэффолдов, так и для улучшения результатов работы других методов сборки.