Разработка метода оценки качества сборки генома на основе принципа максимального правдоподобия



© 2014, С.Б. Муравьев

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Полный текст работы
Презентация

Аннотация

Было разработано и реализовано улучшение одного из методов оценки качества сборки генома на основе принципа максимального правдоподобия. Входными данными являются чтения и сборка генома, которую требуется оценить. Результатом является общая оценка сборки, которая представляет из себя логарифм вероятности того, что сборка является правильной геномной последовательностью при заданном наборе чтений. Также вычисляется оценка качества для каждой позиции, которая разбивается на три составляющих: оценка содержимого чтений, оценка расстояния между парными чтениями и оценка глубины покрытия.

В работе было предложено оценивать глубину покрытия на базе эмпирического распределения, поскольку предложенная ранее оценка на базе отрицательного биномиального распределения не точна и была более затратна по вычислениям. Строится сто эмпирических распределений. Каждое распределение вычисляется для позиций с определённым GC-контентом. Для более эффективного обнаружения ошибок во время подсчёта распределений было предложено не учитывать не покрытые чтениями позиции.

Предложенный улучшенный метод был успешно реализован. Тестирование проводилось на синтетически сгенерированных чтениях и сборке Escherichia coli, а также на реальных чтениях и сборках Staphylococcus aureus, Rhodobacter sphaeroides и Homo sapies Chromosome 14 из базы данных GAGE. Анализ результатов сравнения явно указывает на то, что улучшенный метод превосходит в точности существующие метрики по количеству правильно найденных ошибок в сборке и по количеству найденных неправильно.

Предложенный в работе улучшенный метод рекомендуется применять для оценки результатов работы как существующих, так и перспективных сборщиков.