Предсказание взаимосвязанных белков - 3

Результаты моей диссертационной работы "Выявление взаимосвязанных белков методами анализа геномов" по специальности 03.00.28 - биоинформатика.
Защита прошла 22 октября 2009 года.

Выкладываю введение, автореферат и сам текст диссертации, вдруг кому-нибудь пригодится.

 Скачать pyatnitskiy_avt.pdf
Заголовок: pyatnitskiy_avt.pdf (Details)
Тип файла: pdf
Размер: 811.6 KB
Скачиваний: 220



 Скачать pyatnitskiy_diss.pdf
Заголовок: pyatnitskiy_diss.pdf (Details)
Тип файла: pdf
Размер: 3.0 MB
Скачиваний: 384




Одной из важнейших задач современной биологии является выявление белков, которые либо физически взаимодействуют между собой (например, являются субъединицами белкового комплекса), либо взаимосвязаны функционально (участвуют в одних и тех же метаболических или регуляторных путях). Определение таких белков позволит идентифицировать белковые взаимодействия, отвечающие за различные клеточные процессы, а также выявить возможные пути развития патологических состояний на молекулярном уровне. Для выявления белок-белковых взаимодействий применяются многочисленные экспериментальные методы: коиммунопреципитация [Masters, 2004], белковые чипы [Kerschgens et al., 2009], масс-спектрометрия [Arifuzzaman et al., 2006] и т.д.

Исследование взаимосвязанных белков в настоящее время особенно актуально благодаря успехам крупномасштабных проектов по секвенированию геномов различных организмов, что революционизировало современную биологию (Mushegian, 2007). В настоящее время данные о первичной структуре большинства белков получают путем трансляции соответствующих генов in silico, вместо непосредственного определения последовательности аминокислот.

Уже накоплены сведения о последовательностях геномов более тысячи организмов. При этом широко употребляющийся термин “расшифровка генома” не отражает реальность, поскольку знание последовательности ДНК само по себе не несет в явном виде информации о роли этого гена и кодируемого им белка в функционировании клетки. Для определения функции белка необходимы трудоемкие экспериментальные исследования. Проведение таких работ является отчасти искусством, в то время как секвенирование геномов – это хорошо отработанная технология. Поэтому основной проблемой, стоящей перед постгеномной биоинформатикой, можно считать наиболее рациональное использование имеющегося массива данных о секвенированных геномах для предсказания функций белков и выявления взаимосвязей между белками, обеспечивающих ключевые клеточные процессы.

Для решения подобных задач были созданы вычислительные методы, предсказывающие функции белка и взаимосвязи между белками. В дополнение к традиционному прогнозированию функции белка на основании гомологии, в течение последних лет добавились методы, опирающиеся на данные сравнительной геномики. Для поиска взаимосвязей между белками используются контекстные свойства генов – распределение гомологов в ряду организмов [Pellegrini et al., 1999], положение и относительный порядок следования генов на хромосоме [Overbeek et al., 1999b], частота слияний генов [Marcotte, Marcotte, 2002]. Подобные методы называются контекстно-ориентированными, поскольку используемые свойства генов имеют смысл лишь при их одновременном сравнительном изучении в ряду геномов, то есть в определенном контексте. Анализ контекстных свойств гена показывает, что геном и совокупность геномов представляют собой особый тип данных, который нельзя сводить к простому сочетанию последовательностей генов [Koonin, Galperin, 2003].

Для предсказания групп взаимосвязанных белков в работе использовали метод филогенетических профилей (ФП), согласно которому функционально взаимосвязанные белки также связаны и эволюционно [Pellegrini et al., 1999]. Данный метод использует интуитивно понятную идею, а также относительно прост в реализации. В методе ФП предполагается, что гены, кодирующие взаимодействующие белки, либо совместно наследуются вновь образованным видом, либо элиминируются естественным отбором, то есть являются ко-эволюционирующими. Каждый белок изучаемого организма характеризуется бинарным вектором (профилем), определяющим наличие гомолога гена, кодирующего данный белок, в ряду других геномов (т.н. референтных геномов). При наличии достаточного количества референтных геномов, каждая пара взаимосвязанных белков, входящих в структурный комплекс или метаболический путь, будет иметь схожие ФП.

Предложены различные модификации основной идеи метода ФП. В большинстве работ используется единый методический подход: на первом этапе вводится метрика, определяющая взаимосвязь между парой белков как функцию сходства их филогенетических профилей. Затем выбирается определенное значение метрики (порог), и все пары белков, для которых метрика выше порога, считаются взаимосвязанными. Результаты работы алгоритма сравниваются с одной из баз данных (БД) по взаимодействующим белкам: оценивается количество ложнопозитивных и ложнонегативных предсказаний.

В данной работе используется более общий подход, ориентированный на поиск групп взаимосвязанных белков, называемых также функциональными белковыми модулями [Snel, Huynen, 2004]. Предсказание функциональных модулей производится путем кластерного анализа матрицы расстояний между ФП белков. Поиск функциональных белковых модулей представляется более осмысленным по сравнению с предсказанием пар взаимодействующих белков, поскольку, связывая системную и молекулярную биологию, позволяет раскрывать контекст предсказанных взаимосвязей [Chen, Yuan, 2006; Vinogradov, 2008] и прогнозировать функции неохарактеризованных белков [Dittrich et al., 2008].

Для применения модульного подхода к поиску функционально связанных белков необходимо выбрать параметры, влияющие на результаты работы метода ФП. Таковыми параметрами являются: набор референтных геномов, метод кластерного анализа и способ вычисления сходства между ФП. Для достижения максимальной точности предсказания функциональных белковых модулей необходимо подобрать оптимальные значения этих параметров.

Важным этапом работы являлся выбор способа проверки и верификации предсказанных групп взаимосвязанных белков, поскольку в литературе отсутствует общепринятая методика. Алгоритмы предсказания групп взаимосвязанных белков предложено сопоставить с точки зрения задачи о сравнении разбиений [Gan et al., 2007]. В этом случае, заданное экспертами “истинное” группирование взаимосвязанных белков сравнивается с результатами работы алгоритма. Таким образом, появляется возможность количественно сопоставлять различные подходы к предсказанию взаимосвязанных белков. Этот подход также позволяет учитывать возможность принадлежности белков к нескольким функциональным модулям и автоматически находить оптимальное количество таких модулей.

В качестве источника “корректных” групп взаимосвязанных белков использовали метаболические пути микроорганизмов из БД KEGG [http://www.genome.jp/kegg]. Сравнивая состав предсказанных групп взаимосвязанных белков с составом метаболических путей, определяли оптимальные параметры метода ФП.

В то же время можно представить ситуацию, когда информация о составе метаболических путей и их количестве недоступна или недостоверна, например, при изучении организма с вновь секвенированным геномом. Возникает вопрос, можно ли использовать данные о ФП для предсказания оптимального количества метаболических путей и будут ли биологически осмысленными полученные группы белков. Для решения этой задачи в работе использовали индексы, оценивающие полученное группирование белков без привлечения дополнительных источников информации.

Принципиально новый подход к поиску взаимосвязей между белками был описан в работе [Bowers et al., 2004a], в которой предлагается использовать логические операции для выявления более сложных ассоциаций между белками, нежели простое сходство на уровне ФП. Однако, Bowers et al. провели логический анализ только для троек ФП, а использованный метод не мог быть обобщен на большее количество белков. В настоящей работе для поиска ассоциаций более высокого порядка предложено использовать математический аппарат логической регрессии [Ruczinski et al., 2003], свободный от вышеуказанных недостатков.

Таким образом, целью работы явилось выявление групп взаимосвязанных белков E.coli K12 и M.tuberculosis H37Rv путем сравнения соответствующих филогенетических профилей, отражающих закономерности наследования генов в ряду прокариотических организмов.

Для этого необходимо последовательно решить следующие задачи:
1. Определить численные критерии для оценки соответствия состава предсказанных групп взаимосвязанных белков и метаболических путей БД KEGG.
2. Исследовать степень соответствия между кластеризацией ФП белков E.coli K12 и распределением белков по разделам БД KEGG в зависимости от набора референтных геномов, метода кластерного анализа и способа расчета различий между ФП. Предсказать группы взаимосвязанных белков E.coli K12, используя найденные оптимальные параметры метода ФП.
3. Оценить количество групп взаимосвязанных белков M.tuberculosis H37Rv, используя данные о ФП белков. Предсказать группы взаимосвязанных белков M.tuberculosis H37Rv путем кластеризации ФП на оцененное число групп.
4. Выявить дополнительные группы белков M.tuberculosis H37Rv, взаимосвязи внутри которых определяются наличием устойчивых логических отношений между ФП.

В качестве объекта исследования были выбраны геномы микроорганизмов E.coli K12 и M.tuberculosis H37Rv. Такой выбор объясняется тем, что для подбора оптимальных параметров при выявлении взаимосвязанных белков требуется сравнение с уже известными данными о функциональных аннотациях белков и сведения о распределении белков по известным метаболическим путям. Кишечная палочка является наиболее популярным из модельных микроорганизмов, а ее протеом изучен в тысячах экспериментальных работ. Поэтому изучение и оптимизация параметров метода ФП были проведены для белков E.coli K12.

Туберкулезная микобактерия была выбрана для применения оптимизированной методики, в связи с большой социальной и медицинской значимостью данного микроорганизма. В настоящее время важнейшей проблемой является борьба с высокорезистентными к антибиотикам штаммами M.tuberculosis, а поиск групп взаимосвязанных белков может указать на новые потенциальные белки-мишени для противотуберкулезных препаратов.

За последние 10 лет область вычислительного предсказания функции генов и белков активно развивается [Barker et al., 2007; Salwinski, Eisenberg, 2003; Wu et al., 2006]. Важнейшим стимулом для развития является выполнение высокопроизводительных экспериментов, в первую очередь проектов по секвенированию полных геномов. Если первые геномы (Haemophilus influenzae, Mycoplasma pneumonia) аннотировались в основном экспертами [Fleischmann et al., 1995; Himmelreich et al., 1996], то в настоящее время первичная разметка вновь секвенированных геномов и предсказание функций генов осуществляется автоматически. При этом неизбежно возникает необходимость в автоматической же проверке и уточнении сделанных аннотаций [Artamonova et al., 2007]. Поэтому можно утверждать, что работы в области определения взаимосвязанных генов и белков методами in silico будут крайне востребованы в обозримом будущем.