Компьютерные методы обработки результатов "-омных" экспериментов

Компьютерные методы обработки результатов "-омных" экспериментов

 

Т. В. Андреевский, лаб. системной биологии

 

Институт биомедицинской химии РАМН

 

 

Рассматриваемые методы



I. Протеомика (LCMS):

  1. "top down" (уровень интактных белков)

  2. "bottom up" (пептидный уровень): MS/MS; AMT (точная массовая метка)

II.  Метаболомика (LC-MS,GC-MS)

III. Транскриптомика

 

Общий план уровней программного анализа рассматриваемых методов

 

1. Уровень интерпретации.

  Непосредственная интерпретация данных, получаемых из приборов.

  Примеры: идентификация кДНК, пептидов, метаболитов.

 
2 (опциональный). Уровень экстраполяции полученных данных.

   Примеры: определение белков на основе данных о пептидах.

 

3. Уровень сравнения нескольких экспериментов

    Сравнение результатов различных экспериментов:

-     выравнивание (где необходимо, например, хроматограмм),

-     нормализация интенсивности,

-     качественное сравнение нескольких экспериментов

-     (полуоличественный анализ

4. Уровень обобщения

     Организация полученных данных в общей модели

 

Транскриптомика


За все уровни анализа для транскриптомики у нас отвечает пакет GeneSpring GX  + FE.

 Функции:

  •    определение интенсивности точек, соответствующих определенным кДНК
  •    нормализация данных по экспрессии генов (различные сценарии) и статистический анализ,  позволяющий определить достоверные различия между двумя и более группами.
  •     группировка генов по биологической функции в Gene Ontology
  •      проекция данных на метаболические пути общедоступных баз данных (KEGG, GenMapp) или Custom Pathway
  •      экспорт в общедоступные текстовые и графические форматы

  
Для примера здесь представлена иллюстрация возможностей GeneSpring для 3 и 4 уровней, т.е. уровня сравнения и уровня обобщения, т.е. организации данных в общей модели. Он может накладывать результаты полученные в эксперименте на известные метаболические пути. Например, ниже представлены интенсивности сигналов в контроле и эксперименте для сети генов, участвующих в апоптозе. Цветом обозначена интенсивность сигнала. Для каждого гена интенсивности контроля и эксперимента представлены в соответствующей половине прямоугольника, обозначающего данный ген.

Apoptosis-all_genes.PNG

 

 

Программное обеспечение, применяемое для первых двух уровней (интерпретации и экстраполяции) в протеомике и метаболомике

 

Протеомика: SpectrumMill, Mascot, MassHunter и GeneSpringMS

 

Метаболомика: Chemstation, MassHunter и AMDIS

 

SpectrumMill (Agilent)

       Элиминация спектров с высоким уровнем шума и спектров плохого качества.

       Обработка спектров, полученных на масс-спектрометрах различных производителей

       Выбор поиска по MS/MS спектрам или PMF против базы данных белков, ДНК или белков+ДНК

       Учет пост-трансляционных или химических модификаций аминокислотных остатков при идентификации белков.

       Проведение обработки данных для de novo последовательностей неизвестных белков.

       Редактирование списка фиксированных и вариабельных модификаций.

       Расчет первичной структуры пептида из известной массы и частично известных аминокислот.

       Отображение изотопного распределения для пептидов.

       Экстраполяция последовательностей белков по идентифицированным пептидам

       Объединение спектров нескольких экспериментов в один обобщенный спектр для улучшения предсказательной силы экстраполяции белков

       Вывод результатов поиска и идентификации в различных формах (список пептидов, список белков, список белков с соответствующими идентифицированными пептидами, сравнение разных поисков) с возможностью полного или избирательного отображения по таким параметрам как вероятностная оценка белка, pI пептида, вид организма, аминокислотная последовательность идентифицированного пептида, химические и пост-трансляционные модификации, величина m/z, масса белка, время удержания и проч.

       Работа с общепринятыми базами данных (NCBI Swiss Prot TrEMBL), а также загрузка и обновление баз данныхравнение последовательности идентифицированных пептидов для гомологичных или ортологичных белков.

       Поиск всех мутантных форм белка.

       Экспорт результатов в формате Excel и html.

       Многопользовательский, "многокомпьютерный" веб-интерфейс

 

 

 

 

Метаболомика : Chemstation

 

ПО для метаболомики представляет собой поставляемые вместе с приборами программы типа MassHunter и Chemstation и AMDIS. Например в состав Chemstation в поставке для газового хроматографа входит модуль распознавания химических соединений путем сравнения полученных и библиотечных спектров для чистых веществ.

 

-     В состав входит библиотека масс-спектров NIST 2005 содержащая более 150000 спектров для соединений и их производных, библиотеки Pmw_Tox3 (Phleger) и Wiley, содержащие более 30000 спектров для соединений и ориентированные на проведение токсикологического анализа и содержащие спектры для лекарственных веществ, их метаболитов и их производных.

-     Общее количество спектров для соединений - 180000.

-     Поиск возможен как в автоматическом, так и в ручном режиме.

-     Осуществляется по совокупности библиотек.

-     Возможно сделать вычитание спектров, позволяя разделить компоненты с близкими временами удерживания и идентифицировать каждое.

 

Метаболомика: AMDIS


  ПО для более удобной работы со сложными хроматограммами.

-     В автоматическом режиме проводит деконволюцию неразделенных пиков на сложных хроматограммах и идентификацию компонентов по библиотечным спектрам.

-     выстраивает профили хроматограмм по наиболее интенсивным ионам присутствующим в спектре хроматографического пика

-     оценивает совпадение профилей для создания индивидуального спектра каждого компонента в неразделенном пике

-     проводит библиотечный поиск

 

 

 

  1.  Имеющееся в распоряжении лаборатории ПО для первых двух уровней позволяет проводить оценку результатов протеомных и метаболомных исследований на качественном уровне с использованием современных баз данных.
  2.  В имеющееся ПО заложена возможность обновления баз данных, что делает возможность поддерживать их актуальное состояние
  3.  На данный момент нет срочной необходимости в программных средствах и алгоритмах для анализа на уровнях интерпретации и экстраполяции.
  4.  Замену имеющегося ПО для этих уровней имеет смысл делать только в случае появления явно улучшенного или принятия стандартизированного ПО

 

 

Третий уровень - уровень сравнения нескольких экспериментов

 

Общий подход основан на выравнивании и нормализации данных любого хроматографического анализа с последующей оценкой интенсивности и времени удерживания пиков при данном m/z

 

Представление профиля XC-MS (LC-MS и GC-MS) в виде двумерного изображения:

XC-MS-image.jpg

 

Результат одного прохода XC-MS представляют в виде двумерного изображения с осью абсцисс в виде времени удерживания и осью ординат в виде отношения массы к заряду, где цветом изображают интенсивность сигнала в соответствующих координатах. После чего к такому представлению применяют алгоритмы выравнивания и нормализации.

 

Близкой и наиболее наглядной аналогией этого является процесс наложения изображений. При наложении изображений два изображения с разными осями координат, с разным масштабом и интенсивностью посредством различных преобразований можно привести в соответствие друг с другом. Т.е. выделяются области одинаковой интенсивности, ищутся углы, реперные точки, которые потом ставят в соответствие друг с другом и производят различные преобразования систем координат для приведения их в соответствие. в результате из двух изображений получают целостную картину. Здесь необходимо отметить, что возможно провести выравнивание общих частей изображений, интенсивности изображений и возможна достройка всего изображения по общим частям двух неполных изображений


(Image and Vision Computing, 2003. 1(11): 977-1000)

 

Наложение-изображений.gif

 

По сути аналогично действуют при выравнивании профилей XC-MS с тем исключением, что нельзя напрямую использовать ПО для наложения изображений, ввиду того, что оно воспринимает такую пеструю картину как шум. Поэтому используется более специализированное ПО.

 

Безымянный.JPG

 

 

Два подхода к выравниванию:


  •  минимизация общего различия интенсивностей двух профилей XC-MS после выравнивания (т.е. принимая в расчет общую интенсивность всего представления)
  •  минимизация различия интенсивностей основных пиков на профилях XC-MS

 

Программное обечспечение для хроматографических данных


Vandenbogaert, M. et al. Proteomics, 2008. 8(4): 650-72

 

Программное обеспечение

URL

OpenMS

http://open-ms.sourceforge.net/

TOPP

http://open-ms.sourceforge.net/TOPP

TPP

http://tools.proteomecenter.org/software.php

XCMS

http://metlin.scripps.edu/download/

CPM

http://www.cs.toronto.edu/~jenn/CPM/

OBI-Warp

http://obi-warp.sourceforge.net/

Recalibrate_using_MSMS

http://ms-utils.org/recalib-rate_using_MSMS.html

SpecArray

http://tools.proteomecenter.org/ SpecArray.php

ChAMS

http://www.pasteur.fr/recherche/unites/Biolsys/chams/index.htm

LCMSWARP

http://ncrr.pnl.gov/Software

PETAL

http://peiwang.fhcrc.org/research-projecthtml

SuperHirn

http://tools.proteomecenter.org/wiki/index.php?title=Software:SuperHirn

GeneSpringMS

имеющееся в распоряжении коммерческое программное обеспечение

 

XCMS


Colin A. Smith, Elizabeth J. Want, Grace O'Maille, Ruben Abagyan, Gary Siuzdak; XCMS: Processing Mass Spectrometry Data for Metabolite Profiling Using Nonlinear Peak Alignment, Matching, and Identification. Anal. Chem., 78 (3), 779 -787

 

Возможности:

-     нелинейное выравнивание времени удерживания,

-     детекция пиков

-     согласованная фильтрация

-     согласование пиков

-     манипуляция данными

-     визуализация данных

-     отбор пиков,

-     относительный количественный анализ без использования меток

-     данные экспортируются в текстовые файлы с разделителями и графические файлы.

 

Здесь представлен пример работы этой программы: мы проанализировали группу контроля в сравнении с экспериментальной группой по 4 прохода каждая. На данном рисунке представлен пример одного из выровненных пиков на хроматограмме. Причем время удерживание представляет собой среднее выровненное время удерживания. Здесь хорошо видны различия между экспериментальной группой и группой контроля.


XCMSimaga.jpg

 

 

SuperHirn


Инструмент для  количественного анализа многомерных данных LCMS в подходе без использования метки, разработанный группой Aebersold в институте Institute of Molecular Systems Biology (ETHZ, Швейцария). Разработан на C++ и работает в среде Unix (тестирован на Linux и OS X).

Mueller, LN, Rinner, O, Schmidt, A, Letarte, S, Bodenmiller, B, Brusniak, MY, Vitek, O, Aebersold, R and Muller, M SuperHirn - a novel tool for high resolution LC-MS-based peptide/protein profiling. Proteomics, 2007. 7(19): стр. 3470-80.
 

 

Возможности:

-     Анализ бинарного сходства проходов LC-MS (воспроизводимость интенсивности, перекрывание пиков)

-     Нормализация интенсивности пиков

-     Автоматическое профилирование спектров

-     Выборочное профилирование пептидов/белков: корреляция профиля пептидов/белков с данным выбранным профилем

-     Количественный анализ без использования меток

 

 

Системные требования ПО

 

-     Обрабатываемые данные характеризуются большим объемом: объем данных одного прохода в среднем варьирует от 200 до 1000 МБ

-     Обрабатывающее ПО чаще всего оперирует всем объемом данных, т.е. для сравнения только двух хроматограмм может потребоваться до 2 ГБ оперативной памяти

-     Обработка данных требует процессора способного к быстрым конвейерным вычислениям

-     Данные характеризуются быстрым их накоплением

-     Обрабатывающее ПО универсально и имеет возможность многопользовательского режима, т.е. необходима возможность безболезненного выделения процессорного времени и памяти для нескольких пользователей

-     Работа под различными ОС