Автоматическое обнаружение лейкоцитов на мазке крови

ОБНАРУЖЕНИЕ ЯДЕР ЛЕЙКОЦИТОВ НА МАЗКЕ КРОВИ С ПОМОЩЬЮ КОМПЬЮТЕРНОГО АНАЛИЗАТОРА ИЗОБРАЖЕНИЙ.

А.М. Пятницкий

ЗАО «Медицинские Компьютерные Системы», www.mecos.ru

 

1.1.Введение.

Визуальный анализ морфологии клетки в мазке крови был и остается золотым стандартом в гематологии. Дифференциальный подсчет белых клеток крови (лейкоцитов) дает ценную информацию для широкого спектра заболеваний. Именно клиническая интерпретация цитоморфологии вносит больший вклад в диагностику гематологических заболеваний, чем многие другие лабораторные тесты. В статье рассматривается задача обнаружения лейкоцитов (фактически их ядер) в мазках периферической крови, окрашенных по Романовскому-Гимзе, с помощью компьютерного анализатора изображений. Это необходимо для последующего определения лейкоцитарной формулы, поиска редких форм или оценки концентрации лейкоцитов в том случае, когда фиксировано количество крови, используемой для приготовления мазка.


Рисунок 1 Принципиальная схема компьютерного анализатора изображений

 

Вкратце опишем стандартный состав компьютерного анализатора изображений. Прибор состоит из светового микроскопа, цветной цифровой видеокамеры, платы захвата изображения (фреймграббер), компьютера с программным обеспечением (рис. 1). Микроскоп оснащен оборудованием для перемещения и фокусировки препарата – моторизованным столиком, способным передвигаться во всех плоскостях. Блок управления позволяет программно управлять перемещениями столика, и соединен с компьютером. Автоматическое сканирование мазка крови обычно состоит из двух, вообще говоря, независимых этапов: анализа эритроцитов в тонкой части мазка и формирования выборки лейкоцитов. Основные временные затраты связаны именно с поиском лейкоцитов.

На практике при обнаружении лейкоцитов мы сталкиваемся с основным и типичным для медицинских приложений компьютерного зрения препятствием - большой вариабельностью изображений, с которыми приходится иметь дело. Напомним перечень требований к цветовым характеристикам мазка крови, окрашенного по Романовскому. Стандартными цветами считаются следующие: эритроциты – розовато-бурые, ядра лейкоцитов – черно-фиолетовые или пурпурно-фиолетовые, цитоплазма лимфоцитов – голубая, цитоплазма моноцитов – голубая или сиренево-голубая. Цитоплазма нейтрофилов должна содержать ясно видимую нейтрофильную зернистость розоватого цвета, эозинофилы должны содержать гранулы оранжевого цвета. Доминирование сине-фиолетовой гаммы в препарате над розово-красной возникает в случае употребления концентрированных растворов или при продолжительном окрашивании. Доминирование розово-красной гаммы цветов над сине-фиолетовой происходит, наоборот, при недостаточной концентрации красителя или же при кратковременном окрашивании. На цветовую гамму препарата также влияет реакция воды для разведения красителя. При щелочном показателе pH>7 препарат синий, напротив, при кислом показателе pH<7 препарат красный. Несмотря на подробное описание стандартной окраски мазка, сформулировать количественные критерии нелегко. Цветовые характеристики изменяются непрерывно, а восприятие цветов зависит от множества факторов – освещения, наследственности и возраста данного наблюдателя и т.д. На рис 2. приведены варианты окраски мазков, взятые из практики работы различных лабораторий. Заметим, что все эти мазки квалифицируются изготовителями как «хорошие», удовлетворяющие внутри лабораторному стандарту.

Рисунок 2 Различные варианты окраски мазка крови

Попытка отвергнуть существующую практику вряд ли возможна. При этом потребовалась бы стандартизация буквально всего: способа приготовления мазка и его окраски, условий освещения препарата, выбора лампы микроскопа и режима ее работы, цветопередачи оптического тракта с учетом используемого микроскопа, оцифровывающей платы, видеокамеры и монитора. Невозможно оснастить все лаборатории одними и теми же автоматами для окраски мазка. Как показывает опыт, наличие автоматического устройства для окрашивания отнюдь не гарантирует привычной цветовой гаммы (желто-красные эритроциты и синие ядра лейкоцитов). Эритроциты могут становиться фиолетовыми, а ядра – почти красными. Возникают синеватые, зеленоватые, пурпурные цвета эритроцитов. Наконец цвет эритроцитов меняется в зависимости от толщины мазка. Цвета ядер лейкоцитов также сильно варьируют, и дело не в одной окраске. Например, в микроскопах фирмы “LEICA” и “ZEISS” ядра выглядят существенно более красноватыми, чем в микроскопах “ЛОМО”.

Итак, практически возможный путь это не пытаться избавиться от вариабельности окраски мазка, но адаптироваться к ней. Наблюдатель всегда использует сравнения, а не абсолютные величины. Разумно потребовать, чтобы и компьютерная программа также основывалась на относительных характеристиках, адаптируясь к данным. Достаточно большие вариации в окраске не приводят к ошибочным результатам при ручном подсчете лейкоцитарной формулы. Нам представляется возможным добиться той же устойчивости и при автоматическом обнаружении. В литературе имеется несколько сотен статей, в которых обсуждается автоматический анализ изображений лейкоцитов. Однако этап обнаружения обычно не считается заслуживающим подробного рассмотрения. Действительно при работе с одинаково (!) окрашенными препаратами без (!) артефактов достаточно эмпирически подобрать одно(!) постоянное число – пороговое значение яркости и считать все более темные объекты ядрами (см. п.2.3.).

Далее в статье формулируются требования к адаптивному алгоритму обнаружения, излагаются основные принципы, положенные в его основу, производится выбор модели описания цветовых характеристик отдельных объектов и их однородных групп, и излагается сам алгоритм.

1.2.Требования к алгоритму обнаружения при определении лейкоцитарной формулы.

Подсчет лейкоцитарной формулы с помощью компьютерного анализатора изображений в простейшем случае состоит из 5 независимых этапов:

1) обнаружение лейкоцитов: из большого кадра, соответствующего одному полю зрения, вырезаются маленькие фрагменты, каждый из которых содержит один лейкоцит;

2) автоматическая фокусировка: положение объектива микроскопа изменяется, снимается несколько изображений всего кадра, после чего для каждого найденного фрагмента выбирается наилучшее по своей четкости изображение;

3) сегментация: в полученных малых фрагментах выделяются 4 области: ядро и цитоплазма лейкоцита и, возможно, прилегающие эритроциты, и фон изображения;

4) измерение геометрических, цветовых и яркостных характеристик ядра и цитоплазмы;

5) классификация лейкоцитов.

Из этих 5 стадий технически сравнительно простыми являются стадии фокусировки и измерения, поэтому о них часто умалчивают и говорят о триаде: обнаружение, сегментация, классификация. До сих пор не существует общепризнанных и надёжных алгоритмов для решения каждой из этих трёх задач. Обнаружение лейкоцитов является первым и в определённом смысле критическим (см. ниже) шагом в этой цепочке. Отсюда – жёсткий набор требований к техническим характеристикам алгоритма обнаружения:

1) Высокое быстродействие: время обработки одного полного кадра (поля зрения) не должно превышать 50 мсек. Дело в том, что для обнаружения ста лейкоцитов приходится просматривать от 600 до 1000 полей зрения, а время, затрачиваемое на общий анализ, не должно превышать 2-3 минут. При этом основные затраты (50-60%) связаны с автоматической фокусировкой и введением задержек, необходимых для прекращения вибраций движущегося предметного столика. Если лейкоцитов в полном кадре нет, то он должен быть обработан предельно быстро. Допускается возможность того, что кадр плохо фокусирован, однако, изображение в нем должно быть не смазанным.

2) Практически полное отсутствие пропусков лейкоцитов. Не систематические пропуски удлиняют время сканирования. Систематические ошибки наиболее опасны – например пропуски оранжевых эозинофилов принятых за скопление эритроцитов. Пропуск даже нескольких клеток для редких форм (например, эозинофилов или базофилов) сильно увеличит и без того большую (за счет малого объема выборки) статистическую ошибку прибавив к ней систематическую составляющую.

3) Малое число ложных тревог (разрушенные клетки, скопления тромбоцитов, грязь, пятна краски ошибочно принятые за лейкоциты). Необходимо отметить, что программы сегментации и классификации, на вход которых поступают фрагменты кадров – результаты обнаружения, обычно весьма специализированы и поэтому неустойчивы к артефактам. Попытка обнаружить ядро во фрагменте кадра, где его на самом деле нет, может привести к обнаружению мнимого “ядра”, то есть ошибка обнаружения провоцирует ошибку на следующей стадии анализа – сегментации. Далее, если такие артефакты накапливаются, а программа классификации делает попытку адаптации к полученной выборке ложных лейкоцитов, то появляются ошибки уже на третьей окончательной стадии – классификации, что негативно скажется на качестве работы анализатора.

4) Обнаружение должно устойчиво работать для препаратов с достаточно вариабельной окраской. Даже если бы оказалась возможной стандартизация цветовых и яркостных характеристик (а на наш взгляд это существенно сложнее, чем добиться устойчивого обнаружения), то всё равно, перед тем как выдать предупреждение о нарушении стандартной окраски, необходимо предварительно обнаружить эти нестандартные лейкоциты. Программа контроля качества мазка в состоянии выдать сообщение наподобие – “Ядра лейкоцитов недостаточно окрашены” только в том случае, если хотя бы часть из них была обнаружена.

5) Лейкоциты должны обнаруживаться и в том случае, когда предварительная информация о цветах эритроцитов в данном препарате отсутствует (зона края мазка не исследована), то есть подсчету лейкоцитарной формулы не обязан предшествовать анализ эритроцитов. Не должно делаться никаких предположений и об относительной доле лейкоцитов по отношению к эритроцитам, существование которых в кадре не предполагается обязательным. Устойчивое обнаружение лейкоцитов не должно зависеть от наличия или отсутствия эритроцитов.

6) Обнаружение должно сопровождаться контролем качества мазка

и работы самого обнаружения. В частности не должна быть слишком большой доля лейкоцитов из толстой части мазка. Если лейкоциты недостаточно окрашены или перекрашены, или цвет эритроцитов необычен (например, из-за неверного выбора pH), то программа должна выдавать соответствующее предупреждение.

7) Для правильного и адаптивного сканирования препарата необходимо измерять локальную толщину мазка.

8) Необходимо контролировать возможное наличие пропусков и предупреждать об этом. Это возможно, если информация обо всех объектах, как принятых за лейкоциты, так и отвергнутых, сохраняется в процессе обнаружения. Тогда в конце работы программы можно проверить действительно ли отвергнутые объекты статистически значимо отличались от принятых объектов. Если это не так, то возможно одновременное появление, как пропусков, так и ложных тревог

9) Если обнаружение основано на поиске фрагментов ядер, то необходимо объединять полученные фрагменты, относящиеся к одному лейкоциту, иначе сегментированные нейтрофилы могут оказаться разделенными на части. Наоборот, если клетки расположены близко, но все-таки разделены, желательно поместить их в разные фрагменты, так как программа сегментации обычно предполагает наличие в кадре ровно одной клетки.

10) Очень важно, чтобы лейкоциты обнаруживались на сравнительно нерезких, плохо сфокусированных кадрах, на которых их характерные цвета могут изменяться. Это связано с тем, что затраты времени на фокусировку весьма велики.

11) На этапе обнаружения могут быть получены сведения о качестве фокуса данного фрагмента изображения. Если оно удовлетворительно, то можно избежать траты времени на фокусировку.

12) Для ускорения и улучшения качества обнаружения желательно работать не со всем изображением в целом, а только с теми его участками, где находятся объекты похожие на лейкоциты. Программа при этом предварительно выделяет такие подозрительные фрагменты, после чего исследует их более тщательно. Такой подход не дает преимуществ только при лейкоцитозе крайней степени, когда число лейкоцитов в одном кадре велико и они находятся близко друг к другу.

 

2.Выбор модели.

2.1.Основные принципы, положенные в основу алгоритма обнаружения.

Основным мотивом при их выборе было стремление к большей устойчивости работы программы, ее автономности и быстродействию.

1. Адаптация к данным происходит для каждого препарата заново. Информация о цветах лейкоцитов и эритроцитов в ранее просмотренных препаратах не накапливается и не используется.

2. Обнаружение основано только на цветовых и яркостных характеристиках ядер. Из геометрических параметров используется только площадь, причем минимально: имеется одно ограничение на минимальную площадь фрагмента ядра: A>11 мкм2 . Поэтому в рамках этого подхода задача различения пятен краски и ядер практически неразрешима.

3. Отсутствует обратная связь с программой классификации обнаруживаемых объектов. Введение подобной связи уменьшило бы число ложных тревог, но увеличило бы вероятность пропуска атипичных клеток, которые могут быть не классифицированы.

4. В качестве интегральной яркостной характеристики выбирается значение зеленого канала и соответствующая оптическая плотность (см.п.2.2). В качестве характеристики цветности используются относительные цвета, как наиболее устойчивые при работе с плохо сфокусированными кадрами, на которых часто не удается определить уровень фонового освещения (см.п.2.3.). Кроме того, относительные цвета позволяют выявить участки кадра, в которых могут находиться лейкоциты и тем самым ускорить процесс обнаружения, осуществляя его локально, только внутри этих фрагментов (см.п.6).

5. Изменение используемой методики обнаружения в процессе скрининга. На первом этапе в начале скрининга для обнаружения используется анализ гистограммы яркости. После формирования цветов двух однородных групп (эритроциты и ядра лейкоцитов) в плоскости относительных цветов (fR,fB) строится разделяющая прямая, которая в дальнейшем используется для сегментации ядер. Переход на этот более устойчивый метод происходит достаточно быстро – после обнаружения нескольких (>5) лейкоцитов. При смещении в более толстую часть мазка цвета эритроцитов несколько изменяются, поэтому с накоплением данных о цветах разделяющая прямая сдвигается.

6. Локальность обнаружения. После получения информации о величине относительных цветов лейкоцитов процесс обнаружения проводится в два этапа. Для всего кадра вычисляется только гистограмма яркости, что необходимо для определения толщины мазка. При этом на основе измерения относительных цветов одновременно отмечаются те точки изображения, в которых могли бы находиться лейкоциты. Дальнейший поиск проводится только в этих фрагментах исходного изображения. Это существенно уменьшает временные затраты, так как количество лейкоцитов в кадре мало (0-5).

7. Измерение толщины мазка основано на определении количества эритроцитов на единицу площади. Если поиску лейкоцитов предшествовал анализ монослоя эритроцитов, то известна средняя оптическая плотность одного эритроцита и их количество оценивается из отношения - общая оптическая плотность/плотность одного эритроцита.

Однако поиск лейкоцитов может быть начат и без исследования монослоя эритроцитов, так как информация о цветах эритроцитов и их удельной оптической плотности может быть получена без их сегментации (см. п.2.7.). При этом используется другая методика определения толщины мазка: измерение толщины производится, не исходя из количества эритроцитов на единицу площади, а непосредственно по гистограмме яркости с использованием эмпирически подобранных порогов.

8. При обнаружении лейкоцитов никак не используется количественное преобладание эритроцитов над лейкоцитами. Если эритроциты отсутствуют (лейкоконцентрат), то разделяющая прямая, будет идти параллельно главной оси эллипса цветов для ядер, отграничивая полуплоскость “сине-красных” цветов. Толщина мазка при этом не определяется.

9. В процессе скрининга мазка происходит обучение программы (решающее правило меняется). Поэтому в конце скрининга для контроля возможных пропусков все ранее отвергнутые объекты проверяются заново. Вместе с тем допускается неоднородность выборки ядер, поэтому контроля выбросов не производится.

 

2.2. Выбор яркостной характеристики, используемой при обнаружении ядер лейкоцитов: значение одной зеленой компоненты или линейная комбинация значений всех трех компонент?

Вычисление гистограммы яркости изображения – простая и быстрая операция, а визуально ядра лейкоцитов обычно выглядят как достаточно контрастные темно-синие пятна. Цвет ядер может меняться, однако, они практически всегда темнее эритроцитов.

Поэтому естественно для получения быстрого алгоритма использовать именно гистограмму яркости. Полный анализ всех трех цветовых компонент изображения - синего (B), зеленого (G) и красного (R) достаточно сложен, так как требует работы с трехмерной таблицей частот встречаемости разных градаций B,G,R. С другой стороны, ядра лейкоцитов обычно достаточно интенсивно окрашены и могут быть найдены и на черно-белом изображении как темные пятна. Итак, простейшая методика поиска лейкоцитов - изучение гистограммы яркости этого черно-белого (grayscale) изображения. Возникает вопрос о том, как ее определить. Возможны как минимум три варианта.

1)На наш взгляд наиболее правильный способ - выбрать в качестве меры яркости интенсивность зеленого канала G. Этот выбор основан на том, что и эритроциты, и лейкоциты существенно поглощают свет в зеленом диапазоне, а обычные камеры наиболее чувствительны именно в этой части спектра. Это робастный подход, сочетающий в себе простоту и надежность.

2)В качестве яркости можно взять среднее арифметическое всех трех каналов (B+G+R)/3. Этот способ заимствован из представления HSV. Однако, так как пики поглощения в разных каналах соответствуют существенно разным значения интенсивности, пики на гистограмме среднего арифметического выглядят менее контрастно. Например, пик поглощения эритроцитов для красной компоненты R часто накладывается на пик фона. Часто в работах яркость определялась как среднее арифметическое, после чего проводилась пороговая сегментация изображения. На микрофотографиях видно, что светлые области в эритроцитах сегментируются достаточно плохо. Другой, столь же произвольный вариант - использовать стандартное определение яркости принятое в телевидении и основанное на психофизиологических данных.

3) Более разумный (“научный”) путь - это ввести новую цветовую компоненту X как линейную комбинацию от R, G, B , причем коэффициенты в ней подобрать из условия оптимальности некоторого критерия. Однако ясно, что при работе с различно окрашенными препаратами все эти коэффициенты придется подбирать заново.

 

 

2.3.Гистограмма яркости типичного поля зрения в мазке крови.

В простейшем случае на гистограмме яркости типичного кадра (независимо от того, как определить величину яркости (см.п.2.2)) выделяются три пика, соответствующие ядрам лейкоцитов, эритроцитам и фону (см. рис 3).

 
 

Рисунок 3. Гистограмма яркости типичного поля зрения в мазке крови в простейшем случае: видны 3 изолированных пика – ядра лейкоцитов, эритроциты, фон (слева направо).

 

В правильно окрашенном препарате оптическая плотность ядер по зеленой компоненте ODG =ln(G0/G) = 0.6 - 2.0, оптическая плотность эритроцитов в тонком слое ODG = 0.2 – 0.5. Вообще, глядя на рисунок 3, можно усомниться в том, что обнаружение ядер лейкоцитов требует сложных алгоритмов. Тем не менее, на практике возникают многочисленные осложнения:

1) малое число пикселей соответствующих ядрам лейкоцитов: маленькое ядро или часть ядра на краю кадра

2) “светлые” (слабо окрашенные) ядра лейкоцитов

3) “тёмные” эритроциты могут иметь оптическую плотность близкую к оптической плотности ядер лейкоцитов вплоть до 1.1

Все эти причины могут привести к тому, что на гистограмме яркости ядрам лейкоцитов и эритроцитам будет соответствовать один общий пик. Вообще, число пиков в гистограмме яркости оказывается не постоянным, а меняется от 1 до 5. Пик эритроцитов может быть слабо выражен или вообще отсутствовать: в кадре имеются только лейкоциты и фон. (Вообще, нелогично ставить алгоритм обнаружения лейкоцитов в зависимость от присутствия в кадре эритроцитов.) Если в эритроцитах имеется выраженное просветление в центре клетки (palor), то пик эритроцитов может раздваиваться. Иногда из-за неоднородного освещения может раздваиваться даже пик фона. Поэтому “одномерный” алгоритм обнаружения ядер, основанный на гистограмме яркости не будет устойчивым. Ему следует предпочесть двухмерные (см.п.3.4.), а в идеале – трехмерные алгоритмы, использующие все цвета одновременно.

 

 

2.4.Выбор цветовых характеристик, используемых при обнаружении ядер лейкоцитов: относительные цвета, оптические плотности, или относительные оптические плотности?

Критерием выбора является надежность и быстрота измерения параметров цвета. Перечислим факторы, вносящие неустойчивость при сканировании одного препарата (так называемые мешающие или неконтролируемые переменные внутри одной группы):

1) Изменения степени фокусировки кадров.

2) Ошибки алгоритмов, определяющих фоновые значения освещенности по трем цветовым каналам - B0,G0,R0.

3) Изменения окраски ядер внутри препарата (тонкая и толстая части).

4) Изменения интенсивности и спектрального состава падающего света от лампы в микроскопе.

В этом списке практически наиболее важными являются первые три фактора в силу их неизбежности, так как добиться постоянства освещенности нетрудно. Очевидно, что непосредственные, ненормированные значения B,G,R максимально подвержены влиянию всех указанных факторов и непригодны для использования. Выбор следует делать между относительными цветами в той или иной форме ( доли красного и синего в виде fR=R/(B+G+R), fB=B/(B+G+R), или fR1=R/G, fB1=B/G или Hue-Saturation) и оптическими плотностями ODB=ln(B/B0), ODG=ln(G/G0), ODR=ln(R/R0), или их отношениями. Оптическая плотность ядер может существенно меняться как внутри препарата (тонкая и толстая части), так и между препаратами (разные условия окрашивания). Поэтому абсолютные значения оптических плотностей также не могут быть устойчивыми характеристиками. Качество цвета могло бы оцениваться двумя отношениями оптических плотностей: ODR/(ODB+ODG+ODR), ODB/(ODB+ODG+ODR). По-видимому, это был бы самый устойчивый метод определения “обобщенного цвета” объекта, который практически не зависел бы ни от интенсивности, ни от спектрального состава падающего света. Однако измерение всех трех оптических плотностей требует точного определения пика фона на всех трех гистограммах яркости B, G, R (величин B0, G0, R0). Это несколько увеличило бы время анализа и, что более важно внесло бы дополнительную неустойчивость, так как на не сфокусированных кадрах определение пика фона затруднено. Так как обнаружение ядер на плохо сфокусированных кадрах является абсолютно необходимым, то выбор был сделан в пользу относительных цветов, вычисление которых не требует знания фонового уровня. Конечно, изменение фокусировки также меняет относительные цвета, однако, в меньшей степени. Подведем итог и перечислим преимущества и недостатки, связанные с использованием относительных цветов.

 

Преимущества.

1. Возможность быстрого и устойчивого вычисления (не требуется определять уровень фона).

2. Постоянство значений относительных цветов для группы однородных объектов внутри одного препарата.

3. Умеренная, не слишком сильная зависимость от степени фокусировки кадра.

4. Возможность проведения разделяющих объекты границ на плоскости, что алгоритмически несложно и вместе с тем достаточно эффективно. Так, можно легко обнаруживать оптически светлые ядра, имеющие оптическую плотность того же порядка, что и оптическая плотность эритроцитов (0.3-0.4), но отличающихся от них по цвету.

5. Относительные цвета в виде fR=R/(B+G+R), fB=B/(B+G+R) более устойчивы, чем при нормировке только на зеленую компоненту fR1=R/G, fB1=B/G. Для величин fR,fB заранее известны границы интервала [0, 1], в котором они могут находиться, в то время как для величин fR1,fB1 это не так. Малая величина G в излишне темных ядрах не позволяет надежно определить относительные цвета fR1,fB1.

 

Недостатки:

1. Неоднородность метрики на плоскости (fR,fB). При малой доле зеленого цвета (вблизи линии fR+fB=1) зрительно близким оттенкам цвета соответствуют сравнительно большие вариации величин fR,fB. Цвет оптически плотных ядер часто оказывается плохо определенным. Возможный выход состоял бы в том, чтобы характеризовать цвет таких пикселей не одним числом, а целым эллипсом рассеяния с учетом погрешности в определении величин B,G,R, которая составляет для темных цветов несколько единиц.

2. В случае присутствия “подставки” на зависимости освещенность – выходной сигнал камеры относительные цвета зависят от интенсивности падающего света.

3. Неизбежна зависимость относительных цветов от спектрального состава падающего света. Изменение накалы лампы в микроскопе вызовет их изменения.

 

2.5.Основные мешающие факторы.

Если в качестве признаков выбраны только цветовые и яркостные характеристики ядер лейкоцитов, то задача их обнаружения не является корректно поставленной в силу двух главных причин: 1)неоднородности выборки, которая может спонтанно появляться и исчезать (эозинофилы, отдельные бледные ядра, ядра на плохо сфокусированных кадрах),

2)присутствия артефактов (пятна краски, грязь, скопления тромбоцитов). Особенно опасно наличие артефактов в силу известного эффекта “само маскировки” выбросов.

Заметим, что количественные различия в цветах между эритроцитами и ядрами лейкоцитов, связанные с разным режимом окрашивания препаратов (см. рис.2), не являются непреодолимым препятствием. Точки, изображающие цвета ядер и эритроцитов, как правило, хорошо разделяются на цветовой плоскости: ядра - более синие, или сине-красные по сравнению с эритроцитами: эллипс цветов ядер находится сверху и (или) справа от эллипса цветов эритроцитов. Кроме того, для правильно окрашенного препарата обычно есть разделение и по оптической плотности: оптическая плотность ядер (0.4-2.0) больше, чем у эритроцитов (0.1-0.3) .

Неоднородность выборки.

При формулировке критерия проверки объекта следует учесть, что выборка ядер лейкоцитов вполне может быть и часто оказывается неоднородной. На идеальном препарате к неоднородности выборки обычно приводят следующие три причины:

1)Эозинофилы могут образовывать отдельный кластер, смещенный в сторону увеличения доли красного цвета. Подчеркнем, что это не является правилом - в других случаях эозинофилы не образуют отдельного кластера. Иногда это связано с тем, как располагаются гранулы относительно ядра. Если ядро не перекрывается гранулами, то его цвета близки к обычным цветам для лейкоцитов. Итак, будет или нет образовываться отдельный кластер эозинофилов заранее неизвестно.

2)Изредка встречаются неожиданно бледно окрашенные ядра моноцитов и нейтрофилов.

3)Если кадр недостаточно сфокусирован, то цвета всех ядер смещаются в сторону уменьшения долей синего и красного цветов, цветовое разнообразие уменьшается - эллипс рассеяния сжимается.

Принципиально возможная неоднородность выборки ядер накладывает ограничения на используемый механизм контроля пропусков и ложных тревог. В конце скрининга мы не можем проверять объекты, признанные лейкоцитами, на предмет того, нет ли среди них выбросов. Одиночный эозинофил или бледный моноцит действительно оказывается “выбросом” по отношению к основной массе ядер. Поэтому используется другой подход: среди всех отвергнутых объектов мы ищем те, которые попадают в 95%

интервалы рассеяния по оптической плотности и относительным цветам. Если такие объекты есть, то это обычно означает одновременное наличие ложных тревог и пропусков. Другим ограничением, вызванным неоднородностью выборки, является невозможность использовать устойчивые (робастные) методы статистического оценивания, рассчитанные на нормальность выборки.

Присутствие артефактов.

При переходе к реальному препарату следует учесть существование мешающих объектов (скопления тромбоцитов) и артефактов (пятна краски и грязь). Наличие даже небольшого числа ложно принятых выбросов может существенно исказить статистические характеристики выборки, деформировав общий эллипс рассеяния цветов так, что его новая смещенная граница уже не позволит отбрасывать вновь поступающие артефакты (эффект само маскировки выбросов).

1) Тромбоциты могут иметь разные размеры при разных методиках приготовления мазка. Отдельные большие тромбоциты или скопления тромбоцитов могут ошибочно приниматься за ядра лейкоцитов. Обычно доля синего цвета в тромбоцитах меньше, поэтому цветовая граница начинает сдвигаться в сторону уменьшения порогового значения синего цвета, что в свою очередь увеличивает вероятность последующего ложного обнаружения тромбоцитов.

2) В случае загрязнения мазка могут появляться пятна, имеющие неопределенный цвет: их эллипс цветов обычно весьма велик и перекрывается с цветами ядер.

2.6.Используемая модель описания цветовых характеристик одного связного объекта.

Первичными данными являются значения B,G,R полученные в каждом пикселе из связного множества N пикселей, составляющих объект. По этим 3N числам и уровню фона G0 вычисляются новые 3N чисел: относительные цвета fR=R/(B+G+R), fB=B/(B+G+R) и оптическая плотность пикселя ODG =ln(G0/G). Простейший способ упрощенного представления таких данных – переход к статистикам первого и второго порядка: вычисление средних, вариаций (дисперсий) и ковариаций. Даже в этом случае число соответствующих параметров достаточно велико (3+6=9). Дальнейшее упрощение состоит в раздельном описании яркостной и цветовой характеристик. Яркостная характеристика задается гистограммой зеленой компоненты, а цветовая характеристика через эллипс рассеяния цветов. Гистограмму яркости объекта можно заменить одним числом – средней оптической плотностью. Таким образом, каждый объект характеризуется своей средней оптической плотностью и эллипсом рассеяния цветов на плоскости (fR,fB). Эллипс рассеяния определяется 5 параметрами: двумя средними значениями E(fR), E(fB), двумя дисперсиями и одной ковариацией - Var(fR), Var(fB), Cov(fR,fB). На основании этих 5 чисел следует принять решение о том, имеет ли данный объект цвета характерные для ядра лейкоцита. К сожалению, сравнительно устойчивыми характеристиками являются только средние значения. Параметры разброса могут меняться в десятки раз. Внутри одного препарата размеры эллипса рассеяния меняются в зависимости от качества фокуса кадра. Для размытого из-за плохого фокуса изображения размер эллипса цветов существенно уменьшается, а центр эллипса сдвигается в более зеленую область. Между препаратами может иметься огромное различие в степени неоднородности цвета (в десятки раз), поэтому ни о каких предписанных пороговых значениях для параметров разброса говорить нельзя.

2.7.Используемая модель описания цветовых характеристик группы однородных объектов.

Рассмотрим группу однородных объектов. Это могут быть эритроциты, тромбоциты, ядра лейкоцитов (возможно, без учета эозинофилов). В дальнейшем существенно различать два источника вариабельности цветов: разброс цветов внутри данного объекта (для нормальной модели он описывается 5 числами – параметрами эллипса рассеяния) и разброс между эллипсами рассеяния разных объектов, принадлежащих данной однородной группе. Даже такие, казалось бы, однородные объекты как эритроциты - индивидуальны: цветовые характеристики данного эритроцита обычно значимо отличаются от характеристик соседнего. Вариабельность цветов между ядрами лейкоцитов существенно больше. Итак, если описывать каждый объект 5 числами, то исчерпывающее описание модели потребовало бы задания их совместного закона распределения. Например, для нормальной модели это означало бы необходимость оценить 5+15=20 параметров. По-видимому, это слишком сложно и неустойчиво. Тем не менее, абсолютно необходимо оценивать закон распределения центров эллипсов (средних цветов) и размеров (площадей) эллипсов. При этом положение центра и размер эллипса считаются независимыми друг от друга. Для нормальной модели это приводит к необходимости оценить 5+2=7 параметров.

В дальнейшем в качестве объектов будем рассматривать ядра лейкоцитов. Каждое ядро характеризуется своим цветовым эллипсом рассеяния. Положение центра этого эллипса в свою очередь само является случайной величиной, которая приближается двумерным, нормальным законом распределения. В процессе формирования выборки этот закон распределения оценивается своим эллипсом рассеяния уже для средних значений. Оставшиеся три числа (элементы ковариационной матрицы), имеющие смысл параметров рассеяния каждого цветового эллипса также имеют некоторое распределение, однако, оно не оценивается исчерпывающим образом. Накапливается лишь одномерная статистика для легко интерпретируемого параметра – площади эллипса, как меры неоднородности цветов. Наконец, накапливается одна общая двухмерная статистика по цветам всех пикселей всех объектов. Итак, каждая группа однородных объектов характеризуется двумя(!) эллипсами рассеяния. “Эллипс рассеяния средних цветов” основан на статистике средних значений и определяет их изменчивость. Второй эллипс рассеяния получен суммированием всех пикселей для объектов данной группы. Это “эллипс общих цветов”, площадь которого обычно в несколько раз больше, чем у первого.

При обнаружении лейкоцитов в процессе скрининга выделяются два этапа. На первом этапе формирования группы объект принимается без проверки (работает алгоритм, основанный на гистограмме яркости – см.п.3.2.). На втором этапе для вновь поступившего “первичного” объекта уже производится проверка на его принадлежность к данной группе (см.п.3.3.), после которой объект, возможно, будет отвергнут. Если объект считается принадлежащим группе, то его цвета присоединяются к трем статистикам цветов данной группы (два эллипса рассеяния для средних и общих цветов и одномерная статистика для площади эллипсов цветов одиночных объектов). После того как число объектов в группе ядер становится больше 5, делается попытка построения прямой линии, разделяющей цвета эритроцитов и ядер на плоскости цветов (см.п.3.4.). Если качество разделения оказывается хорошим, то полученное линейное неравенство начинает использоваться на стадии сегментации кадра при выделении первичных объектов (“возможно ядер”). Заметим, что это неравенство НЕ используется при проверке объекта на принадлежность к группе, так как оно является достаточно слабым условием, и его главная роль состоит в том, чтобы отделить эритроциты.

 

Информация о цветах эритроцитов может поступать из двух источников. Если до начала поиска лейкоцитов исследовалась тонкая часть мазка, и в ней была собрана выборка эритроцитов, то известны цвета эритроцитов, их оптическая плотность, а так же, как результат сегментации отдельных клеток, - средняя оптическая плотность одного эритроцита. Однако поиск лейкоцитов может быть начат сразу. Кроме того, в процессе скрининга цвета эритроцитов могут меняться. Поэтому главным источником информации о цветах эритроцитов служат текущие кадры. Эритроциты в них не сегментируются, однако, в большинстве кадров нет сомнения в том, где расположен на гистограмме яркости пик эритроцитов. (Этого нельзя сказать о пике лейкоцитов.) Поэтому для пополнения статистики цветов эритроцитов вычисляются цвета пикселей в окрестности моды пика. Это возможно в силу трех обстоятельств:

1) эритроциты, как правило, весьма однородны: их пик на гистограмме яркости достаточно узок, симметричен, а его мода близка к среднему значению;

2) цветовые характеристики эритроцитов почти не зависят от яркости. Более того, даже если такая зависимость и есть, то она обычно имеет линейный характер и вычисление цветов в центре пика эквивалентно усреднению по всему пику;

3) погрешности при вычислении цветов эритроцитов всегда существенно меньше, чем ошибки при определении цветов ядер. (Ядра более неоднородны, к ним “приклеиваются” участки цитоплазмы, кроме ядер есть артефакты по числу сопоставимые с числом ядер).

Указанные причины делают поиск лейкоцитов без предварительного исследования эритроцитов практически столь же эффективным.

3.Описание алгоритма обнаружения.

3.1.Общая схема.

При обнаружении лейкоцитов фактически используются два метода сегментации “первичных объектов”. В начале скрининга информация о цветах лейкоцитов и эритроцитов в данном препарате предполагается неизвестной. Поэтому используется “одномерный” итеративный метод, основанный на изучении пиков гистограммы яркости (п.3.2.). После того как с его помощью найдено несколько ядер лейкоцитов и накоплена информация о цветах эритроцитов, на плоскости относительных цветов fR,fB строится прямая, разделяющая цвета ядер и цвета эритроцитов (п.3.4.). Если граница между цветами эритроцитов и ядер проведена “с запасом” (величины ошибок первого и второго рода малы), она начинает использоваться для сегментации. Итак, при выделении первичных объектов (“возможно ядер”) происходит переход с “одномерного” метода на “двухмерный”: вместо сегментации гистограммы яркости производится сегментация плоскости цветов. Последний вариант более устойчив: нет опасности пропуска светлых ядер, проще работать с плохо сфокусированными кадрами, не нужно точно определять положение пика фона.

Первичные объекты проверяются на принадлежность к группе уже накопленных ядер по своим цветовым характеристикам и либо относятся к истинным ядрам либо к артефактам (п.3.3.). Статистика цветов накапливается для ядер и эритроцитов, но не для артефактов. При изменении статистики разделяющая граница может несколько измениться, однако, обычно это несущественно. Объекты, отнесенные к ядрам лейкоцитов, подвергаются агглютинации (близлежащие объекты объединяются)

Итак, последовательность действий, в результате которых от исходного кадра мы приходим к набору прямоугольников, в каждом из которых находится по одному лейкоциту, состоит из 4 шагов.

1. Выделение первичных объектов – “возможно ядер”. При этом используются два разных метода сегментации – по гистограмме яркости или по цветовой плоскости. Второй метод предпочтительней, но на начальной стадии накоплении выборки используется первый.

2. Проверка первичных объектов на соответствие с уже накопленной выборкой ядер, что возможно, если число накопленных объектов >5. Первичные объекты классифицируются на фрагменты ядер и артефакты.

3. Фрагменты ядер объединяются друг с другом, причем делается попытка достраивания вокруг них цитоплазмы. В результате получаем прямоугольник, внутри которого находится один лейкоцит.

4. Если для сегментации первичных объектов использовалась гистограмма яркости, причем на ней имелось несколько пиков, возможно соответствовавших ядрам, то число найденных пикселей ядер сравнивается с предполагавшимся (числом пикселей в пике). В результате проверки гипотеза о том, какой пик следует считать пиком ядер, может измениться и алгоритм запуститься с первого шага заново.

Как правило, необходимости в итерациях не возникает, алгоритм состоит из трех шагов: первичные объекты => фрагменты ядер => лейкоциты.

3.2.Алгоритм сегментации, основанный на гистограмме яркости.

Предлагаемый алгоритм обнаружения лейкоцитов состоит из двух этапов, которые могут повторяться несколько раз для одного и того же кадра. На первом этапе (на основе изучения гистограммы яркости кадра и предыстории поиска) - выбираются пороговые значения для яркости G и доли синего цвета fB. На втором этапе множества пикселей, удовлетворяющие этим условиям (“первичные объекты”), исследуются на предмет того, можно ли их рассматривать в качестве ядер лейкоцитов. Если общее количество пикселей в этих фрагментах существенно меньше заранее предполагаемого числа, то выбор пороговых значений признается неудовлетворительным и алгоритм запускается еще раз и т.д.

Первый этап – изучение гистограммы, выбор пороговых значений. Для того, чтобы справиться с большим разнообразием встречающихся на практике типов гистограмм яркости, в программе имеется несколько вариантов выбора пороговых значений. Первый и самый ответственный шаг состоит в локализации пика связанного с фоном изображения, который в дальнейшем будет являться опорным, как при вычислении оптической плотности, так и при определении относительных цветов для остальных пикселей. Абсолютные значения приходится использовать только, если пик фона не локализуется. (В качестве пика фоновых пикселей выбирается крайне правый пик с достаточно малой дисперсией: среднеквадратическое отклонение меньше 10 разрядов). Далее составляется список максимумов (пиков), которые могли бы соответствовать ядрам лейкоцитов. Для этого их оптическая плотность должна быть достаточно большой (эмпирически найденная граница >0.6) и среднее значение доли синего fB=B/(B+G+R) для пикселей в этом максимуме должно превосходить аналогичное значение для фона на 0.03 (эмпирически найденная граница). Если таких подозрительных максимумов найдено несколько, то они выбираются последовательно друг за другом (при этом происходит вызов второй стадии алгоритма), начиная с самого светлого. Производится пороговая сегментация по величине яркости и относительной доли синего цвета.

Gmax ; fB=B/(B+G+R)max

Полученные таким образом первичные объекты сравниваются с уже существующими ядрами (см. п.3.2.это этот пункт, откуда взялись ). Если они не будут квалифицированы как ядра, а так бывает при наличии оптически плотных и синеватых эритроцитов, пятен краски, крупных тромбоцитов, то будет произведен выбор следующего максимума. Если лейкоцитарный пик вообще не выделяется, то используются пороговые значения, основанные уже не на текущей гистограмме, а на предыстории поиска, а если таковой нет, то на априорных значениях.

Второй этап – исследование полученных фрагментов. Эта часть не зависит от того, каким методом были получены “первичные объекты”. Алгоритм проверки выделенных объектов состоит из 3 циклов. В первом цикле отбрасываются слишком большие (А>2000мкм2 ) и слишком маленькие (A<11 мкм2) объекты. Попытки объединения фрагментов одного ядра и, наоборот, разъединения близких клеток производятся во втором цикле – см. ниже.

 

Далее измеряется оптическая плотность и цветовые характеристики. Если имеется предыстория поиска, то по критерию « трех сигм» отбрасываются чрезмерно светлые объекты с малой оптической плотностью и вызывается процедуры проверки цветов (п.3.2.). Оставшиеся объекты помещаются в класс условных ядер лейкоцитов.

Во втором цикле по оставшимся объектам предпринимается попытка достроить цитоплазму вокруг ядер. К цитоплазме относят связное множество близлежащих пикселей, которые с большой вероятностью (>0.95) не являются пикселями эритроцитов или фона.. Построенное множество отвергается, если оно слишком велико (>2000мкм2) или форм фактор его внешней границы ((квадрат периметра)/площадь) превышает достаточно большое значение (>50). Достаточно часто при плотном прилежании к лейкоциту близких по окраске эритроцитов цитоплазму не удается достроить таким достаточно простым образом. Тогда ядро или его фрагмент помещаются внутрь прямоугольника с добавленными рамками в 15 мкм. После достраивания цитоплазмы производится агглютинация фрагментов ядер. Это необходимо, так как ядра нейтрофилов, как правило, обнаруживаются в виде нескольких фрагментов. Предпринимается попытка разъединения клеток, случайно оказавшихся близко друг к другу. Это удается сделать, если клетки лежат в несвязных друг с другом островах, окруженных фоном.

Итак, после второго цикла полученные объекты рассматриваются уже как отдельные лейкоциты. В третьем цикле снова проверяются размеры этих объектов, и слишком большие объекты отбрасываются. Напомним, что мы не обнаруживаем агломераты лейкоцитов, нехарактерные для мазка периферической крови.

Если при сегментации использовалась гистограмма яркости, то в конце делается проверка согласованности предположений и полученных результатов. Для этого найденное число пикселей ядер лейкоцитов сравнивается с числом пикселей в том пике гистограммы, который предполагался соответствующим ядрам. Если различия существенны (превышают >50%), и левее пика предполагаемых лейкоцитов был еще один, то вышеописанный алгоритм запускается ещё раз. Например, если пик на гистограмме яркости на самом деле соответствующий оптически плотным синеватым эритроцитам был ошибочно принят за лейкоцитарный пик, мы увидим, что реально найденное количество лейкоцитарных пикселей в изображении существенно меньше ожидаемого. Следовательно, необходимо снизить пороговое значение зелёного цвета и перейти к исследованию следующего оптически более плотного пика. Если препарат правильно окрашен, то повторных попыток обнаружения ядер с новыми пороговыми значениями не требуется.

3.3.Алгоритм проверки первичного объекта на принадлежность к группе ядер лейкоцитов.

Как неоднократно указывалось выше, ядра лейкоцитов НЕ составляют однородную группу. Поэтому не стоит слишком строго относиться к проверке на принадлежность нового объекта к двумерному, нормальному распределению, причем, увы, даже для средних значений относительных цветов. (Для сравнения заметим, что нормальная аппроксимация вполне допустима для средних относительных цветов эритроцитов.) Кроме того, в процессе скрининга мазка желательно начать пользоваться алгоритмом проверки как можно раньше, когда число накопленных (без проверки!) объектов весьма мало (5). Поэтому излагаемый ниже алгоритм носит эвристический характер. В его основу положены следующие положения.

1. Каждый новый объект сравнивается с двумя группами: группой ядер и группой эритроцитов.

2. При определении вероятности принадлежности новой точки к уже существующей группе вероятность подсчитывается дважды. В первом случае вероятность P1 вычисляется до прибавления точки к уже существующей статистике, а при втором -P2, после такого прибавления. Очевидно, что P2 > P1. Подобное вычисление сразу двух вероятностей необходимо, если решения принимаются на основе малых выборок, а число накапливаемых без проверки объектов обычно как раз мало – порядка 5. Если число объектов в группе превышает несколько десятков, то разница между P1 и P2 практически исчезает.

3. Если исследуемый объект более “сине-красный”, чем уже накопленные ядра, то он принимается в любом случае. Иными словами мы не учитываем возможность существования выбросов в эту “сине-красную” сторону. Наоборот, если объект более “зеленый” чем эритроциты, то он в любом случае отвергается.

4. Если вероятность P2 , подсчитанная относительно группы эритроцитов, больше, чем соответствующая вероятность, подсчитанная относительно ядер, то объект отвергается.

5. Если на основе предыдущих пунктов решение не принято, то оно принимается с учетом трех вероятностей. Вероятности P1 и P2 оценивают отклонение среднего значения, а вероятность P3 - отклонение площади эллипса рассеяния от характерных для группы ядер. Объект отвергается, если P2 <0.01 или P3 <0.01.

 

Рисунок 4, Пример проверки данного объекта на принадлежность к выборке ядер.

На рис. 4 показан пример проверки первичного объекта (эллипс его цветов, и его центр имеют синий цвет). Средние цвета ранее принятых в качестве ядер объектов изображены зелеными кружками. Верхний из них на самом деле соответствовал выбросу – пятну краски, но был принят в силу своей “сине- красной” природы. Это исказило эллипс рассеяния средних цветов ядер, вытянув его по диагонали. Для данного первичного объекта соответствующие вероятности P1 =0.53, P2=0.65, P3=0.45 велики, поэтому он будет верно квалифицирован как ядро и добавлен к статистике ядер.

 

3.4.Алгоритм построения разделяющей линии на плоскости относительных цветов.

Для решения собственно задачи классификации объектов проведение разделяющих линий на плоскости цветов не нужно: проще и надежней каждый раз заново считать все условные вероятности принадлежности нового объекта к уже существующим группам (см.п.3.3.). Информации при этом получается больше, а время, потраченное на дополнительные вычисления ничтожно. Действительная ценность простой и проведенной “с запасом” разделяющей границы, так чтобы практически все цвета пикселей ядер оказались по одну ее сторону, а цвета эритроцитов по другую, – это использование ее для сегментации объектов первого уровня (“возможно ядер”) на следующих кадрах. Как правило, это оказывается возможным.

В настоящее время проводится только одна разделяющая линия между двумя однородными группами – ядрами лейкоцитов и эритроцитами. Дело в том, что из остальных объектов (тромбоцитов, пятен краски и других загрязняющих мазок пятен) трудно сформировать однородные группы. Для двух нормальных случайных распределений с различными ковариационными матрицами оптимальной разделяющей кривой является линия Неймана-Пирсона (кривая второго порядка, обычно эллипс или гипербола), на которой отношение соответствующих плотностей вероятностей постоянно. Величину этого отношения можно выбрать, задавая вероятность ошибки первого рода - отнести объект первого типа (ядро) к объектам второго типа (эритроцитам). При этом вероятность ошибки второго рода (принять эритроцит за ядро) оказывается наименьшей. Напомним, что частным случаем кривой Неймана-Пирсона (при равенстве ковариационных матриц) является линейный дискриминант Фишера. В нашем случае им нельзя пользоваться, так как эритроциты всегда намного однородней ядер в цветовом отношении, хотя их эллипсы рассеяния часто ориентированы почти параллельно.

Однако при построении разделяющей кривой Неймана Пирсона по вновь поступающим на вход программы выборочным данным можно столкнуться с явлением неустойчивости: функциональный вид кривой (эллипс или гипербола) и ее положение на плоскости могут скачкообразно изменяться (обычно при малом объеме выборки для n<10-15). Возможный выход – это замена теоретически оптимального решения (кривой второго порядка) на более устойчивое и простое решение – прямую линию. Точное построение этой прямой требует численного решения. В настоящее время используется приближенный способ. Разделяющей прямой мы объявляем касательную к линии Неймана-Пирсона. Эта касательная проводится в точке, в которой пересекаются линии Неймана-Пирсона и прямая, соединяющая центры двух разделяемых выборок. Подобное решение не является лучшим среди всех возможных прямых, но практически вполне удовлетворительно. Ошибки первого и второго рода определяются уже после проведения прямой. Приведем соответствующие формулы.

Исходным является пропорциональность оценок плотностей вероятностей: , или в развернутом виде:

 

где , - оценки средних, а и - оценки элементов обратных ковариационных матриц. В результате получаем уравнение поверхности 2-го порядка (для n=2 линии 2-го порядка). Это и есть уравнение разделяющей поверхности (линии) Неймана-Пирсона.

Рассмотрим прямую линию, соединяющую центры выборок: , где параметр . Для t=0 мы находимся в центре первой выборки, а для t=1 – в центре второй выборки. Введем сокращенные обозначения:

; ;

Тогда, уравнение для поиска точек пересечения прямой и поверхности Неймана-Пирсона принимает вид: . Для , в интервале [0;1] это уравнение имеет единственный корень при условии :

. Подставляя полученное значение в уравнение прямой линии, получим точку, в которой проводится искомая касательная плоскость (для n=2 прямая линия): . В случае совпадения ковариационных матриц знаменатель и числитель дроби равны 0. Решением при этом является середина отрезка =0.5 (линейный дискриминант Фишера).

 

 

Рисунок 5 Сравнение двух разделяющих линий на плоскости относительных цветов fR,fB: линии Неймана-Пирсона (гипербола) и прямой, касательной к линии Неймана-Пирсона.

На рис.5 изображена ситуация, возникшая в начальной стадии обнаружения. Эллипс цветов атипично окрашенных (темно коричневых) эритроцитов определен все еще недостаточно точно, а эллипсы цветов ядер еще хуже: накоплено всего 6 ядер, причем одно из них - верхнее правое, существенно отличается от остальных. Это вызвало сильную деформацию эллипса средних (причем не только в сторону “выброса”!) и, возможно, эллипса общих цветов ядер. Тем не менее, даже для такой крайне неблагоприятной ситуации в существенной части плоскости (справа от правой ветви гиперболы) разделяющая прямая хорошо аппроксимирует гиперболу. Ошибки первого и второго рода в данном случае составляют десятки процентов, поэтому перехода к двухмерной сегментации по относительным цветам не произойдет и продолжится накопление информации. Заметим, что на рис.5 изображен крайний случай: разделяющая прямая проходит почти через центр эллипса цветов эритроцитов. При небольшом его смещении вверх прямую провести бы не удалось.

Более важным, чем вопрос точного построения разделяющей прямой, является выбор одного из двух возможных эллипсов рассеяния (общей статистики по всем пикселям всех объектов или только по средним значениям), который будет использоваться в качестве характеристики группы. Общая цветовая статистика для ядер кажется более неустойчивой. Для эритроцитов в силу их большей цветовой однородности общая статистика достаточно стабильна и ее эллипс рассеяния обычно меньше по размерам, чем эллипс рассеяния средних цветов для ядер. Поэтому при построении линейного дискриминанта вводится асимметрия: используются разные эллипсы рассеяния - средних цветов для ядер и общих цветов для эритроцитов.

Полученная прямая будет иметь практическую ценность, если ее удастся использовать для сегментации пикселей, принадлежащих ядрам лейкоцитов в следующих кадрах. Это возможно при выполнении трех условий:

1)Эллипс общих цветов уже найденных ядер практически целиком лежит по одну сторону прямой (>90% всех уже отнесенных к ядрам пикселей).

2)Ошибка первого рода для средних цветов ядер очень мала (<1%). Обычно это условие следует из предыдущего.

3)Ошибка второго рода мала (<1%). Это условие обычно выполняется. Однако даже если бы оно и не было выполнено, то обычно пиксели оптически не слишком плотных эритроцитов отсекаются дополнительным условием по оптической плотности.

Итак, мы видим, что по настоящему критичным является первое условие. И если эллипс пикселей, принадлежащих ядрам, не деформирован за счет загрязнения артефактами (ложными ядрами), то оно выполнено для практически любой окраски. Действительно, хотя эритроциты и могут быть окрашены весьма по-разному (иметь розовый, бурый, зеленоватый или синеватый оттенок), они существенно отличаются по цвету от ядер лейкоцитов. Относительное различие в цвете между окрашенным гемоглобином эритроцитов и нуклеиновыми кислотами ядер лейкоцитов оказывается существенным всегда. Здесь мы вновь возвращаемся к тому, что главным препятствием для устойчивого обнаружения ядер лейкоцитов является не вариабельность окраски мазка, а присутствие в нем артефактов.

 

3.5.Типичные примеры разделения ядер, артефактов и эритроцитов на плоскости относительных цветов.

Приведем диаграммы, соответствующие трем типичным случаям разделения объектов на плоскости относительных цветов (fR,fB).

1.Артефакты, плохо отделяющиеся от ядер. Возникают ложные тревоги и пропуски с выдачей соответствующего сообщения.

Рисунок 6. Разделение объектов на плоскости относительных цветов: артефакты, плохо отделяемые от истинных ядер.

Этот случай демонстрируется на рис.6. Линия Неймана-Пирсона имеет вид эллипса, верхняя и нижняя половины которого изображены зеленым и красным цветом. Для сегментации была использована разделяющая прямая (касательная к линии Неймана-Пирсона). Видно, что, несмотря на хорошее разделение по цветам между эритроцитами и ядрами лейкоцитов (эллипс общих цветов ядер практически весь лежит по одну сторону от разделяющей прямой), имеется много сомнительных объектов (пятна краски и грязи). Средние относительные цвета отвергнутых объектов обозначены черными квадратами, а принятых в качестве ядер – зелеными кружками. Около 10 отвергнутых в процессе скрининга объектов фактически не отличаются от некоторых объектов принятых за ядра. Поэтому в результате программой было выдано сообщение о возможных пропусках и ложных тревогах.

 

2. Артефакты отсутствуют, выборка практически однородна, пропусков и ложных тревог нет.

Рисунок 7. Разделение объектов на плоскости относительных цветов: однородная выборка ядер, артефакты отсутствуют.

Для случая, изображенного на рис.7 , артефакты на препарате отсутствовали, все объекты составили однородную выборку и были правильно квалифицированы как ядра - зеленые кружки соответствуют их средним цветам. Отвергнутых объектов не было. Здесь, как и в предыдущем случае, проведение разделяющей линии в плоскости относительных цветов между эритроцитами и ядрами лейкоцитов не составляет труда. Горизонтальная линия, соответствует разделению по одному синему цвету: качество разделения при этом было бы несколько хуже. Действительно, если бы для сегментации использовалась не наклонная прямая, а горизонтальная, то одно ядро (эозинофил), по которому проходит горизонтальная линия, возможно, было бы пропущено.

 

3.Артефакты, в цветовом отношении достаточно отличающиеся от истинных ядер. Программе удается разделить истинные объекты и артефакты, пропусков и ложных тревог нет.

Рисунок 8. Разделение объектов на плоскости относительных цветов: артефакты отделены от объектов.

На рис.8 мы видим, что благодаря “однородности” артефактов (имевших вид темных бурых пятен), все они (25 штук) были успешно отвергнуты программой обнаружения, и при окончательном контроле ни один из них не попал в диапазон цветовых характеристик ядер. Поэтому сообщения о возможных пропусках и ложных тревогах не было.

Рисунок 9. Разделение объектов на плоскости относительных цветов: крупные тромбоциты (артефакты) отделены от лейкоцитов (объектов).

Еще один типичный пример “почти” удачного разделения приведен на рис.9. Здесь крупные тромбоциты были в основном успешно отделены от лейкоцитов. Несколько тромбоцитов, тем не менее, были ложно обнаружены как лейкоциты: на рисунке видно, что несколько “зеленых кружков” (ядра) более правильно было бы отнести к “черным квадратам” (тромбоциты). Эллипс рассеяния текущего объекта (ядро лейкоцита) обозначен синим цветом. В заключение отметим, что абсолютные значения относительных цветов эритроцитов и ядер лейкоцитов на рис.6-9 существенно различаются.