Совмещение медицинского и математического подходов к диагностике заболеваний

М.Л. ЖМУДЯК, А.Н. ПОВАЛИХИН, А.В. СТРЕБУКОВ, А.В. ГАЙНЕР, А.Л. ЖМУДЯК, Г.Г. УСТИНОВ

Кратко о моделировании

Выше отмечалось, что диагностика на основе предложенного метода траекторий является и одной из форм совмещения медицинского и математического подходов: медицинский подход используется при моделировании траекторий ДП, а математический - при сравнении траекторий ДП реального больного с траекториями диагностируемых болезней [25, 26, 90, 91, 92, 104].

Когда нет моделей, основанных на медицинских знаниях, на физиологии и патофизиологии, примитивную модель можно построить на основе статистики. При построении основанной на базе данных модели для каждого признака заболевания изучается траектория математического ожидания (т.е. зависимость средних в каждый день заболевания величин признака от времени, прошедшего с начала заболевания). Затем на основании медицинских знаний решается: какими параметрами траектории допустимо варьировать, чтобы описать индивидуальное (у конкретного больного) течение данной (j -й) болезни. Или, шире, как допустимо изменять траекторию, чтобы отразить индивидуальное течение болезни. При этом в простой форме учитываются и взаимосвязи признаков. Например, повышение траектории одного признака может быть только при повышении другого; или превышение одного признака над средним уровнем связано с уменьшением другого признака и т.п. Таким образом, получаем модели динамики признаков, и их совокупность можно рассматривать как упрощенную модель болезни. Далее, найденные у больного величины диагностических признаков аппроксимируются траекториями с учетом ограничений, наложенных на форму (течение) траекторий. Затем постулируется форма распределения признаков (величин анализов) относительно индивидуальных траекторий. За неимением данных о распределении признаков вокруг индивидуальных траекторий во многих случаях допустимо принять, что распределение относительно индивидуальных траекторий такое же, как относительно математических ожиданий - относительно основной траектории болезни. Подчеркнем, что изложенная аппроксимация проводится для каждой ( j -й) болезни. После этого тем или иным методом рассчитывается вероятность болезни.

Очень краткое изложение диагностики с использованием моделей болезней выше приведено, скорее, для сведения о том, что такое направление было предложено [25, 26, 90, 91, 97, 117].

Использование условных вероятностей

Другой путь использования знаний физиологии, патофизиологии и т.п. состоит в том, чтобы задать степень взаимозависимости между симптомами и анализами, исходя из медицинских знаний. Этот путь включения медицинских знаний рассмотрим применительно к использованию формулы Байеса. В обзоре (глава 1) отмечалось, что при расчете вероятностей по формуле Байеса признаки заболеваний необоснованно считаются независимыми. Учет зависимости симптомов не проводится из-за недостаточного объема статистики.

В этой ситуации степень зависимости одних симптомов от других могла бы задаваться на основании знаний медиков. Этим медицинские знания компенсировали бы недостаточный объем статистики. Аналогично на основании медицинских опыта и знаний можно задать условные вероятности одних диагностических признаков относительно других. Задание условных вероятностей и степеней зависимости эквивалентны, так как условные вероятности однозначно пересчитываются в степени зависимости диагностических признаков между собой.

Задание условных вероятностей может быть развито в метод диагностики, суть которого в следующем. Кроме условной вероятности задается допустимый диапазон ее изменения.

При заданных условных вероятностях ставятся (вычисляются) компьютерные диагнозы больным из базы данных. (Напомним, что в базе данных собраны больные с точно установленными диагнозами.) Затем методами нелинейного программирования, например, методами параметрической оптимизации внутри заданного допустимого диапазона изменения условных вероятностей находятся такие величины условных вероятностей, при которых диагностика наилучшая, наибольшее количество компьютерных диагнозов верно. Полученный оптимальный набор условных вероятностей используется для диагностики больных [104].

Дополнение статистики и уточнение распределений

Поставленная задача совмещения медицинского и математического подходов имеет общий характер как проблема совмещения знаний в предметной области и расчетов на основе статистики, но здесь излагается только отображение указанной задачи на медицинскую диагностику. В медицинской диагностике превалируют два подхода: А - использование экспертных систем; В - использование методов теории вероятностей и математической статистики, и/или формально-математические приемы. Не вдаваясь в тонкости классификации, подчеркнем принципиальное отличие подходов: А - базируется на знаниях и опыте врача, В - на формальной обработке данных (игнорируя мнение врача).

Очевидно, что постановочна задача о совмещении подходов А и В. Действительно, подход А использует знания врача в области физиологии и патофизиологии и т. п., что очень ценно. Однако этот (А) подход не универсален и не в полной мере использует статистику. (Статистику включает на интуитивном уровне в виде личного опыта и знаний об опыте коллег.)

Подход В позволяет достаточно полно использовать статистическую информацию, т.е. накопленный опыт, но не обращается к знаниям о механизмах взаимосвязи процессов в организме и т.п.

Выше отмечена возможность совмещения подходов А и В путем моделирования болезней. Когда модели болезни нет, предлагается включить медицинские знания в чисто математический подход В через уточнение и дополнение используемой статистики (собранной и используемой базы данных). Имеющиеся распределения ДП всегда получены (построены) по ограниченным выборкам. Медицинские знания позволяют эти распределения уточнить и дополнить. Таким уточнением и дополнением статистики в математический подход включаются знания врача о физиологии и патофизиологии, течении болезни, воздействии лекарств и т.п.

Предлагаемое уточнение распределений за счет медицинской информации можно дополнить вариационным подходом. Можно задать интервал вероятных кривых распределения каждого ДП. Затем, используя имеющуюся (тестовую) базу данных, внутри интервала выбрать те кривые, при которых диагностика наилучшая.

Расчет вероятностей болезней в известных нам публикациях проводится по одномерным распределениям. Переход к многомерным распределениям снял бы многие проблемы. Но сбор данных, достаточных для построения многомерных распределений, в большинстве случаев непосилен. Вместе с тем, используя доступную статистику, в ряде случаев можно по одномерным распределениям «построить» многомерные распределения за счет медицинских знаний - вследствие понимания взаимосвязи симптомов и анализов.

Многомерные распределения являются неограниченным «потребителем» дополнения распределений: если богатая статистика и медицинские знания позволили построить двумерные распределения, более обширные знания позволят построить трехмерные распределения и т.д.

Выше изложены методы совмещения медицинского и математического подходов к диагностике. Начать реализацию предложенных методов рационально с самого простого из них: с дополнения одномерных и двумерных распределений данных (ДП) на основе медицинских знаний.

Использование многомерных распределений

Переход к многомерным распределениям повышает уровень диагностики за счет органического учета взаимозависимости ДП. Этот переход важен, как минимум, для диагностики с расчетом вероятностей болезней по формуле Байеса. Диагностические признаки заболевания взаимозависимы. Но выявить эти зависимости, опираясь на статистику, трудно, в основном, из-за того, что нужен огромный объем статистических данных. Поэтому распространено грубое приближение: при расчетах по формуле Байеса ДП болезни считаются независимыми, хотя в общем случае в едином организме независимость признаков исключена.

Многомерное распределение органически содержит в себе взаимосвязь признаков заболевания, поэтому построение таких распределений избавляет от необходимости учета взаимозависимости признаков.

Предельный случай - многомерное распределение всех признаков заболевания

gj(a_b a.2, (Л3, ... , a_m), где j - номер болезни, a_i (i = 1,2,3,...,m) - признак заболевания. Если бы такое распределение удалось построить, то отпала бы необходимость в расчете вероятности болезни по формуле Байеса. Действительно, определив у больного конкретные величины признаков a_i: a1 = a₀1 = a_o 2 и т.п., сразу (по зависимости gj(a₀1, a2, ... , a_m) получаем плотность вероятности gj. Сравнение gj у распознаваемых болезней j = 1,2,3,...n является достаточной информацией для вывода о диагнозе.

Вышеприведенное рассуждение представляется тривиальным, но после того, как оно высказано. На самом деле, данное рассуждение - общий подход к использованию многомерных распределений.

Плотность распределения непрерывно распределенных ДП наглядна и ее вычисление однозначно. При сочетании дискретных и непрерывных ДП возникает проблема, которая возникла перед авторами с начала исследований [89, 93]: допустимо ли «на равных» рассматривать плотности вероятностей непрерывных ДП и вероятности дискретных ДП? То есть, допустимо ли эти, отличающиеся не только по сути, но в большинстве случаев даже по порядку, величины использовать в одной формуле. В данном случае проанализирована представительность многомерного распределения, включающего и вероятности дискретных ДП и плотности распределения непрерывных ДП. Был рассмотрен академический вариант аппроксимации дискретного распределения непрерывным с помощью кривых плотности вероятности, подобных дельта-функции. Прорабатывались дискретизация непрерывных ДП и проблемы выбора интервалов дискретизации, а также оценки возникающих при дискретизации погрешностей и т. п. В результате было выяснено, что для многомерных распределений проблемы совмещения дискретных и непрерывных ДП вообще нет. Проиллюстрируем это на примере двумерного распределения, в котором один ДП дискретный, а второй непрерывный. Если строить одномерное распределение непрерывного ДП только по величинам этого ДП у тех больных, у которых найдено определенное значение дискретного диагностического признака, то плотность этого «выборочного» распределения и будет плотностью двумерного распределения. И нет необходимости в дискретизации.

Ордината многомерного распределения зависит от масштабов входящих в него непрерывных распределений. Может быть, эти масштабы нужно связывать со средними квадратическими отклонениями диагностических признаков, по которым построено распределение.

Один из вариантов определения вероятности болезни или комплексного многомерного ДП состоит в вычислении вероятности попадания совокупности определенных признаков заболевания a_oi = (a₀1, a₀2, а₀з, ... , a_om) в заданный

гиперпараллелепипед. При этом трудности переходят на задачу задания длины граней параллелепипеда. Не исключено, что длина i -й грани может быть связана с погрешностью измерения i -го ДП [99, 104, 110].

Кроме обычных методов вычисления погрешностей определения дискретных ДП можно предложить следующее. Для дискретного признака вместо его погрешности можно использовать погрешность распределения. Например, пусть у признака (симптома) «боль» распределение при болезни j: 0,8 - есть боль, 0,2 - нет боли. Величины 0,8 и 0,2 имеют погрешность определения. Эта погрешность может играть роль погрешности признака (данную погрешность предлагается использовать как погрешность дискретного признака).

Заметим, однако, что определенные таким образом погрешности могут оказаться разными у разных болезней. Представляется, что нужно использовать одинаковую погрешность у всех болезней. В качестве одинаковой погрешности можно взять наибольшую погрешность данного признака (среди погрешностей при всех болезнях) [99].

На практике в общем случае нет возможности построить многомерное распределение, включающее все ДП. Обычно статистики хватает для построения двух и трехмерных распределений, которые являются распределениями нового многомерного ДП. В простейшем и практически наиболее значимом случае образуются двумерные признаки: из двух одномерных признаков образуется пара. Возникает вопрос: стоит ли один и тот же ДП включать в несколько пар. (При объединении диагностических признаков в пары можно предложить разные принципы объединения. C одной стороны, не стоит с одним диагностическим признаком образовывать много пар, чтобы избежать неадекватного повышения его роли. С другой стороны, чем больше пар можно образовать, тем больше связей между диагностическими признаками можно учесть. Конечно, «образовывать пары», т.е. переходить к двумерным диагностическим признакам, имеет смысл только тогда, когда эти пары можно образовать у всех диагностируемых болезней.) Если рациональна минимизация числа образуемых многомерных диагностических признаков, то в конкуренции ДП на вхождение в многомерный признак очевидно только одно: чем более взаимозависимы ДП, тем рациональнее объединять их в многомерный ДП. Остальные вопросы требуют исследования.

База данных, вероятности и плотности вероятностей диагностических признаков

Характеристика статистических данных

Относительная частота механической и паренхиматозной желтух

Были приблизительно оценены доли больных механической и паренхиматозной желтухами в общем количестве больных этими желтухами. Имеется в виду общее количество поступивших в больницу больных паренхиматозной и механической желтухами. Оценка проведена по данным терапевтического отделения краевого гепатологического центра (больница №5). Принято, что доля больных: паренхиматозной желтухой п = 0,7; механической желтухой %2 = 0,3.

Особенности работы со статистической базой данных

В собранной базе данных для каждого ДП (анализа) указан день, в который ДП определен (день, когда взят анализ). Дни, в которые определены ДП, должны отсчитываться от дня начала заболевания. К сожалению, этот день по истории болезни, в основном, не удается установить, и за день начала заболевания принимается день поступления в больницу. Каждый признак может быть определен (анализ может быть сделан) один или несколько раз, а может быть не сделан вообще в течение всей болезни.

Отсутствие признака (анализа) в один из дней говорит лишь о том, что он в этот день не определялся. Предложенная методика работоспособна и при отсутствии ДП в некоторые дни и, практически, при любой имеющейся в наличии информации. Но, предполагается, что каждый дополнительный признак, любая новая информация уточняют конечный результат - диагноз.

Несмотря на солидный объем собранных данных, остро стоит проблема нехватки или отсутствия статистики для диагностики, для построения распределений. Учет динамики с помощью формулы Байеса требует построения распределения i -го признака для j -й болезни в каждый из дней заболевания. Но, практически, из-за малого числа анализов приходилось объединять признаки за несколько (2 - 5) дней. При этом определяемое данное может усредняться, а может принимать ближайшее значение к указанному дню.

Здесь очень полезно использовать «распространяемость» признаков. Дело в том, что часть ДП в некоторый период не меняется и, определив ДП, можно использовать его не только в день определения, но и в некоторые другие дни. Так, маркеры, появившись, не меняют свое значение до смерти. Обтурацию желчных путей, расширение холедоха и расширение внутрипеченочных ходов можно распространить на ближайшие пару дней до и после дня определения, а чаще - до операции. Зеленый цвет печени наблюдается как минимум 2 - 3 дня до и после определения. Также можно распространить и многие другие дискретные признаки. Но признаки «боль», «зуд», «увеличение печени» могут меняться ежедневно, поэтому они не распространяются.

Предположить состояние признаков «боль», «зуд» можно и по отсутствию данных. Обычно лечащий врач, записывая историю болезни, регистрирует жалобы больного. Если больной не жалуется на боль или зуд, врач эти данные не записывает. Очевидно, что отсутствие данных - это синоним отсутствия боли и зуда. В диагностирующей программе можно учесть подобные особенности медицинских данных и увеличить размер выборки.

«Хорошим», годным для диагностики, считалось распределение, для которого имелось не менее определенного количества данных статистики. В ином случае существует два варианта.

1) Не использовать при диагностике это распределение и сам признак.

2) Использовать искусственное распределение, построенное не по данным статистики, а в результате опроса эксперта - врача. На основании мнения специалиста, можно создать не очень точные, но весьма полезные распределения признаков (см. раздел 3.3 «Искусственные распределения»).

Другой вопрос, который возникает в связи с нехваткой данных: что делать с признаком, значение которого попало в такую «малонаселенную» область статистики, где, согласно гистограмме, вероятность или плотность вероятности равна нулю. Использование нулей в формуле Байеса может привести к абсолютно неверной диагностике. Вероятность болезни, для которой имеет место такое распределение, была бы также равна нулю. Даже, несмотря на то, что другие признаки могли говорить «ЗА» эту болезнь. Изложенное показывает, что плотность вероятности любого признака не должна быть нулевой. Это должно быть какое-то малое число. Про конкретный выбор малого числа можно сказать, что он (выбор) субъективен, слабо влияет на результат, может быть осуществлен экспериментально. В настоящей работе, чтобы избежать проблем с интервалами гистограммы, в которых количество больных нулевое, используются алгоритмы раздела 3.2.2. Без этих алгоритмов для выбора обсуждаемых малых чисел рекомендуется следующее.

Во-первых, должны быть проанализированы распределения признака при разных болезнях. Для одной болезни может отмечаться отсутствие приближенных к значению признака данных, тогда как для другой таких данных может быть достаточно. В этом случае значение признака более характерно для второй болезни, чем для первой. Это отражает реальное состояние в природе. Тогда плотность вероятности первой болезни устанавливается в зависимости от соседнего ненулевого значения плотности. Если данных статистики недостаточно для обеих болезней, то делается вывод, что значение признака не характерно ни для одной из болезней, такого значения признака «в природе не бывает», и признак в диагностике не участвует.

Предусмотрен еще один подход к обработке дискретных признаков. Это переход от рассмотрения признака во множестве дней к одному признаку, для которого динамика не учитывается. Например, переход от признака «боль в разные дни» к признаку «была ли боль». То есть рассматриваются те пациенты, у которых за время болезни хотя бы единожды регистрировалась боль, и вычисляется доля таких пациентов среди всех пациентов. Данный подход уменьшает погрешности распределения, оно становится менее зависимым от лабораторных ошибок, ошибок осмотра пациента (но, конечно, динамика теряется).

Диагностика заболеваний методами теории вероятностей

Марина Леонидовна Жмудяк, Антон Николаевич Повалихин, Андрей Васильевич Стребуков, Александр Викторович Гайнер, Александра Леонидовна Жмудяк, Геннадий Георгиевич Устинов