Вие сте в: Начало // Всички публикации, Научно-приложни статии // Нови информационни технологии за анализ на медицински текстове

Нови информационни технологии за анализ на медицински текстове

Изграждането на инфраструктурата на електронното здравеопазване включва създаването и поддържането на големи бази данни, даващи възможност за анализ и повишаване на качеството на диагностично-лечебния процес и подпомагане взимането на управленски решения. Досега използваните у нас методи на събиране на медико-административни сведения с помощта на структурирани бази данни, в които информацията се регистрира от специалисти кодировчици на базата на предоставената им клинична документация, са трудоемки, бавни, недостатъчно точни и не могат да обхванат цялото многообразие на клиничната и профилактичната работа. Събираната информация в тези бази често е непълна и недостоверна.

Нашият екип, разполагайки с технологии за автоматична обработка на болнични записи с текст на български език – епикризи, и поради постигнатите обнадеждаващи резултати в рамките на значими научни проекти, доказва възможността за извличането на необходимите коректни данни от медицински текстове, което би спомогнало за ускореното и ефективно внедряване на системи за анализ на качеството и болнично финансиране – например системи, базирани на формирането на хомогенни групи пациенти – диагностично свързани групи (ДСГ).

Досега големи масиви от медицински и медико-административни данни са събирани в рамките на няколко проекта и натрупаният опит може да бъде база за анализ и обсъждане. Специалистите от Медицинския университет в София имат опит при работата с големи бази данни за сравнителни анализи и са сред първите екипи от изследователи и клиницисти в България, приложили на практика още от 1995 г. групирането в ДСГ в рамките на белгийско-български-руски проект, изследващ болничните практики в трите страни. Проектът SSTC 01/BU/RU за сравнителен анализ на медицинските практики между белгийски, български и руски болници с координатор Д. Чаръкчиев е финансиран изцяло от белгийското правителство и разкрива съществуването на значителни разлики между трите държави. Общо 953 437 случая на болничен престой са групирани в ДСГ и е извършен сравнителен анализ. Още на този етап се отчитат трудности при правилното интерпретиране и кодиране на клиничната медицинска информация за целите на формирането на хомогенни групи пациенти. В анализите са включени допълнителни данни за предписаните в различните страни лекарства, които се различават по своя спектър при еднакви ДСГ. Публикуваните резултати недвусмислено доказват предимствата на комбинираното приложение на ДСГ и системи, регистриращи лекарстволечението (което не е включено в минималния набор данни, необходим за групиране в ДСГ).

Първият у нас значим обзор на кейс-микс системите (научен подход за класифициране на епизодите от грижи за пациентите и разработването на стратегии за използване на тези класификации за мениджмънт на здравните грижи) е публикуван през 1997 г. от колектив на Националния център по обществено здравеопазване с ръководител Л. Иванов. Разработката е част от проект ФАР БГ 9301/01/00/L/01 “Подпомагане създаването и въвеждането на здравноосигурителна система в Република България”. Кейс-микс класификациите се опитват да съберат заедно пациентите в групи, които имат клиничен смисъл. Същевременно тези групи съдържат индивиди, за обслужването на които са необходими приблизително еднакви разходи. Последното условие е причината кейс-микс класификациите да се създават трудно, като се отчитат интересите на клиницистите и едновременно се запазва полезността им за мениджърите. Наименованието, дадено на определена група пациенти, които имат сходни клинични характеристики и чиито разходи за обслужване са приблизително еднакви, е диагностично свързана група.

В обзора се обръща специално внимание на практиката на въвеждане на ДСГ от източноевропейските страни и отчетените проблеми, като се подчертава колко важно е уточняването на допълнителни регулаторни механизми с цел избягване на неблагоприятните явления при приложението им.

През 1993 г. започва разработване на проект за внедряване на ДСГ в България, финансиран от USAID (Американска агенция за международно развитие). С нейна помощ и подизпълнители фирми 3М и AVT–Сonsulting са преведени Международната класификация на болестите – 9-а ревизия – клинична модификация (МКБ-9-КМ), ръководства и инструкции за ползването им. Разработен и внедрен е софтуер за отчет на болниците (средствата за първоначална разработка и доставка на програмен продукт в 11 болници са осигурени от проект на програма “ФАР”, включващ и необходимите за целите на ДСГ параметри. По договор със Световната банка от 25 октомври 2001 г. стартира проект „Preparation of Curriculum and Training of Trainers in ICD 9/10 and Diagnostically Related Groups, Coding System in Bulgaria“. Консултант по договора е фирма-3М/East/AG – Switzerland.

Главната цел на проекта е подготовка за промяна начина на отчитане и финансиране на лечебните заведения за болнична помощ. За ръководството и изпълнението на проекта е създадена работна група с председател В. Митрев. От 2002 г. до края на 2004 г. председател на работната група е Яв. Дренски. Със започването на проекта броят на болниците е разширен до 20 лечебни заведения за болнична помощ (ЛЗБП). На разположение е подходящ програмен продукт, включващ модулите – регистрация, кодиране и калкулация. Всички тези 20 болници са подавали медико-статистическа и икономическа информация в периода 1997 – 2001 г. по собствено желание. Икономически и медико-статистически данни от първоначално включените 20 болници в проекта са били анализирани и групирани от фирмата консултант. Анализираните данни на ниво пациент и информацията за разходите, касаещи болниците от пилотния проект (предимно общински и няколко областни), въпреки своята прецизност нямат необходимата представителност, защото през тях са преминавали пациенти със сходна и недостатъчно тежка патология. Във връзка с недостатъчната репрезентативност на резултатите от първия анализ работната група по проекта дава становище за необходимостта от включването на нови 18 болници (университетски, големи специализирани и областни) с по-тежка и разнообразна патология на преминалите през тях пациенти. Целта е била събраните данни да бъдат включени в крайния анализ на международния консултант и изчислените впоследствие относителни тегла да отразяват реално спецификата на българската здравна система. В резултат на това в НЗОК е създадена база данни с медицинска и икономическа информация от 516 000 пациентни записа. Съгласно съобщения на сайта на НЗОК в резултат на този проект в края на 2004 г. са формирани първите български относителни тегла, начални и окончателни реални болнични бюджети на лечебните заведения, включени в проекта, базирани на международни прецизирани диагностично свързани групи /МПДСГ/, както и ясни критерии, статистически методи и анализи за създаване на нови ДСГ. За съжаление докладите с подробните резултати от тези проекти не са публикувани в научните списания и не могат да бъдат оценени и дискутирани.

Констатирани са сериозни проблеми, характерни за методите на кодиране на формализирани медицински данни. Някои публикации от този период дават представа за съществуващите проблеми. В статия, обсъждаща качеството на кодиране и достоверността на медицинската информация, Л. Иванов и сътр. съобщават данни за погрешно кодиране през първата година, достигащо в някои болници до 48 – 49%. На по-късен етап е отчетен процент на грешки при групирането до 7,36%. Проучвания на авторите върху бази данни в редица европейски страни сочат, че грешно поставени кодове се срещат в твърде широки граници – от 1 до 40%. Допустимият процент по литературни данни е до 3%. Според това изследване процентът грешки при направения преглед на ИЗ (историите на заболяване) доказва, че дори когато не се променя ДСГ, информацията е с ниско ниво на качество. Качеството на събраната информация далеч не отразява реалните болнични дейности и не описва “болничния епизод на грижа”. Авторите правят извода, че „само високото качество на кодиране създава достатъчно добра основа за въвеждане на ДСГ. Достоверната информация може да се използва и като механизъм за контрол на качеството на медицинското обслужване”.

В по-нови публикации се обръща внимание на проблемите и възможността за кодиране на информация от съществуващата болнична документация и нейните недостатъци, свързани с ползването й за създаване на “минимална база данни” за отчитане по ДСГ. Обръща се внимание на скритото финансиране от страна на пациентите и НЗОК за лечение на придружаващите заболявания, тъй като при престой в болница пациентите внасят и употребяват в болницата изписаните им за домашно лечение медикаменти.

В най-нови публикации (Кр. Калинов, 2010) при обсъждане на различни възможни подходи за финансиране се подчертава, че “при наличието на надеждна база данни подходът, основан на ДСГ, винаги е за предпочитане”. Едновременно с това свое виждане авторът изтъква наличието на редица проблеми на въвеждането на ДСГ в България:

- липсата на надеждни нови данни, които да дадат възможност за правилен подход при изграждане на case-mix системата, т.е. липса на надеждна статистическа информация;

- липсата на обучени екипи за кодиране;

- обективна възможност да се проверява коректността на кодирането, което вече е сериозна предпоставка за изкривявания.

Изводът на автора е, че “очевидно минималните условия за въвеждане на ДСГ в България не са налице. …Това, което трябва и може да се направи, е да признаем, че досегашните усилия са били не особено успешни и да започнем отново, защото очевиден факт е, че бъдещето на болничното финансиране е в използването на ДСГ”.

В контекста на гореказаното е очевидно, че следва да се търсят пътища за подобряване на надеждността на клинико-административните данни и медицинската и статистическата информация.

В тази насока в световен мащаб активно се разработват проекти за  “вторично използване на данните от електронните записи на пациентите”. Автоматичната обработка на текста в записа на пациента е важна езикова технология при вторичното използване на данните. Автоматичният анализ позволява да се извлича структурирана информация относно диагнозите, лечението, лабораторните изследвания и клинични тестове и др. В България първите експерименти за автоматичен анализ на значителен обем епикризи на български език са направени през 2009 г. в съвместни проекти на учени от Института по информационни и комуникационни технологии (ИИКТ) на БАН и Медицинския университет в София. Това са проектите:

  • ЕВТИМА “Ефективно търсене на концептуални шаблони с приложение в медицинската информатика”, ДО 02-292/18.12.2008, конкурс “Идеи”, фонд “Научни изследвания”;
  • PSIP “Сигурност на пациента чрез интелигентни процедури в лечението”, проект по Седма рамкова програма на ЕК № 216130, FP7-ICT-2008.

В проекта ЕВТИМА основният обект на анализ през 2009-2010 г. е статусът на пациента, а в проекта ПСИП през 2010 г. – автоматичното извличане на диагнози и тяхното кодиране съгласно МКБ 10, лекарства и стойности от лабораторни изследвания на болни от ендокринни и обменни заболявания. Нашите изследвания в рамките на проектите, включващи автоматична обработка на 6200 болнични записа, дават възможност да се обективизират възможностите на технологиите за анализ на биомедицински текстове и извличане на структурирана медицинска информация.

Извличането на сведенията от текста се оценява чрез измерване на две типични характеристики: точност (precision) – процент коректно разпознати стойности от всички извлечени стойности; покриваемост (recall) – процент коректно разпознати стойности от всички налични в текстовия корпус. Постигнатата досега точност е 98,28% на коректно разпознати описания на диагнози на диабетно болни, като покриваемостта е съответно 96,67%. В доклад по проекта PSIP от януари 2011 г. (Deliverable 2.4) точността на разпознаване на лабораторни изследвания и тестове и на техните резултати достига 98,2%, а точността на разпознаване на приложените лекарства е 98,42%.

Следва да се има предвид, че в момента само в епикризите може да се открие сравнително най-точна и обективна и с най-малко изкривявания информация за пациента и неговия болничен престой. Това се потвърждава от факта, че при обработените 6200 болнични записа в болничната информационна система са регистрирани 9321 диагнози, докато от епикризите са извлечени 22 667 диагнози с присвоен код по МКБ 10. Тези факти са подкрепени от констативни протоколи за извършени проверки на СЗОК и НЗОК на случайна извадка от истории на заболяването, при които е установено, че при редица случаи не всички диагнози, описани в медицинската документация и епикризите, са кодирани при отчитане на болните. Това се дължи на общоизвестния факт, че в информационните системи се регистрират и отчитат само необходимите диагнози съгласно изискванията за съответната клинична пътека.

Още по-фрапиращ е фактът, че съгласно записите от болничната аптека всеки болен от извадката е бил лекуван средно с 1,9 медикамента, докато съгласно извлечените от епикризите данни средно на болен са били приложени 5,26 медикамента. Това се дължи на факта, че част от медикаментите, касаещи лечението на придружаващите заболявания, са били предписани амбулаторно на болните и съгласно изискванията те са ги внесли в болницата и са продължили да ги приемат. Всички тези факти са описани подробно само в болничната документация и епикризата. Само с помощта на технологии за анализ на медицицински текст може да се направи анализ на действително провежданото болнично лечение и да се установят допълнително изразходваните ресурси за всеки конкретен пациент.

Получените резултати, сравними с публикуваните от водещи научни институти в тази област, показват потенциала създадените софтуерни прототипи да бъдат развити, усъвършенствани и обучени с цел постигане на коректна обработка на текст от големи масиви клинични записи и извличане на повече показатели.

Следва да се има предвид, че структурата на епикризата е нормативно определена и задължително включва медико-административни данни за престоя, всички диагнози, усложнения и придружаващи заболявания, данни от анамнезата и статуса, проведените изследвания и консултации, проведеното консервативно и оперативно лечение, обсъждане и препоръки за продължаване на лечението и наблюдението на болния. Автоматичната обработка на епикризите от статистически значима извадка пациенти би дала възможност за бързото изграждане на необходимите бази данни, нужни за анализ на качеството и за въвеждане на системи, базирани на хомогенни групи пациенти (ДСГ). Имайки предвид, че в доболничната помощ НЗОК събира текстови данни, касаещи анамнезата, статуса, изследванията и лечението на амбулаторно прегледаните пациенти, и в момента разполага с милиони записи, съдържащи медицински текст, анализа на тези масиви съвместно с болничните записи, включващи епикризи, ще даде възможност за успешното приложение на европейския стандарт ЕN 13940 (CEN TC 241, 2005),  касаещ приемствеността на здравните грижи. Така ще се осигури изграждането на модел на здравно обслужване, базиран на епизоден принцип, включващ ясно дефиниран здравен проблем на пациента, с неговото пораждане, развитие и разрешаване и описващ целия диагностично-лечебен процес в неговия континиум. Този модел на обслужване ще позволи адекватна оценка на ефективността и качеството на оказаната помощ и ще способства за намаляване на разходите и повишаване на ефективността при въвеждането на системи за финансиране, базирани на ДСГ.

С оглед на гореизложеното предлагаме технологиите за обработка на медицински текстове да се включат към приоритетните задачи на електронното здравеопазване. Така с прилагането в практиката на отличните резултати от тези научни проекти ще може ускорено да се доразвият съществуващите информационни технологии в здравеопазването, ще се повиши качеството на болничната и доболничната помощ и ще се осигури събиране на необходимата информация за вземане на управленски решения, базирани на доказателства.

Доц. д-р Димитър ЧАРЪКЧИЕВ, дм

Медицински университет в София

Доц. Галя АНГЕЛОВА, дмн

Институт по информационни и комуникационни технологии, БАН

Отговори

Copyright © 2009 ФОРУМ МЕДИКУС. All rights reserved.
   
Designed by My. Modified by ForumMedicus. Powered by WordPress.