Włodzimierz Borkowski 20.01.2003

Optymalny wywiad lekarski uzyskany drogą programowania dynamicznego

Wstęp

Wywiad lekarski, przez który rozumie się kolejno zadawane pytania lub kolejno wykonywane działania diagnostyczne ma na celu w sposób spójny logicznie i możliwie krótki ( możliwie małymi kosztami) osiągnąć cel, jakim jest wykrycie u diagnozowane pacjenta objawów świadczących o jego stanie zdrowia.

Zasady prowadzenia wywiadu lekarskiego w dowolnej dziedzinie i zakresie tematycznym tworzą lekarze na drodze rozumowania i wiedzy wyniesionej z badań o charakterze statystycznym jak i wiedzy z medycznych nauk podstawowych (o zasadach funkcjonowania organizmu ludzkiego, naturze czynników chorobotwórczych).

Nasuwa się pytanie czy można określić ścisłe i sformalizowane zasady konstruowania optymalnego wywiadu lekarskiego w postaci algorytmu, gdzie wiedza o tym jaki to ma być algorytm będzie pochodziła z badań statystycznych prowadzonych na zbiorach pacjentów (badania kliniczne, badania populacyjne).

Przez optymalny wywiad lekarski rozumie się taki wywiad, w którym zadane pytanie na każdym kroku wywiadu daje najkrótszy (najmniej kosztowny) dalszy ciąg wywiadu aż do jego końca.

Czynniki ryzyka chorób (analiza statystyczna w badaniach klinicznych i epidemiologicznych)

W badaniach klinicznych typu case control określa się, które cechy (z uwzględnieniem ich wartości) jak mocno i jaki sposób wpływają na ryzyko danej choroby.

Dla zatrzymania uwagi rozważmy regresję logistyczną dla dwuwartościowej zmiennej wynikowej (‘choroba występuje’, ’choroba nie występuje’ są wartościami zmiennej wynikowej) i ustalonych z góry cech jakościowych (czynników regresji)

Pominiemy sprawy techniczne związane z jakością estymowanych parametrów modelu, współliniowością czynników, przekodowywaniem cech wielowartościowych na zmienne zerojedynkowe itd.

Ustalamy jakie rozważamy stany zdrowotne (zdrowie i różne choroby. Zakładamy przeprowadzenie zespołu badań case control, dla ustalonych cech (jako czynników) i par stanów zdrowia. Oznacza to, że w badaniu grupą kontrolną jednego stanu zdrowia jest inny stan zdrowia.

W trakcie analizy statystycznej ustalamy jakie wartości cech powodują zróżnicowanie szans wystąpienia tych chorób (w sensie Odds Ratio ). Dokładniejsze omówienie postępowania ( z pominięciem problemu współliniowości czynników, confounders, przekodowywaniem cech wielowartościowych i innych ) zakłada

  1. Ustalanie arbitralnie progowej wartości Odds Ratio dla każdej badanej pary stanów zdrowotnych
  2. Dla danej pary stanów zdrowia obliczanie współczynniki EXP(beta) zastosowanej regresji logistycznej Następnie ustala się, które wartości czynników dają wartość Odds Ratio większą od założonej progowej. Te wartości czynników będziemy zwali kryteriami dyskryminacyjnymi miedzy dwoma stanami zdrowia. Jeśli dany pacjent spełnia kryterium dyskryminacyjne, oznacza to, że spośród dwóch rozpatrywanych alternatywnie stanów jego zdrowia kryterium dyskryminacyjne wskaże na jeden. Miarą ‘mocy dyskryminacji’ jest wartość progowa Odds Ratio.

Dokładniejszy opis właściwości kryteriów dyskryminacyjnych jest teraz pominięty, z tym zaznaczeniem, że dowolne kryterium dyskryminacyjne nie zawiera podzbioru, które także byłoby kryterium dyskryminacyjnym.

W wyniku powyższych działań uzyskujemy zbiór kryteriów dyskryminacyjnych

Stosowane w medycynie systemy punktowe ryzyka na określone choroby odpowiadają przedstawionej powyżej sytuacji. W pełni sformalizowane systemy oceny punktowej ryzyka choroby można stworzyć odwołując się do przedstawionych powyżej kryteriów dyskryminacyjnych oraz znajomości ich rozkładów.

Problem

W jaki sposób korzystając z utworzonego powyżej zbioru kryteriów dyskryminacyjnych oraz danych o ich częstościach ustalić optymalny wywiad lekarski przydatny do stosowania w diagnozowaniu indywidualnych pacjentów.

Warunki jakie musi spełnić ten wywiad.

  1. W najmniejszej liczbie kroków ma ustalić które kryteria dyskryminacyjne występują u diagnozowanego pacjenta.
  2. Wywiad musi sobie radzić w sytuacjach kiedy pytania skierowane do pacjenta i uzyskane odpowiedzi nie są identyczne z kryteriami dyskryminacyjnymi wyniesionych z badań case control (np. przy ocenie stanu noworodka kryterium dyskryminacyjne zawiera wartości 5 cech jak oddychanie, tętno, ssanie w skali 0,1,2 zaś wywiad podaje łączną punktację Agpar w skali 0-10). Wywiad powinien też być odporny na braki danych.

Kryterium dyskryminacyjne dla danej pary stanów zdrowia to w języku klinicystów objaw diagnostyczny (zespół objawów diagnostycznych)

Do stworzenia algorytmu optymalnego wywiadu będzie zastosowana metoda programowania dynamicznego na zbiorze podzbiorów kryteriów dyskryminacyjnych (zespołów objawów)

Postępowanie takie składa się z dwóch części

I Część – konstrukcja algorytmu wywiadu

II Część - prowadzenie wywiadu

W wywiadzie z konkretnym pacjentem po uzyskaniu odpowiedzi na zadane pytanie ustala się, z jakim podzbiorem kryteriów dyskryminacyjnych mamy do czynienie i jakie jest do niej dopisane pytanie które zadajemy jako kolejne.

To zagadnienie programowania dynamicznego będzie wyjaśnione na przykładzie gry MasterMind.

Optymalna gra MasterMind

Definicje:

Rozwiązanie (R) - Odgadywana sekwencja ukrytych czterech kolorów.

Pytanie (P) - dowolny ciąg czterech kolorów, które ustawia osoba odgadująca.

Odpowiedź - para liczb (liczba czarnych kołeczków, liczba białych kołeczków), jakie uzyskuje się po zadaniu pytania.

Odpowiedź kończąca grę – cztery czarne kołeczki.

Zbiór możliwych rozwiązań (MR) –zbiór wszystkich rozwiązań, jakie są możliwe w świetle wiedzy uzyskanej na danym etapie gry w MasterMinda (tzn. w świetle uzyskanych odpowiedzi na zadane pytania).

R- zbiór wszystkich rozwiązań

MR- zbiór zbiorów możliwych rozwiązań (MR)

Uczenie się gry MasterMind

Część IA Generacja i porządkowanie zbioru wszystkich MR

Dowolne rozwiązanie (R) jest uporządkowanym czteroelementowym ciągiem kolorów. Każdy element tego ciągu to jeden z sześciu kolorów. Oznaczając kolory liczbami 1,2,3,4,5,6 uzyskujemy czteroelementowy ciąg cyfr z zakresu 1-6 , który można rozważać jako czterocyfrową liczbą o cyfrach z zakresu 1-6

Zbiór wszystkich rozwiązań R oznaczony jako R utożsamiamy ze zbiorem liczb odpowiadających wszystkim ciągom kolorów.

Dowolny zbiór możliwych rozwiązań MR to ciąg uporządkowanych liniowo zawartych w nim R.

W zbiorze wszystkich MR oznaczonym jako MR definiuje się dwie relacje.

Relacja porządku liniowego w MR

W pierwszym kroku ustala się porządek liniowy pomiędzy MR wg mocy MR (liczebności R) W drugim kroku pomiędzy MR o tej samej mocy ustala się porządek ponieważ dowolny MR to ciąg uporządkowanych liniowo zawartych w nim R.

Relacja porządku P/N (poprzednik/następniki) w zbiorze MR

Pytania są ponumerowane od 1 do K

Do każdego pytania jest przypisana odpowiedź ponumerowana od 1 do I

(zbiór możliwych odpowiedzi jest taki sam dla wszystkich pytań)

Relacja ‘poprzednik/ następniki’ P/N jest relacją częściowego porządku taką że:

Niech poprzednikiem będzie ustalony MR(const). W wyniku uzyskania odpowiedzi i-tej odpowiedzi (i) na zadane pytanie (k) uzyskujemy podzbiór tego MR(const) spełniający j-tą odpowiedź na k-te pytanie. Można taki podzbiór oznaczyć jako

MR(cons)( k;i) dla pytań k =1.... K, oraz odpowiedzi i=1....I.

Uwaga: ten sam MR może być następnikiem dwu lub więcej poprzedników dla różnych pytań i odpowiedzi.

Algorytm generujący tablicę zawierającą w kolejnych wierszach MR z zaznaczeniem relacji liniowego porządku i porządku P/N pomiędzy MR

Oznaczmy tą tablicę jako TMR. Ustalony wiersz tej tablicy zawiera MR, numer wiersza, oraz indeksy zaznaczajace jego poprzedniki.

Punktem startu do budowy TMR jest MR zawierający wszystkie możliwe rozwiązania a więc R . (przed rozpoczęciem gry dopuszczalne jest każde rozwiązanie).

Zapisujemy R w pierwszym wierszu tabeli o numerze 1, z zaznaczeniem numeru wiersz=1 i indeksu (0;0;0) co oznacza że nie ma on poprzednika w relacji P/N, Czyli że w pierwszym wierszu jest zapis R1{0;0;0;}, Odpowiedziom na pierwsze ustalone pytanie odpowiadają jako następniki podzbiory R spełniające te odpowiedzi. To generuje rozbicie R na rozłączne podzbiory. Moc każdego z następników jest ostro mniejsza od poprzednika.

Zauważmy, że w trakcie rozgrywki końcem gry jest odpowiedź kończąca grę. (cztery czarne kołeczki). Są sytuacje, kiedy jest odgadnięte rozwiązanie, ale musimy jeszcze zadać jedno pytanie, aby uzyskać odpowiedź kończącą. Toteż w konstrukcji TMR pomijamy MR o mocy jeden, jeśli spełniają one odpowiedź kończącą. (jest to sytuacja kiedy pytanie jest identyczne z rozwiązaniem). Takie MR nazywamy kończącymi grę. MR o mocy jeden, które są następnikiem innego pytania niż kończącego grę zostawiamy w TMR i zauważamy, że MR o mocy większej od 1 nigdy nie kończą gry.

Wygenerowane następniki dla R1{0,0,0}oraz dla k pytania i i-tej odpowiedzi indeksujemy jako *{(1;k;i)}, gdzie * oznacza, że nie są jeszcze ustawione w porządku liniowym do TMR. Następnie wykluczamy MR kończące grę. Pozostałe następniki wpisujemy wg porządku liniowego do wierszy TMR jeszcze nie zastępując gwiazdek liczbami. Oznacza to, że wygenerowany MR wpisujemy do wiersza końcowego tabeli lub wpisujemy do wiersza wstawianego między już istniejące wiersze zawierające wcześniej wpisane MR zgodnie z porządkiem liniowym w MR.

W trakcie generacji dokonujemy redukcji wg zasad:

1. O ile okaże się, że wygenerowany MR jako następnik ( na pytanie m i odpowiedź) jest identyczny z MR już istniejącym w TMR ( np MR*{(1;k;i)} ). nie dopisujemy go do TMR, ale ten istniejący MR dodatkowo indeksujemy pozycją poprzednika, numerem pytania i numerem odpowiedzi co daje zapis MR*{(1;k;i); (1;m;n)}Podobnie postępujemy dla trzeciego i następnych identycznych następników wydłużając indeks.

2. O ile okaże się, że następnik jest zbiorem pustym (na zadane pytanie rozważana odpowiedź jest niedopuszczalna) odpowiadającego mu MR nie włączamy do TMR.

3. O ile okaże się, że następnik jest identyczny z poprzednikiem (pozostałe następniki dla tego pytania są zbiorami pustymi) nie włączamy do TMR i traktujemy pytanie jako zbędne, bo daje tylko jedną dopuszczalną odpowiedź ( pominięcie go zapobiega zacykleniu w algorytmie programowania dynamicznego).

Po wygenerowaniu wszystkich następników R1{0;0;0} przestawiamy pointer na kolejny wiersz w tabeli TMR i w miejsce gwiazdki w MR zapisanym w tym wierszu wstawiamy liczbę 2.

Dla tego MR traktowanego jako poprzednik powtarzamy procedury wykonane w poprzednim kroku a więc generowanie następników, wykonywanie redukcji, oraz wpisywanie do TMR wierszy zawierających te MR wg obowiązującego porządku liniowego. Oznacza to, że w TMR pojawiają się nowe wiersze zawierające MR*{(2;k;i).....(2;m;n)} jako że jeden następnik może mieć dwa różne poprzedniki. Uzyskane następniki sytuują się w trakcie generacji po poprzedniku tzn w następujących wierszach TMR ( wg relacji liniowego porządku), przez co pozycja (numer wiersza w TMR) poprzednika, z której są tworzone następniki nie ulega zmianie.

Stojąc pointerem na k-tym wierszu, po zakończeniu generacji wszystkich następników dla zawartego w tym wierszu MR przechodzimy do kolejnego wiersza i dopisujemy do indeksu znajdującego się w nim MR liczby k+1 w miejsce gwiazdki. Przystępujemy następnie do generacji następnych wierszy TMR jak w poprzednich krokach.

Tak postępujemy aż do uzyskania jednoelementowych MR.

W ten sposób uzyskujemy TMR, którego wiersze zawierają MR (uporządkowane ciągi czteroelementowych uporządkowanych ciągów kolorów) indeksowane jak następuje:

MR lp,{(m1;k1;i1) ...... (mj;kj;ij) ..........} gdzie:

lp liczba porządkowa wiersza gdzie jest zapisany ten MR w TMR. W nawiasach { } zawierają się powtórzone trójki liczb oznaczające (liczba porządkowa wiersza gdzie jest zapisany poprzednik, numer pytania; numer odpowiedzi tego MR jako następnika)

Uwaga do sposobu wyliczania zawartości następników. Dla ustalonego poprzednika jego następniki indeksowane pytaniami i odpowiedziami (i,j) można wyliczyć jako iloczyn zbiorów tego poprzednika i następników R o tych samych indeksach (i,j).

Omówienie właściwości TMR

W tablicy TMR są zapisywane dwie relacje między MR w zbiorze MR. Jedna to relacja porządku liniowego, druga to relacja częściowego porządku P/N między poprzednikiem (poprzednikami) i następnikami.

Wiersze TMR odpowiadają relacji porządku liniowego w MR.

Jednocześnie relacja P/N zapisana w indeksacji MR wiąże następniki z ich poprzednikiem (lub poprzednikami) podając dla każdego następnika odpowiadający jej numer pytania i odpowiedzi oraz liczbę porządkową poprzednika.

Mechanizm generowania nie zmienia porządku liniowego i liczby porządkowej w elementach z których wcześniej generowano następniki.

Proces redukcji eliminuje z TMR elementy odpowiadające niedozwolonym odpowiedziom, usuwa pytania nie wnoszące nic do sprawy, (przez co zapobiega zacyklaniu się algorytmu programowania dynamicznego).

Co jest szczególnie istotne w trakcie redukcji ‘sklejają ’się MR mające takie same elementy R (rozwiązania).Ten mechanizm ‘sklejania’ powoduje, że są zapamiętywane i wykorzystywane w programowaniu dynamicznym MR ( interpretowane jako stany wiedzy o możliwych rozwiązaniach na danym etapie gry) a nie przebieg gry. ‘Sklejanie’ które jest w istocie rzeczy mechanizmem tworzącym klasy abstrakcji w MR powoduje mocną redukcję liczby wierszy TMR zastępując klasę abstrakcji jej jednym reprezentantem.

Inny mechanizm ‘sklejania’ można zdefiniować jak następuje: MR1 oraz MR2 są podobne do siebie jeśli mają taka samą moc i istnieje funkcja F 1:1 ze zbioru 6 kolorów w siebie że F(MR1)=MR2. Oznacza to, że MR1 i MR2 są tym samym MR zbiorem rozwiązań z dokładnością do nazwy kolorów. Zastosowanie tej redukcji powoduje sklejenie następników R1{0;0;0;}, w taki sposób, że następniki innych pytań zostaną ‘sklejone’ z następnikami jednego arbitralnie wybranego pytania. Wystarczy rozpatrywać następniki wygenerowane dla jednego arbitralnie wybranego pierwszego pytania zamiast dla wszystkich pytań. Oznacza to, że w grze w Master Minda ze ważne są nie kolory, ale ich usytuowanie względem siebie.

Z tego wynika,że algorytm rozgrywki zaczyna od ‘przekodowania’ dowolnego układ kolorów w pierwszym pytaniu na sztywny układ 1,2,3,4. Oczywiście ‘odwrócenie tego’ musi być uwzględniane w rozgrywce przy zadawaniu kolejnych pytań (dokładne omówienie jest teraz pominięte).

Podobnie jest ze ‘sklejaniem’ jednoelementowych MR.

IB Ustalenie optymalnej reguły zadawania pytania drogą programowania dynamicznego.

Celem działań jest stworzenie zbioru reguł decyzyjnych ZRD na bazie istniejącej tabeli TMR. Regułą decyzyjną jest uporządkowana para (MR, pytanie). Oznacza to, że jeśli znamy zbiór możliwych rozwiązań, to wiemy jakie zadać pytanie w tej sytuacji.

Reguły decyzyjne będą tworzone w wierszach TMR. Zgodnie z zasadami programowania dynamicznego tworzenie reguł decyzyjnych będzie się zaczynało od końca tzn od MR zajmującego miejsce w końcowym wierszu TMR i postępowało do pierwszego elementu tzn do R.

Rozważmy jeden ustalony MR(const) traktowany jako poprzednik.

Każdy z następników MR(const) jest opatrzony teraz dodatkowo liczbą wyliczoną wcześniej podającą jaka jest średnia liczba pytań do zadania ażeby uzyskać odpowiedź kończącą grę.( liczba ta była wyliczona kiedy każdy taki następnik był rozpatrywany jako poprzednik innych MR).

Znając moc (liczebność R w MR) MR(const) i moc wszystkich następników dla ustalonego pytania można dla tego pytania obliczyć średnią liczbę pytań do ukończenia. Rozpatrujemy tak oddzielnie wszystkie pytania i wybieramy jedno, dla którego średnia liczba pytań do końca gry jest nie mniejsza od pozostałych pytań. Do ustalonego poprzednika MR dołączamy to pytanie i tą średnią liczbę pytań do ukończenia gry.

Powyższe postępowanie zastosujemy w tabeli TMR.

Do wszystkich wierszy TMR zawierających MR o mocy 1 dopisuje się przed uruchomieniem algorytmu pytanie identyczne z rozwiązaniem zawartym w tych MR( tu jest tylko jeden R) i liczbę 1 jako średnią liczbę kroków do końca. Formalnie jest to wynik generowania następników po tych MR mocy 1, ponieważ w trakcie generacji następników uzyskamy tylko pytania zbędne o odpowiedziach kończących grę w jednym kroku.

W dalszej kolejności dla ustalonego MR o mocy 1 odszukuje się wiersz gdzie jest zawarty jego poprzednik i dopisuje moc tego MR oraz średnią liczbę kroków do końca ( tzn1).

Analogicznie postępuje się dla każdego MR o mocy większej niż 1. Należy zauważyć, że krocząc od dołu tabeli ku górze gdy osiągniemy dowolny MR będzie on miał dopisane interesujące nas liczby (moc, średnia liczba pytań do końca) wszystkich jego następników co pozwala wyliczyć średnią liczbę kroków do ukończenia gry dla każdego pytania (znamy moc poprzednika, moce następników i średnie liczby kroków do końca) To z kolei pozwala wybrać pytanie o minimalnej średniej liczbie kroków do końca gry. Tak dochodzimy do pierwszego wiersza zawierającego R .

W efekcie uzyskujemy zbiór reguł decyzyjnych ZRD.

II Część – rozgrywka.

Przed rozpoczęciem gry są możliwe wszystkie rozwiązania, więc w ZRD odszukuje się R (znajduje się w pierwszym wierszu TMR ) i zadaje przypisane mu pytanie. Po uzyskaniu odpowiedzi (o ile nie jest ona kończącą grę) wylicza się MR na podstawie uzyskanej odpowiedzi (wyliczanie w taki sam sposób jak przy konstruowaniu MR) i wyszukuje się go w ZRD (przy pomocy mechanizmu jak przy konstruowaniu MR) i zadaje się przypisane mu pytanie. Tak postępuje się aż do otrzymania odpowiedzi kończącej grę.

Rozszerzenia powyższego modelu gry MasterMind

Przytoczony powyżej model można rozszerzyć o następujące zagadnienia niezbędne dla konstrukcji optymalnego wywiadu lekarskiego.

1.W powyższym modelu nie rozpatrywano prawdopodobieństwa występowania MR zakładając przez to że są jednakowo prawdopodobne. Można przyjąć, że te prawdopodobieństwa są różne i uwzględnić w tworzeniu reguł decyzyjnych. W tym przypadku rozwiązania wchodzące w skład R będą zawierały dodatkowo wagę, z której w prosty sposób można wyliczyć prawdopodobieństwo warunkowe dowolnego następnika pod warunkiem jego poprzednika.

2. Przytoczony model dotyczy gry w MasterMind znajduje zastosowanie w grze z innymi regułami gry np. rozwiązań i pytań składających się z większej ilości kolorów ( np. 5 wybieranych z 8 kolorów). Można w definiowaniu gry jeszcze bardziej odchodzić od pierwowzoru np. definiując inaczej pytania i odpowiedzi. Przykładowo odpowiedzi mogą podawać tylko jednoczesną zgodność pozycji i koloru między pytaniem i rozwiązaniami. Pytanie może być krótszą sekwencją kolorów niż rozwiązania.

Algorytm optymalnego wywiadu uzyskany przez programowanie dynamiczne w zbiorze kryteriów diagnostycznych (dyskryminacyjnych).

Celem wywiadu jest ustalenie na drodze kolejno zadawanych pytań, jakie występują u pacjenta zespoły objawów (kryteria diagnostyczne), na podstawie których można wnioskować o stanach zdrowotnych.

Wywiad optymalny można uzyskać poprzez modyfikację gry MasterMind, gdzie szukanymi rozwiązaniami są kryteria dyskryminacyjne, teraz zwane kryteriami diagnostycznymi Modyfikacja optymalnej strategii gry w MasterMind polega na tym, że :

W trakcie wywiadu chodzi o minimalizowanie kosztów wywiadu

Wprowadza się możliwość zatrzymania wywiadu, jeśli oczekiwany koszt dalszego wywiadu przekroczy oczekiwany koszt pomyłki diagnostycznej.

Wywiad (nawet nie zatrzymany) nie musi prowadzić do jednoznacznego wyniku ( jednego kryterium diagnostycznego).

Pytanie nie musi dawać dokładnie informacji o wartości jednej cechy składającej się też dawać informacje przybliżone lub niepełne na kryterium diagnostyczne ( może też dawać informacji o zespole cech).

Kryteria diagnostyczne

Kryteria dyskryminacyjne nazywane jest teraz kryteriami diagnostycznymi D ( w MasterMIndzie były to rozwiązania R). Zbiór wszystkich kryteriów d oznaczmy jako Dduży. Na kryterium D składa się ciąg wartości cech.

Zakładamy, że w trakcie badań ‘case control, do każdej regresji logistycznej włączono K cech jakościowych wielowartościowych jako czynników. Numerujemy te cechy 1,2,..... K

Dowolne D można zapisać jako wektor o długości K w taki sposób, że jeśli na i-tym miejscu w wektorze D znajduje się wartość k(i), oznacza to, że do kryterium diagnostycznego (dyskryminacyjnego) wchodzi wartość k(i) cechy i. O ile cecha nie wchodzi do kryterium na odpowiadającym jej miejscu umieszczona jest gwiazdka.

Przykład. Mając 9 cech, każdą o wartości 1,2,3 wektor ( *,*,*,2,1,*,3,1,*) oznacza kryterium gdzie cecha4 = 2, cecha5=1, cecha7=3,cecha8=1. Gwiazdka oznacza, ze dopuszczalna jest dowolna wartość dla tej cechy w danym kryterium diagnostycznym.

Wśród wszystkich kryteriów diagnostycznych ustala się relację równoważności, która zachodzi gdy odpowiadające im wektory mają przynajmniej jedną identyczną pozycję.

Przykład :

Mamy cztery kryteria diagnostyczne zapisane jako wektory.
D1=(*,*,*,2,1,*,3,1,*)

D2=(1,3,*,2,*,*,*,*,*)

D3=(*,*,*,*,1,*,*,*,2)

D4=(*,*,2,*,*,3,*,*,*)

Kryteria D1, D2, D3 są w relacji ze sobą.

Utworzone klasy abstrakcji dają rozbicie zbioru Dduży na rozłączne podzbiory D.

na których będą definiowane niezależne wywiady.

Do jednej pary stanów zdrowia może być przypisanych wiele kryteriów diagnostycznych, co można ująć w tablicy:

NP. dla trzech stanów zdrowotnych S1,S2, S3 i 6 kryteriów D1,D2,......D6 przykładowe przyporządkowanie można zapisać:

 

S1

S2

S2

D2,D3

 

S3

D1

D3,D4,D5

D6

Pytanie

Pytania skierowane do pacjenta mają na celu uzyskanie informacji o wartościach cech zawartych w kryteriach diagnostycznych.

Jedno pytanie może dotyczyć jednej cechy, może dotyczyć zespołu cech (jest to sytuacje kiedy wykonuje się zespól pomiarów np. badanie wielu parametrów krwi ). Pytanie może dotyczyć oceny zbiorczej,( np. scoringu wartości kilku cech), lub informacji przybliżonej w stosunku do wartości cech zawartych w kryterium. W skrajnym przypadku jedno pytanie może dotyczyć wszystkich cech, co ma miejsce, gdy przed rozpoczęciem wywiadu mamy zgromadzone wszystkie dane. Wtedy wywiad sprowadzi się tylko do tego jednego pytania.

Odpowiedź

Odpowiedź to informacja zdobyta po zadanym pytaniu, z której wynika jakie są wartości cech zawartych w kryteriach diagnostycznych. W przypadku gdy zadajemy pytanie o jedną cechę , odpowiedzią jest wartość tej cechy występująca u pacjenta.

Odpowiedź kończąca wywiad

Wywiad lekarski kończy się, gdy następne pytania nie wniosą nic nowego, tzn. wywiad kończy osiągnięcie takiego zbioru kryteriów diagnostycznych, że wszystkie następniki tego zbioru są tym samym zbiorem.(wywiad może kończyć się wyłonieniem grupy kryteriów diagnostycznych w odróżnieniu od MasterMinda gdzie na ukończeniu jest jedno rozwiązanie ).

Zbiór możliwych kryteriów diagnostycznych (MD) –wszystkie kryteria diagnostyczne, jakie są możliwe u pacjenta w świetle wiedzy uzyskanej na danym etapie wywiadu (tzn. w świetle uzyskanych odpowiedzi na zadane uprzednio pytania).Zbiór zbiorów możliwych kryteriów diagnostycznych oznaczymy jako MD

Możliwe kryterium diagnostyczne MD jest zbiorem D wektorów liczbowych. Podobnie jak to było w MasterMindzie w zbiorze MD definiuje się relację porządku w taki sposób że w ustalonym MD ustala się porządek liniowy D utożsamiając wektor z liczbą jaką uzyska się z cyfr wektora po zastąpieniu gwiazdek zerami. Następnie porządek między MD ustala się traktując te MD jako ciągi uporządkowanych liczb. W zbiorze MD definiuje się też relacje poprzednik/następniki jak w MasterMindzie.

Wprowadza się pojęcie wektora wywiadu W w którym odnotowane są wszystkie wartości cech jakie zostały stwierdzone u badanego osobnika uzyskane na drodze dotychczasowego wywiadu. Wektor wywiadu W ma analogiczną strukturę jak wektor D, - każda pozycja wektora odpowiada wartości cechy. Wektor W przed rozpoczęciem wywiadu ma postać uzyskano informację że cecha3=3, cecha4=3, cecha6=1, cecha7=1

Wektor ten jest wykorzystywany do obliczania prawdopodobieństwa warunkowego przy obliczaniu średniego dalszego kosztu wywiadu.

(Jeśli każde pytanie daje informacje o wartości dokładnie jednej cechy ten wektor może być wykorzystany do zapisu relacji poprzednik/następniki).

O ile odpowiedź na pytanie nie daje dokładnej informacji co do wartości cech potrzebne jest wprowadzenia pojęcia podobieństwa tej niepełnej informacji do kryteriów diagnostycznych. Wtedy też następniki nie są rozłącznymi zbiorami – teraz ta sytuacja nie jest rozważana.

Tablica kontyngencji TK zawierająca liczebności dla wartości cech.

TK jest wielowymiarową tablicą, której wymiarami są cechy wraz z ich wartościami. W tablicy tej są zapisane liczebności wartości rozpatrywanych cech.

TK jest potrzebna, bo teraz ważny jest koszt dalszej drogi, a nie długość jak w MasterMindzie.

Przy ustalaniu optymalnego pytania w programowaniu dynamicznym potrzebna jest znajomość prawdopodobieństwa warunkowego następnika pod warunkiem poprzednika.

W tym celu, przy znajomości liczebności poprzednika należy z TK wyliczyć liczebności następników. Potrzebne do tego są kryteria diagnostyczne zawarte w MD oraz dodatkowo wektor W. Wówczas można obliczyć częstości z uwzględnieniem wartości cech zapisanych w D jako gwiazdki.

Przykładowo, jeśli MD=( (*,*,2,3,*), (*,*,2,*,3)) oraz wektor odpowiedzi jest (3,*,2,3,*) ,to trzeba znaleźć w TK liczebności dla pozycji (3,*2,3,*) oraz dla (3,*2,3,3).

Dla przypadku niepełnej informacji w odpowiedzi na pytanie która daje kilka alternatywnych wartości cech powstają kłopoty z obliczaniem liczebności. Można je ominąć zastępując średnią z tych alternatywnych sytuacji – teraz ta sytuacja nie jest rozpatrywana

Tworzony zbiór reguł decyzyjnych ZRD dla wywiadu zawiera teraz trójki uporządkowane (MD, pytanie, średni koszt dalszego wywiadu).

Konstrukcja reguły zatrzymania wywiadu

Znając prawdopodobieństwa występowania zespołów objawów, oraz koszty pomyłki jednego stanu wobec drugiego (parami) można obliczyć koszty pomyłki diagnozy między nimi. O ile średnie koszty dalszego prowadzenia wywiadu przekroczą koszty pomyłki diagnozy zatrzymuje się wywiad.