Seminarium Zakładu Logiki Matematycznej - archiwum tematów z roku akad. 2006/07


6.10.2006 - Dominik Ślęzak: "Rough Discretization of Gene Expression Data".

We adapt the rough set-based approach to deal with the gene expression data, where the problem is a huge amount of genes (attributes) $a \in A$ versus small amount of experiments (objects) $u \in U$. We perform the gene reduction using standard rough set methodology based on approximate decision reducts applied against specially prepared data. We use rough discretization. Every pair of objects $(x,y) \in UxU$ yields a new object, which takes values $\geq a(x)$ if and only if $a(y) \geq a(x)$; and $< a(x)$ otherwise; over original genes-attributes $a \in A$. In this way:
1) We work with desired, larger number of objects improving credibility of the obtained reducts;
2) We produce more decision rules, which vote during classification of new observations;
3) We avoid an issue of discretization of real-valued attributes, difficult and leading to unpredictable results in case of any data sets having much more attributes than objects.
We illustrate our method by analysis of the gene expression data related to breast cancer.

13.10.2006 - Marcin Wojnarski: "Hierarchiczne rozpoznawanie obrazów. Jak to robi mózg?".

Głównym tematem referatu będzie przedstawienie modelu LISSOM pierwszych etapów percepcji wzrokowej (szczególnie kory wzrokowej V1). Model ten jest opisany w niedawno opublikowanej książce "Computational Maps in the Visual Cortex" (Miikkulainen, Bednar, Choe, Sirosh):

http://nn.cs.utexas.edu/computationalmaps/

Powiem także, jak model LISSOM wiąże się z moimi badaniami nad hierarchicznym rozpoznawaniem obrazów i jak znajomość faktów neurobiologicznych może pomóc informatykom w opracowywaniu systemów uczących się.

20.10.2006 - Jan Bazan: "Automatyczne planowanie leczenia niemowląt cierpiących na niewydolność oddechową metodami teorii zbiorów przybliżonych".

Podczas referatu opowiem o zastosowaniu teorii zbiorów przybliżonych do automatycznego planowania leczenia niemowląt cierpiących na niewydolność oddechową. Takie zastosowanie jest możliwe przy użyciu sieci klasyfikatorów skonstruowanych w oparciu o zbiory danych i wiedzę dziedzinową, dostarczoną przez ekspertów np. w postaci ontologii pojęć. Zaprezentuję także wyniki eksperymentów komputerowych wykonanych dla zbiorów danych pozyskanych z Polsko-Amerykańskiego Instytutu Pediatrii Collegium Medicum Uniwersytetu Jagiellońskiego. Dane te stanowią dość szczegółowy zapis leczenia ponad 300 noworodków przebywających na Oddziale Patologii i Intensywnej Terapii Noworodków Uniwersyteckiego Szpitala Dziecięcego w Krakowie przez okres od 1 do kilkudziesięciu dni.

17.11.2006 - Szymon Nowakowski: "Predykcja struktury trójwymiarowej białek metodą lokalnych deskryptorów".

Referat dotyczy metody predykcji struktury trójwymiarowej białek, jednego z koronnych problemów współczesnej bioinformatyki. Zostanie przedstawiona metoda zaproponowana przez dr Fidelisa z UC Davis. Polega ona na składaniu struktury białka z wielu trójwymiarowych klocków, zwanych lokalnymi deskryptorami. Lokalne deskryptory zawierają w sobie nie tylko informację o kształcie trójwymiarowym, ale również informację sekwencyjną. Zastosowanie statystycznych technik klasyfikacji umożliwia sklasyfikowanie nowych sekwencji i tym samym przypisanie im kształtu lokalnego deskryptora. W skrócie zostanie również przedstawiona rozwinięta przez dr Drabikowskiego z MIMUW metoda złożenia wielu predykcji lokalnych (wśród których może być bardzo wiele błędnych) do poprawnej predykcji globalnej.

24.11.2006 - Mikhail Ju. Moshkov: "Greedy Algorithm with Weights for Decision Tree Construction".

An approximate algorithm for minimization of weighted depth of decision trees is considered. A bound on accuracy of this algorithm is obtained which is unimprovable in general case. Under some natural assumptions on the class NP the considered algorithm is close (from the point of view of accuracy) to best polynomial approximate algorithms for minimization of weighted depth of decision trees.

1.12.2006 - Anna Gomolińska: "Rough-set Modelling of Intelligent Agents: Rough Judgment".

In this presentation, we discuss various rough forms of judgment by intelligent agents. Already Kant had intensively studied judgment as a cognitive faculty in an agent. We view judgment making as a process of taking a decision whether or not an individual object is subsumed under a universal (concept). First of all, we consider judgment of satisfiability of formulas and sets of formulas. Briefly speaking, this type of judgment making consists in deciding whether or not an object satisfies a specification given in the form of a formula or a set of formulas of a knowledge representation language. In the sequel, judgment concerning rule application and judgment of ingredienthood will be discussed within the rough-set framework.

8.12.2006 - Wojciech Jaworski: "Komputerowa analiza wzorców sekwencyjnych na przykładzie sumeryjskich tekstów gospodarczych".

Referat będzie poświęcony zagadnieniu wydobywania informacji z dokumentów pisanych językiem naturalnym (sumeryjskich tekstów ekonomicznych). Proces ten jest dwustopniowy. Najpierw następuje przekształcenie języka naturalnego w język formalny zachowujące ontologię pojęć oraz ogół informacji zawartych w tekstach. Drugim elementem jest modyfikowanie ontologii w ramach języka formalnego, w celu uzyskania poszukiwanych informacji. Na te informacje składa się:
- wyszukiwanie tekstów wg. wzorca semantycznego.
- podział tekstów na transakcje i zbudowanie na ich podstawie modelu gospodarki sumeryjskiej.
- prosopographia, czyli ustalenie tożsamości osobowej urzędników sumeryjskich.
- sklasyfikowanie typów dokumentów generowanych przez administrację sumeryjską.
Przybliżę obliczeniowy (wydajnościowy aspekt) problemu, związki między parserem języka naturalnego a językiem formalnym (reprezentacją formuł języka formalnego) konieczne, by stworzyć efektywną implementację. Wspomnę też pojęciu nierozróżnialności, które w naturalnym dla danych sekwencyjnych, które powstało w wyniku badań.

19.01.2007 - Paweł Delimata: "Hybrid Methods in Classification and Reduction of Data".

Everyday we gather huge amounts of data. Effective use of such large databases is almost impossible without auxiliary means including advanced informatics systems. In many cases, even very modern systems which deal with many data sets are not able to manage such large amounts of information. The purpose of the presentation is to introduce some original methods which allow to considerably reduce the size of given data. The data reduction process is obtained in such a manner that deletion of excessive information causes a small loss on classification accuracy of the classifier. Sometimes, for certain data we could even observe an increase of the classification accuracy for the data after reduction.
In the following presentation, we introduce three main reduction methods called RED1, RED2 and RED3, which use some global assumptions about data. Methods RED1 and RED3 are based on the notion of surroundings and method RED2 is based on the k-NN method.
When we classify new data (objects) on the basis of the knowledge obtained from known data, we often use classification systems. In the presentation, we introduce two new systems called MC1 and MC2. The proposed systems are multiple classifier systems with homogeneous classifiers. Homogeneous classifiers use identical classifiers but each classifier acts on a different part of the given data with not necessarily empty intersection. Method MC2 can be used for data classification or reduction of the attributes (properties) of a given decision table. For methods which act on different parts of the data table, it is important to properly select subsets of the attribute set. In the presentation we will propose certain methods which help to select proper subsets of the attribute set. We propose a family of three methods which are based on decision relative reducts for a given decision table.
All methods which we present are implemented in the DMES (Data Mining Exploration System), which is developed in the University of Rzeszow. Currently, the DMES system provides methods such as classical k-NN, k-NN with local induction of the metric, MC1 and MC2 algorithms, RED1, RED2, RED3 methods and feature selection methods SFS, RBFS, RBFS1, RBFS2. The DMES system also provides operations on the decision tables such as preprocessing, table splitting and data visualization. The example use of the system will be presented at the end of the presentation.

26.01.2007 - Adrianna Gietka: "Zastosowanie algorytmów genetycznych do generowania gramatyk bezkontekstowych z próbek słów".

Teoria wyuczalności (learnability theory) jest działem informatyki zajmującym się poszukiwaniem metod wyuczania języków. Korzysta z metod uczenia maszynowego, teorii języków formalnych, algorytmów rozpoznawania obrazów. Wyuczanie języka polega na określeniu gramatyki, która wyprowadza dany język. Poszukiwane mechanizmy wyuczania opierają się na modelu uczenia języków naturalnych: ludzie uczą się języka, którym posługuje się ich otoczenie poprzez przyswajanie i analizowanie przykładów pozytywnych (słów języka) i negatywnych (słów, które do danego języka nie należą). Próby znalezienia efektywnej metody wyuczania języków bezkontekstowych z tekstu (z przykładów pozytywnych i negatywnych języka) były podejmowane wielokrotnie. W szczególności Y.Sakakibara zaproponował metodę wykorzystującą z jednej strony strukturę tablicową analogiczną do zastosowanej w algorytmie CYK weryfkacji przynależności słowa do języka, z drugiej strony - zastosowanie algorytmu genetycznego w celu znalezienia gramatyki bezkontekstowej w postaci normalnej Chomsky'ego o minimalnej liczbie stanów. W pracy zostaną przedstawione modyfikacje operacji genetycznych, dodatkowy proces dobierania populacji początkowej wykorzystujący specyficzne własności gramatyk bezkontekstowych oraz efektywnie kompresujący struktury danych do przechowywania osobników populacji. Kompresja ta umożliwia wykonywanie obliczeń na bogatszych zbiorach przykładów. Ponadto w pracy zostaną przedstawione wyniki eksperymentów komputerowych dla danych benchmarkowych oraz porównane z wynikami innych autorów.

24.02.2007 - Wojciech Jaworski: "Wzorce sekwencyjne w tekstach".

2.03.2007 - Marcin Wojnarski: "Algorytmy kompresji danych w relacyjnej bazie danych".

W referacie przedstawię algorytmy kompresji, opracowane przeze mnie w firmie Infobright (www.infobright.com) i wykorzystywane w systemie bazodanowym (RDBMS) o nazwie BrightHouse. Algorytmy te pozwalają uzyskać średni stopień kompresji na poziomie 10:1, co stanowi najlepszy rezultat wśród komercyjnych systemów bazodanowych. Są one również szybkie, dzięki czemu nie zwiększają czasu wykonania zapytań.
Część I referatu będzie miała charakter wstępu. Przedstawię "narzędzia", z których korzystałem przy opracowywaniu algorytmów: podstawowe fakty z teorii informacji oraz tzw. kodowanie arytmetyczne, które może stanowić jądro wielu różnych algorytmów kompresji. Omówię również algorytm kompresji najprostszego typu danych: ciągów binarnych.
Najbardziej zaawansowany algorytm, pozwalający kompresować dane numeryczne, zostanie omówiony w części II, pod koniec marca.

9.03.2007 - Nguyen Hung Son: "Aproksymacyjne Wnioskowanie Boolowskie: Podstawy i Zastosowania w Eksploracji Danych".

Wnioskowanie Boolowskie jest pewną algebraiczną metodą rozwiązywania problemów. Badany problem jest kodowany za pomocą pewnego równania Boolowskiego, postaci f=0 lub f=1, a następnie rozwiązania problemu uzyskuje się za pomocą algebraicznych tożsamości w algebrach Boolowskich. Zauważono, że wiele problemów związanych z równaniem Boolowskim (np. sprawdzenie istnienia rozwiązania, znalezienie minimalnego zbioru zmiennych zależnych itp.) dotyczy zagadnienia wyszukiwania implikantów pierwszych formuł Boolowskich. Niestety większość takich problemów dla implikantów pierwszych ma bardzo wysoką złożoność obliczeniową.
Ten referat przedstawia podejście aproksymacyjne dla metod wnioskowania Boolowskiego.
Przedstawione będą podstawy teoretyczne oraz najważniejsze zastosowania tego podejscia w data mining.
Referat mozna traktowac jako podsumownia pracy badawczej autora w okresie ostatnich 10 lat.

16.03.2007 - Piotr Wasilewski, Dominik Ślęzak: "Podstawy zbiorów granularnych w teorii wiedzy".

Przedstawiono nowe wyniki dotyczące granularnego definiowania zbiorów przybliżonych oraz związków zbiorów przybliżonych z kratami pojęć.

23.03.2007 - Jan Bazan: "Metody automatycznego planowania zachowań obiektów złożonych oraz grup obiektów złożonych".

Podczas referatu opowiem o zastosowaniu teorii zbiorów przybliżonych do automatycznego planowania zachowań obiektów złożonych oraz grup obiektów złożonych. Tym razem chciałbym położyć nacisk na konkretne algorytmy planowania oraz na automatyczną rekonstrukcję planów. Krótko przedstawię także nowe środowisko do zbierania danych oraz wykonywania eksperymentów z automatycznym planowaniem, składające się z dwóch robotów Khepera.

30.03.2007 - Marcin Wojnarski: "Algorytmy kompresji danych w relacyjnej bazie danych, cz.II".

Przedstawię drugą część referatu o algorytmach kompresji w systemie bazodanowym BrightHouse, rozwijanym przez firmę Infobright (www.infobright.com). W pierwszej części referatu (2.03.2007) omówiłem w skrócie główne założenia i cechy systemu BrightHouse, a także przedstawiłem podstawy matematyczne stworzonych algorytmów kompresji: elementarne fakty teorio-informacyjne dot. kodów oraz kodowanie arytmetyczne.
W drugiej części przedstawię algorytm kompresji danych numerycznych, będący najważniejszym algorytmem kompresji w BrightHouse. Algorytm ten bazuje na dokładnej analizie redundancji, występujących w jednej kolumnie tabeli zawierającej rzeczywiste (a nie sztucznie generowane) dane.

20.04.2007 - Nguyen Tuan Trung: "An Approach to the Recognition of Structured Objects".

27.04.2007 - Jan Bazan: "Klasyfikatory hierarchiczne dla złożonych pojęć czasowo-przestrzennych oparte na zbiorach danych i wiedzy dziedzinowej".

Podczas referatu chciałbym syntetycznie przedstawić problematykę, którą zajmowałem się w ciągu ostatnich kilku lat oraz scharakteryzować uzyskane wyniki.

25.05.2007 - Rafał Latkowski: "Wnioskowanie w oparciu o niekompletne systemy informacyjne".

Plan prezentacji:

  • Wprowadzenie
  • Dotychczasowe podejścia (teoria zb. przybliżonych)
  • Uogólnione relacje nierozróżnialności
  • Rodziny parametryczne
  • Prace eksperymentalne
  • Praca doktorska
  • 8.06.2007 - Wojciech Jaworski: "Semantyka jeęzyka naturalnego".

    Opowiem o mojej teorii modelowania znaczenia wypowiedzi w języku naturalnym i zwiazanej z nia definicji odniesienia przedmiotowego. Przedstawię koncepcje wnioskowania w jezyku naturalnym. Opiszę rzutowanie systemu pojęć na ekstensjonalny system relacyjny i rola zbiorow przyblizonych w odnajdywaniu odniesienia przedmiotowego argumentow relacji.

    15.06.2007 - Marcin Wolski: "Semantyka jeęzyka naturalnego".

    W referacie przedstawię (1) jak przestrzenie aproksymacyjne modelują wnioskowania indukcyjne oraz (2) jak wnioskowania indukcyjne zmieniają standardowe interpretacje przestrzeni aproksymacyjnych. Obserwacje dokonane w punkcie (2) pozwalają na wprowadzenie tzw. struktur nie-Archimidesowych, które indukują nie-Archimidesowe przestrzenie z bliskością. W przypadku struktur skończonych, nie-Archimidesowe przestrzenie z bliskością stoją w bijekcji z przestrzeniami aproksymacyjnymi Pawlaka.