Seminarium Zakladu Logiki 2007/08

Seminarium Zakładu Logiki Matematycznej - archiwum tematów z roku akad. 2008/09

3.10.2008 - Marcin Wojnarski: "Prezentacja platformy Debellor".

Debellor jest platformą open-source integrującą biblioteki eksploracji danych i umożliwiającą wykorzystanie wielu z nich w eksperymentach. Obecnie zawiera m.in. biblioteki Weka i RSESLib.
Adres:
www.debellor.org

10.10.2008 - Dominik Ślęzak: "Open Source Edition of Infobright's Data Warehouse".

The theory of rough sets provides a powerful model for representation of patterns and dependencies, applicable both in databases and data mining. On the one hand, although there are numerous rough set applications to data mining and knowledge discovery, the usage of rough sets inside the database engines is still quite an uncharted territory. On the other hand, however, this situation is not so exceptional given that even the most well-known paradigms of machine learning, soft computing, artificial intelligence, and approximate reasoning are still waiting for more recognition in the database research.
Rough set-based algorithms and similar techniques can be applied to improve database performance in several ways. We focus on the idea of using available information to calculate rough approximations of data needed to resolve queries and to assist the database engine in accessing relevant data. We partition data onto rough rows, each consisting of 64K of original rows. We automatically label rough rows with compact information about their values on data columns, often involving multi-column and multi-table relationships. One may say that we create new information systems where objects correspond to rough rows and attributes - to various flavors of rough information.
In this talk, we show how the above ideas guided us toward implementing the fully functional data warehouse product, with interfaces provided via integration with MySQL and internals based on the newest database trends. Thanks to compact, flexible rough information, we became especially competitive in the field of analytical data warehouses, where users want to query terabytes of data in a complex, dynamically changing way. Recently, we announced at www.infobright.org the open source edition of our data warehouse, ready for free usage and further extensions. In the talk, we illustrate the best scenarios of applying our software to various aspects of data processing. We also discuss the most promising directions for further improvement of our technology, with a special attention to the ideas based on the theory of rough sets and corresponding techniques.

17.10.2008 - Andrzej Janusz: "Podobieństwo złożonych obiektów zmieniających się w czasie".

Tematem wystapienia jest podobienstwo zlozonych obiektow. Obiekty tego typu bardzo czesto zmieniaja sie w czasie a do opisu ich zmian wykorzystuje sie szeregi czasowe. W czasie prezentacji opowiem o pojeciu podobienstwa - jego wlasnosciach i zastosowaniach. Porusze rowniez temat szeregow czasowych, koncentrujac sie na sposobach wykorzystania pojecia podobienstwa w analizie danych temporalnych. Przedstawie rozne metody reprezentacji szeregow czasowych takie jak SAX, TSB, czy clipping. Za punkt wyjscia potraktuje wybrane prace Eamonna Keogh dotyczace tego tematu.

7.11.2008 - Agnieszka Nowak: "Optymalizacja procesów wnioskowania dla złożonych baz wiedzy".

W referacie chciałabym przedstawić koncepcję optymalizacji procesów wnioskowania dla systemów o złożonych dziedzinowych bazach wiedzy. Optymalizacja jest możliwa dzięki zmianie struktury bazy wiedzy na strukturę hierarchiczną, w której reguły podobne do siebie tworzą skupienia. Do budowy złożonej bazy wiedzy zaproponowano klasyczny algorytm aglomeracyjny (AHC) lub jego modyfikację (mAHC), której rezultatem jest zbiór skupień reguł będący strukturą optymalną z punktu widzenia kryterium separowalności grup.
Efektywne przeszukiwanie złożonej bazy wiedzy (wzorowane na przeszukiwaniu połówkowym, dającym mniejszą złożoność obliczeniową w stosunku do przeszukiwania zbioru nie uporządkowanego) i wnioskowanie jedynie na wybranej (najbardziej relewantnej) grupie reguł pozwala na optymalizację procesu wnioskowania.
Eksperymenty wykonane w ramach prowadzonych badań wykazały, iż im więcej reguł w bazie wiedzy, tym mniejszy procent bazy wiedzy jest faktycznie przeszukiwany. Dla dużych rzeczywistych baz wiedzy w procesie wnioskowania analizowano jedynie 2-5 % wszystkich reguł przy utrzymaniu pełnej dokładności wyszukiwania realizowanego przez interpreter reguł w maszynie wnioskującej.

7.11.2008 - Marcin Kowalski: "Wykorzystanie metod grupowania on-line w optymalizacji silnika bazodanowego".

W trakcie wystpienia chciałbym omówić zagadnienie grupowania danych ładowanych do relacyjnej bazy danych. Takie dane są zwykle ładowane wiersz po wierszu w kolejności jaką determinuje żródło danych. Ponieważ standard języka SQL nie zakłada istnienia w tabeli porządku na wierszach, odpowiedni sposób ich grupowania i przechowywania w bazie może stanowić czynnik poprawiający wydajność bazy. Zakładamy jednak, że algorytmy takiego grupowania powinny wykonywać się w czasie rzeczywistym, by mogły być stosowane np. dla dużych danych strumieniowych (np. danych transakcyjnych). Celem projektu, którym chciałbym się zająć jest grupowanie danych tak by m. in. przyspieszyć wykonanie zapytań języka SQL skierowanych do bazy danych. Na przykładzie bazy Infobright chciałbym omówić wpływ jaki może mieć odpowiednie pogrupowanie danych wykorzystujące unikalność zastosowanych w silniku metod na jej efektywność.
Krótko omówię problemy pokrewne temu zagadnieniu i na ich podstawie jego osobliwość. Chciałbym również opisać rozwiązania, które są w tej chwili rozwijane oraz omówić przyszłe kierunki mojej pracy badawczej w tej dziedzinie.

14.11.2008 - Wojciech Jaworski: "Oparta na ontologii eksploracja danych reprezentowanych za pomocą języka naturalnego".

Upowszechnienie komputerowych metod przetwarzania informacji, a zwłaszcza komputeryzacja zasobów wiedzy, doprowadziły do powstania bogatych korpusów tekstów.
Aby korzystać z takich zbiorów dokumentów, potrzebny jest precyzyjny mechanizm pozwalający pobrać potrzebne w określonej sytuacji dane. Poszukiwane są nie tylko informacje zlokalizowane w pojedynczych dokumentach lecz również te, które są rozproszone po całym korpusie. Zapytania zaś mogą dotyczyć zarówno konkretnych faktów zawartych w tekstach, jak i ogólnych praw rządzących tymi faktami. Prawa te, jak każda generalizacja, będą prawdziwe jedynie w pewnym procencie przypadków, którego wielkość trzeba oszacować.
W referacie przedstawię metodologię realizującą powyższą funkcjonalność dla zbiorów tekstów o ograniczonej dziedzinie tematycznej.

21.11.2008 - Jan Bazan: "Automatyczne planowanie zachowania obiektów złożonych w systemie Rough ICE".

W referacie chciałbym przedstawić jak można zastosować system Rough ICE (Rough Set Interactive Classification Engine) do automatycznego planowania zachowania obiektów złożonych.
Wcześniejsza wersja tego systemu była prezentowana pod nazwą RS-Ecca. Jest to system wyposażony w graficzny interfejs użytkownika napisany w Javie przy użyciu bibliotek Swing i JGraph, umożliwiający łatwą realizację różnych operacji na zbiorach danych i wiedzy dziedzinowej, dotyczących aproksymacji złożonych pojęć. Głównym celem referatu jest zademonstrowanie działania systemu przy wspomaganiu planowania leczenia niewydolności oddechowej

28.11.2008 - Zbigniew Suraj: "Odkrywanie modeli systemów procesów współbieżnych z danych eksperymentalnych".

Odkrywanie niejawnych relacji pomiędzy danymi, a także pomiędzy ich ukrytymi modelami jest jednym z głównych zadań uczenia maszynowego. Dane są często generowane przez procesy współbieżne. Odkrywanie zatem modeli systemów procesów współbieżnych generujących te dane może często prowadzić do lepszego rozumienia złożonej natury zjawisk i procesów fizycznych.
Głównym celem referatu jest przedstawienie dotychczasowych wyników badań dotyczących automatyzowanego odkrywania modeli systemów procesów współbieżnych z tablic danych eksperymentalnych, a także zarysowanie nowych problemów badawczych wraz z pewnymi sugestiami próby ich rozwiązania. Prezentowane podejście jest oparte na teorii zbiorów przybliżonych i teorii współbieżności. Badania tego typu zostały zapoczątkowane przez Profesora Z. Pawlaka w 1992 roku, a następnie kontynuowane w kilku ośrodkach naukowych w kraju i za granicą.
Rozważany problem badawczy jest nie tylko interesujący ze względów poznawczych, lecz przede wszystkim z uwagi na jego potencjalnie duże możliwości aplikacyjne. Metody odkrywania modeli systemów procesów współbieżnych z danych eksperymentalnych mogą znaleźć zastosowanie w wielu obszarach sztucznej inteligencji, sterowania, biologii molekularnej, medycyny, itp.

5.12.2008 - Sebastian Stawicki: "Wprowadzenie do eksploracji procesów (process mining)".

Pod pojęciem procesu rozumiemy występującą naturalnie lub zaprojektowaną sekwencję zmian właściwości (atrybutów) pewnego systemu lub obiektu. Można powiedzieć bardziej formalnie, że każdy proces jest reprezentowany poprzez trajektorię w przestrzeni fazowej rozpatrywanego systemu. Możemy pod tym pojęciem rozumieć zarówno instancję programu wykonywaną pod nadzorem systemu operacyjnego, jak również pracę programisty uczestniczącego w projekcie lub organizację przepływu dokumentów w jakiejś firmie lub przedsiębiorstwie. Prezentacja będzie miała na celu wprowadzenie do zagadnienia eksploracji procesów (ang. process mining). Mówiąc bardzo oględnie - jest to ogół technik mających na celu odkrywanie i analizę procesów na podstawie dzienników zdarzeń (ang. event logs).

12.12.2008 - Andrzej Janusz: "Rola podobienstwa w cyklu Case-based Reasoning".

Na cykl CBR mozna patrzec jak na proces rozwiazywania zadanego problemu. Jest on analogia do modelu wnioskowania czlowieka o zaistnialej sytuacji. Fundamentem CBR jest tak zwany aksjomat podobienstwa, ktory mozna sprowadzic do zdania: "podobne problemy maja podobne rozwiazania". Aby system korzystajacy z idei CBR mogl skutecznie rozwiazywac swoje zadania, musi posiadac zdolnosc rzetelnego oceniania podobienstwa miedzy przypadkami. W ramach prezentacja chcialbym skrotowo omowic idee cyklu CBR oraz przedstawic analize kluczowych kierunkow rozwoju CBR na podstawie prac publikowanych w ramach konferencji ICCBR/ECCBR w latach 1993-2007, zwracajac szczegolna uwage na problemy zwiazane z zagadnieniem oceny podobienstwa. Zaprezentuje rowniez znane z literatury modele nauki z danych funkcji mierzacej podobienstwo i opisze stan prac nad rozwijanym przeze mnie modelem podobienstwa bazujacego na regulach.

16.01.2009 - Nguyen Sinh Hoa, Nguyen Hung Son: "Discovery by relation approximation and exploration: overview and challenges".

This talk is related to the problem of learning to approximate relations from data. We summarize some recent results and applications of this method in KDD. We also present some challenging problems in this research direction.

23.01.2009 - Wojciech Świeboda: "Indukcyjne modelowanie procesów".

Celem prezentacji jest wprowadzenie do "indukcyjnego modelowania procesów". Jest to paradygmat konstrukcji modeli, który z zalozenia nie tylko odpowiada na pytanie "jak sa ze soba zwiazane obserwowane zmienne", ale stara sie sie wrecz odpowiedziec na pytanie "dlaczego ...?", poprzez znalezienie objasniajacego ich trajektorie procesu. Źródlem jest artykul naukowców ze Stanfordu (dokladniej, z "Center for the Study of Language and Information") o tym samym tytule co prezentacja.

20.02.2009 - Sebastian Stawicki: "Obliczenia interakcyjne".

Mówiąc o maszynie Turinga lub o klasycznej definicji algorytmu, pojęcie obliczenia rozumiemy jako ściśle określony ,,przepis'' na przetworzenie danych wejściowych na dane wyjściowe, przy czym te pierwsze muszą być znane w całości już na samym początku. W obliczeniu interakcyjnym natomiast dozwolona jest komunikacja ze "światem zewnętrznym" w trakcie obliczenia. Przykładem może być tutaj jazda samochodem. Kierowca musi obserwować to, co dzieje się na drodze (otaczające samochody, sygnalizację świetlną, warunki atmosferyczne) i odpowiednio reagować na zaistniałą sytuację (zmiana prędkości, zmiana kierunku jazdy). Trudno w takim przypadku mówić o algorytmie (w klasycznej jego definicji), który odpowiadałby w sposób precyzyjny na pytanie jak i gdzie jechać.
Podczas prezentacji przedstawię podstawowe zagadnienia związane z pojęciem "obliczenia interakcyjnego". W szczególności opowiem o twierdzeniu Churcha-Turinga oraz o rozszerzeniu modelu maszyny Turinga jakim jest PTM (ang. persistent Turing machine).

6.03.2009 - Jan Bazan: "Dyskusja nad dalszym rozwojem biblioteki oprogramowania Rough ICE".

W poprzednim semestrze przedstawiałem na seminarium środowisko Rough ICE (Rough Set Interactive Classification Engine) służące do budowy klasyfikatorów dla pojęć złożonych w oparciu o zbiory danych i wiedzę dziedzinową.
Okazało się, że uczestnicy seminarium bardziej są zainteresowani biblioteką RoughICE-lib na której opiera się GUI środowiska Rough ICE, niż samych GUI. Dlatego pojawiła się propozycja Pana Profesora Skowrona, aby udostępnić te bibliotekę do wykorzystania przy wykonywaniu dalszych badań w Jego grupie badawczej.
Stąd najbliższe seminarium będzie poświecone dyskusji na temat wykorzystania biblioteki RoughICE-lib w pracach badawczych zainteresowanych osób.
Na początku seminarium pozwolę sobie powiedzieć kilka słów na temat obecnej zawartości biblioteki. Następnie zostanie zainicjowana dyskusja, której celem będzie ustalenie następujących faktów dotyczących wykorzystania biblioteki RoughICE-lib.
1. Jakimi strukturami danych oraz funkcjonalnościami są zainteresowani przyszli użytkownicy biblioteki?
2. W jaki sposób biblioteka będzie udostępniana?
3. Jakie będzie jej miejsce w ogólnym rozwoju oprogramowania w stosunku do takich bibliotek jak RS-lib (jadro starego RSES-a), RSES-lib, Debellor oraz ICE.

13.03.2009 - Bernhard Ganter, Christian Meschke: "A FCA-Perspective on Rough Sets".

We show how certain lattices occurring in the theory of Rough Sets can be described in the language of Formal Concept Analysis. These lattices are obtained from generalised approximation operators forming a kernel-closure pair. We prove a general context representation theorem and derive first consequences. It becomes clear under which conditions the approximations can be interpreted as intervals in a lattice of "definable sets". In the second part of our talk we propose a further generalisation. Instead of kernel-closure pairs on powerset lattices we describe the situation of such pairs on arbitrary complete lattices.

20.03.2009 - Paweł Gora: "Matematyczny opis symulacji ruchu drogowego przy pomocy automatów komórkowych".

Na seminarium omówię matematyczne podstawy, które kryją się za tworzonym przeze mnie symulatorem ruchu drogowego. Opowiem o najlepszych znanych modelach symulacji wykorzystujących teorię automatów komórkowych oraz zaprezentuję mój własny model, stworzony na potrzeby symulatora. Przedstawię również wnioski, wynikające z tych modeli na drodze analitycznych i probabilistycznych rozważań, które będą przydatne w dalszej pracy do wykrywania powstawania korków na drodze oraz planowania unikania tych zagrożeń. Zaprezentuję także najnowsze zmiany, które wprowadziłem w samym symulatorze.

27.03.2009 - Andrzej Janusz: "Podobieństwo mikromacierzy".

W czasie prezentacji opowiem o technologii równoległego wykonywania dziesiątków tysięcy eksperymentów genetycznych - mikromacierzach. Postaram się skrótowo opisać proces prowadzący od sterylnego laboratorium biomedycznego do tablicy zawierającej złożone dane na temat zróżnicowanych rzeczywistych problemów badawczych. Opowiem gdzie można zdobyć tego typu dane oraz gdzie szukać wiedzy dziedzinowej na ich temat.
W drugiej części prezentacji nawiążę do problemu analizy danych o wielu atrybutach i niewielkiej liczbie obiektów. Opowiem o własnych doświadczeniach związanych z konstrukcją modeli podobieństwa w tego typu sytuacji. Szczególną uwagę poświęcę problemowi wyszukiwania i konstrukcji nowych cech pozwalających na lepsze wyrażanie podobieństwa (lub niepodobieństwa) między obiektami.

17.04.2009 - Grzegorz Materna: "Mammografia cyfrowa".

Obecnie analogowa mammografia rentgenowska jest podstawową metodą wykrywania raka sutka i innych występujących nieprawidłowości. Przebieg badania mammograficznego ma pewne ograniczenia, które mogą stać się przyczyną błędów w interpretacji wyników jednak zastosowanie przetwarzania obrazów cyfrowych umożliwia wprowadzenie różnych technik wspomagających proces diagnozowania. Podczas wystąpienia na seminarium postaram się przybliżyć temat analizy zdjęć mammograficznych pod kątem wykrywania zmian patologicznych w piersi, opisać pojęcia związane z badaniem mammograficznym, przedstawić problemy diagnostyki zdjęć mammograficznych oraz zbiory danych testowych.

24.04.2009 - Wojtek Świeboda: "Functional Data Analysis".

Jeden z głównych wątków które ostatnio poruszamy na Seminarium Zakładu Logiki Matematycznej to, bardzo ogólnie, temat procesów, własności temporalnych i zmienności w czasie. Functional Data Analysis (FDA) to metodologia ze świata statystyki, w której jako poszczególne obserwacje traktujemy całe funkcje (obserwowane w kilku punktach). Postaram się opowiedzieć o kilku technikach przeniesionych ze świata "zwykłej" wielowymiarowej statystyki w świat funkcji.

8.05.2009 - Urszula Kużelewska: "Eksploracja danych przy użyciu algorytmów grupujących z wykorzystaniem granulacji informacji".

Pozyskiwanie wiedzy z danych (określane również jako eksploracja, zgłębianie, drążenie danych - z ang. data mining) jest dziedziną nauki nierozerwalnie związaną z postępem informatycznym. Z pojęciem wydobywania danych wiąże się dziedzina zwana obliczeniami granularnymi, bądź granulacją informacji (z ang. Granular Computing). Postuluje ona przetwarzanie informacji w formie granul, które są traktowane jako pewne jednostki informacji stanowiące uogólnienie koncepcji bitów używanych w przetwarzaniu informacji cyfrowej. Granule stanowią agregaty, grupy obiektów wydzielone na podstawie relacji podobieństwa, nierozróżnialności, funkcjonalności. Poziom granulacji (ziarnistości) informacji zależy od wybranego rozdzielczości (stopnia przybliżenia) analizowanego zagadnienia. Jedną z technik konstrukcji granul jest grupowanie (z ang. clustering) - proces wydobywania wiedzy ze zbioru danych, gdy nie są dostępne o nim żadne dodatkowe informacje odnośnie kategorii przypisanej do poszczególnych punktów próbki.
Zadaniem procedur grupujących jest podział zbioru na rozłączne grupy tak, aby w każdym z nich znalazły się dane najbardziej do siebie podobne zgodnie ze zdefiniowanym wcześniej kryterium.
Granulacja informacji z wykorzystaniem algorytmów grupujących była dotychczas realizowana przy pomocy dobrze znanych metod, np. algorytmu k-średnich w wersji opartej na zbiorach rozmytych. Jednakże należy podkreślić, że stosowane powszechnie techniki grupowania wykazują się znacznymi ograniczeniami, które redukują możliwości ich praktycznego wykorzystania. Algorytm SOSIG jest przeznaczony do granulacji danych, która odbywa się w oparciu o zadany poziom rozdzielczości odpowiadający poziomowi przybliżenia generowanego wyniku. Rozwiązaniem jest podział zbioru danych wejściowych zrealizowany w procesie grupowania. Grupy są w nim traktowane jako skupiska obiektów o dużej gęstości. Algorytm SOSIG, w przeciwieństwie do tradycyjnych rozwiązań, jest efektywny w eksploracji zbiorów zawierających grupy zróżnicowane pod względem kształtu i rozmiaru. Identyfikacja granul może odbywać się w sposób automatyczny bez konieczności podawania liczby grup do podziału oraz w obecności szumu o niższej gęstości i obiektów odstających.

15.05.2009 - Jan Bazan: "Klasyfikatory hierarchiczne dla złożonych pojęć czasowo-przestrzennych".

Podczas prezentacji chciałbym syntetycznie przedstawić problematykę oraz wyniki badań, które zostały opisane w autoreferacie mojej rozprawy habilitacyjnej.

22.05.2009 - Michał Sapiński: "Przetwarzanie danych dotyczących rynków kapitałowych".

Wykorzystanie na giełdzie metod sztucznej inteligencji, inteligencji obliczeniowej i innych zaawansowanych technologii informatycznych jest (na świecie) dynamicznie rozwijają się dziedziną. Dzięki postępowi w tych obszarach rynki mogą stać się bardziej płynne, tańsze (w sensie kosztów transakcji) i bardziej efektywne.
Wyzwania dotyczą wielu zagadnień:
* Analizy danych czasowych, odkrywania wzorców czasowych, modelowania predykcyjnego
* Gromadzenia, przetwarzania dużych ilości danych z wielu źródeł, czyszczenia danych
* Przetwarzania danych w języku naturalnym (informacje prasowe)
* Inżynierii finansowej, metod wyceny instrumentów pochodnych
* Analizy ryzyka, modeli VaR
* Systemów informatycznych czasu rzeczywistego (gdzie między innymi bardzo ważna jest szybkość reakcji na zmieniającą się sytuację rynkową)
* i innych.
W czasie prezentacji opowiem o zgromadzonych danych, wynikach modelowania i stosowania w praktyce modeli predykcyjnych na rynkach kapitałowych w kontekście amerykańskiego rynku akcji.

05.06.2009 - Piotr Wasilewski: "O procesach poznawczych i wzajemnych odziaływaniach w systemach wieloagentowych".

Referat poświęcony jest pojęciowym podstawom integracji modelowania procesów poznawczych i symulacji odziaływań spolecznych opartych o systemy wieloagentowe, wykorzystujących metody sztucznej intaligencji. Zostaną omówione podstawy przedstawianych podejść wraz z wielopoziomową hierarchią analizy dostarczającą schematu integracji tych podejść. Schemat ten ma związek z algorytmami hierarchicznymi w obliczeniach interakcyjnych. Refear oparty jest o pracę Rona Suna "Prolegomena to Integrating Cognitive Modeling and Social Simulations" z książki "Cognition and Multi - Agent Interaction" Sun. R. (red.), Camgridge University Press, 2006.

05.06.2009 - Piotr Wasilewski: "Podstawy zbiorów bliskich".

W referacie zostanie przedstawione pewne ujęcie zbiorów bliskich wraz z ich matematycznymi podstawami. Zbiory bliksie (near sets) są opartymi o zbiory przybliżone narzędziami dostarczającymi metod jakościowej analizy danych w przetwarzaniau obrazu, m.in. obserwacji, porównywania i kalsyfikacji granul percepcyjnych. Omówione zostaną podstawowe pojęcia teorii zbiorów bliskich: systemy precepcyjne, relacje bliskości i percepcyjne zbiory bliskie wraz z przykładami oraz podstawowe twierdzenia dotyczące struktury zbiorów bliskich, w szczególności, iż rodzina zbiorów bliskich jest kratą przyciętą w sensie Graetzera.