The seminar is devoted to the theory and practice of data management and knowledge representation. We are interested in challenges related to the processing of data, queries, and metadata (schemas, constraints, dependencies, ontologies), ranging from designing and analyzing abstract formalisms all the way to database systems architecture and distributed processing of big data. We like our data in all flavors: not only relational, but also semistructured (XML, JSON), graph (RDF, LPG), object, text, temporal, stream, GIS, and others.
The problems tackled can be theoretical, requiring tools from algorithmics, combinatorics, logic (e.g. finite model theory), and automata theory, as well as very practical, in the spirit of systems and software engineering. MSc theses written within our seminar may study decidability and complexity of abstract problems, design algorithms and heuristics, implement and experiment with existing theoretical solutions, or analyze, compare and extend existing systems.
We meet and discuss with experts in other disciplines, who sometimes supply ideas for MSc theses. We have cooperated or are currently cooperating with astronomers, chemists, and geographers. We are also open for other areas where databases can be applied.
Seminar presentations are usually based on recent papers presented at leading international conferences devoted to data management and knowledge representation, such as VLDB, PODS, SIGMOD, or KR.
Selected topics:
* Data models, semantics, query languages
* Data provenance
* Databases for emerging hardware
* Distributed and parallel databases
* Graph data management, RDF, social networks, Semantic Web
* Knowledge discovery, clustering, data mining
* Machine learning for data management and vice versa
* Model theory, logics, algebras, computational complexity
* Ontology-based data access, data integration and exchange, metadata management
* Ontology formalisms and models, description logics
* Privacy, security, ethics
* Query processing and optimization
* Scientific databases
* Semi-structured data
* Small data, end-user programming
* Storage, indexing, and physical database design
* Streams, sensor networks, complex event processing
* Transaction processing
* Uncertainty, incompleteness, and inconsistency in data management
Organizers
- dr hab. Filip Murlak, prof. ucz.
- dr Jacek Sroka
- prof. dr hab. Krzysztof Stencel
- prof. dr hab. Jerzy Tyszkiewicz
Information
Tuesdays, 10:15 a.m. , room: 4060Home page
https://sites.google.com/view/sembdmimuw?pli=1&authuser=1Research fields
List of talks
-
March 23, 2023, 12:15 p.m.
Michał Jadwiszczak (MIMUW)
Przegląd algorytmów agregacji danych rozproszonych
Tematem referatu będzie przedstawienie i omówienie różnych podejść do agregacji danych w rozproszonym środowisku. Dobranie odpowiedniego algorytmu pozwala poprawić interesujące nas miary takie jak np: ograniczenie ruchu sieciowego, zmniejszenie czasu wykonania lub zwiększenie odporności na …
-
March 16, 2023, 12:15 p.m.
Domagoj Vrgoč (PUC Chile & IMFD Chile)
Regular path queries in MillenniumDB
We will introduce MillenniumDB, a recently developed open-source graph database system that supports worst-case optimal join plans and light recursion in terms of regular path queries. We will then describe a simple method for evaluating …
-
March 9, 2023, 12:15 p.m.
Jakub Narębski (UMK)
Mining software repositories: augmenting Python security vulnerabilities dataset
Software bugs occur in the development cycle of nearly all of software projects and can cause severe problems. Information about software bugs are often delivered by users, who submit bug reports containing details about encountered defects. During this …
-
Jan. 19, 2023, 12:15 p.m.
Marek Dopiera (Unoperate.com)
Praktyczne zagadnienia tworzenia skalowalnych i niezawodnych baz danych
Opowiem o różnicy między teorią, a praktyką w tworzeniu skalowalnej, niezawodnej i efektywnej bazy danych. W tym celu użyję przykładów z życia wziętych, żeby pokazać ogrom inżynierii dzielący architekturę od gotowego systemu. Poruszę między innymi …
-
Jan. 12, 2023, 12:15 p.m.
Jacek Ciszewski (MIMUW)
Database Workload Characterization with Query Plan Encoders
Choosing an optimal query plan is known to be a hard task, dependent on database settings and data that the query operates on. Recent work “Database Workload Characterization with Query Plan Encoders” shows how we …
-
Dec. 15, 2022, 12:15 p.m.
Michał Jadwiszczak (MIMUW)
DBOS: system operacyjny oparty na bazie danych
W referacie przedstawię DBOS, systemu operacyjnego oparty na rozproszonej bazie danych. Celem nowego OS jest natywne wsparcie rozproszonych aplikacji działających w chmurze w modelu serverless. Skupię się na omówieniu decyzji projektowych oraz prezentacji i analizie …
-
Dec. 8, 2022, 12:15 p.m.
Damian Werpachowski
Sundial: Odporny na awarie, system synchronizacji zegarów w centrach danych
Tematyką dzisiejszego referatu będzie problem synchronizacji zegarów w centrach danych oraz system Sundial, który jest rozwiązaniem gwarantującym odporność na awarie w wielu klasycznych przypadkach. Zostanie omówione zastosowanie synchronizacji zegarów w popularnych bazach danych takich jak …
-
Dec. 1, 2022, 12:15 p.m.
Bartosz Ruszewski (MIMUW)
Problemy z Nullami z punktu widzenia użytkowników
Podczas dzisiejszego referatu porozmawiamy o tym jak obecność nulli i logika trójwartościowa w SQL wpływa na intuicyjność wyników zapytań. Przenalizujemy wyniki ankiety przeprowadzonej wśród osób korzystających często z SQL i sprawdzimy w jakim stopniu zgadzają …
-
Nov. 24, 2022, 12:15 p.m.
Tomasz Domagała (MIMUW)
Prefix Filter: Practically and Theoretically Better Than Bloom
W niniejszym referacie zajmę się zagadnieniem filtrów. Zdefiniuję je i przedstawię ich zastosowania. Następnie przedstawię wysokopoziomowy opis sposobów ich realizacji oraz wady i zalety różnych filtrów, bloom, cuckoo, prefix. Dokładniej opiszę budowę filtrów opartych na "hash table of …
-
Nov. 10, 2022, 12:15 p.m.
Filip Murlak (MIMUW)
jeszcze) inacze (Rel, czyli bazy danych)
Rel, czyli bazy danych (jeszcze) inaczej.
-
Nov. 3, 2022, 12:15 p.m.
Jerzy Tyszkiewicz (MIMUW)
Multizapytania
Badamy rankingi generowane przez multizapytania, tzn. skończone multizbiory zapytań. Elementy danych są szeregowane według sumy ich odległości od elementów multizapytania. Opowiem dlaczego uważamy, że multizapytania są bardziej przyjazne dla użytkownika niż zapytania zaawansowane tworzone w oparciu o operatory …
-
Oct. 27, 2022, 12:15 p.m.
Piotr Sarna i Piotr Jastrzębski (SQLite)
[ZDALNIE!] Co nowego w SQLite?
UWAGA: Referat zdalny: https://meet.google.com/fdk-jesz-mfv SQLite to biblioteka implementująca bazę danych SQL, obecna na miliardach urządzeń elektronicznych. Jest ona rozwijana od 2000 roku i wciąż pojawiają się w niej nowe, ciekawe rozwiązania. Prezentacja zawiera podsumowanie architektury …
-
Oct. 20, 2022, 12:15 p.m.
Moshe Vardi (Rice University )
How to be an Ethical Computer Scientist - projekcja filmu Youtube
Wspólnie obejrzymy ten ważny referat i będziemy o nim dyskutować. https://www.youtube.com/watch?v=yElHykHs02s Abstract: Many of us got involved in computing because programming was fun. The advantages of computing seemed intuitive to us. We truly believed that …
-
Oct. 13, 2022, 12:15 p.m.
Wojciech Mitros (MIMUW)
UDF) w rozproszonej bazie danyc (WebAssembly jako język funkcji zdefiniowanych przez użytkownika)
Choosing a language for user-defined functions in a database may have a considerable effect on the performance of the database - in every query, there may be multiple UDF's. Not every language can be used …
-
June 9, 2022, 12:15 p.m.
Michał Jadwiszczak (MIMUW)
Omówienie i porównanie protokołów kontroli współbieżnego dostępu
Prezentacja na podstawie pracy "An Evaluation of Distributed Concurrency Control". W dzisiejszych czasach bardzo dynamicznie zwiększającej się ilości generowanyc danych, nie jest możliwe by obsłużyć je na jednoserwerowej bazie danych. Stąd potrzeba rozproszonych baz danych, …