Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).
Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.
Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.
Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.
Przykładowe zagadnienia:
* Data models, semantics, query languages
* Data provenance
* Databases for emerging hardware
* Distributed and parallel databases
* Graph data management, RDF, social networks, Semantic Web
* Knowledge discovery, clustering, data mining
* Machine learning for data management and vice versa
* Model theory, logics, algebras, computational complexity
* Ontology-based data access, data integration and exchange, metadata management
* Ontology formalisms and models, description logics
* Privacy, security, ethics
* Query processing and optimization
* Scientific databases
* Semi-structured data
* Small data, end-user programming
* Storage, indexing, and physical database design
* Streams, sensor networks, complex event processing
* Transaction processing
* Uncertainty, incompleteness, and inconsistency in data management
Organizatorzy
- dr hab. Filip Murlak, prof. ucz.
- dr Jacek Sroka
- prof. dr hab. Krzysztof Stencel
- prof. dr hab. Jerzy Tyszkiewicz
Informacje
wtorki, 10:15 , sala: 4060Strona domowa
https://sites.google.com/view/sembdmimuw?pli=1&authuser=1Dziedziny badań
Lista referatów
-
11 stycznia 2024 12:15
Piotr Ulanowski (MIMUW)
ByteStore: Hybrid Layouts for Main-Memory Column Stores
Bazy Kolumnowe są obecnie używane do przeprowadzania analiz na dużych danych relacyjnych. Takie analizy zazwyczaj składają się z read-only zapytań. Po wykonaniu tych zapytań, dane są następnie przekazywane do dalszej analizy takiej jak agregacja czy …
-
21 grudnia 2023 12:15
Łukasz Orawiec (MIMUW)
InfiniStore: Elastic Serverless Cloud Storage
Model Function-as-a-Service pozwala tworzyć systemy, będące zbiorami funkcji umożliwiających wykonywanie kodu bez konieczności zarządzania infrastrukturą. Natychmiastowe i automatyczne skalowanie funkcji, zapewniane przez usługodawcę, szybki dostęp do danych przechowywanych w instancjach funkcji oraz korzystne naliczanie opłat …
-
14 grudnia 2023 12:15
Maciej Herdon (MIMUW)
EvenDB: Optimizing Key-Value Storage for Spatial Locality
Zastosowania wykorzystujące pamięć klucz-wartość(KV) często manifestują dużą lokalność danych, przykładowo kiedy wiele elementów posiada identyczne prefixy kluczy. Ten powszechny wzorzec dostępu jest niewystarczająco wykorzystywany przez wszechobecną strukturę Log-structured merge-tree znajdującą się u podstaw wysokoprzepustowych magazynów KV w obecnych czasach. Zespół …
-
7 grudnia 2023 12:15
Michał Jadwiszczak (MIMUW)
Rozproszone agregacje w ScyllaDB
Podczas referatu zaprezentuję aktualne postępy mojej pracy magisterskiej. Przedstawię zastosowaną metodę rozpraszania obliczeń w bazie, oraz wyniki pierwszych benchmarków. Opowiem o ograniczeniach aktualnej implementacji i jak planuję je rozwiązać. Na koniec przedstawię moje wnioski jakie …
-
30 listopada 2023 12:15
Zofia Salata (MIMUW)
Vector Database Management Systems Overview
In my presentation I'd like to offer a high level overview of Vector Databases, which become more and more popular with the growth of large language models and recommendation platforms. They are used to retrieve …
-
23 listopada 2023 12:15
Marcin Mordecki (MIMUW)
Marcin Mordecki: Monarch - Google’s planet-scale timeseries database
Google posiada wiele produktów, z których znaczna część działa w skali globalnej. Używając ich na co dzień, często przyjmujemy za oczywiste ich płynne działanie - względna wydajność, rzadkie awarie, itp. Zespoły rozwijające i utrzymujące te …
-
16 listopada 2023 12:15
Grzegorz B. Zaleski (MIMUW)
Metrics and Subjective Assessments for Measuring Software Quality
Przedstawię wprowadzenie do mojej pracy magisterskiej pod tytułem "Porównanie miar oprogramowania z subiektywną oceną jakości". Pokażę aktualny stan nad uzyskaniem datasetu oraz plan przyszłych działań. Zreferuję też artyluł Overview of Quality Metrics Used in Estimating Software …
-
9 listopada 2023 12:15
Jacek Ciszewski (MIMUW)
PG schema validation
Recent years have seen property graph databases popularity and demand rising. With great focus in the field put on graph query languages, a variety of existing graph schemas differs substantially in supported features, with upcoming ISO's standard GQL …
-
26 października 2023 12:15
Tomasz Domagała (MIMUW)
Evaluating Regular Path Queries in GQL Using Classical Algorithms
In the upcoming presentation, we address the challenge of answering regular path queries in graph databases while also providing the paths that witness our answers. We explore this problem within various semantics, including arbitrary, all-shortest, trail, and simple-path. …
-
19 października 2023 12:15
Bartosz Ruszewski (MIMUW)
Regular Path Queries problems under different semantics
Na dzisiejszym referacie opowiemy sobie o grafowych bazach danych, powiemy sobie jak z pozoru łatwe problemy grafowe stają się NP trudne w momencie gdy dodamy do nich wyrażenie regularne. Opowiemy sobie o tym jak wybrana …
-
12 października 2023 12:15
Damian Werpachowski (MIMUW)
FUSSE: Magazyn klucz-wartość z pełnym rozproszeniem pamięci
Magazyny klucz-wartość bazujące na rozproszonej pamięci operacyjnej najczęściej występują w modelu częściowo-rozproszonym, gdzie pary klucz-wartość są przechowywane w rozproszonej pamięci, natomiast metadane takie jak indeksy, na serwerach monolitycznych. Jako, że główną zaletą rozproszonej pamięci operacyjnej …
-
5 października 2023 12:15
Michał J Gajda (Migamake Pte Ltd)
Księgowość danych
Jak zapewnić poprawność analizy danych? Poza najlepszymi praktykami w statystyce (standardowe podsumowania eksperymentów) i bankowości (BCP 239), chciałoby się znaleźć matematyczny opis tego problemu. Przedstawię metodologię rozwijaną w celu systematycznego podsumowywania danych. Metodologia nawiązuje do …
-
1 czerwca 2023 12:15
Piotr Wiśniewski (UMK)
Jak ugryźć 400 TB?
W referacie przedstawione zostaną doświadczenia z budowy systemu, którego celem było przeliczenie FFT oraz iFFT na 1 600 000 sygnałów. System został zaprojektowany dla miniserwerowni mobilnej wyposażonej w 10 serwerów każdy wsparty kartą graficzną.
-
25 maja 2023 12:15
Jakub Martin (MIMUW)
OctoSQL: Building a Universal SQL Query Tool and Ecosystem to work with Heterogeneous Kinds of Data
OctoSQL (https://github.com/cube2222/octosql), który był tematem mojej pracy magisterskiej, to lokalne narzędzie pozwalające na uruchamianie zapytań SQL na różnego rodzaju plikach i bazach danych, w tym na łączenie danych z wielu źródeł jednocześnie. W ramach referatu …
-
18 maja 2023 12:15
Marta Burzańska & Piotr Wiśniewski (UMK)
Ćwierćwiecze zapytań rekurencyjnych w relacyjnych bazach danych
W referacie zaprezentowana zostanie historia zapytań rekurencyjnych w relacyjnych bazach danych od momentu wprowadzenia common table expression przez IBM oraz wejścia ich do standardu SQL:99. Następnie zostanie przedstawiony przegląd możliwości wybranych baz dokonany 10 lat …