You are not logged in | Log in
Return to the list of active seminars

Seminarium "DeSeR: Dane, strumienie, rozpraszanie"

The seminar is devoted to the theory and practice of data management and knowledge representation. We are interested in challenges related to the processing of data, queries, and metadata (schemas, constraints, dependencies, ontologies), ranging from designing and analyzing abstract formalisms all the way to database systems architecture and distributed processing of big data. We like our data in all flavors: not only relational, but also semistructured (XML, JSON), graph (RDF, LPG), object, text, temporal, stream, GIS, and others.

The problems tackled can be theoretical, requiring tools from algorithmics, combinatorics, logic (e.g. finite model theory), and automata theory, as well as very practical, in the spirit of systems and software engineering. MSc theses written within our seminar may study decidability and complexity of abstract problems, design algorithms and heuristics, implement and experiment with existing theoretical solutions, or analyze, compare and extend existing systems.

We meet and discuss with experts in other disciplines, who sometimes supply ideas for MSc theses. We have cooperated or are currently cooperating with astronomers, chemists, and geographers. We are also open for other areas where databases can be applied.

Seminar presentations are usually based on recent papers presented at leading international conferences devoted to data management and knowledge representation, such as VLDB, PODS, SIGMOD, or KR.

Selected topics:

* Data models, semantics, query languages

* Data provenance

* Databases for emerging hardware

* Distributed and parallel databases

* Graph data management, RDF, social networks, Semantic Web

* Knowledge discovery, clustering, data mining

* Machine learning for data management and vice versa

* Model theory, logics, algebras, computational complexity

* Ontology-based data access, data integration and exchange, metadata management

* Ontology formalisms and models, description logics

* Privacy, security, ethics

* Query processing and optimization

* Scientific databases

* Semi-structured data

* Small data, end-user programming

* Storage, indexing, and physical database design

* Streams, sensor networks, complex event processing

* Transaction processing

* Uncertainty, incompleteness, and inconsistency in data management


Organizers

Information

Tuesdays, 10:15 a.m. , room: 4060

Home page

https://sites.google.com/view/sembdmimuw?pli=1&authuser=1

Research fields

List of talks

  • Dec. 14, 2023, 12:15 p.m.
    Maciej Herdon (MIMUW)
    EvenDB: Optimizing Key-Value Storage for Spatial Locality
    Zastosowania wykorzystujące pamięć klucz-wartość(KV) często manifestują dużą lokalność danych, przykładowo kiedy wiele elementów posiada identyczne prefixy kluczy. Ten powszechny wzorzec dostępu jest niewystarczająco wykorzystywany przez wszechobecną strukturę Log-structured merge-tree znajdującą się u podstaw wysokoprzepustowych magazynów KV w obecnych czasach. Zespół …

  • Dec. 7, 2023, 12:15 p.m.
    Michał Jadwiszczak (MIMUW)
    Rozproszone agregacje w ScyllaDB
    Podczas referatu zaprezentuję aktualne postępy mojej pracy magisterskiej. Przedstawię zastosowaną metodę rozpraszania obliczeń w bazie, oraz wyniki pierwszych benchmarków. Opowiem o ograniczeniach aktualnej implementacji i jak planuję je rozwiązać. Na koniec przedstawię moje wnioski jakie …

  • Nov. 30, 2023, 12:15 p.m.
    Zofia Salata (MIMUW)
    Vector Database Management Systems Overview
    In my presentation I'd like to offer a high level overview of Vector Databases, which become more and more popular with the growth of large language models and recommendation platforms. They are used to retrieve …

  • Nov. 23, 2023, 12:15 p.m.
    Marcin Mordecki (MIMUW)
    Marcin Mordecki: Monarch - Google’s planet-scale timeseries database
    Google posiada wiele produktów, z których znaczna część działa w skali globalnej. Używając ich na co dzień, często przyjmujemy za oczywiste ich płynne działanie - względna wydajność, rzadkie awarie, itp. Zespoły rozwijające i utrzymujące te …

  • Nov. 16, 2023, 12:15 p.m.
    Grzegorz B. Zaleski (MIMUW)
    Metrics and Subjective Assessments for Measuring Software Quality
    Przedstawię wprowadzenie do mojej pracy magisterskiej pod tytułem "Porównanie miar oprogramowania z subiektywną oceną jakości".  Pokażę aktualny stan nad uzyskaniem datasetu oraz plan przyszłych działań. Zreferuję też artyluł Overview of Quality Metrics Used in Estimating Software …

  • Nov. 9, 2023, 12:15 p.m.
    Jacek Ciszewski (MIMUW)
    PG schema validation
    Recent years have seen property graph databases popularity and demand rising. With great focus in the field put on graph query languages, a variety of existing graph schemas differs substantially in supported features, with upcoming ISO's standard GQL …

  • Oct. 26, 2023, 12:15 p.m.
    Tomasz Domagała (MIMUW)
    Evaluating Regular Path Queries in GQL Using Classical Algorithms
    In the upcoming presentation, we address the challenge of answering regular path queries in graph databases while also providing the paths that witness our answers. We explore this problem within various semantics, including arbitrary, all-shortest, trail, and simple-path. …

  • Oct. 19, 2023, 12:15 p.m.
    Bartosz Ruszewski (MIMUW)
    Regular Path Queries problems under different semantics
    Na dzisiejszym referacie opowiemy sobie o grafowych bazach danych, powiemy sobie jak z pozoru łatwe problemy grafowe stają się NP trudne w momencie gdy dodamy do nich wyrażenie regularne. Opowiemy sobie o tym jak wybrana …

  • Oct. 12, 2023, 12:15 p.m.
    Damian Werpachowski (MIMUW)
    FUSSE: Magazyn klucz-wartość z pełnym rozproszeniem pamięci
    Magazyny klucz-wartość bazujące na rozproszonej pamięci operacyjnej najczęściej występują w modelu częściowo-rozproszonym, gdzie pary klucz-wartość są przechowywane w rozproszonej pamięci, natomiast metadane takie jak indeksy, na serwerach monolitycznych. Jako, że główną zaletą rozproszonej pamięci operacyjnej …

  • Oct. 5, 2023, 12:15 p.m.
    Michał J Gajda (Migamake Pte Ltd)
    Księgowość danych
    Jak zapewnić poprawność analizy danych? Poza najlepszymi praktykami w statystyce (standardowe podsumowania eksperymentów) i bankowości (BCP 239), chciałoby się znaleźć matematyczny opis tego problemu. Przedstawię metodologię rozwijaną w celu systematycznego podsumowywania danych. Metodologia nawiązuje do …

  • June 1, 2023, 12:15 p.m.
    Piotr Wiśniewski (UMK)
    Jak ugryźć 400 TB?
    W referacie przedstawione zostaną doświadczenia z budowy systemu, którego celem było przeliczenie FFT oraz iFFT na 1 600 000 sygnałów. System został zaprojektowany dla miniserwerowni mobilnej wyposażonej w 10 serwerów każdy wsparty kartą graficzną.

  • May 25, 2023, 12:15 p.m.
    Jakub Martin (MIMUW)
    OctoSQL: Building a Universal SQL Query Tool and Ecosystem to work with Heterogeneous Kinds of Data
    OctoSQL (https://github.com/cube2222/octosql), który był tematem mojej pracy magisterskiej, to lokalne narzędzie pozwalające na uruchamianie zapytań SQL na różnego rodzaju plikach i bazach danych, w tym na łączenie danych z wielu źródeł jednocześnie. W ramach referatu …

  • May 18, 2023, 12:15 p.m.
    Marta Burzańska & Piotr Wiśniewski (UMK)
    Ćwierćwiecze zapytań rekurencyjnych w relacyjnych bazach danych
    W referacie zaprezentowana zostanie historia zapytań rekurencyjnych w relacyjnych bazach danych od momentu wprowadzenia common table expression przez IBM oraz wejścia ich do standardu SQL:99. Następnie zostanie przedstawiony przegląd możliwości wybranych baz dokonany 10 lat …

  • May 11, 2023, 12:15 p.m.
    Damian Werpachowski (MIMUW)
    Wektorowe bazy danych na przykładzie Milvus
    W obliczu rosnącej ilości nieustrukturyzowanych danych rośnie potrzeba wydajnego i systematycznego analizowania tych danych. Jednym z powszechnie stosowanych podejsć jest osadzanie ich w przestrzeniach wektorowych o wysokim wymiarze. Przy użyciu odpowiednich metryk, model ten pozwala …

  • April 27, 2023, 12:15 p.m.
    Jacek Ciszewski (MIMUW)
    Worst-case optimal join
    Join processing is fundamental in the database domain. Authors of the paper “Leapfrog Triejoin: A Simple, Worst-Case Optimal Join Algorithm” present an interesting join algorithm that archives worst-case optimality for a family of problems. In …