Nie jesteś zalogowany | Zaloguj się
Powrót do listy seminarów

Seminarium "DeSeR: Dane, strumienie, rozpraszanie"

Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).

Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.

Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.

Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.

Przykładowe zagadnienia:

* Data models, semantics, query languages

* Data provenance

* Databases for emerging hardware

* Distributed and parallel databases

* Graph data management, RDF, social networks, Semantic Web

* Knowledge discovery, clustering, data mining

* Machine learning for data management and vice versa

* Model theory, logics, algebras, computational complexity

* Ontology-based data access, data integration and exchange, metadata management

* Ontology formalisms and models, description logics

* Privacy, security, ethics

* Query processing and optimization

* Scientific databases

* Semi-structured data

* Small data, end-user programming

* Storage, indexing, and physical database design

* Streams, sensor networks, complex event processing

* Transaction processing

* Uncertainty, incompleteness, and inconsistency in data management


Organizatorzy

Informacje

wtorki, 10:15 , sala: 4060

Strona domowa

https://sites.google.com/view/sembdmimuw?pli=1&authuser=1

Dziedziny badań

Lista referatów

  • 1 czerwca 2023 12:15
    Piotr Wiśniewski (UMK)
    Jak ugryźć 400 TB?
    W referacie przedstawione zostaną doświadczenia z budowy systemu, którego celem było przeliczenie FFT oraz iFFT na 1 600 000 sygnałów. System został zaprojektowany dla miniserwerowni mobilnej wyposażonej w 10 serwerów każdy wsparty kartą graficzną.

  • 25 maja 2023 12:15
    Jakub Martin (MIMUW)
    OctoSQL: Building a Universal SQL Query Tool and Ecosystem to work with Heterogeneous Kinds of Data
    OctoSQL (https://github.com/cube2222/octosql), który był tematem mojej pracy magisterskiej, to lokalne narzędzie pozwalające na uruchamianie zapytań SQL na różnego rodzaju plikach i bazach danych, w tym na łączenie danych z wielu źródeł jednocześnie. W ramach referatu …

  • 18 maja 2023 12:15
    Marta Burzańska & Piotr Wiśniewski (UMK)
    Ćwierćwiecze zapytań rekurencyjnych w relacyjnych bazach danych
    W referacie zaprezentowana zostanie historia zapytań rekurencyjnych w relacyjnych bazach danych od momentu wprowadzenia common table expression przez IBM oraz wejścia ich do standardu SQL:99. Następnie zostanie przedstawiony przegląd możliwości wybranych baz dokonany 10 lat …

  • 11 maja 2023 12:15
    Damian Werpachowski (MIMUW)
    Wektorowe bazy danych na przykładzie Milvus
    W obliczu rosnącej ilości nieustrukturyzowanych danych rośnie potrzeba wydajnego i systematycznego analizowania tych danych. Jednym z powszechnie stosowanych podejsć jest osadzanie ich w przestrzeniach wektorowych o wysokim wymiarze. Przy użyciu odpowiednich metryk, model ten pozwala …

  • 27 kwietnia 2023 12:15
    Jacek Ciszewski (MIMUW)
    Worst-case optimal join
    Join processing is fundamental in the database domain. Authors of the paper “Leapfrog Triejoin: A Simple, Worst-Case Optimal Join Algorithm” present an interesting join algorithm that archives worst-case optimality for a family of problems. In …

  • 20 kwietnia 2023 12:15
    Bartosz Ruszewski (MIMUW)
    C5: Cloned Concurrency Control That Always Keeps Up
    Podczas referatu opowiem, dlaczego replikacja danych pomiędzy główną bazą a jej kopiami zapasowymi potrafi być zbyt wolna i jakie mogą wiązać się z tym problemy. Omówimy także zaproponowany algorytm "C5", który w swoich założeniach powinien …

  • 30 marca 2023 12:15
    Tomasz Domagała (MIMUW)
    MillenniumDB - Domain Graphs Data Model, Capabilities, and Implementation
    W niniejszym referacie opiszę model danych "domain graphs" wspierany przez grafową bazę danych MillenniumDB. Porównam go z modelem RDF oraz modelem property graph. Opiszę klasy zapytań, na które pozwala model domain graphs oraz obecna wersja …

  • 23 marca 2023 12:15
    Michał Jadwiszczak (MIMUW)
    Przegląd algorytmów agregacji danych rozproszonych
    Tematem referatu będzie przedstawienie i omówienie różnych podejść do agregacji danych w rozproszonym środowisku. Dobranie odpowiedniego algorytmu pozwala poprawić interesujące nas miary takie jak np: ograniczenie ruchu sieciowego, zmniejszenie czasu wykonania lub zwiększenie odporności na …

  • 16 marca 2023 12:15
    Domagoj Vrgoč (PUC Chile & IMFD Chile)
    Regular path queries in MillenniumDB
    We will introduce MillenniumDB, a recently developed open-source graph database system that supports worst-case optimal join plans and light recursion in terms of regular path queries. We will then describe a simple method for evaluating …

  • 9 marca 2023 12:15
    Jakub Narębski (UMK)
    Mining software repositories: augmenting Python security vulnerabilities dataset
    Software bugs occur in the development cycle of nearly all of software projects and can cause severe problems. Information about software bugs are often delivered by users, who submit bug reports containing details about encountered defects.  During this …

  • 19 stycznia 2023 12:15
    Marek Dopiera (Unoperate.com)
    Praktyczne zagadnienia tworzenia skalowalnych i niezawodnych baz danych
    Opowiem o różnicy między teorią, a praktyką w tworzeniu skalowalnej, niezawodnej i efektywnej bazy danych. W tym celu użyję przykładów z życia wziętych, żeby pokazać ogrom inżynierii dzielący architekturę od gotowego systemu. Poruszę między innymi …

  • 12 stycznia 2023 12:15
    Jacek Ciszewski (MIMUW)
    Database Workload Characterization with Query Plan Encoders
    Choosing an optimal query plan is known to be a hard task, dependent on database settings and data that the query operates on. Recent work “Database Workload Characterization with Query Plan Encoders” shows how we …

  • 15 grudnia 2022 12:15
    Michał Jadwiszczak (MIMUW)
    DBOS: system operacyjny oparty na bazie danych
    W referacie przedstawię DBOS, systemu operacyjnego oparty na rozproszonej bazie danych. Celem nowego OS jest natywne wsparcie rozproszonych aplikacji działających w chmurze w modelu serverless. Skupię się na omówieniu decyzji projektowych oraz prezentacji i analizie …

  • 8 grudnia 2022 12:15
    Damian Werpachowski
    Sundial: Odporny na awarie, system synchronizacji zegarów w centrach danych
    Tematyką dzisiejszego referatu będzie problem synchronizacji zegarów w centrach danych oraz system Sundial, który jest rozwiązaniem gwarantującym odporność na awarie w wielu klasycznych przypadkach. Zostanie omówione zastosowanie synchronizacji zegarów w popularnych bazach danych takich jak …

  • 1 grudnia 2022 12:15
    Bartosz Ruszewski (MIMUW)
    Problemy z Nullami z punktu widzenia użytkowników
    Podczas dzisiejszego referatu porozmawiamy o tym jak obecność nulli i logika trójwartościowa w SQL wpływa na intuicyjność wyników zapytań. Przenalizujemy wyniki ankiety przeprowadzonej wśród osób korzystających często z SQL i sprawdzimy w jakim stopniu zgadzają …