Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).
Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.
Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.
Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.
Przykładowe zagadnienia:
* Data models, semantics, query languages
* Data provenance
* Databases for emerging hardware
* Distributed and parallel databases
* Graph data management, RDF, social networks, Semantic Web
* Knowledge discovery, clustering, data mining
* Machine learning for data management and vice versa
* Model theory, logics, algebras, computational complexity
* Ontology-based data access, data integration and exchange, metadata management
* Ontology formalisms and models, description logics
* Privacy, security, ethics
* Query processing and optimization
* Scientific databases
* Semi-structured data
* Small data, end-user programming
* Storage, indexing, and physical database design
* Streams, sensor networks, complex event processing
* Transaction processing
* Uncertainty, incompleteness, and inconsistency in data management
Organizatorzy
- dr hab. Filip Murlak, prof. UW
- dr Jacek Sroka
- prof. dr hab. Krzysztof Stencel
- prof. dr hab. Jerzy Tyszkiewicz
Informacje
wtorki, 10:15 , sala: 4060Strona domowa
https://sites.google.com/view/sembdmimuw?pli=1&authuser=1Dziedziny badań
Lista referatów
-
17 marca 2022 12:15
Piotr Przymus (UMK)
Tracking Buggy Files: New Efficient Adaptive Bug Localization Algorithm
Upon receiving a new bug report, developers need to find its cause in the source code. Bug localization can be helped by a tool that ranks all source files according to how likely they include …
-
10 marca 2022 12:15
Jacek Sroka (MIMUW)
Zliczanie zdominowanych punktów w modelu MPC c.d.
Prezentacja będzie obejmowała podstawowe wprowadzenie do modeli obliczeniowych dla algorytmów rozpraszających obliczenia na klastry. Następnie omówiony zostanie algorytm zliczający zdominowane punkty w modelu MPC. Kontynuacja wystąpienia z poprzedniego tygodnia.
-
3 marca 2022 12:15
Jacek Sroka (MIMUW)
Zliczanie zdominowanych punktów w modelu MPC
Prezentacja będzie obejmowała podstawowe wprowadzenie do modeli obliczeniowych dla algorytmów rozpraszających obliczenia na klastry. Następnie omówiony zostanie algorytm zliczający zdominowane punkty w modelu MPC.
-
27 stycznia 2022 12:15
Joachim Aleszkiewicz
HUGE: An Efficient and Scalable Subgraph Enumeration System
Prezentacja na podstawie pracy: Zhengyi Yang, Longbin Lai, Xuemin Lin, Kongzhang Hao, Wenjie Zhang: HUGE: An Efficient and Scalable Subgraph Enumeration System. SIGMOD Conference 2021: 2049-2062 https://arxiv.org/abs/2103.14294
-
20 stycznia 2022 12:15
Kuba Piwowar (SWPS (i dodatkowo Google))
Tematem referatu jest zdefiniowanie oraz analiza źródeł wykluczenia algorytmicznego, jak również sposobów radzenia sobie z jego konsekwencjami i zapobiegania mu
Część teoretyczna osadzona jest w krytycznej refleksji nad technologią i składa się z trzech elementów. Pierwszy z nich wprowadza podstawowe pojęcia i umieszcza problematykę pracy w szerokiej dyskusji na temat krytycznych podejść do technologii. Drugi …
-
13 stycznia 2022 12:15
Michał Jadwiszczak
Prezentacja pracy "An evaluation of distributed concurrency control" z konferencji VLDB
Publikacja omawia i porównuje różne protokoły transakcji w używne w systemie zarządzania bazą danych. Omówione zostaną protokoły: Two-Phase Locking, Timestamp Ordering, Optimistic Concurrency Control, Deterministic oraz Two-Phase Commit.
-
16 grudnia 2021 12:15
Kamil Breguła - software engineer w Snowflake Poland, kontrybutor jak i członek zarządu Apache Airflow oraz Piotr Pietrzkiewicz - field engineer w Snowflake Poland, +10 lat doświadczenia
Snowflake jako chmura danych
Snowflake to jeden z najgorętszych debiutów giełdowych na NYSE. Platforma która zrewolucjonizowała podejście do analizy i wymiany danych w chmur`ACH (celowy zabieg). Podczas tej sesji omówimy historię, unikalną architekturę i sposób rozwiązywania wad obecnych systemów …
-
9 grudnia 2021 12:15
prof. dr hab. Jerzy Tyszkiewicz
End-User Programming for BigData
I will describe a widely known programming language of spreadsheet formulas as a potential new language to process big data. All crucial steps to fulfill this idea will be discussed, some of them without a …
-
-
25 listopada 2021 12:15
dr hab. Filip Murlak , prof. UW
GQL: nowy standard dla grafowych baz danych
W 2019 roku rozpoczęto prace nad nowym standardem języka zapytań dla grafowych baz danych. Grupa robocza ISO zajmująca się nowym standardem współpracuje z nieformalną społecznością przedstawicieli nauki i przemysłu skupioną pod egidą organizacji LDBC. Opowiem …