You are not logged in | Log in
Return to the list of seminars

Seminarium "DeSeR: Dane, strumienie, rozpraszanie"

The seminar is devoted to the theory and practice of data management and knowledge representation. We are interested in challenges related to the processing of data, queries, and metadata (schemas, constraints, dependencies, ontologies), ranging from designing and analyzing abstract formalisms all the way to database systems architecture and distributed processing of big data. We like our data in all flavors: not only relational, but also semistructured (XML, JSON), graph (RDF, LPG), object, text, temporal, stream, GIS, and others.

The problems tackled can be theoretical, requiring tools from algorithmics, combinatorics, logic (e.g. finite model theory), and automata theory, as well as very practical, in the spirit of systems and software engineering. MSc theses written within our seminar may study decidability and complexity of abstract problems, design algorithms and heuristics, implement and experiment with existing theoretical solutions, or analyze, compare and extend existing systems.

We meet and discuss with experts in other disciplines, who sometimes supply ideas for MSc theses. We have cooperated or are currently cooperating with astronomers, chemists, and geographers. We are also open for other areas where databases can be applied.

Seminar presentations are usually based on recent papers presented at leading international conferences devoted to data management and knowledge representation, such as VLDB, PODS, SIGMOD, or KR.

Selected topics:

* Data models, semantics, query languages

* Data provenance

* Databases for emerging hardware

* Distributed and parallel databases

* Graph data management, RDF, social networks, Semantic Web

* Knowledge discovery, clustering, data mining

* Machine learning for data management and vice versa

* Model theory, logics, algebras, computational complexity

* Ontology-based data access, data integration and exchange, metadata management

* Ontology formalisms and models, description logics

* Privacy, security, ethics

* Query processing and optimization

* Scientific databases

* Semi-structured data

* Small data, end-user programming

* Storage, indexing, and physical database design

* Streams, sensor networks, complex event processing

* Transaction processing

* Uncertainty, incompleteness, and inconsistency in data management


Organizers

Information

Tuesdays, 10:15 a.m. , room: 4060

Home page

https://sites.google.com/view/sembdmimuw?pli=1&authuser=1

Research fields

List of talks

  • Nov. 24, 2022, 12:15 p.m.
    Tomasz Domagała (MIMUW)
    Prefix Filter: Practically and Theoretically Better Than Bloom
    W niniejszym referacie zajmę się zagadnieniem filtrów. Zdefiniuję je i przedstawię ich zastosowania. Następnie przedstawię wysokopoziomowy opis sposobów ich realizacji oraz wady i zalety różnych filtrów, bloom, cuckoo, prefix. Dokładniej opiszę budowę filtrów opartych na "hash table of …

  • Nov. 10, 2022, 12:15 p.m.
    Filip Murlak (MIMUW)
    jeszcze) inacze (Rel, czyli bazy danych)
    Rel, czyli bazy danych (jeszcze) inaczej.

  • Nov. 3, 2022, 12:15 p.m.
    Jerzy Tyszkiewicz (MIMUW)
    Multizapytania
    Badamy rankingi generowane przez multizapytania, tzn. skończone multizbiory zapytań. Elementy danych są szeregowane według sumy ich odległości od elementów multizapytania. Opowiem dlaczego uważamy, że multizapytania są bardziej przyjazne dla użytkownika niż zapytania zaawansowane tworzone w oparciu o operatory …

  • Oct. 27, 2022, 12:15 p.m.
    Piotr Sarna i Piotr Jastrzębski (SQLite)
    [ZDALNIE!] Co nowego w SQLite?
    UWAGA: Referat zdalny: https://meet.google.com/fdk-jesz-mfv SQLite to biblioteka implementująca bazę danych SQL, obecna na miliardach urządzeń elektronicznych. Jest ona rozwijana od 2000 roku i wciąż pojawiają się w niej nowe, ciekawe rozwiązania. Prezentacja zawiera podsumowanie architektury …

  • Oct. 20, 2022, 12:15 p.m.
    Moshe Vardi (Rice University )
    How to be an Ethical Computer Scientist - projekcja filmu Youtube
    Wspólnie obejrzymy ten ważny referat i będziemy o nim dyskutować.   https://www.youtube.com/watch?v=yElHykHs02s Abstract: Many of us got involved in computing because programming was fun. The advantages of computing seemed intuitive to us. We truly believed that …

  • Oct. 13, 2022, 12:15 p.m.
    Wojciech Mitros (MIMUW)
    UDF) w rozproszonej bazie danyc (WebAssembly jako język funkcji zdefiniowanych przez użytkownika)
    Choosing a language for user-defined functions in a database may have a considerable effect on the performance of the database - in every query, there may be multiple UDF's. Not every language can be used …

  • June 9, 2022, 12:15 p.m.
    Michał Jadwiszczak (MIMUW)
    Omówienie i porównanie protokołów kontroli współbieżnego dostępu
    Prezentacja na podstawie pracy "An Evaluation of Distributed Concurrency Control". W dzisiejszych czasach bardzo dynamicznie zwiększającej się ilości generowanyc danych, nie jest możliwe by obsłużyć je na jednoserwerowej bazie danych. Stąd potrzeba rozproszonych baz danych, …

  • June 2, 2022, 12:15 p.m.
    Jakub Martin (MIMUW)
    OctoSQL: Building a Universal SQL Query Tool and Ecosystem to work with Heterogeneous Kinds of Data
    UWAGA: REFERAT ZDALNY: https://meet.google.com/vhw-ojrp-gjs   OctoSQL (https://github.com/cube2222/octosql) to lokalne narzędzie pozwalające na uruchamianie zapytań SQL na różnego rodzaju plikach i bazach danych, w tym na łączenie danych z wielu źródeł jednocześnie. Na tym referacie skoncentruję …

  • May 19, 2022, 12:15 p.m.
    Joachim Aleszkiewicz (MIMUW)
    Strumieniowa analiza gafów rzadkich
    Opowiem o strumieniowej analizie grafów w modelu semi-strumieniowym. Przedstawię pokrótce problemy stojące przed analizą dużych grafów i zaprezentuję efektywny sposób przechowywania stanu strumieniowanych grafów w celu ich przetwarzania, na podstawie pracy "Streaming Sparse Graphs using Efficient Dynamic Sets" (Brian …

  • May 12, 2022, 12:15 p.m.
    Kuba Piwowar (SWPS)
    Identyfikacja uprzedzeń w AI
    Podczas spotkania przyjrzymy się źródłom uprzedzeń w modelach AI i na przykładach omówimy konkretne sposoby ich debiasowania. W tym celu skupimy się na tzw. word embeddings (załączam paper), aby podjąć próbę dekonstrukcji zjawiska algorithmic bias …

  • April 7, 2022, 12:15 p.m.
    Jerzy Tyszkiewicz (MIMUW)
    Range tree á la MPC
    Prezentacja alternatywnego algorytmu do zliczania zdominowanych punktów, z analizą złożoności w modelu MPC.

  • March 24, 2022, 12:15 p.m.
    Marcin Jodłowiec (Politechnika Wrocławska, Wydział Informatyki i Telekomunikacji)
    Metody modelowania i translacji modeli baz danych dla metamodelu asocjacyjnego
    Uwaga referat zdalny. Link: https://meet.google.com/vhw-ojrp-gjs Streszczenie: Referat dotyczy osiągnięcia naukowego w zakresie opracowanych wzorców modelowania asocjacyjnych baz danych oraz translacji zarówno semantyki metamodelu asocjacyjnego, jak i samych modeli asocjacyjnych. Główną motywacją podjętego tematu była często występująca potrzeba …

  • March 17, 2022, 12:15 p.m.
    Piotr Przymus (UMK)
    Tracking Buggy Files: New Efficient Adaptive Bug Localization Algorithm
    Upon receiving a new bug report, developers need to find its cause in the source code. Bug localization can be helped by a tool that ranks all source files according to how likely they include …

  • March 10, 2022, 12:15 p.m.
    Jacek Sroka (MIMUW)
    Zliczanie zdominowanych punktów w modelu MPC c.d.
    Prezentacja będzie obejmowała podstawowe wprowadzenie do modeli obliczeniowych dla algorytmów rozpraszających obliczenia na klastry. Następnie omówiony zostanie algorytm zliczający zdominowane punkty w modelu MPC. Kontynuacja wystąpienia z poprzedniego tygodnia.

  • March 3, 2022, 12:15 p.m.
    Jacek Sroka (MIMUW)
    Zliczanie zdominowanych punktów w modelu MPC
    Prezentacja będzie obejmowała podstawowe wprowadzenie do modeli obliczeniowych dla algorytmów rozpraszających obliczenia na klastry. Następnie omówiony zostanie algorytm zliczający zdominowane punkty w modelu MPC.

  • Jan. 27, 2022, 12:15 p.m.
    Joachim Aleszkiewicz
    HUGE: An Efficient and Scalable Subgraph Enumeration System
    Prezentacja na podstawie pracy: Zhengyi Yang, Longbin Lai, Xuemin Lin, Kongzhang Hao, Wenjie Zhang: HUGE: An Efficient and Scalable Subgraph Enumeration System. SIGMOD Conference 2021: 2049-2062 https://arxiv.org/abs/2103.14294

  • Jan. 20, 2022, 12:15 p.m.
    Kuba Piwowar (SWPS (i dodatkowo Google))
    Tematem referatu jest zdefiniowanie oraz analiza źródeł wykluczenia algorytmicznego, jak również sposobów radzenia sobie z jego konsekwencjami i zapobiegania mu
    Część teoretyczna osadzona jest w krytycznej refleksji nad technologią i składa się z trzech elementów. Pierwszy z nich wprowadza podstawowe pojęcia i umieszcza problematykę pracy w szerokiej dyskusji na temat krytycznych podejść do technologii. Drugi …

  • Jan. 13, 2022, 12:15 p.m.
    Michał Jadwiszczak
    Prezentacja pracy "An evaluation of distributed concurrency control" z konferencji VLDB
    Publikacja omawia i porównuje różne protokoły transakcji w używne w systemie zarządzania bazą danych. Omówione zostaną protokoły: Two-Phase Locking, Timestamp Ordering, Optimistic Concurrency Control, Deterministic oraz Two-Phase Commit.

  • Dec. 16, 2021, 12:15 p.m.
    Kamil Breguła - software engineer w Snowflake Poland, kontrybutor jak i członek zarządu Apache Airflow oraz Piotr Pietrzkiewicz - field engineer w Snowflake Poland, +10 lat doświadczenia
    Snowflake jako chmura danych
    Snowflake to jeden z najgorętszych debiutów giełdowych na NYSE. Platforma która zrewolucjonizowała podejście do analizy i wymiany danych w chmur`ACH (celowy zabieg). Podczas tej sesji omówimy historię, unikalną architekturę i sposób rozwiązywania wad obecnych systemów …

  • Dec. 9, 2021, 12:15 p.m.
    prof. dr hab. Jerzy Tyszkiewicz
    End-User Programming for BigData
    I will describe a widely known programming language of spreadsheet formulas as a potential new language to process big data. All crucial steps to fulfill this idea will be discussed, some of them without a …


  • Nov. 25, 2021, 12:15 p.m.
    dr hab. Filip Murlak , prof. UW
    GQL: nowy standard dla grafowych baz danych
    W 2019 roku rozpoczęto prace nad nowym standardem języka zapytań dla grafowych baz danych. Grupa robocza ISO zajmująca się nowym standardem współpracuje z nieformalną społecznością przedstawicieli nauki i przemysłu skupioną pod egidą organizacji LDBC. Opowiem …