Nie jesteś zalogowany | Zaloguj się

Tematyka seminarium obejmuje teorię i praktykę przetwarzania danych i reprezentacji wiedzy. Interesują nas wyzwania związane z przetwarzaniem danych, zapytań i metadanych (schematów, więzów, zależności, ontologii) - od projektowania i analizy abstrakcyjnych formalizmów aż po architekturę systemów i rozpraszanie obliczeń na dużych danych. Rozważamy różne rodzaje danych: nie tylko dane relacyjne, ale również semistrukturalne (XML, JSON), grafowe (RDF, LPG), obiektowe, tekstowe, temporalne, strumieniowe, aż po systemy informacji geograficznej (GIS).

Podejmujemy zarówno zagadnienia teoretyczne, wykorzystujące warsztat algorytmiki, kombinatoryki, logiki (np. teorii modeli skończonych) i teorii automatów, jak i praktyczne, opierające się na narzędziach inżynierii oprogramowania i wiedzy o systemach. Prace magisterskie powstające w ramach seminarium mogą badać rozstrzygalność i złożoność abstrakcyjnych problemów decyzyjnych, projektować algorytmy i heurystyki, implementować i testować istniejące rozwiązania teoretyczne, czy też analizować, porównywać i rozszerzać istniejące systemy.

Spotykamy się również i dyskutujemy z badaczami z innych dziedzin, którzy czasami dostarczają nam pomysłów na tematy prac magisterskich. Współpracowaliśmy już lub nadal współpracujemy z astronomami, chemikami, geografami. Jesteśmy nadal otwarci na inne obszary zastosowań.

Referaty seminaryjne są zwykle wygłaszane na podstawie wybranych prac z głównych międzynarodowych konferencji poświęconych bazom danych i reprezentacji wiedzy, takich jak VLDB, PODS, SIGMOD i KR.

Przykładowe zagadnienia:

Data models, semantics, query languages
Data provenance
Databases for emerging hardware
Distributed and parallel databases
Graph data management, RDF, social networks, Semantic Web
Knowledge discovery, clustering, data mining
Machine learning for data management and vice versa
Model theory, logics, algebras, computational complexity
Ontology-based data access, data integration and exchange, metadata management
Ontology formalisms and models, description logics
Privacy, security, ethics
Query processing and optimization
Scientific databases
Semi-structured data
Small data, end-user programming
Storage, indexing, and physical database design
Streams, sensor networks, complex event processing
Transaction processing
Uncertainty, incompleteness, and inconsistency in data management

Organizatorzy

dr hab. Filip Murlak, prof. ucz.
dr hab. Jacek Sroka
prof. dr hab. Krzysztof Stencel
prof. dr hab. Jerzy Tyszkiewicz

Informacje

wtorki, 10:15 , sala: 4060

Strona domowa

https://sites.google.com/view/sembdmimuw?pli=1&authuser=1

Dziedziny badań

Lista referatów

5 listopada 2024 10:15
Marcin Mordecki (MIMUW)
Wstęp do analizy wpływu wykorzystania instrukcji SIMD na wydajność przetwarzania danych
Przetwarzanie danych można usprawniać na wielu poziomach - począwszy od rozważnego konstruowania algorytmów, przechodząc przez wybór odpowiednich narzędzi, aż do niskopoziomowych optymalizacji. Skupimy się na ostatnim z tych aspektów, przyglądając się dokładnie czym jest architektura …
29 października 2024 10:15
Łukasz Orawiec (MIMUW)
A JSONPath query compiler targeting JSON parsers APIs
Istnieje wiele implementacji parserów danych w formacie JSON, oferujących różne rodzaje API, takie jak interfejsy DOM-like, w których dokument jest dostępny jako zmaterializowane w pamięci drzewo, lub SAX-like, w których parser emituje zdarzenie dla każdego …
22 października 2024 10:15
Piotr Ulanowski (MIMUW)
PathFinder: Algorytmy ewaluacji zapytań w bazach grafowych
Zapytania ścieżkowe są kluczową funkcjonalnością współczesnych języków zapytań grafowych, takich jak Cypher, SQL/PGQ i GQL. Te języki oferują bogaty zestaw funkcji do dopasowywania ścieżek, takich jak ograniczanie do określonych trybów ścieżek (shortest, simple, trail) oraz …
15 października 2024 11:00
Krzysztof Stencel (MIMUW)
Jak przestałem się martwić i pokochałem ChatGPT (How I Learned to Stop Worrying and Love ChatGPT)
15 października 2024 10:15
Michał Jadwiszczak (MIMUW)
Rozproszone agregaty w rozproszonej szerokokolumnowej bazie danych (Distributed aggregation in a distributed wide-column database)
Rozproszone bazy danych, w porównaniu do baz jednoserwerowych, otwierają szerokie pole nowych możliwości. Choć istnieje potencjał zwiększenia przepustowości, skrócenia czasu wykonywania zapytań oraz bardziej efektywnego wykorzystania maszyn, istnieje również ryzyko stworzenia wąskiego gardła dla całego …
6 czerwca 2024 12:15
Grzegorz Bogusław Zaleski (MIMUW)
Porównanie miar oprogramowania z subiektywną oceną jakości (A comparison of software measures with a subjective assessment of quality)
W swojej prezentacji opowiem o mojej pracy magisterskiej - The comparison of software measures with a subjective assessment of quality - gdzie poruszam tematy pisania dobrego kodu źródłowego a nie tylko działającej aplikacji. Opowiem o …
23 maja 2024 12:15
Jacek Ciszewski (MIMUW)
PG schema validation
W ostatnich latach można zaobserwować wzrost popularności i popytu na grafowe bazy danych. Ponieważ duży nacisk w tej dziedzinie położono na języki zapytań grafowych, rozmaite istniejące schematy grafów różnią się znacznie pod względem możliwości i …
25 kwietnia 2024 12:15
Marcin Mordecki (MIMUW)
Stackless Processing of Streamed Trees - kont. (Stackless Processing of Streamed Trees - cont.)
Kontynuujemy analizę automatów z rejestrami podczas wykonywania zapytań na strumieniowanych dokumentach. Przyjrzymy się dokładniej działaniu wariantów tych automatów na kilku przykładach, które rozróżniają automat z rejestrami od klasycznego automatu deterministycznego. Na koniec prześledzimy, jak zasymulować …
18 kwietnia 2024 12:15
Marcin Mordecki (MIMUW)
Stackless Processing of Streamed Trees
Opowiem o przetwarzaniu strumieniowanych drzew w ograniczonej pamięci. Na początek wprowadzę model automatu z rejestrami głębokości, a także wspomnę o szczególnym przypadku automatu bezrejestrowego. Scharakteryzuję języki drzew, które są rozpoznawane przez te automaty, oraz rodzaje …
11 kwietnia 2024 12:15
Maciej Herdon (MIMUW)
In-Situ Cross-Database Query Processing
Dzisiejsze organizacje korzystają z mnóstwa heterogenicznych i autonomicznych systemów DBMS, wiele z nich jest rozproszonych w różnych lokalizacjach geograficznych. Dlatego kluczowe jest posiadanie skutecznych i wydajnych zdolności przetwarzania zapytań między różnymi bazami danych. Zaprezentuję XDB, …
4 kwietnia 2024 12:15
Łukasz Orawiec (MIMUW)
QueryBooster: Improving SQL Performance Using Middleware Services for Human-Centered Query Rewriting
Przepisywanie zapytań SQL jest techniką optymalizacji polegającą na przekształcaniu zapytań w zapytania równoważne o większej wydajności. Technika może być pożyteczna w systemach, w których warstwy aplikacji oraz bazy danych muszą być traktowane jako „czarne skrzynki”, …
21 marca 2024 12:15
Piotr Ulanowski (MIMUW)
Wektoryzacja do parsowania gigabajtów danych plików JSON w ciągu sekund (Parsing Gigabytes of JSON per Second)
Referat będzie bazował na publikacji: https://arxiv.org/pdf/1902.08318.pdf Na początku wyjaśnię, czym dokładnie jest proces parsowania w przypadku plików JSON, oraz na jakie problemy można napotkać w trakcie tego procesu. Następnie uzasadnię, dlaczego warto w ogóle zajmować …
14 marca 2024 12:15
Alexandra Rogova (IRIF, Université de Paris, Francja.)
Property Graph Languages
The development of practical query languages for graph databases runs well ahead of the underlying theory. The ISO committee in charge of database query languages is currently developing a new standard called Graph Query Language …
29 lutego 2024 12:15
Jakub Pawlewicz (MIMUW)
Indeksy wyuczone na danych; najnowsze wyniki
Mając dany niemalejący ciąg liczb S = {x_1, ..., x_n}, chcemy odpowiadać na pytania, gdzie wpadłby nowy klucz k: |{x \in S | x < k}|. Zakładamy, że S jest ustalone raz, a my chcemy …
25 stycznia 2024 12:15
Michał J. Gajda (MigaMake Pte Ltd)
Towards a perfect union type: automatic typing of JSON documents
We present a principled theoretical framework for inferring and checking the union types, and show its work in practice on JSON data structures. The framework poses a union type inference as a learning problem from …