Lab 8 (20.12.2013)
Klasyfikacja
- przydatne materiały:
- dane Breast Cancer Wisconsin(Original)
Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 9.01.2014 do godz. 23:59, 1pkt.): Wybrać jeden (inny niż omawiany na zajęciach, przeanalizować należy przynajmniej 6 kolumn) zbiór danych spośród zbiorów wymienionych tutaj.
- Następnie:
- zbudować klasyfikator metodą lasów losowych
- przeanalizować klasyfikator metodą walidacji krzyżowej
- omówić klasyfikator (podać istotność jego współczynników)
Lab 7 (13.12.2013)
Ukryte łańcuchy Markowa
- co było:
- łańcuch Markowa
- ukryty łańcuch Markowa
- algorytm Viterbiego
- pakiet HMM (initHMM, simHMM, viterbi)
Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 19.12 do godz. 23:59, 1pkt.): Na podstawie Fig.1 z artykułu: zbudować łańcuch Markowa i za pomocą algorytmu Viterbiego znależć najbardziej prawdopodobną ścieżkę stanów.
Proszę przesłać kod w R wraz z komentarzem oraz zaprezentować otrzymane wyniki. Wyniki proszę omówić w krótkim (max. 2 strony) raporcie. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.Lab 6 (6.12.2013)
Motywy, zawartość informacyjna
- przydatne materiały:
- notatki o Sequence logo (Ivan Erill)
- notatki o motywach (Ivan Erill)
- Weblogo
- motywy wiązania hipotetycznego białka BUH (na podst. notatek Ivana Erilla)
- MEME (artykuł na temat MEME)
- długi motyw (do ćwiczenia z MEME)
- co było:
- entropia, zawartość informacyjna
- sequence logo
- pseudozliczenia
Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 12.12 do godz. 23:59, 1pkt.): Na podstawie pliku z motywami: wybrać za pomocą (omówionej na zajęciach) metody zachłannej orientację motywów maksymalizującą zawartość informacyjną. Jako model tła można wybrać równą częstotliwość występowania nukleotydów.
Proszę przesłać kod w R wraz z komentarzem oraz zaprezentować otrzymane wyniki. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.Lab 5 (29.11.2013)
Regresja liniowa
przydatne materiały:
- co było:
- lm, plot.lm, interpretowanie modeli
- kryteria AIC i BIC do porównania modeli
- testy statystyczne:
Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 5.12 do godz. 18, 0.5pkt.):
- na podstawie tabelki iris:
- wybrać zmienną objaśnianą (Y) z pierwszych 4 kolumn; pozostałe kolumny (w ew. tym kolumna 5) będą zmiennymi objaśniającymi (X)
- zbudować model liniowy (ze stałą)
- sprawdzić, czy spełnione są założenia o normalnym rozkładzie residuów - qqnorm, shapiro.test
- omówić model (które czynniki są w nim istotne, pokazać wybrane wykresy diagnostyczne)
Lab 4 (22.11.2013)
Testy statystyczne
przydatne materiały:
- co było:
- instalowanie pakietów z Bioconductora i R-cran (install.packages), polecenie library
- pakiet Biostrings - pairwiseAlignment
- p-wartość
- testy statystyczne: Z-test, t-test
Zadanie zaliczeniowe (proszę przesłać do mnie mailem do czwartku 28.11 do godz. 18ej, 0.75pkt.): Napisać funkcję, która dla zadanych dwóch sekwencji aminokwasów i liczby N policzy p-wartość uliniowienia globalnego tych sekwencji algorytmem Needlemana-Wunscha. Funkcja ma wygenerować N losowych par sekwencji odpowiadających długościami sekwencjom wyjściowym. Proszę zaprezentować i omówić działanie tej funkcji dla wybranych par sekwencji (np. dość podobnych/różnych). Czy wyniki są zgodne z oczekiwaniami?
Do rozwiązania trzeba dodać kod (wraz z komentarzem, przypominam, ze komentujemy kod uzywajac znaczka #), który generuje wynik. W razie problemów proszę o kontakt ze mną. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.Lab 3 (15.11.2013)
Pętle, uliniowienie globalne
1. R- wywołanie funkcji w innej funkcji
- funkcja paste
- pętla for
- wariancja
Zadanie zaliczeniowe (punkt 1 proszę przesłać do mnie mailem do 21.11 do godz. 18ej, punkt 2 prosze przynieść na kartkach na zajęcia 22.11.):
- 1. (0.25pkt.) policzyć minimalną, maksymalną, średnią i wariancje liczby genów na 24 chromosomach, napisac, dla ktorego chromosomu przyjmowana jest wartosc minimalna i maksymalna
- 2. (0.25pkt.) Na kartce policzyć uliniowienie globalne (algorytmem Needlemana-Wunscha w tabelce) dla dwóch ciągów nukleotydów o długościach 5 i 4, należy samemu zdefiniować parametry nagrody i kary, lub użyć te z zajęć
Uwaga - zadanie nieobowiązkowe z poprzednich zajęćstaje się obowiązkowe i jest na 0.25 pkt.
Lab 2 (08.11.2013)
Wstęp do R (ciąg dalszy) i oraz analiza genomu człowieka
1. R - ciąg dalszy- NULL
- !
- sort i order
- nrow, ncol, rownames, colnames
- tworzenie nowych kolumn w tabelce i ich usuwanie
- table
-
ćwiczenie: stworzyć w arkuszu kalkulacyjnym tabelkę z osobami, następnie wypisać imię:
- a) najcięższej osoby
- b) drugiej najcięższej osoby
- c) k-tej najcięższej osoby (napisać odpowiednią funkcję)
- link do UCSC
- różne wersje genomu (najbardziej aktualna to hg19)
- tracki (czyli zbiory danych), ich pobieranie
- cytobandy, centromery, czyli współrzędne genomu
- geny
Zadanie zaliczeniowe (1 pkt., proszę przesłać do mnie mailem do 14.11 do godz. 12ej): Wybrac geny z zadanego chromosomu (jeśli kogoś nie było na zajęciach, to proszę skontaktować się ze mną) oraz napisać odpowiednie funkcje obliczające kolejne podpunkty:
- policz geny
- znajdz nazwę genu, który zaczyna się najpóźniej
- znajdz nazwę genu, który zaczyna się jako k-ty od końca
- (nieobowiązkowo) znajdź najdłuższy gen
Lab 1 (04.10.2013)
Wstęp do R i analizy statystycznej
Zajęcia mają na celu m.in. przygotowanie Państwa do pracy w środowisku R. Następne zajęcia ze mną odbędą się 8 listopada, więc do tego czasu proszę utrwalić sobie przerobiony materiał. Zachęcam także do dodatkowych ćwiczeń we własnym zakresie.
- Przydatne strony:
- skrypt Mikołaja Rybińskiego
- simple R Johna Verzaniego
- strona projektu R
Co było na zajęciach:
- Środowisko pracy
- hasło i login
- wprowadzenie do Linuxa
- edytor i konsola
- strona lk.mimuw.edu.pl i jak dostać się własnego katalogu z domu
- wstęp do R
- kalkulator: operacje matematyczne, /, ^, sqrt(), log, stała pi, exp(1)
- log jako przykład funkcji, argumenty funkcji, podręcznik (polecenie "?")
- zmienne, przypisanie <- lub =
- tworzenie wektora za pomocą 1:5 lub c(1,4,5)
- length()
- konkatenacja wektorów, odwrócenie wektora
- odwołanie się do elementów wektora, vec[-5], vec[c(1,4,2)]
- operatory logiczne, ==, >,
- operacje na wektorach takie jak vec > 0, potęgowanie wektora, dodawanie wektorów
- seq
- sum, prod, max, min,
- plot, opcje obrazków, zapisywanie obrazków do pliku
- which.max, which.min, which
- wartości NA, funkcja is.na
- argument na.rm w funkcji sum, max itp.
- polecenia uruchamiane z pliku komendą source
- ramka danych, odwoływanie się do poszczególnych pól
- operacje na plikach, read/write, pliki CSV
- funkcja, pisanie własnych funkcji
- R studio i jak korzystać z R pod Windows