tree tops

Lab 8 (20.12.2013)

Klasyfikacja

    przydatne materiały:
  1. dane Breast Cancer Wisconsin(Original)

Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 9.01.2014 do godz. 23:59, 1pkt.): Wybrać jeden (inny niż omawiany na zajęciach, przeanalizować należy przynajmniej 6 kolumn) zbiór danych spośród zbiorów wymienionych tutaj.

    Następnie:
  • zbudować klasyfikator metodą lasów losowych
  • przeanalizować klasyfikator metodą walidacji krzyżowej
  • omówić klasyfikator (podać istotność jego współczynników)

Proszę przesłać kod w R wraz z komentarzem oraz zaprezentować otrzymane wyniki. Wyniki proszę omówić w krótkim (max. 2 strony) raporcie. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania.

Lab 7 (13.12.2013)

Ukryte łańcuchy Markowa

    co było:
  • łańcuch Markowa
  • ukryty łańcuch Markowa
  • algorytm Viterbiego
  • pakiet HMM (initHMM, simHMM, viterbi)

Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 19.12 do godz. 23:59, 1pkt.): Na podstawie Fig.1 z artykułu: zbudować łańcuch Markowa i za pomocą algorytmu Viterbiego znależć najbardziej prawdopodobną ścieżkę stanów.

Proszę przesłać kod w R wraz z komentarzem oraz zaprezentować otrzymane wyniki. Wyniki proszę omówić w krótkim (max. 2 strony) raporcie. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.

Lab 6 (6.12.2013)

Motywy, zawartość informacyjna

    przydatne materiały:
  1. notatki o Sequence logo (Ivan Erill)
  2. notatki o motywach (Ivan Erill)
  3. Weblogo
  4. motywy wiązania hipotetycznego białka BUH (na podst. notatek Ivana Erilla)
  5. MEME (artykuł na temat MEME)
  6. długi motyw (do ćwiczenia z MEME)
    co było:
  • entropia, zawartość informacyjna
  • sequence logo
  • pseudozliczenia

Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 12.12 do godz. 23:59, 1pkt.): Na podstawie pliku z motywami: wybrać za pomocą (omówionej na zajęciach) metody zachłannej orientację motywów maksymalizującą zawartość informacyjną. Jako model tła można wybrać równą częstotliwość występowania nukleotydów.

Proszę przesłać kod w R wraz z komentarzem oraz zaprezentować otrzymane wyniki. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.

Lab 5 (29.11.2013)

Regresja liniowa

przydatne materiały:

Skrypt o regresji (Faraway)

    co było:
  • lm, plot.lm, interpretowanie modeli
  • kryteria AIC i BIC do porównania modeli
  • testy statystyczne:

Zadanie zaliczeniowe (proszę przesłać do mnie mailem do 5.12 do godz. 18, 0.5pkt.):

    na podstawie tabelki iris:
  • wybrać zmienną objaśnianą (Y) z pierwszych 4 kolumn; pozostałe kolumny (w ew. tym kolumna 5) będą zmiennymi objaśniającymi (X)
  • zbudować model liniowy (ze stałą)
  • sprawdzić, czy spełnione są założenia o normalnym rozkładzie residuów - qqnorm, shapiro.test
  • omówić model (które czynniki są w nim istotne, pokazać wybrane wykresy diagnostyczne)

Wyniki należy przedstawić w krótkim raporcie (do 2 stron). Do zadania dołączyć kod w R wraz z komentarzem (nie wlicza się do długości raportu). UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.

Lab 4 (22.11.2013)

Testy statystyczne

przydatne materiały:

Skrypt (Krijnen)

Skrypt o regresji (Faraway)

    co było:
  • instalowanie pakietów z Bioconductora i R-cran (install.packages), polecenie library
  • pakiet Biostrings - pairwiseAlignment
  • p-wartość
  • testy statystyczne: Z-test, t-test

Zadanie zaliczeniowe (proszę przesłać do mnie mailem do czwartku 28.11 do godz. 18ej, 0.75pkt.): Napisać funkcję, która dla zadanych dwóch sekwencji aminokwasów i liczby N policzy p-wartość uliniowienia globalnego tych sekwencji algorytmem Needlemana-Wunscha. Funkcja ma wygenerować N losowych par sekwencji odpowiadających długościami sekwencjom wyjściowym. Proszę zaprezentować i omówić działanie tej funkcji dla wybranych par sekwencji (np. dość podobnych/różnych). Czy wyniki są zgodne z oczekiwaniami?

Do rozwiązania trzeba dodać kod (wraz z komentarzem, przypominam, ze komentujemy kod uzywajac znaczka #), który generuje wynik. W razie problemów proszę o kontakt ze mną. UWAGA: proszę być przygotowanym na przedstawienie rozwiązania na zajeciach.

Lab 3 (15.11.2013)

Pętle, uliniowienie globalne

1. R
  • wywołanie funkcji w innej funkcji
  • funkcja paste
  • pętla for
  • wariancja
2. Uliniowienie globalne - algorytm Needleman’a-Wunsch’a

Zadanie zaliczeniowe (punkt 1 proszę przesłać do mnie mailem do 21.11 do godz. 18ej, punkt 2 prosze przynieść na kartkach na zajęcia 22.11.):

  • 1. (0.25pkt.) policzyć minimalną, maksymalną, średnią i wariancje liczby genów na 24 chromosomach, napisac, dla ktorego chromosomu przyjmowana jest wartosc minimalna i maksymalna
  • 2. (0.25pkt.) Na kartce policzyć uliniowienie globalne (algorytmem Needlemana-Wunscha w tabelce) dla dwóch ciągów nukleotydów o długościach 5 i 4, należy samemu zdefiniować parametry nagrody i kary, lub użyć te z zajęć
Do rozwiązania trzeba dodać kod (wraz z komentarzem, przypominam, ze komentujemy kod uzywajac znaczka #), który generuje wynik. W razie problemów proszę o kontakt ze mną.

Uwaga - zadanie nieobowiązkowe z poprzednich zajęćstaje się obowiązkowe i jest na 0.25 pkt.


Lab 2 (08.11.2013)

Wstęp do R (ciąg dalszy) i oraz analiza genomu człowieka

1. R - ciąg dalszy
  • NULL
  • !
  • sort i order
  • nrow, ncol, rownames, colnames
  • tworzenie nowych kolumn w tabelce i ich usuwanie
  • table
    ćwiczenie: stworzyć w arkuszu kalkulacyjnym tabelkę z osobami, następnie wypisać imię:
  • a) najcięższej osoby
  • b) drugiej najcięższej osoby
  • c) k-tej najcięższej osoby (napisać odpowiednią funkcję)
2. przeglądarka UCSC
  • link do UCSC
  • różne wersje genomu (najbardziej aktualna to hg19)
  • tracki (czyli zbiory danych), ich pobieranie
  • cytobandy, centromery, czyli współrzędne genomu
  • geny

Zadanie zaliczeniowe (1 pkt., proszę przesłać do mnie mailem do 14.11 do godz. 12ej): Wybrac geny z zadanego chromosomu (jeśli kogoś nie było na zajęciach, to proszę skontaktować się ze mną) oraz napisać odpowiednie funkcje obliczające kolejne podpunkty:
  • policz geny
  • znajdz nazwę genu, który zaczyna się najpóźniej
  • znajdz nazwę genu, który zaczyna się jako k-ty od końca
  • (nieobowiązkowo) znajdź najdłuższy gen
Do rozwiązania trzeba dodać kod (wraz z komentarzem, przypominam, ze komentujemy kod uzywajac znaczka #), który generuje wynik. W razie problemów proszę o kontakt ze mną.

Lab 1 (04.10.2013)

Wstęp do R i analizy statystycznej

Zajęcia mają na celu m.in. przygotowanie Państwa do pracy w środowisku R. Następne zajęcia ze mną odbędą się 8 listopada, więc do tego czasu proszę utrwalić sobie przerobiony materiał. Zachęcam także do dodatkowych ćwiczeń we własnym zakresie.

Co było na zajęciach:

  1. Środowisko pracy
    • hasło i login
    • wprowadzenie do Linuxa
    • edytor i konsola
    • strona lk.mimuw.edu.pl i jak dostać się własnego katalogu z domu
  2. wstęp do R
    • kalkulator: operacje matematyczne, /, ^, sqrt(), log, stała pi, exp(1)
    • log jako przykład funkcji, argumenty funkcji, podręcznik (polecenie "?")
    • zmienne, przypisanie <- lub =
    • tworzenie wektora za pomocą 1:5 lub c(1,4,5)
    • length()
    • konkatenacja wektorów, odwrócenie wektora
    • odwołanie się do elementów wektora, vec[-5], vec[c(1,4,2)]
    • operatory logiczne, ==, >,
    • operacje na wektorach takie jak vec > 0, potęgowanie wektora, dodawanie wektorów
    • seq
    • sum, prod, max, min,
    • plot, opcje obrazków, zapisywanie obrazków do pliku
    • which.max, which.min, which
    • wartości NA, funkcja is.na
    • argument na.rm w funkcji sum, max itp.
    • polecenia uruchamiane z pliku komendą source
    • ramka danych, odwoływanie się do poszczególnych pól
    • operacje na plikach, read/write, pliki CSV
    • funkcja, pisanie własnych funkcji
    • R studio i jak korzystać z R pod Windows
Design downloaded from free website templates.