xkol_1_08062015.doc

(36 KB) Pobierz

Bioinformatyka

Kolokwium 1

08.06.2015

Imię:___x

Nazwisko:___x

 

Instrukcje

Wypełnij odpowiednie miejsca w niniejszym pliku odpowiedziami. Zmień nazwę pliku według schematu:

Imie_Nazwisko_bioinf_kolokwium_1

Plik wyślij na adres mbereta@pk.edu.pl

 

Zadania

 

1.       Z archiwum ENA pobierz rekord o numerze dostępu AF193276. Wczytaj plik do programu UGENE. Odpowiedz na pytania

a.       Ile razy w sekwencji genu pol występuje wzorzec „GGGAG”. Ewentualne wyniki wyszukiwania tego wzorca nie powinny na siebie zachodzić. 5 ____

b.       Na jakiej pozycji zaczyna się ostatnie wystąpienie wzorca z punktu a? __3118__

c.       Jaka jest długość najdłuższego powtarzającego się wzorca w genie tat? __11bp__

d.       Ile jest takich powtórzeń wzorców? _4___

e.       Wypisz pierwszy i ostatni z tych powtarzających się wzorców: __CAGGAAGCACT________oraz __GAATAAAACAA__________

f.        Wypisz kolejno wszystkie odległości w jakich pojawiają się powtórzenia znalezione w punkcie d: join(5467..5477,6978..6988), join(5496..5506,6954..6964), join(5528..5538,5705..5715), join(6481..6491,6657..6667)

 

2.       Przeanalizuj sekwencje z pliku zad2_sekwencje.fasta.

a.       Z której sekwencji (sekwencja_2, sekwencja_3 czy sekwencja_4) pochodzi krótsza sekwencja sekwencja_1?_sekwencja_4

b.       Jaka zmiana/zmiany została wprowadzona w sekwencji_1 w stosunku do dłuższej oryginalnej sekwencji, wskazanej jako odpowiedź w punkcie (a) (mutacja/insercja/delecja/inna)?  delecja

c.       Jakiego fragmentu/fragmentów dotyczy punkt (b)? usunięto fragment CGAAACC w sekwencji 1

 

3.       Wykorzystaj dane z pliku CytBProt.txt oraz algorytm dopasowania pary sekwencji Smitha-Watermana (macierz BLOSUM62, kara za utworzenie przerwy 10, kara za wydłużenie przerwy 0.5) i odpowiedz na pytanie: do sekwencji kodującej białko jakiego organizmu najlepiej można dopasować poniższy fragment sekwencji aminokwasów:

 

TRFFAFHFLLPAIIAGSILHFLHETGSTNPTGLNS

 

a.       Psa

b.       Rekina

c.       Aligatora

d.       Żaby

 

Odpowiedź: _d. Żaby

 

Dla najlepszego dopasowania, jaka jest:

a.       Jakość dopasowania: _157.5

b.       Długość lokalnego dopasowania: _38___

c.       Liczba wstawionych przerw: __3___

d.       Wartość procentowego podobieństwa: ___89.5%

__

 

4.       Sekwencja z pliku zad4_sekwencja.fasta zawiera nieznany gen. Wiadomo, że jest on podobny do genu pewnego organizmu, którego kompletny mitochondrialny genom znajduje się w bazie w rekordzie o numerze dostępu AJ242872.

Znajdź w bazie ENA rekord, o którym mowa powyżej. Jakiego organizmu dotyczy? _Ceratitis capitata ____

a.       Do jakiego genu ze znalezionego rekordu najbardziej jest podobny nieznany gen? ____CAB___             

b.       Jaka jest długość genu znalezionego w punkcie b? _525bp__

c.       Wykonaj dopasowanie nieznanego genu oraz genu znalezionego w punkcie b. Użyj wersji globalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 0.5. Nie uwzględniaj kar za przerwy na początku oraz końcu dopasowania. Jakie są:

i.  Jakość otrzymanego dopasowania _2390,5__

ii. Liczba wstawionych przerw _34__

iii.                       Długość dopasowania __528_

iv.                       Wartość procentowego podobieństwa _92,8%__

d.       Wykonaj dopasowanie poniższej sekwencji oraz translacji genu znalezionego w punkcie b. Użyj wersji lokalnej algorytmu dopasowania pary sekwencji przy karze za rozpoczęcie przerwy 5 oraz karze za wydłużenie przerwy 1.0. Użyj macierzy punktacji BLOSUM90.

 

MMQLMLYASTLITSFIFIQMNHPLAMGLMLLIQTIQICMLTGLMAKSFWFSYILFLIFLGGMKLTTILVLFIYVTSLASNEMFSLSMSLFIFSMILIINLMTILILLDKSSISFFIQNNEMQSIYNLNMFLQENSLNLQKLYNYPTNLMNYLLITLIAVVKITKLFYGPLRPMN

Jakie są:

i.  Jakość otrzymanego dopasowania ___953.0__

ii. Liczba wstawionych przerw __20___

iii.                       Długość dopasowania __184___

iv.                       Wartość procentowego podobieństwa ___89,1%__

Zgłoś jeśli naruszono regulamin