Bioinformatyka, czyli biologia wspierana informatyką i matematyką dyskretną

Bioinformatyka

Bioinformatyka jest jedną z najmłodszych nauk, której burzliwy rozwój został wymuszony przez postęp w dziedzinie nauk biologicznych, a umożliwiły go dokonane przełomowe osiągnięcia i wdrożenia w samej informatyce. [cyt.Błażewicz2011]

Wielu badaczy, mówiąc o bioinformatyce, ma na myśli głównie aspekty związane z biologią na poziomie molekularnym (DNA, RNA, białko). Stymulującym to odkryciem było podanie w 1953 r. przez Watsona i Cricka (razem ze współtwórcami Wilkinsem i Franklin nagrodzonymi w 1962 r. Noblem) modelu podwójnej helisy łańcucha DNA, przechowującego (kodującego) informację genetyczną we wszystkich organizmach żywych, co barwnie przedstawia jeden z autorów w swej powieści [Watson1975].

Zadanie „Sklejanie DNA” to przykład problemu biologicznego polegającego na odczytaniu łańcucha DNA (tzw. Sekwencjonowaniu DNA) jakiego w naturalnej wielkości nie da się przeprowadzić bez pomocy komputera i odpowiednich programów komputerowych.

Zadanie „Sklejanie DNA”: Ludzka nić DNA liczy ok. 3mld elementów, czyli cząstek kwasu dezoksyrybnukleinowego. Cząstka może mieć jedną z czterech wartości: G, T, C lub A. Ludzie różnią się układem cząstek w DNA i bardzo rzadko spotyka się identyczne łańcuchy(np. bliźnięta jednojajowe). Odczytanie tak długiego łańcucha jest bardzo kłopotliwe. Ponieważ łatwo jest odczytać krótkie łańcuchy, więc jedną z metod odcyfrowania DNA jest podzielenie łańcucha, ściślej wszystkich egzemplarzy łańcucha w roztworze, na mniejsze odcinki. Podziały dla poszczególnych łańcuchów różnią się i np. łańcuch: actacag może zostać podzielony na wiele różnych sposobów (a,ct,ac,ag),(ac,ta,cag),(ac,t,a,ca,g) które współistnieją w tym samym roztworze. Metoda polega na wczytaniu łańcuchów „jak leci” wprost do pamięci komputera, który zajmuje się ułożeniem łańcuchów do pierwotnego porządku. Jest to możliwe dzięki łączeniu łańcuchów „na zakładkę”, tak by długość ostatecznego łańcucha powstałego z połączenia wszystkich występujących w roztworze fragmentów była jak najmniejsza. Dla odcinków: ACTA, CTAT, CGAC, ATACGA, ACGA, TACG, GACTA, TATA należy znaleźć wszystkie najkrótsze łańcuchy, z których jednak można wyciąć każdy z odcinków składowych. Rozwiązanie zadania przedstawiono na końcu artykułu.

W szerszym ujęciu problem przedstawiony w zadaniu polega na odczytaniu łańcucha o długości około 3 miliardów nukleotydów tworzonych przez jedną z czterech zasad: adeninę („A”), guaninę („G”), cytozynę („C”) i tyminę („T”). Metoda zarysowana w zadaniu to jeden z komputerowo wspomaganych sposobów zwany „Sekwencjonowaniem przez hybrydyzację”. Szkic nie uwzględnia na przykład błędów jakie mogą powstać w trakcie odczytywania sekwencji polegających na pojawianiu się odczytów, którym nie odpowiadają żadne rzeczywiste sekwencje (tzw. błędy dodatnie) lub nieodczytywaniu sekwencji, które powinny być w roztworze (tzw. błędy ujemne). Sekwencjonowanie DNA ma dziś ogromne znaczenie w kryminalistyce, sądownictwie, rolnictwie, archeologii, farmaceutyce i medycynie.Rys. 1. Podwójna helisa DNA.

Podłączony do komputera w kilka sekund sekwencjonuje genomy bakterii i wirusów. Dłużej zajmuje „rozkodowanie” bardziej złożonych genomów (6h dla człowieka). Zastosowanie może znaleźć nie tylko w medycynie, ale np. w archeologii. Konkurencja zapowiada maszynę radzącą sobie z ludzkim DNA w 2 godziny.

Zminiaturyzowany sekwencjoner DNA
Rys.2. Zminiaturyzowany sekwencjoner podłączany do komputera

Sekwencja DNA stanowi w pewnym sensie program działania mechanizmów w żywych komórkach, w szczególności pewne jej rejony określają jakie białko zostanie wytworzone a inne, w uproszczeniu, kiedy i gdzie (proces regulacji genów). Białka kodowane są za pomocą kodu genetycznego, w którym trójki zasad kodują pojedynczy aminokwas. Pojedyncze białko jest sekwencją aminokwasów, których standardowo wyróżniamy 20. Większość  aminokwasów może być zakodowana w DNA na kilka sposobów (kilka różnych trójek zasad koduje ten sam aminokwas). Sekwencje aminokwasów to inaczej łańcuchy polipeptydowe i mogą one przyjmować złożone struktury przestrzenne. Ustalenie biologicznie aktywnych struktur przestrzennych białek odpowiadających danej sekwencji aminokwasowej jest jednym z ciekawszych problemów z jakim boryka się biologia molekularna wspierana przez  tzw.”Bioinformatykę strukturalną”. Tutaj z pomocą przychodzą zaawansowane metody informatyczne tzw. uczenia maszynowego. Otóż znane z doświadczeń biologicznych pary: sekwencja aminokwasów i struktura białkowa są podawane na wejście programu uczącego się, który po pełnym cyklu uczenia powinien umieć prawidłowo wskazać strukturę dla zadanej sekwencji lub sekwencję dla zadanej struktury (np. przy projektowaniu leków). W chwili obecnej istnieją ogromne bazy danych gromadzące te odpowiedniki i używane w maszynowym uczeniu. Pomimo tego ciągle jeszcze nam daleko do perfekcyjnego prognozowania struktur białek.

Struktura 3D RNA
Struktura 3D RNA

Ogólnie rzecz biorąc absolwent kierunku bioinformatyka wyższej uczelni powinien reprezentować wysoki poziom wiedzy biologicznej jak też wiedzy informatycznej w tym talentów programistycznych i posługiwania się systemami informatycznymi. W Poznaniu makrokierunek bioinformatyka jest prowadzony we współpracy Wydziału Biologii Uniwersytetu Adama Mickiewicza i Wydziału Informatyki Politechniki Poznańskiej. Na terenie Politechniki Poznańskiej działa Europejskie Centrum Bioinformatyki i Genomiki (ECBiG) jako unikalna na terenie Wielkopolski jednostka badawczo-rozwojowa, powstała na bazie konsorcjum zawiązanego pomiędzy Politechniką Poznańską a Instytutem Chemii Bioorganicznej PAN w Poznaniu.

Nieco żartobliwym zilustrowaniem tych działań jest animowany teledysk z piosenką o sekwencjonowaniu metodą hybrydyzacji DNA:

Alan w rytmie DNA from Mobit on Vimeo.

Literatura:

[Błażewicz2011]J.Błażewicz „Bioinformatyka i jej perspektywy”,wykład inauguracyjny, Politechnika Poznańska, 2011 http://www2.cs.put.poznan.pl/wp-content/uploads/2011/11/wyklad_inauguracyjny_2011.pdf

[Watson1975]J. D. Watson „Podwójna spirala. Relacja naoczna o wykryciu struktury DNA”, Wiedza Powszechna,Seria: Omega,Warszawa,1975

[Tomala2018] Ludwika Tomala „RNA w 3D? Polacy zostawiają konkurencję w tyle!” https://naukawpolsce.pap.pl/aktualnosci/news%2C27837%2Crna-w-3d-polacy-zostawiaja-konkurencje-w-tyle.html, 2018.

Podziękowanie

Autor dziękuje panu Maciejowi Miłostanowi za konsultację treści.

Rozwiązanie zadania z początku artykułu:     Można zauważyć, że odcinki ACTA i TACG i ACGA są podłańcuchami innych, tj. zawierają się w odcinku GACTA lub ATACG.
Wystarczy więc znaleźć najkrótszy łańcuch dla pozostałych pięciu odcinków DNA. Informację o liczbie wspólnych zasad „na zakładkę” dla par odcinków można przedstawić w tabeli. (Na przykład w wierszu drugim zapisano informację o tym, czy z odcinek CGAC można prawostronnie połączyć „na zakładkę” z innymi odcinkami: jeśli to jest możliwe, to podano liczbę wspólnych zasad.)     CGAC ATACGA TATA CTAT GACTA CGAC –     1 3 ATACGA 3 –     2 TATA   1 lub 3 –     CTAT   2 1 lub 3 –   GACTA   1 2 3 –   I spostrzeżenie: Można zauważyć, że łańcuch zawierających odcinki ATACGA i GACTA musi mieć długość co najmniej 9.   II spostrzeżenie: Okazuje się, że są dokładnie cztery „zakładki” długości 3, z których można ułożyć jakby „ścieżkę” GACTA -> CTAT -> TATA -> ATAGA -> CGAC, co daje łańcuch składający się z 11 zasad: GACTATACGAC.   Czy istnieją łańcuchy długości 9 lub 10 zawierające wszystkie odcinki?
Czy istnieją inne łańcuchy długości 11?   Korzystając z informacji zgromadzonych w tabeli można poszukać odpowiedzi na powyższe pytania. Będziemy badać złączenia różnych par odcinków, aby sprawdzić, czy przypadkiem w wyniku łączenia (na „zakładkę” lub ustawienie obok ) dwóch odcinków pojawi się w łańcuch zawierający inny trzeci odcinek (a nawet więcej).   Przypadek CGAC: Aby sprawdzić, kiedy w wyniku łączenia dwóch odcinków uzyskamy łańcuch dopasowany do CGAC musimy przeanalizować wiersz i kolumnę opisaną etykietami CGAC. Odcinek składa się z czterech zasad, więc musimy poszukać w tabeli takich liczb, które pozwolą na uzyskanie wartości 4. Okazuje się, że są dwie możliwości: – CGAC pojawi się po złączeniu ATACGA i GACTA na „zakładkę”: ATACGACTA (4 = 3 + 3 – 2). Można sprawdzić, że ten łańcuch trzeba przekształcić w TATACGACTAT, ATACGACTATA lub CTATACGACTA, aby zawierał wszystkie odcinki składowe. Wszystkie są długości 11. – CGAC pojawi się po prostym złączeniu: ATACGA i CTAT: ATACGACTAT (4 = 3 + 1). Ten łańcuch da się przekształcić do: TATACGACTAT lub CTATACGACTA. Oba długości 11.   Analogicznie trzeba rozpatrzyć przypadki łańcuchów: ATACGA, TATA, CTAT i GACTA, analizując odpowiednie wiersze i kolumny (opisane odpowiednimi etykietami).   Rozpatrując przypadek ATACGA znajdziemy nowy łańcuch długości 11: GACTATACGAC.   Rozpatrując przypadek CTAT znajdziemy inny łańcuch długości 11: CGACTATACGA.     III spostrzeżenie: Nie jest możliwe, aby jakiś odcinek znalazł swoje dopasowanie dopiero po złączeniu trzech, czy więcej składowych (inaczej jeden z nich byłby podłańcuchem tego odcinka).   Stąd: najkrótszy łańcuch ma długość 11 i można podać pięć różnych takich łańcuchów.

You may also like...

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.