Twoja wyszukiwarka

ROBERT HOŁYST
KOMPUTER Z PROBÓWKI
Wiedza i Życie nr 11/2000
Artykuł pochodzi z "Wiedzy i Życia" nr 11/2000

Komputer zbudowany z DNA może być miliardy razy szybszy od swego krzemowego odpowiednika. Kiedy więc na biurkach zobaczymy biologiczne pecety?

XX wiek to czas niezwykle intensywnego rozwoju genetyki. O podwójnej helisie DNA słyszał chyba każdy. Ta długa, liniowa cząsteczka występuje we wszystkich żywych organizmach i niektórych wirusach. W komórkach człowieka ciasno zwinięte nici DNA osiągają łączną długość dwu metrów. Kod genetyczny to kolejność powtarzających się w strukturze DNA czterech cząsteczek chemicznych, nazywanych nukleotydami. Sym-bolicznie zapisuje się go, używając pierwszych liter danego nukleotydu: A (adenina), T (tymina), C (cytozyna) i G (guanina). Te elementy budulcowe DNA mają specyficzne właściwości, które powodują, że A zawsze oddziałuje z T, a C z G. Oznacza to, że obie wstęgi wzajemnie się uzupełniają.

Zapomnijmy jednak na chwilę o chemii i o tym, co kryje się pod literami A, T, C, G. Wyobraźmy sobie, że mamy do czynienia z językiem złożonym z tych czterech znaków. W języku tym piszemy słowa, które składamy w zdania. "Słowa" DNA są trzyliterowe: trzy litery kodują jeden aminokwas, z 20 rodzajów aminokwasów zbudowane są wszystkie białka w żywych organizmach. Tak więc mamy 4 litery, 64 różne słowa czteroliterowe i nieskończoną ilość zdań, które możemy z nich utworzyć. Może więc wykorzystać ten kod, powstały w procesie ewolucji, do zapisu dowolnych informacji?

Za pomocą tych czterech liter moglibyśmy zapisać wszystkie dzieła Szekspira, symfonie Beethovena (w końcu nuty to też pewien kod), wiersze Norwida, równania matematyczne fizyki i filozofię Arystotelesa.

We współczesnym komputerze do zapisu danych stosujemy tylko dwie cyfry: 0 i 1, czyli używamy kodu binarnego, natomiast wykorzystując DNA, korzystalibyśmy z czteroliterowego (A, T, C, G) kodu genetycznego. Porównajmy możliwości komputera tradycyjnego, opartego na krzemie i układach scalonych, z komputerem biologicznym opartym na cząsteczkach DNA i inżynierii genetycznej. W komputerze krzemowym mamy binarny sposób zapisu z długością słowa 32 bity (już niedługo 64 w najnowszych procesorach), w komputerze biologicznym mamy kod czteroliterowy, chemiczny, a długość słowa jest dowolna. W biologii jedno słowo kodujące aminokwas ma trzy litery, ale w komputerze biologicznym nie byłoby takiego ograniczenia.

W tradycyjnym komputerze informacje zapisuje się na twardym dysku lub na płycie kompaktowej. W komputerze biologicznym informacje można by zapisać w sekwencji podjednostek budulcowych DNA. Jeden bit informacji to jedna litera, np. A. Ta litera zajmuje w nici DNA około jednej milionowej milimetra. Tak więc w cząsteczce o długości jednego centymetra można zapisać ponad 1 Mb informacji. Cząsteczka DNA jest 20 tys. razy cieńsza niż ludzki włos (który ma około 50 mikrometrów grubości). Wynika z tego, że w łebku szpilki (o objętości 1 milimetra sześciennego) można zmieścić 10 mld takich cząsteczek. Oznacza to, że przy użyciu zapisu biologicznego możemy pomieścić w łebku szpilki 100 tys. razy więcej informacji niż zmieściłoby się na dysku o pojemności 100 gigabajtów. Jak widać, pojemność pamięci biologicznej jest miliardy razy większa niż pamięci konwencjonalnej. Molekularny sposób zapisu informacji w cząsteczce DNA wypracowany przez naturę w ciągu miliardów lat ewolucji jest w chwili obecnej górną granicą pojemności pamięci i znacznie przewyższa pojemność ludzkiego mózgu.

Kopiowanie informacji w komputerze biologicznym odbywa się dokładnie tak samo jak kopiuje się DNA przy podziale komórki. Co więcej, w jednej probówce możemy mieć wiele milionów kopii tej samej cząsteczki, czyli wiele kopii tej samej informacji. Istnieje metoda zwana PCR, która w ciągu kilku godzin pozwala na uzyskanie miliardów kopii tej samej cząsteczki . Kopiowanie informacji tą metodą jest zautomatyzowane, łatwe i stosunkowo tanie.

Organizacja pamięci na dysku w komputerze zwykłym jest inna niż w komputerze biologicznym. W zwykłym urządzeniu dysk jest podzielony na sektory, a różne części dysku mają swe adresy. Informację można odczytać, gdy poda się adres, pod jakim ją zapisano. W zapisie biologicznym pamięć jest zorganizowana inaczej: nie ma adresów, a liczy się tylko jej zawartość. Aby to zrozumieć, zastanówmy się przez chwilę nad zasadami działania poczty.

Wysyłając list do Jana Kowalskiego, musimy podać jego adres, czyli kraj, miasto, ulicę, numer domu i numer mieszkania. Jeśli przypadkiem pan Kowalski wyprowadzi się, poczta i tak dostarczy list pod podany adres. Tak właśnie zorganizowana jest pamięć w komputerze tradycyjnym.

W pamięci biologicznej adres wiąże się z zawartością. Analogia z pocztą jest następująca. Wysyłamy list do Jana Kowalskiego, nie podając żadnego adresu, a na kopercie umieszczamy tylko jego zdjęcie. Pismo dochodzi do adresata niezależnie od tego, czy mieszka on w Ameryce, w Polsce, czy na wyspie w pobliżu Antarktydy. Tak właśnie działa pamięć biologiczna.

Pomysł ten realizuje się w praktyce w następujący sposób: w probówce umieszczamy tak wiele cząsteczek DNA rozpuszczonych w wodzie, by każda informacja wystąpiła w wielu milionach kopii. Po podgrzaniu probówki cząsteczki DNA rozdzielają się na dwie wstęgi. Załóżmy, że na jednej z nich mamy zapisaną symfonię. Aby ją wydobyć z pamięci, przygotowujemy krótki fragment DNA z zapisanym niepowtarzalnym kawałkiem tej symfonii. Niech to będzie ATCGGCTAATCGGTCAT. Taki fragment pojedynczej helisy (próbnik) wpuszczamy do probówki, przyczepiając do końca cząsteczki mikroskopijny magnesik. Teraz nasza cząsteczka próbna podłączy się do helisy, która ma sekwencję uzupełniającą tę podaną wyżej, czyli TAGCCGATTAGCCAGTA. Ta sekwencja literek oczywiście stanowi malutką część całej symfonii, niemniej jest wystarczająca, żeby z banku pamięci biologicznej wyciągnąć właściwą cząsteczkę kodującą cały utwór. Następnie, jak rybę na haczyku, wyciągamy cząsteczkę DNA zawierającą całą symfonię za pomocą magnesu.

Jak wygląda porównanie szybkości komputera Pentium III 800 MHz i komputera biologicznego? W ciągu 1 sekundy procesor Pentium wykona maksymalnie 800 mln operacji. W tym czasie na jednej cząsteczce DNA zostanie wykonana w naszym komputerze biologicznym tylko jedna operacja. Na pierwszy rzut oka wygląda, że komputer biologiczny jest strasznie wolny. Ale nie zapominajmy, że w jednej probówce możemy zmieścić astronomiczną liczbę cząsteczek DNA (1020 lub więcej). W czasie jednej sekundy na każdej z tych cząsteczek zostaje wykonana jedna operacja, a więc w sumie w ciągu 1 sekundy komputer biologiczny może wykonać 1020 operacji, podczas gdy najnowszy Pentium III tylko 109. Oznacza to, że komputer biologiczny jest od niego 1011 (100 miliardów) razy szybszy!

Powstaje pytanie, jakie problemy, z którymi nie radzi sobie tradycyjny komputer, mógłby rozwiązywać komputer biologiczny. Są to wszystkie zadania, w których należy szybko sprawdzić astronomiczną liczbę możliwości, np. łamanie szyfrów. Rząd amerykański korzysta z systemu szyfrowania DES (Digital Encryption Standard, czyli cyfrowy system kodowania). W tym systemie informacja jest szyfrowana za pomocą jednego z 256 kluczy kodujących, które są ogólnie dostępne.

Aby odczytać zaszyfrowaną wiadomość bez znajomości klucza, należy sprawdzić wszystkich 256 możliwości. Dla jednego komputera jest to zadanie praktycznie niewykonalne. Kilku kryptografów wpadło na pomysł, żeby złamać DES, wykorzystując Internet. Zaprosili do zabawy setki tysięcy internautów i po kilku miesiącach pracy setek tysięcy komputerów kod został złamany. W naszym komputerze biologicznym po zapisaniu 256 kluczy w cząsteczkach DNA łamanie kodu odbywałoby się w sekundę, ponieważ sprawdzałby on równocześnie wszystkie klucze.

Miłośników szybkich komputerów, którzy chcieliby zobaczyć "genetycznego peceta", czeka jednak przykre rozczarowanie. Takie zintegrowane urządzenie niestety jeszcze nie istnieje, a cały projekt nie wyszedł poza stadium testów wykonywanych w laboratoriach. Automaty potrafią jedynie powielać DNA metodą PCR, zaś sama analiza wyników wymaga już żmudnej pracy laboratoryjnej, w tym tradycyjnego przelewania roztworów z probówki do probówki.

W 1994 roku zaprezentowano prototyp komputera, w którym dane zapisywano, wykorzystując umieszczone w probówce cząsteczki DNA. Pierwszy komputer biologiczny rozwiązywał jednak przez 7 dni problem, z którym dziecko uporałoby się w kilkanaście sekund, a komputer krzemowy jeszcze szybciej. Był to tzw. problem komiwojażera: siedem miast położonych wzdłuż jednej linii ponumerowano od 1 do 7. Trzeba wyznaczyć najkrótszą drogę, która zaczyna się w mieście 1, kończy w mieście 7 i przez każde miasto przechodzi tylko raz.

Nie wiadomo, kiedy zobaczymy pierwszy komputer biologiczny na biurku, nie należy jednak tracić nadziei. Pierwsze komputery zbudowane w latach 40-tych i 50-ych XX wieku miały rozmiary przypominające małe hale technologiczne, a liczyły wolniej niż dzisiejsze kalkulatory. Dopiero odkrycie tranzystora krzemowego i stworzenie układów scalonych pozwoliło 20 lat później na produkcję pierwszych komputerów osobistych. Wymagało to geniuszu, a także pracy milionów ludzi, o czym warto pamiętać, marząc o komputerach z DNA.

Jak odnaleźć informację na "genetycznym twardym dysku"? Do roztworu zawierającego wiele różnych nici DNA wprowadzamy próbnik - krótki fragment genu. Ma on sekwencję uzupełniającą zapis na poszukiwanej przez nas nici DNA o dowolnej długości. Próbnik sam odnajdzie potrzebną nam informację w DNA.

Prof. ROBERT HOŁYST pracuje w Instytucie Chemii Fizycznej PAN i wykłada w Szkole Nauk Ścisłych.