Расшифровку генетического кода часто сравнивают с расшифровкой загадочных надписей. Действительно, сходство есть, и не только внешнее. Более того, сопоставление задачи, поставленной Гамовым, с расшифровкой надписей может быть довольно поучительным.
С расшифровкой надписей приходится сталкиваться очень часто. Загадочные надписи, сделанные с помощью каких-нибудь значков, мы находим в любом отделе головоломок. С шифрами люди сталкиваются профессионально в военном деле, в теории и практике связи, в истории, археологии и так далее. Но все задачи можно разбить на две группы: на случаи, когда заранее известен язык, на котором сделана надпись, и на случаи, когда зашифрованная надпись сделана на неизвестном языке. В последнем случае, как правило, ни о какой сознательной зашифровке речи не идет, именно потому и надо расшифровывать надпись, что она сделана на неизвестном языке. С этим приходится иметь дело при разгадке древних забытых языков. К первой же группе относятся все остальные случаи. И нужно сказать, что, как это ни покажется странным на первый взгляд, случаи, когда надпись зашифрована нарочно (первая группа), гораздо более легки для расшифровки, чем те, когда никто и не думал о зашифровке, но пользовался неизвестным языком. И при решении задач первой и второй групп прибегают к совершенно разным методам.
Начнем с первой группы. Оставим самые простые шифры, с которыми можно встретиться на страницах "Пионерской правды". Тут нарочно применяются шифры, разгадка которых под силу школьникам пятого-шестого классов: используется перестановка букв, их искажение (например, зеркальное изображение или сильное вытягивание) или что-либо в таком роде. Когда зашифровка производится всерьез, с намерением сделать ее расшифровку невозможной для непосвященного, то в основе лежит замена букв другими буквами или какими-нибудь другими значками. Она производится таким образом, что для чтения нужен "ключ". Такая замена, скажем, как использование следующей буквы в алфавите, - это слишком просто и тоже относится к категории "школьных" шифров.
Допустим, что некто изобрел свой собственный секретный алфавит. Каждую букву он зашифровал каким-нибудь хитрым значком и уверен, что надпись, сделанную с помощью этих значков, без помощи листка бумаги, где расшифрована его азбука (то есть без ключа), не поймет ни одна живая душа. Так ли это? Глубочайшее заблуждение! Подобные шифры разгадать вовсе не трудно. Нужно лишь иметь достаточно длинную надпись, сделанную с помощью этого шифра.
Как это делается - очень увлекательно описано Эдгаром По в его знаменитом рассказе "Золотой жук". Здесь речь идет о записке, в которой с помощью таинственных значков указано местонахождение клада. Герой рассказа подсчитал, как часто встречаются в записке значки каждого сорта. Поскольку заранее было известно, что записка написана по-английски, а в этом языке чаще всего встречается буква "е", то он предположил, что наиболее часто встречающийся значок и есть буква "е". В пользу этого говорило и то, что часто два таких ?значка стоят подряд: сочетание "ее" в английском языке тоже встречается довольно часто. Когда несколько букв были предположительно разгаданы таким статистическим способом, стали понятны некоторые слова, хотя в них не хватало нескольких букв, а после разгадки слов становились понятными и недостающие буквы. Продолжая таким образом, герой рассказа вскоре прочел записку, а затем и разыскал желанные сокровища. Именно так в принципе и расшифровываются подобные шифры - используется частота букв в словах, наиболее распространенные их сочетания и так далее.
Самым трудным из шифров первой группы является шифр, который можно назвать "книжным". Допустим, что мы с вами решили писать друг другу шифрованные письма. Мы берем две совершенно одинаковые книги и договариваемся вместо буквы писать номер страницы ?и место, где на этой странице встречается нужная буква. При этом одна и та же буква будет у нас обозначаться то одной, то другой комбинацией цифр. В этом основная трудность расшифровки: одна и та же буква может быть закодирована по-разному. Такой шифр называют вырожденным. Но и его расшифровать возможно, не имея ключа: только надо иметь гораздо большее количество текста, написанного с помощью этого шифра. Вообще чем длиннее текст, тем легче его расшифровать. Это, в частности, одна из причин, почему ключи время от времени меняют.
А как поступают при расшифровке надписей на неизвестных языках? Наиболее знаменита история расшифровки древнеегипетских иероглифов. Иероглифические надписи были широко известны и привлекали внимание многих. В течение нескольких веков ученые безуспешно пытались разгадать их таинственный смысл и в конце концов пришли к выводу, что это невозможно. В 1802 году Давид Окерблад писал: "Уже давно потеряли надежду когда-либо расшифровать иероглифы". Но он оказался плохим пророком. Уже в 1822 году молодой француз Жан Франсуа Шампольон смог произнести свои вошедшие в историю слова: "Я добился!"
Разрешить эту вековую загадку помог замечательный камень. Во время похода Наполеона в Египет, а точнее, 2 фрюктидора VII года Республики (2 августа 1799 года) в древнем форту Рашида в семи километрах от Розетты офицер генерального штаба Бушар приказал соорудить укрепления. Лопата одного из солдат ударилась обо что-то твердое. Когда "что-то" вытащили из земли, то увидели кусок черного базальта, весь испещренный знаками. При более внимательном рассмотрении оказалось, что на этом камне, вошедшем в историю под именем Розеттского, не одна, а три надписи. Верхняя состояла из давно известных, но все еще таинственных иероглифов, средняя была какая-то совсем неизвестная, а нижняя сделана на греческом языке.
Некоторые из наполеоновских офицеров хорошо знали греческий язык и тут же прочли нижнюю надпись. Она представляла собой декрет, относящийся к 196 году до нашей эры, которым жрецы города Мемфиса в благодарность за благодеяния, оказанные храмам Птолемеем V Эпифаном, "умножают почетные права, предоставляемые в египетских святилищах царю и его предкам". Причем там же было сказано, что декрет высечен на памятном камне "священными, туземными и эллинскими буквами". Стало быть, все три надписи имеют один и тот же смысл. Это было то, о чем ученые мечтали долгие годы. Билингва - параллельный текст на двух языках, из которых один известен. В этом случае была даже не билингва, а трилингва. Нужно сказать, что и с ее помощью расшифровать иероглифы оказалось делом далеко не простым. Мы не будем пересказывать историю расшифровки Розеттского камня, а затем и египетских иероглифов. Нам было важно напомнить, что она стала возможной только благодаря Розеттскому камню.
История расшифровки египетских иероглифов многократно описана. Но сейчас расшифровано уже очень много неизвестных древних письмен: древнеперсидский язык, месопотамская клинопись, хеттские иероглифы, угаритский и гублский языки, кипрское слоговое письмо, критомикенские линейные надписи и так далее. И если мы обратимся к истории их расшифровки, то увидим, что практически во всех случаях основой послужило нахождение билингв.
Итак, при расшифровке надписей на известном языке применяют статистический анализ, используя законы строения языка, при разгадке надписей на неизвестных - ищут билингву. Если мы теперь обратимся к проблеме генетического кода, для нас станет ясно, что задача принадлежит ко второй группе, так как "язык" ДНК неизвестен. Следовательно, нужна билингва. Такой билингвой могли бы стать данные о последовательности аминокислот в белке и о последовательности нуклеотидов в ДНК, которая его кодирует. Легко сказать! В то время, о котором идет речь, порядок аминокислот в белках определять только начинали. А порядок нуклеотидов в нуклеиновых кислотах и вовсе не умели. Не научились этого делать и до сих пор, хотя усилия к этому прилагают очень большие. Только в 1964 году появилась первая работа, в которой дана расшифровка порядка нуклеотидов в сравнительно небольшой молекуле, и к тому же местами она предположительна. Но и для этого пришлось применить в комбинации почти все известные методы.
Раз для расшифровки генетического кода необходима билингва, то поскольку ее нет, время его разгадки еще не пришло! Но не так устроен человек, чтобы ждать, когда ответ придет сам собой. Как только ученым стало ясно, что генетический код существует, есть связь между порядком нуклеотидов в нуклеиновой кислоте и порядком аминокислот в белке, они не перестают трудиться над его разгадкой. И невозможное свершилось. Хотя до сих пор еще не умеют "читать" то, что записано в нуклеиновой кислоте, но генетический код расшифрован.
За дело берутся теоретики
Успех дался не сразу. Десяткам ученых пришлось несколько лет трудиться не покладая рук, чтобы подготовить почву для великого открытия. Работы хватило и экспериментаторам и теоретикам.
Теоретики взялись за дело раньше. Ведь им, кроме карандаша и бумаги (и, конечно, головы на плечах!), ничего не нужно. Они рассуждали примерно так. Раз нет билингвы и неизвестен язык, то можно расшифровывать код так, словно язык известен. Нужно только, зацепившись за что-нибудь, догадаться, какова "грамматика" языка, на котором нуклеиновые кислоты отдают свои команды "рабочим", строящим белки.
Именно так и поступил Гамов в той работе, которая нам уже известна. Он "зацепился" за то, что расстояния между соседними "кирпичиками", из которых построены белки и нуклеиновые кислоты, одинаковы и что придуманных им "ромбов" ровно столько, сколько нужно: 20. А потом стал пытаться расшифровывать код такими же методами, как это делал герой рассказа "Золотой жук" или как делают разведчики, перехватившие радиограмму противника.
Гамов ошибся. Но пример его оказался заразительным, и работы, сделанные в принципе по тому же образцу, стали появляться, как грибы после дождя. Ни одна из них проблемы не решила, но ни одна не оказалась и лишней, так как каждая чем-то да приближала к цели. Здесь мы расскажем только об одной работе такого рода - о работе, сыгравшей в проблеме генетического кода особенно важную роль - как положительную, так и отрицательную.
Гамов, как и его последователи, ошибся. Код оказался неперекрывающимся. Соседние аминокислоты кодируются независимыми друг от друга группами нуклеотидов. Это создало новую трудность. Сколько нуклеотидов нужно, чтобы зашифровать одну аминокислоту? Нуклеотидов четыре, аминокислот 20. Если брать по одному нуклеотиду, то можно зашифровать только четыре аминокислоты. Если брать по два нуклеотида на аминокислоту, нетрудно подсчитать, что это даст 16 комбинаций. Маловато. Если же по три, комбинаций оказывается более чем достаточно - 64. Значит, каждую аминокислоту кодирует не меньше чем тройка нуклеотидов ("триплет", как его назвали ученые).
Но нуклеотидный триплет занимает втрое больше места, чем аминокислота. Если триплеты не перекрываются, то аминокислоты оказываются слишком далеко друг от друга, чтобы соединиться друг с другом в белковую цепочку. Снова возникла проблема прокрустова ложа. В 1957 году вышла работа, предлагавшая решение этой проблемы. Авторами ее были уже знакомый нам Крик и два его сотрудника - Гриффиц и Орджел. Решение было простым. Авторы предположили, что аминокислоты не имеют непосредственно дела с триплетами. Должны существовать специальные молекулы ("адаптеры"). Одним концом они соединяются с аминокислотами, из которых должен строиться белок, а другим - с нуклеиновой кислотой, в которой в определенном порядке расположены триплеты. Для этого, конечно, "адаптеры" должны иметь удлиненную форму.
Не прошло и года, как гипотеза "адаптеров" подтвердилась. Была открыта новая разновидность нуклеиновой кислоты, которую вначале назвали, растворимой РНК, а теперь чаще называют транспортной РНК. Оказалось, что молекулы транспортной РНК несут именно ту функцию, которой Крик и сотрудники наделили гипотетические "адаптеры".
В той же статье давался ответ и на другой вопрос, который непосредственно вытекал из решения первого. Вспомним сначала код, предложенный Гамовым. Мы его поясняли на последовательности букв:
носактоко
Ромбический код был перекрывающимся. Любая тройка в этой последовательности имела смысл, и написанный ряд букв содержал семь слов (нос, оса, сак, акт, кто, ток, око). Теперь же приходилось считать, что эта последовательность содержит лишь три слова (нос, акт, око). А это приводило к существенным затруднениям.
Ведь "адаптер" может прицепиться не туда, куда надо, например, к буквам О, С, А. А это изменит смысл. Будет построен не тот белок, какой нужно. Более того, он вообще может не построиться. Например, если один "адаптер" присоединится к буквам О, С, А, а другой к Т, О, К, то между ними останется одинокая буква "К", к которой ничто присоединиться не может. Белок распадется пополам.
Какой же выход? Самое простое, пожалуй, предположить, что существуют какие-то разделительные знаки ("запятые"), показывающие, где кончается один триплет и начинается другой. Но, к сожалению, химические данные говорили против существования "запятых". Работа Крика, Гриффица и Орджела называется "Коды, без запятых". Чтобы объяснить однозначность "чтения" информации, записанной в нуклеиновой кислоте, они высказали следующую идею. Код должен быть устроен таким образом, чтобы неправильное чтение было невозможно, чтобы любое "слово", составленное из конца одного триплета и начала другого, не имело смысла. Например, возьмем слова: ген, дуб, код. Если мы их напишем подряд (в любом порядке), эта последовательность будет содержать только три осмысленных слова. Проверьте, и вы убедитесь, что это действительно так.
Расчеты показали, что подобный код составить можно. Особенно интересно, что при этом получается "словарь", состоящий ровно из двадцати слов (сколько и требовалось!). Гипотеза казалась очень правдоподобной. Да и авторитет Крика к тому времени был весьма высок, а когда подтвердилась гипотеза "адаптера", поднялся еще выше. Поэтому в "код без запятых" все сразу поверили. Но гипотеза оказалась ошибочной. А ее принятие, конечно, несколько увело ряд дальнейших работ в неправильную сторону.
Много было теоретических работ. Но одни они не могли решить проблемы. Слово было за экспериментаторами. Ведь нужно было доказать даже такие основные положения, как то, что ДНК обладает свойством самовоспроизведения, что она определяет строение белков. А кроме того, нужно было искать и экспериментальные пути для расшифровки кода.