Глава вторая. Строение эукариотических генов [1989 Георгиев Г.П.

Открытие прерывистой структуры гена [46-49]. Прерывистая структура эукариотических генов и явлений сплайсинга были открыты при детальном изучении структуры генома аденовируса 2, одного из вирусов, содержащих ДНК.

Геном аденовируса - это линейная ДНК размером около 36 000 п. н. (36 т. п. н.); он содержит несколько десятков разных генов, кодирующие последовательности которых расположены в обеих цепях ДНК. На поздних стадиях инфекции клеток вирусом, незадолго до лизиса клеток, в основном транскрибируется одна из двух цепей ДНК ("поздняя", или "L-цепь"), в которой находится не менее пяти генов, кодирующих белки, входящие в состав зрелого вируса (рис. 4). Эти гены рассеяны по всей длине L-цепи аденовируса.

Рис. 4. Строение различных мРНК, синтезируемых на 'поздней цепи' генома аденовируса 2. а - карта транскрипции. Видно, что поздние мРНК образуются из пяти областей вирусного генома. Однако, кроме того, каждая из этих мРНК содержит на своем 5'-конце по три последовательности, происходящие из участков, лежащих на 16,6; 19,6 и 26,6 ед. карты. Эти три участка образуют лидер, входящий в состав каждой мРНК, участки между лидерными отрезками и между лидером и 'телом' мРНК являются нитронами и удаляются в результате сплайсинга. Наверху представлен гигантский первичный транскрипт поздней аденовирусной про-мРНК. Из него за счет формирования разных 3'-концов и разного сплайсинга образуется по крайней мере 13 разных мРНК (по одной из одного первичного транскрипта); б - электронная микроскопия гибрида между поздней (L) цепью аденовирусной ДНК и мРНК, гибридизующейся с областью 67-79 (см. карту); в - схема, объясняющая структуру гибрида. Видно, что мРНК связывает четыре области вирусной ДНК, в результате чего образуются три петли ДНК, соответствующие трем интронам (1, 2, 3) (по результатам, полученным Р. Робертсом, Ф. Шарпом, Т. Брокером, Дж. Дарнеллом и др.)

Две группы в лаборатории Колд-Спринг-Харбор (США) изучали структуру поздних мРНК аденовируса и неожиданно обнаружили, что все они начинаются с одной и той же короткой последовательности, т. е. 5'-конец у всех пяти мРНК был одинаковым (см рис. 4). Далее оказалось, что эта последовательность не соседствует с поздними генами, а выявляется в левой части аденовирусного генома на значительном расстоянии от них. Более того, эта "лидерная последовательность" гибридизовалась с тремя разными участками левой половины генома. Особенно четко такая структура мРНК выявляется при изучении гибридов между мРНК и ДНК аденовируса в электронном микроскопе. На электронных микрофотографиях отчетливо видно, что каждая поздняя мРНК аденовируса образует гибриды с четырьмя разными участками аденовирусного генома: тремя короткими, расположенными в его левой части, и одним длинным (собственно геном). В то же время появились данные, что главным первичным продуктом транскрипции аденовирусного генома на поздних стадиях инфекции является длинная РНК, считываемая почти со всей L-цепи.

Учитывая все это, единственным объяснением странной структуры аденовирусных мРНК являлось допущение, что вначале идет непрерывная транскрипция генома, образуется длинный предшественник мРНК (про-мРНК), затем из этой про-мРНК вырезаются внутренние участки, а образовавшиеся концы соединяются, связываются (см. рис. 4).

В 1977 г. этот вывод казался совершенно парадоксальным, не вытекающим из каких-либо теоретических предпосылок. Однако эксперимент был настолько ясен, что он был безоговорочно принят на симпозиуме 1977 г. в Колд-Спринг-Харбор, посвященном хроматину. Стало ясным, что по крайней мере гены аденовируса складываются из нескольких несоседствующих блоков, названных позднее экзонами. Экзоны, в свою очередь, разделены блоками ДНК, не выявляемыми в зрелой мРНК. Последние были названы нитронами.

Новообразующаяся про-мРНК считывается непрерывно и поэтому содержит в своем составе и экзоны и интроны. Затем интроны вырезаются из про-мРНК, а концы экзонов соединяются. Это явление получило название сплайсинга.

Дальнейшее изучение транскрипции и сплайсинга поздних генов аденовируса позволило уточнить детали этого процесса. Транскрипция всегда начинается с первого экзона и кончается после прохождения РНК-полимеразы почти вдоль всего генома аденовируса. Затем в про-мРНК вносится разрыв сразу после одного из пяти генов, что и определяет судьбу про-мРНК. При сплайсинге удаляются интроны между 1-м и 2-м лидерами, между 2-м и 3-м лидерами и, наконец, весь отрезок про-мРНК между 3-м лидером и началом последнего экзона. Если, скажем, цепь оборвалась после третьего экзона, то экзоны, соответствующие двум первым генам, удаляются, т. е. в этом случае они являются частью большого третьего интрона (см. рис. 4).

Почти сразу после открытия экзон-интронной структуры гена у аденовируса аналогичное явление было обнаружено и у другого вируса, содержащего ДНК, обезьяньего вируса 40 (или SV40). Поначалу можно было думать, что разорванные гены и сплайсинг - это достояние вирусов. Однако уже в том же 1977 г. стало ясно, что разорванная структура генов - явление, распространенное гораздо шире.

Первые результаты были получены на генах β-глобина мыши и овальбумина кур. Оказалось, что фрагменты генома, с которыми гибридизуется мРНК соответствующих генов, в своей сумме намного превышают по размерам длину мРНК. Наиболее информативны данные по сравнению структуры геномного клона, содержащего данный ген, и кДНК-клона, т. е. клона, ДНК которого считана ревертазой с мРНК. В этом случае прямо сравнивается структура гена и мРНК.

Оказалось, что ген, кодирующий β-глобин, занимает у разных видов млекопитающих отрезок ДНК длиной около 1,5 т. п. н. Он состоит из трех экзонов, разделенных двумя интронами (рис. 5). При транскрипции образуется про-мРНК длиной ∼ 1500 нуклеотидов. Она содержит в своем составе последовательности, соответствующие как экзонам, так и интронам. При сплайсинге интроны вырезаются, а три экзона составляют мРНК длиной около 700 нуклеотидов (∼600 нуклеотидов - экзоны + ∼100 нуклеотидов - поли (А)). Интересно, что в случае β-глобинового гена интроны прерывают кодирующую часть гена (между 31-м и 32-м и между 105-м и 106-м кодонами). Этим β-глобиновый ген отличается от описанных выше поздних генов аденовируса, где лидерные последовательности не участвуют в кодировании белка.

Рис. 5. Экзон-интронная структура эукариотических генов. а - β-глобиновый ген млекопитающих (цифры дают вариации размеров экзонов и нитронов). Дано схематическое изображение про-мРНК и зрелой мРНК. Экзон 1 дает 5'-нетранслируемую область (30 нуклеотидов) и кодирует аминокислоты 1-30; экзон 2 кодирует аминокислоты 31-104; экзон 3 - аминокислоты, начиная со 105 до С-конца и 3'-нетранслируемую область; б - 1а2-коллагеновый ген курицы. Он состоит из более чем 50 экзонов (широкие блоки) и нитронов (тонкая линия), занимая в геноме область 38 т. п. н. (по результатам, полученным Р. Флавеллом, Ф. Ледером, Т. Маниатисом, П. Доти, Х. Бедкер и др.)

Экзон-интронная организация эукариотических генов [50-52]. После открытий, описанных в предыдущем разделе, данные об экзон-интронной организации эукариотических генов стали накапливаться по экспоненте. Клонировались все новые и новые гены, изучалась их структура, и оказалось, что экзон-интронная организация и сплайсинг - это не исключение, а правило, из которого, правда, бывают редкие исключения. Так, например, большинство генов, кодирующих гистоны (основные белки ядра - см. ниже), и гены, кодирующие интерфероны, не содержат интронов. Первичный транскрипт практически соответствует зрелой мРНК. Сплайсинг у этих РНК не происходит. Однако подавляющее число генов эукариот "интронированы" в той или иной степени, причем обычно общая протяженность последовательностей, приходящихся на интроны, в несколько раз превосходит протяженность всех экзонов и поэтому про-мРНК обычно в несколько раз длиннее, чем зрелая мРНК.

Число интронов в гене колеблется в широких пределах - от одного до нескольких десятков. Рекордное число интронов (около 50!) обнаружено в коллагеновом гене (рис. 5). Размеры как экзонов, так и интронов тоже варьируют в очень широких пределах. Например, в коллагеновом гене есть экзоны длиной всего в 45-54 п. н., каждый из которых кодирует всего лишь 15-18 аминокислот.

Размер интронов иногда составляет всего несколько десятков пар нуклеотидов, а иногда, например в случае ряда генов дрозофилы (D. melanogaster), достигает нескольких десятков тысяч пар нуклеотидов.

Рассмотрим некоторые особенности строения интронов. Одной из характерных черт является консервативность локализации интронов в родственных генах одного вида или в одинаковых генах разных видов. В то же время нуклеотидная последовательность самих интронов мало консервативна и подвергается быстрым изменениям в эволюции. Поэтому интроны, расположенные в одних и тех же местах родственных генов, могут сильно различаться по нуклеотидным последовательностям. Они, во всяком случае, гораздо менее консервативны, чем экзоны.

Интроны крайне разнообразны по структуре и не содержат каких-либо строго специфических для интронов нуклеотидных последовательностей. Только на границе между экзонами и интронами удается обнаружить сходство между разными интронами. Так, на границе между экзоном и началом интрона выявляется последовательность ^A_C AG / GT ^A_G AGT. Это так называемый донорный сайт сплайсинга. На другом конце интрон-экзонное сочленение, или донорный сайт сплайсинга, представлено последовательностью YYYYYYYYYYYNYAG/N, где Y - пиримидин и N - любой нуклеотид.

Однако это лишь усредненные последовательности, которые на самом деле варьируют в широких пределах. По-настоящему консервативны лишь два первых и два последних основания в интронах: GT ... AG. Они выявляются практически во всех интронах. Кроме того, на расстоянии в 10-30 нуклеотидов от 3'-конца интрона выявляется еще одна общая для разных интронов последовательность CT^G_AA^C_T. Эти последовательности, как будет видно из дальнейшего изложения, участвуют в реакциях сплайсинга.

Теперь мы рассмотрим более подробно экзон-интронную структуру двух генов, клонирование которых было осуществлено в нашей лаборатории.

Клонирование и структура гена клеточного Т-антигена, или р53^1* [53,54]. Один из этих генов - ген для белка, называемого клеточным опухолевым антигеном (клеточным Т-антигеном) или, более кратко, р53. Последний термин обозначает, что это белок (protein) с молекулярной массой 53 000. Белок этот интересен тем, что его содержание повышено во многих опухолях млекопитающих (мышь, человек). Он относится к классу ядерных белков - локализуется в клеточном ядре и обладает способностью связываться с ДНК. Впервые клонирование гена, кодирующего р53, было осуществлено П. М. Чумаковым в нашей лаборатории. Поскольку клонирование слабо экспрессируемого гена является довольно сложной работой, я привожу основные этапы клонирования.

Так как, по расчетам, мРНК для белка р53 должна была составлять не более 0,01 % от всей мРНК, то тотальную мРНК клеток опухоли SVT2 мыши вначале обогащали по р53-мРНК. Для этого выделяли из клеток мРНК, ультрацентрифугировали ее в сахарозном градиенте, собирали фракции РНК и вели на каждой из них синтез белка in vitro, добавляя в смесь меченую аминокислоту, метионин-[35S]. Из инкубационной смеси осаждали белки антителами к р53 и после электрофореза определяли появление меченого белка, имеющего ту же подвижность, что и р53. Фракции, которые содержали мРНК, обеспечивающие синтез р53, собирали и использовали для синтеза на них комплементарной ДНК (кДНК) с помощью фермента ревертазы (см. разд. 1.7). Синтезированную двухцепочечную ДНК встраивали в плазмиду и клонировали. Затем проводили поиск колоний, содержащих ДНК гена р53. С этой целью из клона выделяли ДНК и на эту ДНК вылавливали соответствующую ей мРНК путем гибридизации. Далее, на отловленной мРНК синтезировали меченый белок и определяли его природу с помощью антител к белку р53, как описано выше. Из примерно 100 проверенных таким образом клонов был получен один, содержащий ДНК, которая связывала мРНК для белка р53. Используя меченую ДНК полученного клона как зонд для гибридизации, вели поиск других клонов, содержащих другие части гена р53 мыши. Для этого вели гибридизацию меченой ДНК прямо с колониями бактерий, перенесенными и выращенными на фильтре (см. разд. 1.7). В результате было поймано еще несколько клонов и входящие в них вставки вместе перекрыли почти всю мРНК для гена р53. Так было осуществлено клонирование полной кДНК, или экзонной части гена р53. Вскоре после этого клонирование гена р53 было осуществлено и рядом других авторов.

Чтобы выделить геномный клон р53, использовали "библиотеки" клонированных фрагментов тотальной ДНК мыши или человека. ДНК фрагментировали рестриктазами и встраивали в бактериофаг X, которым затем заражали бактерии. Образовывалось множество бляшек. С ними гибридизовали ДНК ранее полученных клонов и таким образом находили колонии фагов, содержащие ген р53. В результате были изолированы полные геномные копии гена р53 мыши и человека. Сравнение между собою геномных и кДНК клонов позволяет выяснить экзон-интронную структуру гена. Такая работа была проделана почти одновременно в ряде лабораторий, в том числе в нашей В. Л. Бухманом и Н. Н. Нинкиной, которые анализировали ген р53 человека (рис. 6). Видно, что этот ген содержит 11 экзонов и 10 интронов.

В мРНК различают три главных области - кодирующую, с которой считывается белковая последовательность, а также две нетранслируемые области - 5'-концевую и 3'-концевую.

В гене р53 вслед за начальным экзоном, который весь входит в состав 5'-нетранслируемой области, идет очень большой интрон длиной 10,4 т. п. н. Остальные 10 экзонов расположены гораздо ближе друг к другу: длина интронов варьирует от 81 п. н. до 2,5 т. п. н., а экзонов - от 22 п. н. до 1260 п. н. (последний экзон). Маленькие экзоны выявляются лишь путем определения нуклеотидной последовательности кДНК и геномной ДНК. Таким образом, общий размер гена равен ~18,3 т. п. н., из которых на экзоны приходится ∼2,6 т. п. н. В результате про-мРНК примерно в 7 раз длиннее, чем зрелая IMPHK. Интересно, что ген р53 мыши, хотя и отличается от человеческого по нуклеотидным последовательностям, особенно в интронах, имеет точно такую же организацию. В нем также некодирующий белок экзон отделен очень большим (6,3 т. п. н.) интроном от кластера из 10 кодирующих экзонов. Интроны располагаются в тех же самых местах, что и у гена мыши. Таким образом, общая структура гена весьма консервативна.

Рис. 6. Экзон-интронная структура онкогена р53 человека Экзоны даны широкой линией и буквой Э с номером экзона. Указан первичный транскрипт и зрелая мРНК (по результатам, полученным В. Л. Бухманом, О. П. Самариной и др.)

В ходе клонирования геномных копий было получено два варианта клонов, различающихся между собою по рестриктной карте. Они представляют собою два аллельных варианта гена р53, встречающихся в человеческой популяции. Оба варианта кодируют полноценный белок, хотя даже в аминокислотной последовательности белка имеются небольшие различия.

Клонирование гена и определение его структуры является обычно первым шагом по пути выяснения функционирования гена и регуляции его активности. В случае р53 использование клонированного гена позволило отчасти пробить свет и на функцию самого белка р53. Р. Вайнберг и ряд других ученых в США показали, что при введении этого гена в нормальные клетки и его последующей активной работе (синтезе мРНК и белка) клетки претерпевают ряд изменений, характерных для опухолевых клеток. Они становятся "бессмертными", т. е. приобретают свойство неограниченно размножаться при выращивании вне организма, в культуре клеток. На основе этих опытов ген р53 был отнесен к онкогенам, т. е. генам, изменения в которых могут вести к раковому превращению клеток.

Клонирование и структурная организация гена эстеразы S дрозофилы (D. virilis)^1* [55]. Другой ген, проклонированный в нашей лаборатории, - это ген для фермента эстеразы S дрозофилы (D. virilis), который был открыт и хорошо изучен в Институте биологии развития АН СССР Л. И. Корочкиным. Интересной особенностью гена является то, что его продукт, эстераза S, синтеризуется только в одном типе клеток - эпителиальных клетках семявыносящих луковиц дрозофилы, т. е. он относится к генам, участвующим в дифференцировке клеток.

Клонирование гена было осуществлено в нашей лаборатории Г. Н. Ениколоповым в сотрудничестве с Б. И. Кузиным (лаборатория Л. И. Корочкина). Стратегия клонирования была другая, чем в случае гена р53. Она базировалась на знании локализации гена в хромосомах и места экспрессии гена. Во-первых, как отмечалось выше, синтез эстеразы S идет исключительно в семявыносящих луковицах. Предварительные оценки показывали, что до 10 % всего вновь образующегося белка в этом органе составляет эстераза S. Можно было ожидать поэтому, что концентрация мРНК для эстеразы S в семявыносящих луковицах будет очень высокой (не менее 1 %) и поэтому хотя бы один клон из 100, гибридизующихся с мРНК (или синтезированной на ее матрице кДНК), будет содержать нужный ген.

Исходя из этого, вначале получали клоны, содержащие фрагменты геномной ДНК D. virilis. Далее, на мРНК из семявыносящих луковиц синтезировали с помощью ревертазы меченую ДНК и гибридизовали ее с колониями. Те колонии, ДНК которых активно связывала метку, наращивали, выделяли из них ДНК, метили ее и гибридизовали с препаратами политенных хромосом слюнных желез личинок D. virilis.

В некоторых органах дрозофилы, в частности в слюнных железах личинок, удвоение ДНК не сопровождается делением клеток. В результате каждая хромосома содержит не одну - две гигантские молекулы ДНК, но несколько тысяч нитей ДНК, лежащих строго параллельно друг другу,- образуются огромные политенные (многонитчатые) хромосомы. Вариации в степени конденсации ДНК создают в них чередования плотных участков, дисков, и междисковых промежутков (их около 6000). Все области хромосом и диски имеют свои обозначения. Проводя гибридизацию меченой РНК и ДНК с фиксированными препаратами политенных хромосом, ДНК которых денатурирована, и определяя места связывания метки по засвечиванию фотоэмульсии, которой покрывают хромосомы, можно точно определить, в каком месте хромосомы расположен тот или иной ген. Локализация гена эстеразы на политенных хромосомах была уже выяснена ранее Л. И. Корочкиным в генетических опытах. Ген был расположен в районе 2Ge5 второй хромосомы. Таким образом, если ДНК клона (проведенного уже через тест гибридизации с мРНК из семявыносящих луковиц) свяжется с областью 2Ge5 второй хромосомы, то с очень большой вероятностью этот клон будет содержать эстеразный ген. Действительно, из 50 отобранных на первом этапе клонов два связались с областью 2Ge5, и один из них содержал ген эстеразы S.

Однозначное доказательство было получено при инъекции ДНК клона в ядра овоцитов лягушки. Этот тест был впервые введен в практику М. Бирнстилом (Швейцария) для изучения регуляции транскрипции. Введенная в овоцит лягушки чужеродная ДНК становится там матрицей для синтеза мРНК, а на последней в цитоплазме овоцита активно синтезируется белок. Действительно, после введения ДНК клона в ядра овоцитов лягушки в последних начинался активный синтез эстеразы S дрозофилы, которую далее выявляли с помощью иммунологического теста.

Рис. 7. Экзон-интронная структура гена эргеразы S Drosophila virilis. Экзоныьаны жирной линией и обозначены буквой Э с номером (по результатам, полученным Г. Н. Ениколоповым и соавт.)

Имея геномный клон эстеразы S и соответствующую мРНК, Г. Н. Ениколопов сравнил их путем гибридизации мРНК с фрагментами ДНК и тем самым проанализировал экзон-интронную структуру гена, представленную на рис. 7. Из последнего видно, что ген состоит из двух экзонов, разделенных небольшим интроном. Вообще, обычно размеры интронов у насекомых меньше, чем у позвоночных.

С помощью клонированной последовательности была изучена транскрипция гена эстеразы S. Оказалось, что содержание мРНК для эстеразы S в клетках семявыносящих луковиц по крайней мере на три порядка выше, чем в других клетках дрозофилы. Те редкие транскрипты, которые (выявляются в других клетках, начинаются с точек, отличающихся от места старта главного транскрипта семявыносящих луковиц. Таким образом, только в дифференцированных клетках идет активная экспрессия гена эстеразы S.

Почему существуют интроны? [56-58]. Открытие экзонов и интронов дало объяснение первому парадоксу организации генома у эукариот, а именно большим размерам единиц транскрипции, намного превышающим размеры собственно генов. Действительно, на интроны приходятся гораздо больше ДНК, чем на экзоны, и соответственно про-мРНК существенно длиннее, чем зрелая мРНК.

В то же время разорванная структура эукариотических генов была одной из крупнейших неожиданностей в молекулярной биологии. Она не вытекала из каких-либо априорных соображений, а просто явилась неумолимым выводом из результатов эксперимента. Однако, как только она стала совершившимся фактом, начались попытки осмысливания этого явления. Возник вопрос, зачем природе понадобилось вводить сложный процесс сплайсинга, включающего разрывы и соединения концов РНК и уничтожение трех четвертей синтезированной про-мРНК, вместо того чтобы просто иметь непрерывные гены, как в случае прокариотических организмов.

Остановлюсь на ряде высказанных в разное время гипотез. Прежде всего возникла идея, что сплайсинг с его способностью объединять разъединенные отрезки ДНК в один ген может играть важнейшую роль в эволюции, в частности в объединении разных генов в один и, следовательно, разных полипептидных цепей в одну. Тем самым сравнительно легко могут возникать новые гены. Эти представления находят подтверждение при сравнении экзон-интронной структуры некоторых генов и так называемой доменной структуры соответствующих им белков. Ряд белков состоит из нескольких доменов, т. е. блоков, разделенных структурно и функционально. Классическим примером является фермент ДНК-полимераза I. Хотя она и представлена одной непрерывной полипептидной цепочкой, но состоит фактически из двух разных ферментов: собственно ДНК-полимеразы (синтезирующей ДНК) и экзонуклеазы (разрушающей ДНК с конца). Эти два домена образуют две независимые компактные частицы, связанные между собою коротким полипептидным мостиком. Последний легко разрушается при мягкой обработке протеиназами, когда домены остаются неповрежденными в силу своей компактности. Это ведет к разделению доменов.

В эукариотических организмах белков, состоящих из нескольких доменов, очень много. Оказалось, что в тех случаях, когда в составе белка можно различить несколько доменов, то в гене на границе между отрезками, кодирующими соседние домены, как правило, присутствует интрон. Каждый домен, таким образом, представлен одним или несколькими экзонами. Можно допустить, что когда-то домены были разными генами, но затем в результате мутаций на их границах появились сигналы для сплайсинга и в результате произошло их объединение и создание нового гена. Ярким примером являются гены для мембранных белков рецепторов. У этих белков всегда есть по крайней мере четыре домена:

Эти домены в составе гена всегда разделены между собою нитронами.

Не менее яркий пример - это гены иммуноглобулинов или гены комплекса гистосовместимости (рис. 8).

Рис. 8. Связь между экзонами и белковыми доменами на примере гена гистосовместимости МНС, класс 1. а - схема доменной структуры зрелого белка, содержащего три наружных домена (a1, a2 и a3), трансмембранный домен (ТМ) и внутриклеточный цитоплазматицеский домен (Cyt). Кроме того, в белке-предшественнике на N-конце находится лидерная последовательность, отщепляемая при образовании зрелого белка; б - экзон-интронная структура гена МНС-1. Видно, что лидерный пептид, домены al, a2, a3 и ТМ кодируются каждый отдельным экзоном, а цитоплазматический домен - тремя экзонами; НТ - нетранслируемые последовательности мРНК

Другой путь создания полидоменного белка - это дупликация (удвоение) какого-то отрезка ДНК, содержащего ген, и последующее соединение двух одинаковых участков в один ген за счет сплайсинга РНК. Дупликация генов или просто неких сегментов ДНК - явление, широко распространенное у эукариот и несомненно играющее очень большую роль в эволюции. Действительно, многие гены представлены в геноме не одной копией, но несколькими, образуя семейство родственных генов. В ряде случаев можно показать, что такие умножившиеся отрезки ДНК объединились в один ген. Хорошим примером является упомянутый выше коллагеновый ген с его многочисленными экзонами и интронами (см. рис. 5). Целая серия экзонов этого гена имеет сходную структуру, кодируя полипептид (глицин-пролин-Х)а, который многократно повторяется в коллагене. Очевидно, небольшой отрезок ДНК, кодирующий этот полипептид, размножился за счет повторных дупликаций, образовав множество экзонов, которые благодаря сплайсингу объединяются в составе коллагеновой мРНК.

Однако далеко не всегда удается связать экзоны с белковыми доменами, а интроны - с междоменными границами. Иногда интрон оказывается, например, внутри 5'- или 3'-нетранслируемой области или внутри области, явно соответствующей одному домену. Поэтому объяснить наличие интронов только полидоменной структурой белка нельзя.

Другое представление, касающееся природы и значения интронов, заключается в предположении о регулятор-ной роли этих последовательностей в экспрессии (работе) генов. Во-первых, в одном и том же гене сплайсинг иногда может протекать по-разному. Примером могут служить так называемые ранние гены вируса SV40, т. е. гены, работающие на ранних стадиях инфекции клеток вирусом. Область ранних генов занимает около половины всего генома вируса, его кольцевой ДНК, имеющей в длину всего 5,2 т. п. н. Оказалось, однако, что "ранняя область" кодирует два разных белка с совершенно различной аминокислотной последовательностью. Это является следствием различного, или альтернативного, сплайсинга, происходящего с одной и той же молекулой про-мРНК. Как отмечалось выше, сигнальные последовательности для сплайсинга вырождены, т. е. довольно разнообразные последовательности в РНК могут выполнять роль таких сигналов. Неудивительно, что в некоторых про-мРНК, например в ранней про-мРНК SV40, присутствует несколько таких сигналов (в данном случае два варианта), которые обусловливают несколько возможных типов сплайсинга одной и той же про-мРНК. В результате для "ранней области" вируса SV40 из одной про-мРНК образуется две разных мРНК, кодирующих два разных полипептида, названных большой Т-антиген (Т) и малый Т-антиген (t). Т означает tumor, т. е. Т-антиген, - это вирусный опухолевый антиген. Такое название эти белки получили потому, что они присутствуют в опухолях, вызванных вирусом SV40, и от них зависят онкогенные свойства этого вируса.

Много примеров альтернативного сплайсинга получено на аденовирусе, где часто из одной и той же про-мРНК образуются по две, три или четыре разных мРНК, кодирующих разные белки (см. рис. 4). Существенно, что при альтернативном сплайсинге часто происходят изменения рамки считывания, т. е. одна и та же нуклеотидная последовательность дает разные аминокислотные последовательности. Для вирусов это особенно важно, так как позволяет более экономно использовать генетический материал, обеспечивает компактизацию генетической информации у вируса. Поскольку для клеточного генома ограничений по размеру не существует, то там явление альтернативного сплайсинга встречается реже и, как правило, рамка считывания сохраняется неизменной. Для многих генов вообще существует только один возможный вариант сплайсинга, и из одной про-мРНК образуется лишь один тип мРНК. Тем не менее и для генов эукариот можно найти много случаев альтернативного сплайсинга, при котором часто (по крайней мере, в случае вирусов) все варианты реализуются с определенной частотой, прежде всего в зависимости от последовательности нуклеотидов на границе экзона и интрона и от места положения сайта сплайсинга.

Использование того или иного типа сплайсинга не является объектом контроля. Однако в некоторых случаях реализуется и такая возможность. Например, у дрозофилы существует генетический элемент (называемый Р-элементом), кодирующий фермент транспозазу, который катализирует вырезание из генома и обратное встраивание в геном Р-элемента. Ген транспозазы состоит из четырех экзонов и трех интронов. При этом в большинстве клеток дрозофилы из про-мРНК вырезаются только два первых интрона, и полученная в результате мРНК не способна синтезировать транспозазу. Только в зародышевых клетках дрозофилы появляется некий дополнительный фактор, который обеспечивает вырезание третьего интрона. В результате только в этих клетках возникает активная транспозаза, что, в свою очередь, проявляется в вырезании из генома и встраивании в геном Р-элемента. В других клетках таких перемещений Р-элемента по геному выявить не удается.

Если искусственно с помощью генноинженерных методик удалить из гена транспозазы третий интрон и ввести такой Р-элемент в геном дрозофилы, то тогда он меняет свое поведение. Зрелая мРНК, кодирующая транспозазу, появляется во всех типах клеток, и в любых клетках организма становятся возможными перемещения Р-элемента.

Иными словами, на этой системе путем контроля процесса сплайсинга осуществляется регуляция активности гена.

Итак, сплайсинг может играть роль в создании новых генов в ходе эволюции, в более полном и экономичном использовании записанной в геном информации и, наконец, в регуляции экспрессии генов. Весьма вероятно, что существуют и другие "приложения" для сплайсинга. Следует, однако, подчеркнуть, что, скорее всего, разорванная структура гена и сплайсинг возникли не в результате перехода от прокариот к эукариотам, но, напротив, они имелись уже у наиболее древних форм жизни, в частности у архебактерий. В настоящее время появляются свидетельства в пользу того, что первичная жизнь существовала в форме РНК, которая была и носителем генетической информации (вместо ДНК), и осуществляла ферментативные функции (вместо белков). Сплайсинг - это как раз тот процесс, который во многих случаях катализируется самой РНК без участия белка даже в современных организмах (см. гл. 6). Неудивительно поэтому, что процессы сплайсинга могли существовать даже у древнейших организмов, а далее они уже использовались для выполнения разных биологических задач.

Рис. 9. Примеры мутаций, ведущие к нарушениям сплайсинга β-глобиновой про-мРНК. и, как следствие, к β-талассемии. а - точечная мутация (G→A) на 5'-границе первого интрона инактивировала донорный (5') сайт сплайсинга. В результате стали использоваться три 'скрытые' сайты сплайсинга и образовываться три 'неправильные' мРНК. В результате синтез (3-глобина не происходит (по результатам, полученным Т. Маниатисом и соавт.);б - точечная мутация (G→A) в первом интроне привела к возникновению в нем сильного донорного сайта сплайсинга, который успешно конкурирует с сайтом правильного сплайсинга. В результате 9/10 всей β-глобиновой мРНК становится дефектной, и синтез β-глобина падает в 10 раз; е - экзоны, i - интроны (по результатам, полученным С. А. Лимборской и соавт.)

Нарушения экзон-интронной структуры и генетические болезни^2* [59, 60]. Хотя мутации внутри нитронов обычно проходят бесследно, мутации, затрагивающие границу между экзоном и интроном, могут иметь далеко идущие последствия. Огромный материал в этом отношении накоплен для мутаций в β-глобиновом гене, которые ведут к наследственной болезни β-талассемии. Разными исследовательскими группами проклонированы β-глобиновые гены из большого числа пациентов с β-талассемией, при которой нарушается адекватный синтез β-глобина. В тех случаях, когда грубых изменений в организации β-глобинового гена не наблюдалось, был проведен анализ первичной нуклеотидной последовательности. При этом оказалось, что часто при β-талассемии β-глобиновый ген имел единичные нуклеотидные замены как раз в области сочленений между экзонами и интронами. Это ведет к инактивации сайта сплайсинга, т. е. интрон перестает отсекаться от экзона в правильном месте. Обычно, однако, в нуклеотидной последовательности интрона находится другой участок, напоминающий по структуре сочленение. Этот участок и берет на себя функции сайта для сплайсинга. Их называют поэтому скрытыми сайтами сплайсинга. Однако при этом новая мРНК оказывается резко измененной и неспособной обеспечить синтез нормального β-глобина (рис. 9).

Бывают случаи, когда точечные мутации и внутри интрона порождают нарушения в сплайсинге. Это обычно связано с появлением в результате такой мутации последовательности, напоминающей усредненный сайт для сплайсинга. В настоящее время, начиная с классических работ Т. Маниатиса (США), описано много таких мутаций, характерных для талассемий из разных регионов.

Так, С. А. Лимборской и сотр. (Институт молекулярной генетики АН СССР) был проклонирован β-глобиновый ген от больного талассемией из Азербайджанской ССР и определена его полная нуклеотидная последовательность. И здесь дело оказалось связанным с точечной заменой (см. рис. 9). В 110-м положении от начала интрона вместо дезоксигуанозина оказался дезоксиаденозин. Эта замена привела к тому, что в данном месте интрона возник динуклеотид AG в специфическом окружении, весьма сходном с тем, которое имеется в конце интрона. Таким образом, в интроне данного талассемийного гена оказалось два сигнала сплайсинга - истинный и дополнительный. В результате этого те механизмы, которые удаляют интрон, могут осуществлять это двумя альтернативными путями, используя либо истинный сигнал, либо дополнительный.

При этом оказалось, что дополнительный сигнал, располагающийся в цепи РНК раньше, является значительно более активным, чем истинный сигнал. Поэтому у больного в процессе созревания β-глобиновой мРНК образуются два типа молекул. В 10 % случаев возникают нормальные мРНК- Большая же их часть (до 90 %) является дефектной и образуется за счет использования нового сигнала сплайсинга. Дефектные мРНК быстро разрушаются в клеточном ядре вскоре после своего синтеза. Таким образом, в цитоплазме эритроидных клеток больного имеются лишь нормальные (3-глобиновые мРНК, однако их количество снижено в 10 раз. У больного образуется в 10 раз меньше β-глобинового белка, что резко нарушает нормальную продукцию молекул гемоглобина в целом и приводит к развитию клинических признаков β-талассемии.

Следовательно, мутации, ведущие к нарушению сплайсинга, играют существенную роль в возникновении ряда наследственных болезней человека. Очевидно, что раз они так сильно меняют функциональную организацию гена, то им может принадлежать существенная роль и в процессах создания новых генов в ходе эволюции.

Глава вторая. Строение эукариотических генов

2.1. Экзоны и интроны