El genoma de Torreya grandis ilumina el origen y la evolución de las gimnospermas

Noticias

HogarHogar / Noticias / El genoma de Torreya grandis ilumina el origen y la evolución de las gimnospermas

Jul 30, 2023

El genoma de Torreya grandis ilumina el origen y la evolución de las gimnospermas

Volumen de comunicaciones de la naturaleza

Nature Communications volumen 14, Número de artículo: 1315 (2023) Citar este artículo

4055 Accesos

21 Altmetric

Detalles de métricas

Las plantas de Torreya producen frutos secos con variadas funciones. Aquí, informamos el ensamblaje del genoma a nivel de cromosoma de 19 Gb de T. grandis. El genoma está formado por antiguas duplicaciones del genoma completo y ráfagas de retrotransposones LTR recurrentes. Los análisis genómicos comparativos revelan genes clave implicados en el desarrollo de los órganos reproductivos, la biosíntesis de la pared celular y el almacenamiento de semillas. Se identifican dos genes que codifican una C18 Δ9-elongasa y una C20 Δ5-desaturasa como responsables de la biosíntesis del ácido ciadónico y ambos están presentes en diversos linajes de plantas excepto en las angiospermas. Demostramos que las cajas ricas en histidina de la Δ5-desaturasa son cruciales para su actividad catalítica. El análisis del metiloma revela que los valles de metilación del genoma de la semilla de T. grandis albergan genes asociados con importantes actividades de la semilla, incluida la biosíntesis de la pared celular y los lípidos. Además, el desarrollo de semillas va acompañado de cambios en la metilación del ADN que posiblemente alimenten la producción de energía. Este estudio proporciona importantes recursos genómicos y aclara el mecanismo evolutivo de la biosíntesis del ácido sciadónico en plantas terrestres.

El surgimiento de plantas con semillas que consisten en angiospermas y gimnospermas marcó un evento trascendental en la evolución de las plantas terrestres y el cambio de los entornos terrestres. Las angiospermas y las gimnospermas divergieron en el Bajo Mississippian1, seguidas por una rápida radiación de las plantas con flores que dieron como resultado aproximadamente 352,000 especies existentes en la Tierra en comparación con solo 1000 especies de gimnospermas. Existe una variedad de diversidad morfológica/anatómica y versatilidad metabólica entre las angiospermas y las gimnospermas, pero los mecanismos genéticos y bioquímicos subyacentes son en gran medida difíciles de alcanzar2,3.

Torreya grandis, una especie de gimnosperma que pertenece a un pequeño género de la familia de los tejos (Taxaceae), es un árbol útil de usos múltiples que proporciona madera, medicina, semillas comestibles y aceite4 (Fig. 1a). El primer registro creíble de T. grandis como fuente medicinal aparece en el Clásico de la Materia Médica durante los Tres Reinos de China y data de principios del siglo III d.C.5. T. grandis es la única especie de Taxaceae con semillas comestibles, que se han utilizado como alimento durante miles de años en China debido a su sabor único y componentes beneficiosos5,6. Los aceites están enriquecidos en semillas de T. grandis con un contenido promedio de 45.80–53.16%7. El ácido ciadónico (SCA), un ácido graso ω6 no interrumpido por metileno, se ha encontrado como uno de los componentes principales en la composición de ácidos grasos del aceite de semilla7. SCA tiene efectos positivos en la salud humana y funciona para reducir la inflamación, reducir los triglicéridos, prevenir la formación de coágulos de sangre y regular el metabolismo de los lípidos8,9,10. Se ha detectado producción de SCA en diferentes linajes de gimnospermas y un puñado de algas y helechos11. Sin embargo, la SCA generalmente está ausente en las plantas con flores, con la excepción de algunas eudicotiledóneas inferiores (p. ej., Ranunculaceae)12, lo que deja un rompecabezas sobre su origen y evolución en las plantas verdes.

a Conjunto de árboles y frutos de T. grandis. El panel inferior muestra la semilla seca procesada y su parte comestible (endospermo). b Gráfica Circos del genoma de T. grandis y características genómicas codificadas por los cromosomas. Cada característica se calculó en base a una ventana de 10 Mb en los cromosomas. Las estrellas de colores indican la presencia de secuencias teloméricas en el extremo 5' (verde) o 3' (naranja) del cromosoma. c Distribución del tiempo de inserción de LTR-RT. El panel de la izquierda muestra a todos los miembros de las familias Gypsy y Copia y las seis subfamilias más abundantes se muestran en el panel de la derecha. d Ks distribución de ortólogos entre T. grandis, Sequoiadendron giganteum, Ginkgo biloba y Gnetum montanum. Ks de parálogos en T. grandis se ajustó con el modelo de mezcla guassiana y se indica el antiguo WGD putativo. e Microcolinealidad entre genomas de T. grandis, G. biloba y G. montanum. Los datos de origen se proporcionan como un archivo de datos de origen.

Las secuencias del genoma son clave para abordar cuestiones críticas de la evolución de las plantas. Los análisis de genomas de gimnospermas representativas han mostrado aspectos únicos de la evolución de genes y genomas que los distinguen de las plantas con flores13,14,15,16,17,18,19. Sin embargo, la comprensión de los mecanismos biológicos y evolutivos de la diversidad fenotípica entre las plantas con y sin flores sigue siendo un desafío, en parte debido a la limitada disponibilidad de recursos genómicos de las gimnospermas.

En este estudio, ensamblamos un genoma de referencia a escala cromosómica para T. grandis, acompañado de perfiles de transcriptoma y metiloma en múltiples tejidos. Nuestros datos, a través de análisis genómicos comparativos, revelan huellas interesantes asociadas con la diversidad morfológica de los principales linajes de plantas terrestres, y descubren y validan dos enzimas clave que son responsables de la biosíntesis de SCA. La información proporcionada por este trabajo será útil para el diseño estratégico sobre la mejora de la producción de SCA y promover la utilización de los recursos genéticos de Torreya.

Generamos un total de 1,93 Tb de Illumina y 463,7 Gb de lecturas PacBio HiFi para T. grandis (Datos complementarios 1), lo que representa una cobertura de 96,5× y 23,2×, respectivamente, del genoma de T. grandis que tenía un tamaño estimado de ~20 Gb de acuerdo con el análisis k-mer de las lecturas de Illumina (Fig. 1 complementaria). El ensamblaje final tenía un tamaño de 19 050 820 213 pb, que comprendía 11 811 cóntigos con un tamaño N50 de 2,82 Mb (Tabla complementaria 1). Usando lecturas Hi-C de aproximadamente 106.2 × de cobertura, 18.87 Gb (99.1%) de los contigs ensamblados se agruparon en 11 cromosomas (Fig. 1b y Fig. 2 complementaria). Se encontró que los 11 cromosomas estaban enriquecidos con la unidad de secuencia repetitiva de 101 pb que se asemeja a la repetición satelital centromérica en tándem conocida como punto de referencia de los centrómeros, mientras que 9 cromosomas albergaban secuencias teloméricas (5'-TTTAGGG-3') en al menos un extremo (Figura 1b). La evaluación del genoma de T. grandis utilizando Merqury20 reveló una puntuación de calidad de consenso de 46,9, equivalente a una precisión base del 99,998 %. La evaluación de BUSCO21 indicó que 1386 de 1614 ortólogos conservados de plantas terrestres fueron capturados con éxito por el ensamblaje de T. grandis, que fue comparable al de otros ensamblajes de genomas de gimnospermas (Tabla complementaria 2). El índice de ensamblaje LTR (LAI) para el genoma de T. grandis fue de 10,7, superior al estándar propuesto para un genoma de referencia22. Estos, junto con las altas tasas de mapeo de lectura de ADN (99,48%) y ARN (hasta 97,5%), sugirieron la alta calidad del ensamblaje del genoma de T. grandis.

El ensamblaje del genoma de T. grandis albergaba 11,4 Gb (59,8 %) de secuencias repetitivas, de las cuales predominaban los retrotransposones LTR (LTR-RT, 87,0 %), seguidos de los transposones de ADN (7,1 %) y los elementos nucleares intercalados largos (LINE, 3,1 %). ) (Datos Complementarios 2). La proporción de Copia LTR-RT (11,6 %) fue relativamente mayor en T. grandis que en otras gimnospermas, posiblemente debido a los recientes estallidos específicos de especies que se produjeron en múltiples subfamilias de LTR-RT (Fig. 1c). La mayoría de las expansiones LTR-RT en las gimnospermas tuvieron lugar hace entre 25 y 7 millones de años (mya; Fig. 3a complementaria), superponiéndose con el tiempo geológico de la época del Mioceno (23,03–5,33 mya) cuando la tierra se enfrió hacia las edades de hielo23, lo que sugiere un posible efecto ambiental en la evolución del tamaño del genoma de las gimnospermas.

Se predijeron un total de 47 089 genes que codifican proteínas en el genoma de T. grandis, de los cuales 46 338 fueron respaldados por evidencia de homología y/o transcriptoma (Tabla complementaria 1). El tamaño del intrón es más variable en las gimnospermas que en las angiospermas (Fig. 3b complementaria), lo que se atribuye a la expansión de las LTR-RT. En las plantas, los LTR-RT se pueden eliminar mediante una recombinación desigual, creando LTR individuales en el genoma. La relación LTR solo:intacto es alta en T. grandis (4,3) y otras gimnospermas, incluidas Taxus wallichiana (5,5)18, Ginkgo biloba (4,26), Welwitschia mirabilis (3,87) y Gnetum montanum (2,07)16. Dado que los genomas de las gimnospermas están enriquecidos con LTR-RT antiguos (10-30 millones de años)14,15,16,17,18,19, planteamos la hipótesis de que la eliminación de los LTR-RT antiguos sin una expansión reciente puede haber contribuido a su alto LTR solo: intacto proporciones Esto contrasta con las angiospermas de genoma pequeño, en las que los estallidos de LTR-RT son más recientes (<4 millones de años)24. El silenciamiento epigenético de los transposones y las repeticiones pericentroméricas está mediado por la metilación del ADN dirigida por ARN (RdDM) y los hetsiRNA de 24 nt25. El genoma de T. grandis codificó homólogos de componentes clave de la vía RdDM (Datos complementarios 3); sin embargo, el perfil de ARN pequeño de siete tejidos mostró que los ARNs de 21 nt eran los más abundantes en T. grandis, en contraste con los ARNs de 24 nt más abundantes en las angiospermas, mientras que las producciones de ARNs de 22 y 24 nt eran específicas de tejido (Fig. 4 complementaria). Este patrón es similar al encontrado en coníferas13,26 y Welwitschia mirabilis16. No obstante, un muestreo más extenso de tejidos y etapas adicionales proporcionaría una visión más profunda de la divergencia del procesamiento de sRNA entre gimnospermas y angiospermas.

Se han producido duplicaciones del genoma completo (WGD) en toda la filogenia de los eucariotas27. En las gimnospermas se han reconocido varios WGD, aunque algunos de ellos siguen siendo controvertidos16,17,18,19,28. La distribución Ks de 3859 grupos parálogos dentro de T. grandis indicó la ausencia de WGD recientes. Sin embargo, observamos un pico de Ks que va de 1 a 2 y una cumbre en 1.4, lo que representa un WGD antiguo potencial que ocurrió en el ancestro común de coníferas y ginkgophytes, un linaje divergente de gnetophytes (Fig. 1d). Luego usamos un enfoque basado en árboles29, que calcula la frecuencia de duplicación de genes en cada rama de una filogenia mediante la reconciliación del árbol de genes y el árbol de especies, para validar de forma cruzada el evento WGD. El análisis de 19 649 árboles genéticos de ocho especies seleccionadas condujo al descubrimiento de tres señales WGD antiguas, incluidas dos (zeta y omega) informadas anteriormente17,28 y una que era consistente con el análisis Ks (Figura 5 complementaria). La comparación del genoma completo mostró una alta colinealidad entre los genomas de T. grandis y dos gimnospermas evolutivamente distantes, Sequoiadendron giganteum y Ginkgo biloba (Fig. 6 complementaria), y también reveló rastros de bloques colineales que se duplicaron tanto en T. grandis como en G. biloba. pero no en Gnetum montanum, de acuerdo con el momento en que ocurrió el WGD recién descubierto (Fig. 1e).

Identificamos 19.362 grupos ortólogos (familias de genes) en 19 especies de plantas que comprenden 7 gimnospermas y 12 especies representativas en los principales linajes de plantas verdes. La filogenia y la datación molecular utilizando 219 familias de genes de copia baja indicaron que T. grandis se separó de T. wallichiana alrededor de 68,5 millones de años (Fig. 2a). La expansión de familias de genes se ha implicado en estrechas asociaciones con innovaciones morfológicas30,31. A través de la reconstrucción de la evolución de la familia de genes, encontramos que las ráfagas de expansiones de la familia de genes coincidieron con las principales transiciones de adaptación de la planta (Fig. 2a). Se observó una expansión masiva de la familia de genes (n = 417, P < 0,05) en el ancestro común de las plantas terrestres y, posteriormente, en los ancestros extintos que dieron lugar a plantas con semillas (n = 575), angiospermas (n = 432) y varios linajes de gimnospermas (n = 428–818). Las funciones de las familias de genes expandidos se asociaron principalmente con el desarrollo de órganos vegetales, la respuesta a estreses bióticos (p. ej., bacterias y hongos) y abióticos (p. ej., privación de agua, luz, temperatura y sal) y biosíntesis y señalización de hormonas vegetales (Datos complementarios). 4). Muchas de las familias de genes se expandieron continuamente hacia la evolución de plantas superiores, lo que sugiere que la duplicación de genes, posiblemente seguida de sub/neofuncionalización, proporciona la base genética para la diversidad morfológica y la adaptación ambiental en las plantas. Entre las familias de genes que se expandieron significativamente en T. grandis, muchos de ellos codificaron dominios pfam asociados con funciones biológicas importantes, incluida la transferencia de lípidos (oleosina y PF14368), respuestas al estrés biótico y abiótico (PF00201 y PF03018) y metabolismo secundario (PF00067) (Datos Complementarios 5). El genoma de T. grandis carecía de los ortólogos de la taxadieno sintasa, un componente central de la biosíntesis de paclitaxel, lo que explica la ausencia de paclitaxel y metabolitos relevantes en esta especie.

a Expansión y contracción de la familia de genes durante la evolución de las plantas verdes. La filogenia de máxima verosimilitud se construyó con 219 grupos ortólogos de baja copia. El análisis de la familia de genes se inició con 10.345 grupos ortólogos que compartían el ancestro común más reciente (MRCA) de las plantas verdes. Los números en las ramas son los tamaños de las familias de genes expandidos (azul) y contraídos (rojo) en cada nodo. Los círculos coloreados a la derecha representan los tamaños de las familias de genes expandidos/contraídos, así como los genes ganados/perdidos para cada nodo de hoja del árbol. b Expresión de genes MADS-box tipo MIKCC en tejidos vegetativos y reproductivos de T. grandis. c Genes de identidad de órganos reproductivos propuestos en T. grandis. Los genes similares a AP3/PI (TG7g01668 y TG7g01669) y TG8g01565 se expresaron predominantemente en conos masculinos y femeninos, respectivamente. Los genes similares a AG (TG10g01848), similares a AGL6 (TG2g00325) y similares a AP1/SEP (TG4g01441) se expresaron tanto en conos femeninos como masculinos, y los dos primeros mostraron un patrón sesgado hacia los conos femeninos. d Filogenia de máxima verosimilitud que muestra el origen bacteriano de los genes de T. grandis. Los círculos azules indican un soporte de arranque superior al 80 % en las ramas correspondientes. e Expresión de genes putativos transferidos horizontalmente en diferentes tejidos. Los datos de origen se proporcionan como un archivo de datos de origen.

Las gimnospermas tienen semillas descubiertas o desnudas en la superficie de las escamas o las hojas, mientras que las flores y los frutos son innovaciones de las angiospermas. La búsqueda de homólogos basada en la filogenia utilizando genes de desarrollo de flores bien estudiados32 mostró una distribución esporádica de estos homólogos en gimnospermas y plantas sin semillas (Datos complementarios 6), lo que indica la emergencia escalonada acompañada de una pérdida secundaria de genes de desarrollo de flores durante la evolución de las plantas terrestres. como lo ejemplifican los genes NOP10 (requerido para la formación de gametofitos femeninos en las flores)33 y WUS (requerido para la integridad del meristemo floral y del brote)34 que surgieron temprano en las plantas terrestres y posteriormente se perdieron tanto en T. grandis como en T. wallichiana (Datos complementarios 6 ).

Los genes de la familia MADS-box son una clase de factores de transcripción involucrados en la regulación de la especificidad de los órganos florales, el tiempo de floración y el desarrollo de la fruta. Identificamos 23 genes MIKCC MADS-box en T. grandis, incluidos homólogos de genes en el modelo ABCE de identidad de órganos florales35. Estos incluían un gen similar a AP1/SEP (función A o E), dos genes similares a AP3/PI (función B) y seis genes similares a AG (función C) (Fig. 7 complementaria). El análisis del transcriptoma de 18 muestras de órganos vegetativos y reproductivos reveló seis genes de la caja MADS que se expresaron en gran medida en conos masculinos y/o femeninos de T. grandis, entre los cuales se encontraron dos genes similares a AP3/PI duplicados en tándem (TG7g01668 y TG7g01669). predominantemente expresado en los conos masculinos, mientras que un gen similar a AG (TG10g01848) se expresó en los machos pero regulado al alza 6,6 veces en los conos femeninos (Fig. 2b). Estudios recientes sugieren que AGL6, miembro de una antigua subfamilia de genes MADS-box, está involucrado en la función E del desarrollo floral en arroz, maíz y trigo36,37, mientras que participa en la función A en la angiosperma basal Nymphaea colorata38. En T. grandis, el gen similar a AGL6 (TG2g00325) mostró un patrón de expresión similar al de los genes de función C, mientras que el gen similar a AP1/SEP (TG4g01441) se expresó en un nivel moderadamente alto tanto en conos masculinos como femeninos. , asemejándose a un papel ancestral de la función E. Curiosamente, el gen MADS-box más expresado (TG8g01565) se activó exclusivamente en los conos femeninos (Fig. 2b). Este gen se agrupó filogenéticamente con genes del clado B que comprenden AP3, PI y genes hermanos B TT16 y GOA (Fig. 7 complementaria); sin embargo, su patrón de expresión era opuesto al de los genes similares a AP3/PI. En conclusión, nuestro hallazgo sobre la participación de genes adicionales de la caja MADS en el desarrollo de semillas de gimnospermas respalda el modelo básico "BC", donde los genes de función C generalmente se expresan en órganos reproductores masculinos y femeninos y los genes de función B están restringidos a macho. órganos reproductivos39, y sugiere un sistema regulador más sofisticado para el desarrollo de órganos reproductivos en gimnospermas (Fig. 2c).

El contenido de proteína de las semillas de T. grandis oscila entre 10,34 % y 16,43 % según los cultivares7. Se identificaron genes que codifican proteínas de almacenamiento de semilla (SSP), incluidas albúminas 2S (n = 0–7), globulinas 7S (n = 1–9) y globulinas 11S (n = 2–14) en T. grandis y otras gimnospermas, pero no en las formas anteriores de plantas (Datos complementarios 7), lo que sugiere su origen en plantas con semillas. El análisis del transcriptoma mostró que los genes que codifican las albúminas 2S y las globulinas 7S se expresaron a un nivel excepcionalmente alto (transcripciones promedio por millón (TPM) = 14,125) en el núcleo de las semillas de T. grandis y la expresión aumentó durante el desarrollo de la semilla (Fig. 8a complementaria ). En contraste, todos los genes SSP, incluidos los genes de globulina 11S, que se expresaron moderadamente en el grano, permanecieron transcripcionalmente inactivos en los tejidos vegetativos (Fig. 8a complementaria). Las proteínas de albúmina 2S albergan numerosos residuos de cisteína para formar puentes disulfuro dentro y entre las subunidades40. Descubrimos que todos estos residuos se conservaron en T. grandis, aunque las secuencias de proteínas completas eran considerablemente divergentes de las contrapartes de las angiospermas (Fig. 8b complementaria). El modelado de homología reveló un alto grado de conservación de la estructura de la proteína entre las proteínas de albúmina 2S de T. grandis (por ejemplo, TG11g02972) y el girasol, particularmente en la región donde se forman las hélices α (Fig. 8c complementaria). Del mismo modo, la mayoría de los residuos involucrados en la formación y estabilización del trímero, así como en el plegamiento globular correcto de las globulinas 11S de las plantas con flores41, se conservaron en T. grandis (Fig. 9 complementaria). En general, la expresión génica y los análisis estructurales sugieren un papel conservador de las principales SSP tanto en las gimnospermas como en las angiospermas.

Las gimnospermas son principalmente plantas leñosas y sus genomas codifican un gran conjunto de enzimas activas de carbohidratos (CAZymes) cuyas funciones están estrechamente asociadas con la biosíntesis de la pared celular. Entre las 19 especies de plantas representativas seleccionadas, T. grandis albergaba más CAZimas que la mayoría de las demás, particularmente en las familias de glucósido hidrolasas (p. ej., GH1, GH16, GH18, GH19, GH27, GH71, GH99 y GH152), glicosiltransferasas GT61 y Liasas de polisacárido PL1 (Datos complementarios 7), muchas de las cuales también se expandieron en otras gimnospermas. En contraste con la mayoría de las familias CAZyme que estaban universalmente presentes en las plantas, identificamos cuatro familias que comprenden 18 genes, GH71 (n = 7), GH99 (n = 9), GH103 (n = 1) y CE4 (n = 1), que estaban presentes solo en gimnospermas y linajes anteriores, pero no en angiospermas (Datos complementarios 8). El análisis filogenético mostró que estas familias eran de posible origen bacteriano (Fig. 2d y Fig. 10 complementaria). Mediante un análisis sistemático, identificamos 14 genes adicionales de T. grandis que se derivaron de transferencias horizontales de genes (HGT; Tabla complementaria 3). La mayoría de estos genes se expresaron en diferentes tejidos de la planta (Fig. 2e), reforzando la contribución de las HGT en la evolución de las plantas terrestres42.

La lignina es un componente principal de la pared celular secundaria de las plantas y se deriva de los monolignoles p-hidroxifenilo (H), guayacilo (G) y siringilo (S). La lignina S está restringida a las plantas con flores y algunas licofitas, mientras que las ligninas G y H son fundamentales para todas las plantas vasculares2. Consistentemente, dos genes clave para la biosíntesis de S-lignina, F5H y COMT, se encontraron solo en angiospermas pero no en gimnospermas. A diferencia de las angiospermas en las que los vasos comprenden los principales elementos conductores de agua en el xilema43, las maderas de gimnospermas se componen principalmente de traqueidas2. La diferenciación de los vasos está regulada por las proteínas VASCULAR RELACIONADAS CON EL DOMINIO MAC (VND)44, mientras que el desarrollo de la fibra está asociado con las proteínas NAC DEL FACTOR PROMOTOR DEL ENgrosamiento DE LA PARED SECUNDARIA (NST)/PROTEÍNAS DEL DOMINIO NAC ASOCIADO A LA PARED SECUNDARIA (SND)45. El genoma de T. grandis codificaba genes homólogos a VND4/5/6, pero carecía de homólogos de VND1/2/3, NST y SND1 (Fig. 11 complementaria), lo que, combinado con el hallazgo de redes reguladoras divergentes de homólogos de VND/NST en coníferas y plantas con flores durante la formación de la madera46, sugiere un estrecho vínculo entre la formación de vasos y la aparición de factores de transcripción NAC maestros, así como sus redes reguladoras en las angiospermas.

El ácido ciadónico (SCA) es un ácido graso Δ5-olefínico y su biosíntesis requiere la actividad de C18 Δ9-elongasa y C20 Δ5-desaturasa que utiliza 18:2-fosfatidilcolina (PC) como sustrato inicial (fig. 3a). Las Δ5-desaturasas se conocen como desaturasas 'front-end'47, que generalmente codifican un dominio de unión a hemo/esteroides similar al citocromo b5 (PF00173) y un dominio de desaturasa de ácido graso (PF00487), mientras que las Δ9-elongasas codifican un dominio GNS1/SUR4 dominio familiar (PF01151) para la elongación de ácidos grasos de cadena larga. El genoma de T. grandis codificaba cuatro genes de desaturasa y cuatro genes de elongasa según la búsqueda de dominio. Sin embargo, solo una desaturasa (TgDES1) mostró una gran similitud con la Δ5-desaturasa informada anteriormente en Anemone leveillei48, mientras que dos elongasas se consideraron como supuestas Δ9-elongasas, pero solo una (TgELO1) se expresó altamente en los granos de semillas (Fig. 12 complementaria) . Dado que los ácidos grasos insaturados son componentes abundantes de los aceites de semillas, investigamos la expresión de TgDES1 y TgELO1 durante la maduración de las semillas. Encontramos que SCA se acumuló en semillas maduras, acompañado de una mayor expresión de TgDES1. Se observó una tendencia similar para la expresión de TgELO1 y el contenido de su supuesto producto ácido cis-11,14-eicosadienoico (Fig. 3b, c). El estudio de la localización subcelular mostró que tanto TgELO1 como TgDES1 se co-localizaron con el marcador de retículo endoplásmico (ER) en hojas de N. benthamiana (Fig. 3d), lo que sugiere que estaban unidos a la membrana ER, de acuerdo con la ubicación subcelular de conocida desaturasas y elongasas49. Para verificar aún más su función en la biosíntesis de SCA, sobreexpresamos tanto TgELO1 como TgDES1 en A. thaliana, que no codifica ortólogos de TgELO1 y TgDES1 ni produce SCA ni su precursor 20:2Δ11,14-PC. El análisis de cromatografía de gases mostró que SCA se sintetizó con éxito en semillas de la línea transgénica que expresan TgDES1 y TgELO1, lo que demuestra que TgELO1 y TgDES1 son capaces de sintetizar SCA en T. grandis (Fig. 3e).

Una descripción general de la vía biosintética de los ácidos grasos. PDH piruvato deshidrogenasa, CT carboxiltransferasa, BC biotina carboxilasa, BCCP biotina carboxilo proteína transportadora, MCMT malonil-CoA:ACP maloniltransferasa, ACP acil proteína transportadora, KAS cetoacil-ACP sintasa, SAD estearoil-ACP desaturasa, FATA acil-ACP tioesterasa A, FATB acil-ACP tioesterasa B, LACS acil-CoA sintetasa de cadena larga, DGAT diacilglicerol aciltransferasa, PDAT fosfolípido:diacilglicerol aciltransferasa, PAP fosfatasa de ácido fosfatídico, LPAT ácido lisofosfatídico aciltransferasa, GPAT glicerol-3-fosfato aciltransferasa, CPT colinafosfotransferasa, FAD2 oleato desaturasa, FAD3 linoleato desaturasa, PC fosfatidilcolina. b Expresión de TgDES1 y contenido de SCA en semillas desde la etapa de desarrollo temprano (mayo) hasta la etapa de maduración (septiembre). Letras diferentes en las barras indican significación estadística entre muestras a α = 0,05 (ANOVA unidireccional y prueba de Tukey). Las mediciones se realizaron en tres réplicas biológicas y los datos se presentan como media + SD. c Expresión de TgELO1 y el contenido de su producto ácido cis-11,14-eicosadienoico en semillas. Letras diferentes en las barras indican significación estadística entre muestras a α = 0,05 (ANOVA unidireccional y prueba de Tukey). Las mediciones se realizaron en tres réplicas biológicas y los datos se presentan como media + DE. d Localización subcelular de TgDES1 y TgELO1 en hojas de N. benthamiana. e Detección de SCA y su precursor en Arabidopsis Col-0 y la línea transgénica que sobreexpresa tanto TgDES1 como TgELO1. Los datos de origen se proporcionan como un archivo de datos de origen.

El análisis filogenético de las desaturasas en plantas verdes (Viridiplantae) mostró que TgDES1 se agrupaba con desaturasas exclusivamente de organismos no angiospermas, y este clado monofilético estaba cerca de la familia que contenía desaturasas de esfingolípidos, incluidas las AtSLD de Arabidopsis (Fig. 4a). Curiosamente, el clado TgDES1 se separó claramente del grupo que albergaba AL10 y AL21, dos proteínas que resultaron ser responsables de la biosíntesis de SCA en la eudicot basal Anemone levelillei48. El modelado de estructuras de TgDES1, AtSLD2 y AL21 mostró estructuras similares en general entre TgDES1 y AtSLD2, particularmente en la región donde se formó el centro activo, mientras que la estructura de AL21 se separó relativamente de TgDES1 (Fig. 4b). Dado que las plantas con flores rara vez sintetizan SCA, nuestra evidencia filogenética y estructural sugirió que esto posiblemente se deba a la pérdida de las desaturasas del clado TgDES1, mientras que la capacidad de biosíntesis de SCA en especies particulares de eudicots se atribuyó en gran medida a la ganancia secundaria de la actividad Δ5-desaturasa. de contrapartes evolutivamente independientes. De manera similar, no se encontraron homólogos cercanos de TgELO1 en las plantas con flores, pero estaban presentes en las primeras plantas terrestres y algas, lo que sugiere la coevolución de Δ5-desaturasa y Δ9-elongasa en las plantas (Fig. 13 complementaria).

Filogenia de máxima verosimilitud de desaturasas vegetales. TgDES1 está agrupado dentro de un grupo (clado 1) cercano a un clado hermano (clado 2) que comprende Δ6- y Δ8- desaturasas. b Modelado de estructura de TgDES1 y las desaturasas de Arabidopsis (AtSLD2) y Anemone leveillei (AL21). Las estructuras de proteínas se modelaron con AlphaFold2 y el centro bioactivo de cada proteína que comprende tres motivos ricos en histidina está marcado con amarillo. c Comparación de motivos conservados en diferentes grupos de desaturasa que se muestran en a. d Detección de SCA y su precursor en hojas de N. benthamiana que expresan Arabidopsis AtSLD2 con motivos conservados ricos en histidina (motivo 2 y motivo 3) reemplazados por los de TgDES1 de T. grandis. AtSLD2, AtSLD2-Motif2 y AtSLD2-Motif3 son líneas que albergan el gen AtSLD2 de tipo salvaje de Arabidopsis, AtSLD2 con motivo 2 de TgDES1 y AtSLD2 con motivo 3 de TgDES1, respectivamente.

La caracterización de las secuencias de proteínas reveló la conservación de un dominio similar al citocromo b5 N-terminal y tres cajas ricas en histidina de desaturasas del clado TgDES1 (clado 1) y sus dos grupos estrechamente relacionados (grupo 1 y grupo 2 del clado 2), mientras que sorprendente se observó variación en las dos primeras cajas ricas en histidina entre diferentes grupos (Fig. 4c). Un estudio anterior informó que la sustitución dirigida al sitio de las cajas de histidina podría influir en la especificidad y selectividad de la longitud de la cadena del sustrato50. La sustitución de un solo aminoácido probablemente dirige el resultado de la reacción de desaturación al modular la distancia entre los átomos de carbono del acilo graso del sustrato y los iones metálicos del centro activo51. Para probar si la variación de la secuencia de los dominios ricos en histidina determinó la especificidad del sustrato que condujo al éxito de la biosíntesis de SCA, reemplazamos el dominio rico en histidina de Arabidopsis desaturasa AtSLD2 con el de TgDES1, y expresamos transitoriamente la construcción en hojas de N. benthamiana. Notamos que TgELO1 no se coexpresó con el gen de desaturasa manipulado porque 20:2Δ11,14-PC, el producto de la catálisis de Δ9-elongasa, pudo detectarse en las hojas del tabaco de tipo salvaje. SCA fue indetectable en hojas de N. benthamiana que expresaban AtSLD2 de tipo salvaje; sin embargo, el cambio de cualquiera de las dos cajas ricas en histidina de TgDES1 fue suficiente para sintetizar SCA en hojas de N. benthamiana (Fig. 4d). Tomados en conjunto, nuestros datos sugieren que las mutaciones en estos dos motivos de desaturasas ricos en histidina han llevado a la alternancia de la especificidad del sustrato y, en consecuencia, a la evolución del clado específico para la biosíntesis de SCA, cuya pérdida marca la diversidad metabólica significativa entre gimnospermas y angiospermas.

El desarrollo de semillas en las gimnospermas es un proceso largo que abarca varios años3. Para comprender si y cómo la metilación del ADN participa en el desarrollo de semillas de T. grandis, como es evidente en las plantas con flores52, perfilamos los metilomas de semillas en tres etapas de desarrollo (Fig. 5a; Datos complementarios 9). Los genes involucrados en la metilación del ADN de los tres contextos de citosina (CG, CHG, CHH) se identificaron en el genoma de T. grandis (Datos complementarios 3). Los niveles de metilación promedio global de mCG, mCHG, mCHH en el genoma de la semilla de T. grandis fueron 83%, 69% y 4%, respectivamente. Los niveles de metilación de mCG y mCHG fueron más altos que los de la mayoría de las angiospermas previamente estudiadas53, lo que coincide con la propuesta de correlación positiva entre los tamaños del genoma y los niveles de metilación de mCG/mCHG54. mC de todos los contextos de secuencia se enriqueció en las regiones centroméricas y pericentroméricas, a pesar de que tanto mCG como mCHG también se distribuyeron ampliamente en los brazos cromosómicos (Fig. 1b). En las plantas con flores, los exones de los genes a veces se enriquecen con mCG pero se agotan tanto con mCHG como con mCHH, lo que se conoce como metilación del cuerpo del gen (gbM)55. Observamos el enriquecimiento de mCG y el agotamiento de mCHH en los genes de T. grandis; sin embargo, también se encontró un enriquecimiento de mCHG en las regiones transcritas (Fig. 5b y Fig. 14a, b suplementarias), que es similar al patrón encontrado en las coníferas56. Se ha propuesto que GbM regula la transcripción de genes55. Observamos un claro enriquecimiento de mCG en lugar de mCHG/mCHH en genes expresados ​​moderadamente, cuya expresión se correlacionó positivamente con los niveles de metilación (Fig. 5c y Fig. 14c complementaria), lo que indica la conservación funcional de gbM en el linaje hermano de angiospermas. Se supone que la evolución de gbM está asociada con el silenciamiento por metilación del ADN de los TE en la proximidad de los genes55. De manera consistente, encontramos que los LTR-RT, que eran el componente principal de los TE en las regiones de los genes, estaban altamente metilados (Fig. 5d), y que los genes con inserciones de TE tenían una mayor expresión y metilación de CG que aquellos sin TE (Fig. 15).

a Semillas muestreadas para el perfil de metiloma. Las imágenes muestran el lado exterior y el lado interior (a través de la sección longitudinal) de las semillas. b Niveles de metilación de regiones flanqueantes de exón, intrón y gen en semillas. c Niveles de metilación en tres contextos de citosina en la región exónica de los genes. Los genes se clasifican en 20 grupos según los niveles de expresión ordenados. Para cada grupo, se registra el valor medio de la expresión génica y el nivel de metilación promedio en todas las regiones exónicas de los genes. d Niveles de metilación de LTR-RT intactas en el genoma de T. grandis. Los términos GO enriquecidos en genes que se superponen con los valles de desmetilación compartidos por las semillas de las tres etapas de desarrollo. Los términos GO con un valor P ajustado < 0,05 (prueba exacta de Fisher bilateral con corrección de Benjamini-Hochberg) se trazan y los tamaños de los términos GO en la figura de la nube de palabras se correlacionan con su significación estadística. f Vista de los niveles de metilación de genes seleccionados que se superponen con los valles de desmetilación. CES celulosa sintasa, PE pectinesterasa. g Comparación de los niveles de metilación de mCG y mCHG en diferentes regiones genómicas de semillas en tres etapas. Los datos de origen se proporcionan como un archivo de datos de origen.

Los genes de germinación y desarrollo de semillas se localizan con frecuencia dentro de los valles de desmetilación (DMV), donde el nivel de metilación era bajo (p. ej., <5%) para cualquiera de los contextos de citosina57. Identificamos 5099 DMV comunes en el genoma de la semilla de las tres muestras, que abarcaban 30 Mb, incluido el intervalo más grande que se extendía a 144 kb. Los DMV se cruzaron con 4200 genes codificadores de proteínas, muchos de los cuales codificaron clases importantes de proteínas de semillas, como proteínas de almacenamiento, factores transcripcionales y enzimas para la modificación de la pared celular, la homeostasis hormonal y la biosíntesis de ácidos grasos (Fig. 5e, f). La semilla de T. grandis está cubierta con un crecimiento especializado, llamado arilo (Fig. 5a). Durante el desarrollo, la cubierta de la semilla desarrolla paredes celulares secundarias fuertemente lignificadas para reforzar la superficie exterior de la semilla58, mientras conserva una interior blanda que rodea directamente al endospermo. Consistentemente, los genes que codifican lacasas (n = 38), que funcionan en la lignificación de la pared celular59, y las expansinas (n = 13) que están asociadas con el aflojamiento de la pared celular60, se encontraron con frecuencia en los DMV (Fig. 5f). En particular, el 18% de los genes del factor de transcripción (TF) de T. grandis (n = 370) se ubicaron dentro de las regiones DMV de semillas, lo que representa un enriquecimiento significativo (prueba χ2; P <0.0001; Datos complementarios 10). Estos TF pertenecían a diversas familias de genes, pero eran particularmente abundantes en las familias MYB, NAC y AP2, que se sabe que regulan el crecimiento y el desarrollo de las plantas. La metilación de mCHH varió más notablemente que la de mCG y mCHG durante el desarrollo de la semilla (Fig. 5g y Fig. 16 complementaria). Identificamos regiones diferencialmente metiladas (DMR) para cada uno de los tres contextos de citosina (Datos complementarios 11–13). Entre los genes que se superponen con los DMR, el 12 % de ellos se expresaron diferencialmente, lo que sugiere la traducción de la variación epigenética a la flexibilidad de la expresión génica durante el desarrollo de la semilla (Fig. 17 complementaria). El análisis de enriquecimiento GO mostró que los genes asociados con DMR se enriquecieron principalmente con aquellos involucrados en la fotosíntesis y el metabolismo secundario (Datos complementarios 14), en línea con el hecho de que la fotosíntesis alimenta las vías bioquímicas generadoras de energía al aportar oxígeno a los tejidos de las semillas durante el desarrollo de verde las semillas como semillas en desarrollo sufren de penetración limitada de oxígeno, particularmente en los tejidos internos61.

Las gimnospermas se consideran un tesoro de la historia de la vida en la tierra. Aquí, ensamblamos un genoma de referencia a nivel de cromosoma para la especie gimnosperma T. grandis. El tamaño del genoma es enorme y mucho más grande que la mayoría de las especies de plantas jamás secuenciadas. Con base en este ensamblaje y análisis de datos multiómicos, concluimos que (1) la acumulación de LTR-RT antiguos contribuye a la hinchazón del genoma de T. grandis, mientras que T. grandis contrarresta la expansión de TE a través de una recombinación desigual y silenciamiento epigenético con un mecanismo potencialmente diferente de las angiospermas; (2) la ganancia o pérdida de familias de genes importantes en T. grandis, p. ej., aquellos involucrados en las actividades de la pared celular y la biosíntesis de paclitaxel, subyacen a su diversidad fenotípica, y los genes de la caja MADS asociados con la identidad del órgano reproductivo incluyen no solo los clásicos B- y C genes de función que ya se han propuesto en estudios previos35,36,37,38,39 pero también genes adicionales (p. ej., TG8g01565) que muestran un patrón de expresión diferente de los genes de función B y C; (3) la Δ9-elongasa y la Δ5-desaturasa son capaces de sintetizar SCA, y estas dos enzimas han evolucionado conjuntamente y se han perdido en las plantas con flores; además, la especificidad de sustrato de la Δ5-desaturasa está determinada por las dos cajas ricas en histidina, cuya mutación puede conducir a la alternancia del reconocimiento del sustrato y, posteriormente, al cambio de su producto; (4) el genoma de la semilla de T. grandis comprende secuencias repetidas fuertemente metiladas y valles de desmetilación, los últimos de los cuales se cruzan con genes que ejercen funciones importantes de la semilla, como la modificación de la pared celular y la biosíntesis de ácidos grasos, así como la regulación de la expresión génica y la homeostasis hormonal. . En general, nuestro genoma de referencia de alta calidad junto con análisis genómicos comparativos y funcionales brindan información sobre la biología de las gimnospermas, particularmente en la biosíntesis y evolución de SCA que presenta versatilidad metabólica entre los principales linajes de plantas terrestres.

Se recolectaron hojas jóvenes de una planta de T. grandis cultivada en Shaoxing, China, en marzo de 2018 y se usaron para la extracción de ADN siguiendo el método CTAB (2%)62. Se construyó una biblioteca de extremos emparejados (PE) con un tamaño de inserción de 350 pb utilizando el kit de preparación de muestras de ADN genómico Illumina siguiendo las instrucciones del fabricante (Illumina) y se secuenció en un sistema Illumina NovaSeq con una longitud de lectura de 150 pb. Se construyó una biblioteca PacBio SMRTbell utilizando SMRTbell Express Template Prep Kit 2.0 y se secuenció en una plataforma PacBio Sequel II. Las lecturas circulares de consenso (lecturas HiFi) se generaron utilizando el software ccs (https://github.com/pacificbiosciences/unanimity/) con el parámetro '-minPasses 3'. La preparación y la secuenciación de la biblioteca Hi-C fueron realizadas por Novogene (Tianjin, China) siguiendo un protocolo descrito en otro lugar63. Brevemente, las bibliotecas se prepararon usando tejidos de hojas fijados en formaldehído al 2%. Los núcleos se extrajeron y permeabilizaron, y la cromatina se digirió con la enzima de restricción DpnII (NEB). La cromatina digerida se hizo roma y se marcó con biotina. La ligadura de ADN se realizó utilizando ADN ligasa T4 (NEB), después de lo cual se añadió proteinasa K para la reticulación inversa. Luego, los fragmentos de ADN se purificaron y secuenciaron en una plataforma Illumina NovaSeq con una longitud de lectura de 2 × 150 pb.

Para ayudar a la predicción de genes, se realizó la secuenciación del transcriptoma para muestras recolectadas de tejidos de hojas, raíces, tallos, semillas jóvenes, arilo, cubierta de semillas y granos de la misma planta (Datos complementarios 1). El ARN total se extrajo con el reactivo TRIzol (Invitrogen) y se cuantificó con el espectrofotómetro NanoDrop ND-2000 (NanoDrop Technologies). Se utilizó ARNm purificado a partir de ARN total con una puntuación RIN ≥8 (Bioanalyzer 2100, Agilent Technologies) para la construcción de bibliotecas con el kit de preparación de bibliotecas de ARN NEBNext Ultra II para Illumina (NEB) siguiendo las instrucciones del fabricante. Las bibliotecas de RNA-Seq no encadenadas se secuenciaron en una plataforma Illumina NovaSeq en modo 2 × 150 pb. Para PacBio Iso-seq, el ARN total de los tejidos de la hoja, la raíz, el tallo, el arilo y el grano se agruparon por igual y el ADNc se sintetizó utilizando el kit de síntesis de ADNc de PCR SMARTer (Clontech). El fraccionamiento por tamaño y la selección (1–2, 2–3 y 3–6 kb) se realizaron utilizando el sistema de selección de tamaño BluePippin (Sage Science). Las bibliotecas SMRT se generaron utilizando el SMRTbell Template Prep Kit 1.0 (Pacific Biosciences) y se secuenciaron en la plataforma PacBio RSII.

Las lecturas HiFi se ensamblaron usando hifiasm64 (versión 0.8-dirty-r280) con parámetros predeterminados y Racon (https://github.com/lbcb-sci/racon; v1.4.13) pulió aún más los contigs ensamblados con lecturas Illumina. Se usó Purge Haplotigs65 (versión v1.1.0) para filtrar secuencias redundantes en el ensamblaje con los parámetros '-l 15 -m 70 -h 125' para el subcomando 'contigcov' y '-a 55' para el subcomando 'purge'. Las lecturas de Illumina de bibliotecas Hi-C se procesaron con Trimmomatic66 (v0.36) para eliminar adaptadores y secuencias de baja calidad. Las lecturas limpias fueron analizadas por HiCUP (https://www.bioinformatics.babraham.ac.uk/projects/hicup/) para identificar alineaciones válidas no duplicadas, que luego se usaron para el andamiaje con ALLHiC67 (versión 0.9.8). El andamiaje inicial se seleccionó manualmente usando Juicebox (https://github.com/aidenlab/Juicebox). La integridad del ensamblaje se evaluó mediante las lecturas de secuenciación de Illumina, que se asignaron al ensamblaje del genoma mediante BWA-MEM68.

Las secuencias repetitivas se identificaron usando una combinación de predicciones basadas en homología y de novo. Se construyó una biblioteca TE específica de especie para T. grandis para incluir retrotransposones LTR (LTR-RT) y otros elementos TE identificados por LTR_Finder69 y RepeatModeler70, respectivamente. Luego, esta biblioteca se combinó con la biblioteca Repbase71 para la identificación de TE por parte de RepeatMasker72 (v.4.0.7). Los elementos repetitivos también fueron predichos por RepeatProteinMask y las secuencias repetitivas en tándem fueron identificadas por el programa TRF73. Para estimar los tiempos de inserción de LTR-RT, se buscaron LTR-RT intactos mediante LTR_Finder y LTR-harvest74. Se usó MUSCLE75 para alinear secuencias LTR de LTR-RT intactas, y se calculó la distancia de nucleótidos (K) entre ellas con el criterio de dos parámetros de Kimura usando el programa distmat en el paquete EMBOSS (http://emboss.sourceforge.net) . El tiempo de inserción (T) se calculó como

donde la tasa de sustitución de nucleótidos (r) utilizada para las especies de gimnospermas fue de 2,2 × 10−9 por base por año11. Las supuestas repeticiones centroméricas se determinaron en función del número de copias y la distribución cromosómica de las repeticiones en tándem identificadas por TRF.

Los genes que codifican proteínas se predijeron utilizando secuencias genómicas repetidas enmascaradas. Para la predicción basada en la homología, las secuencias de proteínas de un musgo (Physcomitrella patens), un helecho (Selaginella moellendorffii), siete angiospermas (Amborella trichopoda, Arabidopsis thaliana, Oryza sativa, Phalaenopsis equestris, Populus trichocarpa, Vitis vinifera y Zea mays) y cuatro las gimnospermas (Ginkgo biloba, Gnetum montanum, Picea abies y Pinus taeda) se alinearon con el genoma de T. grandis usando TBLASTN76 con un valor de corte de 1E−5. Luego se aplicó GenBlastA77 para agrupar pares adyacentes de alta puntuación de las mismas alineaciones de proteínas, y las estructuras génicas correspondientes se identificaron con GeneWise78 (v.2.4.1). Las lecturas de RNA-Seq sin procesar se limpiaron con Trimmomatic66 (v0.36) y se mapearon al genoma de T. grandis usando TopHat279. Posteriormente, se empleó Cufflinks80 (v.2.2.1) para predecir modelos genéticos. Las lecturas limpias de RNA-Seq también se usaron para predecir estructuras de genes con Trinity81 (v2.0.13) y PASA82 (v2.2.0). Todas las estructuras genéticas completas predichas por la tubería PASA se usaron para el entrenamiento del modelo genético para AUGUSTUS83, GlimmerHMM84 y SNAP85. Estos tres predictores, así como geneid86 y GENSCAN87, se usaron para la predicción de genes ab initio con parámetros predeterminados, excepto que '-noInFrameStop=true -genemodel=complete' se aplicó a AUGUSTUS. Finalmente, todos los modelos de genes predichos con diferentes enfoques se integraron para generar un conjunto de genes de alta confianza utilizando EVidenceModeler88 con la siguiente matriz de puntuación de peso: PASA, 100; GeneWise, 20; Gemelos, 20; AGOSTO, 5; otros predictores ab initio, 1.

Para evaluar la precisión de los genes predichos, examinamos la cobertura de genes altamente conservados usando BUSCO19. Además, realizamos la anotación funcional de los modelos de genes predichos de T. grandis mediante la búsqueda en las bases de datos de la Enciclopedia de genes y genomas de Kioto (KEGG; https://www.genome.jp/kegg/)89, SwissProt y TrEMBL (https:// www.uniprot.org/) usando BLASTP con un límite de valor e de 1E-5, y los mejores aciertos de alineación se usaron para asignar funciones genéticas basadas en homología. Las categorías GO (http://geneontology.org/) y las entradas de InterPro (https://www.ebi.ac.uk/interpro/) se obtuvieron a través de InterProScan90.

La transcripción más larga de cada uno de los genes codificadores de proteínas de 18 especies representativas (Taxus wallichiana, Amborella trichopoda, Arabidopsis thaliana, Ginkgo biloba, Gnetum montanum, Welwitschia mirabilis, Oryza sativa, Solanum lycopersicum, Physcomitrella patens, Pinus tabuliformis, Selaginella moellendorffii, Vitis vinifera, Sequoiadendron giganteum, Azolla filiculoides, Klebsormidium flaccidum, Chara braunii, Marchantia polymorpha y Penium margaritaceum) y T. grandis fueron seleccionados para construir familias de genes basadas en alineaciones BLASTP de todos contra todos utilizando OrthoFinder91. Los análisis filogenéticos se realizaron utilizando IQ-TREE92 (v. 2.1.3). Con base en el análisis MRCA usando CAFE93 (v.4.2.1), determinamos la expansión y contracción de las familias de genes entre las especies existentes y sus últimos ancestros comunes.

La búsqueda BLASTP de todos contra todos se realizó con un límite de valor e de 1E-5. Las cinco alineaciones principales se seleccionaron para cada gen y se usaron para detectar pares de genes sinténicos ubicados en bloques colineales con MCScanX94. Los pares de genes parálogos se determinaron mediante las mejores alineaciones BLASTP recíprocas. Ks de cada par de genes sinténicos o parálogos se calculó utilizando YN00 en el paquete PAML 4.8a95 con parámetros predeterminados. La inferencia basada en la filogenia de WGD se llevó a cabo en función de la reconciliación de cada árbol de genes y el árbol de especies.

El ARN total (3 μg) de las hojas se aisló para la construcción de bibliotecas de ARN pequeño utilizando el conjunto de preparación de bibliotecas de ARN pequeño NEB Next® Multiplex para Illumina® (NEB, EE. UU.) siguiendo las recomendaciones del fabricante. Se recuperaron fragmentos de ADN en la biblioteca construida dentro del rango de 140 ~ 160 pb y la biblioteca se evaluó en un sistema Agilent Bioanalyzer 2100 y posteriormente se secuenció en una plataforma Illumina HiSeq 2500. Las lecturas sin procesar de la biblioteca de ARN pequeña se procesaron con Trimmomatic66 (v0.36) para eliminar los adaptadores y luego se alinearon con el genoma de referencia utilizando Bowtie96 sin que se permitiera ninguna discrepancia.

Se recolectaron semillas de T. grandis de un solo árbol el 8 de marzo (etapa 1), el 24 de marzo (etapa 2) y el 8 de abril (etapa 3) del año 2021 para la secuenciación de bisulfito y transcriptoma. Aproximadamente 100 ng de ADN genómico de alta calidad enriquecido con 0,5 ng de ADN lambda se sonicaron con Covaris S220 (parámetros: PIP, 50 W; factor de trabajo, 20; ciclos por ráfaga, 200; tiempo de tratamiento, 110 s; temperatura, 20 °C; volumen de muestra, 52 μL). El ADN fragmentado (200–300 pb) se trató con bisulfito utilizando el kit EZ DNA Methylation-GoldTM (Zymo Research), y la biblioteca se evaluó y secuenció en la plataforma Illumina NovaSeq con el modo de extremo emparejado.

Las lecturas sin procesar se limpiaron con Trimmomatic66 (v0.36) para eliminar adaptadores y secuencias de baja calidad. Para alinear las lecturas limpias, tanto el genoma de referencia como las lecturas se transformaron (C-a-T y G-a-A) y luego se alinearon con Bismark97 (versión 0.16.3) con parámetros "-X 700 – cola de milano". Se mantuvieron las lecturas que produjeron una mejor alineación única contra las cadenas "Watson" y "Crick" del genoma y se infirió el estado de metilación de todos los nucleótidos de citosina. La tasa de conversión de bisulfito de sodio se estimó en función de las alineaciones de lectura con el genoma lambda. Los sitios metilados se identificaron con una prueba binomial utilizando los recuentos de metilación (mC), los recuentos totales (mC+umC) y la tasa de conversión (r). Los sitios con un valor de P corregido por FDR < 0,05 se consideraron sitios metilados. Para calcular el nivel de metilación del genoma completo, dividimos el genoma en contenedores de 10 kb y el nivel de metilación de cada ventana se calculó como conteo (mC)/(conteo (mC) + conteo (umC)). Las regiones diferencialmente metiladas (DMR) se identificaron utilizando el software DSS98 bajo el umbral del valor P de 0,05. Los DMR se catalogaron en función de si se superponían con los genes y cómo. Los sitios continuos de citosina en el genoma de T. grandis con un nivel de metilación <5 % en cualquier contexto se fusionaron y definieron como valles de desmetilación.

Los conos masculinos se recolectaron del árbol T. grandis en ocho etapas diferentes durante febrero y abril de 2021 con un intervalo de tiempo de 7 días, y los conos femeninos se recolectaron en seis etapas diferentes durante enero y abril de 2021 con un intervalo de tiempo de 16 días. . Se recogieron del mismo árbol otras muestras, incluidas la semilla, la hoja, la raíz y el tallo. Cada muestreo se realizó con tres réplicas biológicas. El ARN total se extrajo utilizando el reactivo TRIzol (Invitrogen). Las bibliotecas de RNA-Seq se construyeron con el NEBNext Ultra II RNA Library Prep Kit for Illumina (NEB) siguiendo las instrucciones del fabricante y se secuenciaron en una plataforma Illumina NovaSeq en modo 2 × 150 pb. Las lecturas de RNA-Seq sin procesar se limpiaron con Trimmomatic66 (v0.36). Las lecturas limpias se asignaron al genoma utilizando STAR aligner99 (v2.7.10a). Las alineaciones se contaron usando HTSeq-count100 y los genes expresados ​​diferencialmente se identificaron con DESeq2 (ref. 101) bajo el límite de P ajustado ≤ 0.01 y cambio de pliegue ≥2.

Los HGT potenciales se identificaron en función de las puntuaciones de homología y las señales de filogenia102. Brevemente, creamos tres bases de datos personalizadas, a saber, una base de datos de grupo externo que comprende todas las secuencias de proteínas de arqueas, bacterias y hongos, una base de datos de grupo que incluye secuencias de proteínas de 10 especies de gimnospermas publicadas y una base de datos de grupo medio que consta de secuencias de todos plantas publicadas excluyendo gimnospermas. Las secuencias de proteínas de T. grandis se compararon con las tres bases de datos personalizadas por separado con un límite de valor e de 1E-5. Para cada secuencia de proteína de consulta, conservamos no más de 100 aciertos explosivos (un acierto por especie) para cada base de datos y calculamos el valor promedio de puntuación de bits (ABV) de las alineaciones. Se retuvieron las proteínas de consulta con el ABV del grupo externo mayor que el del grupo medio. Realizamos análisis filogenéticos rigurosos para cada una de las proteínas de consulta restantes e inspeccionamos manualmente la topología del árbol. Los genes de T. grandis respaldados tanto por ABV como por la filogenia se consideraron como posibles genes transferidos horizontalmente.

Aproximadamente 0,5 g de muestras secas se mezclaron con 9 ml de solución de H2SO4-CH3OH al 10 % a temperatura ambiente durante 10 h. Los ésteres metílicos de ácidos grasos se filtraron y luego se extrajeron con 30 ml de agua destilada y 30 ml de diclorometano. La fase orgánica se secó con sulfato de sodio anhidro y se concentró hasta aproximadamente 1 ml con un soplador de nitrógeno. El extracto concentrado se utilizó para el análisis de ácidos grasos mediante cromatografía de gases (GC; Thermo Scientific TRACE-1300, Italia) con el ácido graso de metilo utilizado como estándar interno. La separación por GC se realizó con una columna de GC capilar Agilent DB-WAX (30 m × 0,25 mm y 0,25 μm de espesor de película) y se inyectó 1 μl de cada muestra en modo dividido con una proporción de 1:20. Se utilizó helio ultrapuro como gas portador. Las temperaturas del puerto de inyección y del detector se fijaron en 220 °C y 240 °C, respectivamente. La programación de la temperatura de la columna comenzó a 140 °C, se mantuvo durante 1 min y se calentó hasta 250 °C a una velocidad de 4 °C/min. La temperatura de la columna se mantuvo durante 2 min a 250 °C.

El CDS de cada gen, sin codón de parada, se clonó y fusionó con el extremo N-terminal del gen GFP del vector pCAMBIA1300-GFP. El plásmido resultante se introdujo en Agrobacterium tumefaciens GV3101. Los clones positivos se incubaron a una DO600 de 0,6 y luego se centrifugaron a 8000 rpm durante 6 min. Las células recolectadas se resuspendieron con tampón de infiltración (MgCl2 10 mM, acetosiringona 0,2 mM y MES 10 mM a pH 5,6), que luego se inyectó en las hojas de Nicotiana benthamiana. Después de 3 días de cultivo, se observó y capturó la señal de fluorescencia de GFP de las hojas mediante microscopía de barrido láser confocal (LSM510: Karl Zeiss).

El ARN total se extrajo utilizando el kit de plantas puras RNAprep (TIANGEN). El ADNc de primera cadena se sintetizó a partir de 1 μg de ARN total utilizando el kit PrimeScriptTM RT Master Mix (Takara). Se utilizó el kit SYBR Premix Ex Taq™ (Takara) para realizar una PCR cuantitativa en tiempo real. Los datos de expresión de los genes diana se corrigieron con la expresión del gen que codifica la actina. Las condiciones de reacción fueron 95 °C por 10 s, 55 °C por 10 s, 72 °C por 20 s, 45 ciclos. La expresión relativa se calculó utilizando el método 2-ΔΔCt.

Las regiones codificantes de TgEOL1, TgDES1, AtSLD2 (AT2G46210) y dos genes recombinantes (AtSLD2-Motif2 y AtSLD2-Motif3) se insertaron aguas abajo del promotor 35S del vector binario (pCAMBIA1300), respectivamente. Cada una de las construcciones resultantes se transformó en la cepa GV3101 de Agrobactrium tumefaciens, que luego se cultivó a 28 °C en medio LB suplementado con kanamicina (50 mg/l) y rifampicilina (50 mg/l) hasta que la DO600 alcanzó 0,6. Para la expresión transitoria de AtSLD2 y dos genes recombinantes en hojas de N. benthamiana, las células se recogieron y se resuspendieron en tampón MES 10 mM (que contenía MgCl2 10 mM y acetosiringona 0,1 mM) hasta una OD600 final de 1,0. Las células de cada cepa se infiltraron en hojas jóvenes de plantas de N. benthamiana de cinco semanas de edad utilizando una jeringa sin aguja, que se recolectaron 5 días después para medir el contenido de SCA. Para la generación de Arabidopsis sobreexpresada con TgDES1 y TgELO1, las construcciones pCAMBIA1300-TgELO1 y pCAMBIA1300-TgELO1 se transformaron en Arabidopsis a través del método de inmersión floral mediado por A. tumefaciens. Se plantaron plantas T1 resistentes a higromicina para la recolección de semillas, y se seleccionaron semillas T2 con una relación de resistencia a higromicina de 3:1 para recolectar semillas T3. Se utilizaron semillas T3 con 100% de resistencia a la higromicina para la determinación del contenido de SCA.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

El ensamblaje del genoma y las lecturas sin procesar para la secuenciación del genoma, el transcriptoma y el metiloma se han depositado en la base de datos BioProject del Centro Nacional de Información Biotecnológica con acceso PRJNA938254 y el Archivo de Secuencias CNGB (CNSA) de la Base Nacional de Datos GeneBank de China (CNGBdb) con acceso CNP0003453. El ensamblaje y la anotación del genoma también están disponibles en Figshare [https://doi.org/10.6084/m9.figshare.21089869]. Los datos de origen se proporcionan con este documento.

Li, HT et al. Origen de las angiospermas y el enigma de la brecha Jurásica. Nat. Plantas 5, 461–470 (2019).

Artículo PubMed Google Académico

De La Torre, AR et al. Evolución funcional y morfológica en gimnospermas: un retrato de las familias de genes implicados. Evol. Aplicación 13, 210–227 (2020).

Artículo PubMed Google Académico

Linkies, A., Graeber, K., Knight, C. y Leubner-Metzger, G. La evolución de las semillas. N. Phytol. 186, 817–831 (2010).

Artículo CAS Google Académico

Chen, X. & Jin, H. Revisión del cultivo y desarrollo de la torreya china en China. Trees Livelihoods 28, 68–78 (2019).

Artículo Google Académico

Wang, H., Guo, T. & Ying, GQ Avances en estudios sobre principios activos y sus actividades farmacológicas para plantas de Torreya Arn. Mentón. tradición Hierba. Drogas 38, 1748–1750 (2007).

Google Académico

Wu, J. et al. La secuenciación del transcriptoma de novo de Torreya grandis revela la regulación génica en la ruta de biosíntesis del ácido ciadónico. Ind. Cultivos Prod. 120, 47–60 (2018).

Artículo CAS Google Académico

Él, Z. et al. Componentes químicos de los aceites de semilla prensados ​​en frío de diferentes cultivares de Torreya grandis. Química alimentaria 209, 196–202 (2016).

Artículo CAS PubMed Google Académico

Berger, A. et al. Propiedades antiinflamatorias epidérmicas de 5,11,14 20:3: efectos sobre el edema de oreja de ratón, niveles de PGE2 en queratinocitos cultivados y activación de PPAR. Lípidos Salud Dis. 1, 5 (2002).

Artículo PubMed PubMed Central Google Académico

Pedrono, F. et al. Ácido ciadónico derivado de piñones como componente alimentario para reducir los triglicéridos plasmáticos mediante la inhibición de la Δ9-desaturasa hepática de rata. ciencia Rep. 10, 6223 (2020).

Artículo ADS PubMed PubMed Central Google Scholar

Endo, Y., Osada, Y., Kimura, F. & Fujimoto, K. Efectos del aceite de semilla de torreya japonesa (Torreya nucifera) sobre el metabolismo de los lípidos en ratas. Nutrición 22, 553–558 (2006).

Artículo CAS PubMed Google Académico

Canción, L. et al. Avances en ácidos grasos delta 5-insaturados con polimetileno interrumpido: recursos, biosíntesis y beneficios. crítico Rev. ciencia de los alimentos. Nutrición 63, 767–789 (2023).

Aitzetmüller, K. Un patrón inusual de ácidos grasos en el aceite de semilla de Eranthis. Lípidos 31, 201–205 (1996).

Artículo PubMed Google Académico

Niu, S. et al. El genoma y el metiloma del pino chino revelan características clave de la evolución de las coníferas. Celda 185, 204–217.e14 (2022).

Artículo CAS PubMed Google Académico

Nystedt, B. et al. La secuencia del genoma del abeto de Noruega y la evolución del genoma de las coníferas. Naturaleza 497, 579–584 (2013).

Artículo ADS CAS PubMed Google Scholar

Liu, H. et al. El genoma casi completo de Ginkgo biloba ilumina la evolución de las gimnospermas. Nat. Plantas 7, 748–756 (2021).

Artículo CAS PubMed Google Académico

Wan, T. et al. El genoma de Welwitschia revela una biología única que sustenta la longevidad extrema en los desiertos. Nat. común 12, 4247 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Liu, Y. et al. El genoma de Cycas y la evolución temprana de las plantas con semillas. Nat. Plantas 8, 389–401 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Cheng, J. et al. El genoma a nivel cromosómico del tejo del Himalaya proporciona información sobre el origen y la evolución de la vía biosintética del paclitaxel. mol. Planta 14, 1199–1209 (2021).

Artículo CAS PubMed Google Académico

Xiong, X. et al. El genoma de Taxus proporciona información sobre la biosíntesis de paclitaxel. Nat. Plantas 7, 1026–1036 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Rhie, A., Walenz, BP, Koren, S. & Phillippy, AM Merqury: calidad sin referencia, integridad y evaluación de fases para ensamblajes de genomas. Genoma Biol. 21, 245 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Manni, M., Berkeley, MR, Seppey, M., Simão, FA & Zdobnov, EM Actualización de BUSCO: flujos de trabajo novedosos y simplificados junto con una cobertura filogenética más amplia y profunda para la puntuación de genomas eucariotas, procariotas y virales. mol. Biol. Evol. 38, 4647–4654 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Ou, S., Chen, J. y Jiang, N. Evaluación de la calidad del ensamblaje del genoma mediante el índice de ensamblaje LTR (LAI). Ácidos nucleicos Res 46, e126 (2018).

PubMed PubMed Central Google Académico

Steinthorsdottir, M. et al. El Mioceno: el futuro del pasado. Paleoceanogr. Paleoclimatol. 36, e2020PA004037 (2021).

Artículo Google Académico

El Baidouri, M. & Panaud, O. La paleontología genómica comparativa en el reino vegetal revela la dinámica de la evolución del genoma impulsada por TE. Genoma Biol. Evol. 5, 954–965 (2013).

Artículo PubMed PubMed Central Google Académico

Matzke, MA & Mosher, RA Metilación del ADN dirigida por ARN: una vía epigenética de complejidad creciente. Nat. Rev. Genet. 15, 394–408 (2014).

Artículo CAS PubMed Google Académico

Nakamura, M., Köhler, C. & Hennig, L. Pequeños ARN asociados a transposones específicos de tejido en el árbol de gimnospermas, abeto de Noruega. Genoma BMC. 20, 997 (2019).

Artículo CAS Google Académico

Van de Peer, Y., Mizrachi, E. & Marchal, K. El significado evolutivo de la poliploidía. Nat. Rev. Genet. 18, 411–424 (2017).

Artículo PubMed Google Académico

Leebens-Mack, JH et al. Mil transcriptomas de plantas y la filogenómica de las plantas verdes. Naturaleza 574, 679–685 (2019).

Artículo Google Académico

Sol, X. et al. Genoma y evolución del hongo micorrícico arbuscular Diversispora epigaea (anteriormente Glomus versiforme) y sus endosimbiontes bacterianos. N. Phytol. 221, 1556-1573 (2019).

Artículo CAS Google Académico

Jiao, C. et al. El genoma de Penium margaritaceum: características de los orígenes de las plantas terrestres. Celda 181, 1097–1111.e12 (2020).

Artículo CAS PubMed Google Académico

Bowman, JL y col. Información sobre la evolución de las plantas terrestres obtenida del genoma de Marchantia polymorpha. Celda 171, 287–304.e15 (2017).

Artículo CAS PubMed Google Académico

Bouché, F., Lobet, G., Tocquin, P. & Périlleux, C. FLOR-ID: una base de datos interactiva de redes de genes en tiempo de floración en Arabidopsis thaliana. Ácidos Nucleicos Res. 44, D1167–D1171 (2016).

Artículo PubMed Google Académico

Li, LX et al. Arabidopsis thaliana NOP10 es necesaria para la formación de gametofitos. J.Integr. Biol. vegetal 60, 723–736 (2018).

Artículo CAS PubMed Google Académico

Schoof, H. et al. La población de células madre de los meristemos de brotes de Arabidopsis se mantiene mediante un bucle regulador entre los genes CLAVATA y WUSCHEL. Celda 100, 635–644 (2000).

Artículo CAS PubMed Google Académico

Soltis, DE, Chanderbali, AS, Kim, S., Buzgo, M. & Soltis, PS El modelo ABC y su aplicabilidad a las angiospermas basales. Ana. Bot. 100, 155–163 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Dreni, L. & Zhang, D. Desarrollo floral: la historia evolutiva y las funciones de los genes MADS-box de la subfamilia AGL6. Exp. J. Bot. 67, 1625–1638 (2016).

Artículo CAS PubMed Google Académico

Kong, X. et al. El gen MADS-box similar a AGL6 del trigo es un regulador maestro para la identidad de los órganos florales y un objetivo para la manipulación del desarrollo del meristema de las espiguillas. Biotecnología vegetal. J. 20, 75–88 (2022).

Artículo CAS PubMed Google Académico

Zhang, L. et al. El genoma del lirio de agua y la evolución temprana de las plantas con flores. Naturaleza 577, 79–84 (2020).

Artículo ADS CAS PubMed Google Scholar

Chanderbali, AS et al. La conservación y canalización de la expresión génica durante la diversificación de las angiospermas acompañan el origen y la evolución de la flor. proc. Academia Nacional. ciencia EE. UU. 107, 22570–22575 (2010).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Souza, PFN Las olvidadas proteínas de albúmina 2S: importancia, estructura y aplicación biotecnológica en agricultura y salud humana. En t. J. Biol. macromol. 164, 4638–4649 (2020).

Artículo CAS PubMed Google Académico

Tandang-Silvas, MR et al. Conservación y divergencia en globulinas 11S de semillas de plantas basadas en estructuras cristalinas. bioquimica Biografía. Acta 1804, 1432-1442 (2010).

Artículo CAS PubMed Google Académico

Cheng, S. et al. Los genomas de Zygnematophyceae subaéreo proporcionan información sobre la evolución de las plantas terrestres. Celda 179, 1057–1067.e14 (2019).

Artículo CAS PubMed Google Académico

Weng, JK & Chapple, C. El origen y evolución de la biosíntesis de lignina. N. Phytol. 187, 273–285 (2010).

Artículo CAS Google Académico

Yamaguchi, M. et al. NAC-DOMAIN6 RELACIONADO CON VASCULARES y NAC-DOMAIN7 RELACIONADO CON VASCULARES inducen efectivamente la transdiferenciación en elementos de vasos de xilema bajo el control de un sistema de inducción. Fisiol vegetal. 153, 906–914 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Zhong, R., Richardson, EA & Ye, ZH Dos factores de transcripción del dominio NAC, SND1 y NST1, funcionan de forma redundante en la regulación de la síntesis de la pared secundaria en las fibras de Arabidopsis. Planta 225, 1603–1611 (2007).

Artículo CAS PubMed Google Académico

Jokipii-Lukkari, S. et al. NorWood: un recurso de expresión génica para estudios evo-devo del desarrollo de madera de coníferas. N. Phytol. 216, 482–494 (2017).

Artículo Google Académico

Meesapyodsuk, D. & Qiu, X. La desaturasa frontal: estructura, función, evolución y uso biotecnológico. Lípidos 47, 227–237 (2012).

Artículo CAS PubMed Google Académico

Sayanova, O., Haslam, R., Venegas Caleron, M. & Napier, JA Clonación y caracterización de desaturasas de ácidos grasos inusuales de Anemone leveillei: identificación de una acil-coenzima A C20 Δ5-desaturasa responsable de la síntesis de ácido sciadónico. Fisiol vegetal. 144, 455–467 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Xue, JA et al. La expresión de levadura acil-CoA-∆9 desaturasa conduce a la acumulación de ácidos grasos monoinsaturados inusuales en semillas de soja. Biotecnología. Letón. 35, 951–959 (2013).

Artículo CAS PubMed Google Académico

Lim, ZL, Senger, T. & Vrinten, P. Cuatro residuos de aminoácidos influyen en la longitud de la cadena del sustrato y la regioselectividad de las desaturasas Δ4 y Δ5/6 de Siganus canaliculatus. Lípidos 49, 357–367 (2014).

Artículo CAS PubMed Google Académico

Buček, A., Vazdar, M., Tupec, M., Svatoš, A. & Pichová, I. La especificidad de la desaturasa está controlada por las propiedades fisicoquímicas de un solo residuo de aminoácido en el túnel de unión al sustrato. computar Estructura. Biotecnología. J. 18, 1202–1209 (2020).

Artículo PubMed PubMed Central Google Académico

Chen, M. et al. Las regiones hipometiladas del genoma de la semilla están enriquecidas en genes de factores de transcripción. proc. Academia Nacional. ciencia EE. UU. 115, E8315–E8322 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Niederhuth, CE et al. Amplia variación natural de la metilación del ADN dentro de las angiospermas. Genoma Biol. 17, 194 (2016).

Artículo PubMed PubMed Central Google Académico

Ausin, I. et al. Metiloma de ADN del genoma de pícea de Noruega de 20 gigabases. proc. Academia Nacional. ciencia EE. UU. 113, E8106–E8113 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Bewick, AJ & Schmitz, RJ Metilación del ADN del cuerpo genético en plantas. actual Opinión Biol. vegetal 36, 103–110 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Takuno, S., Ran, JH y Gaut, BS Los patrones evolutivos de la metilación del ADN génico varían entre las plantas terrestres. Nat. Plantas 2, 15222 (2016).

Artículo CAS PubMed Google Académico

Lin, JY et al. La similitud entre los metilomas de semillas de soja y Arabidopsis y la pérdida de metilación no CG no afecta el desarrollo de las semillas. proc. Academia Nacional. ciencia EE. UU. 114, E9730–E9739 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Chen, F., Tobimatsu, Y., Havkin-Frenkel, D., Dixon, RA y Ralph, J. Un polímero de alcohol cafeílico en semillas de plantas. proc. Academia Nacional. ciencia EE. UU. 109, 1772–1777 (2012).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Hiraide, H. et al. La actividad de lacasa localizada modula la distribución de polímeros de lignina en la madera de compresión de gimnospermas. N. Phytol. 230, 2186–2199 (2021).

Artículo CAS Google Académico

Cosgrove, DJ Aflojamiento de las paredes de las células vegetales por expansión. Naturaleza 407, 321–326 (2000).

Artículo ADS CAS PubMed Google Scholar

Vigeolas, H., van Dongen, JT, Waldeck, P., Huhn, D. y Geigenberger, P. El metabolismo de almacenamiento de lípidos está limitado por las bajas concentraciones de oxígeno que prevalecen dentro de las semillas de colza en desarrollo. Fisiol vegetal. 133, 2048-2060 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Murray, MG & Thompson, WF Aislamiento rápido de ADN vegetal de alto peso molecular. Ácidos Nucleicos Res. 8, 4321–4325 (1980).

Artículo CAS PubMed PubMed Central Google Scholar

Zhu, W. et al. La compactación alterada de la cromatina y la metilación de histonas impulsan la expresión génica no aditiva en un híbrido interespecífico de Arabidopsis. Genoma Biol. 18, 157 (2017).

Artículo PubMed PubMed Central Google Académico

Cheng, H., Concepcion, GT, Feng, X., Zhang, H. y Li, H. Ensamblaje de novo resuelto por haplotipos mediante gráficos de ensamblaje en fase con hifiasm. Nat. Métodos 18, 170–175 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Roach, MJ, Schmidt, S. & Borneman, AR Purge Haplotigs: reducción de sintenia para ensamblajes de genomas diploides de tercera generación. BMC Bioinforma. 19, 460 (2018).

Artículo CAS Google Académico

Bolger, AM, Lohse, M. y Usadel, B. Trimmomatic: un recortador flexible para datos de secuencia de Illumina. Bioinformática 30, 2114–2120 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Zhang, X., Zhang, S., Zhao, Q., Ming, R. & Tang, H. Ensamblaje de genomas autopoliploides a escala cromosómica con reconocimiento de alelos basados ​​en datos de Hi-C. Nat. Plantas 5, 833–845 (2019).

Artículo CAS PubMed Google Académico

Li, H. & Durbin, R. Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25, 1754–1760 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER: una herramienta eficiente para la predicción de retrotransposones LTR de longitud completa. Ácidos Nucleicos Res. 35, W265–W268 (2007).

Artículo PubMed PubMed Central Google Académico

Flynn, JM y col. RepeatModeler2 para el descubrimiento genómico automatizado de familias de elementos transponibles. proc. Academia Nacional. ciencia EE. UU. 117, 9451–9457 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Bao, W., Kojima, KK & Kohany, O. Repbase Update, una base de datos de elementos repetitivos en genomas eucarióticos. Multitud. ADN 6, 11 (2015).

Artículo PubMed PubMed Central Google Académico

Tarailo-Graovac, M. & Chen, N. Uso de RepeatMasker para identificar elementos repetitivos en secuencias genómicas. actual Protocolo Bioinforma. 25, Capítulo 4: Unidad 4.10 (2009).

Artículo Google Académico

Benson, G. Tandem repite buscador: un programa para analizar secuencias de ADN. Ácidos Nucleicos Res. 27, 573–580 (1999).

Artículo CAS PubMed PubMed Central Google Scholar

Ellinghaus, D., Kurtz, S. & Willhoeft, U. LTRharvest, un software eficiente y flexible para la detección de novo de retrotransposones LTR. BMC Bioinforma. 9, 18 (2008).

Artículo Google Académico

Edgar, RC MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento. Ácidos Nucleicos Res. 32, 1792–1797 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Altschul, SF, Gish, W., Miller, W., Myers, EW y Lipman, DJ Herramienta básica de búsqueda de alineación local. J. Mol. Biol. 215, 403–410 (1990).

Artículo CAS PubMed Google Académico

She, R., Chu, JS, Wang, K., Pei, J. & Chen, N. GenBlastA: permitir que BLAST identifique secuencias de genes homólogos. Genoma Res. 19, 143–149 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Birney, E., Clamp, M. & Durbin, R. GeneWise y genómicamente. Genoma Res. 14, 988–995 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Trapnell, C., Pachter, L. & Salzberg, SL TopHat: descubrimiento de uniones de empalme con RNA-Seq. Bioinformática 25, 1105–1111 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Roberts, A., Pimentel, H., Trapnell, C. & Pachter, L. Identificación de nuevos transcritos en genomas anotados usando RNA-Seq. Bioinformática 27, 2325–2329 (2011).

Artículo CAS PubMed Google Académico

Grabherr, MG et al. Ensamblaje completo del transcriptoma a partir de datos de RNA-Seq sin un genoma de referencia. Nat. Biotecnología. 29, 644–652 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Haas, BJ et al. Mejora de la anotación del genoma de Arabidopsis mediante ensamblajes de alineación de transcripción máxima. Ácidos Nucleicos Res. 31, 5654–5666 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Stanke, M. et al. AUGUSTUS: predicción ab initio de transcripciones alternativas. Ácidos Nucleicos Res. 34, W435–W439 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

Pertea, M., Salzberg, SL & Majoros, WH TigrScan y GlimmerHMM: dos buscadores de genes eucariotas ab initio de código abierto. Bioinformática 20, 2878–2879 (2004).

Artículo PubMed Google Académico

Korf, I. Hallazgo de genes en nuevos genomas. BMC Bioinforma. 5, 59 (2004).

Artículo Google Académico

Alioto, T., Blanco, E., Parra, G. & Guigó, R. Uso de geneid para identificar genes. actual Protocolo Bioinforma. 64, e56 (2018).

Artículo Google Académico

Burge, C. y Karlin, S. Predicción de estructuras génicas completas en el ADN genómico humano. J. Mol. Biol. 268, 78–94 (1997).

Artículo CAS PubMed Google Académico

Haas, BJ et al. Anotación automatizada de estructuras de genes eucarióticos utilizando EVidenceModeler y el programa para ensamblar alineaciones empalmadas. Genoma Biol. 9, R7 (2008).

Artículo PubMed PubMed Central Google Académico

Morishima, K., Tanabe, M., Furumichi, M., Kanehisa, M. y Sato, Y. KEGG: nuevas perspectivas sobre genomas, vías, enfermedades y fármacos. Ácidos Nucleicos Res. 45, 353–361 (2016).

Google Académico

Mitchell, A. et al. InterProScan 5: clasificación de funciones de proteínas a escala genómica. Bioinformática 30, 1236–1240 (2014).

Artículo PubMed PubMed Central Google Académico

Emms, DM & Kelly, S. OrthoFinder: inferencia de ortología filogenética para genómica comparativa. Genoma Biol. 20, 238 (2019).

Artículo PubMed PubMed Central Google Académico

Nguyen, LT, Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE: un algoritmo estocástico rápido y efectivo para estimar filogenias de máxima verosimilitud. mol. Biol. Evol. 32, 268–274 (2015).

Artículo CAS PubMed Google Académico

De Bie, T., Cristianini, N., Demuth, JP & Hahn, MW CAFE: una herramienta computacional para el estudio de la evolución de la familia de genes. Bioinformática 22, 1269–1271 (2006).

Artículo PubMed Google Académico

Wang, Y. et al. MCScanX: un conjunto de herramientas para la detección y el análisis evolutivo de la colinealidad y sintenia génica. Ácidos Nucleicos Res. 40, 49 (2012).

Artículo ANUNCIOS Google Académico

Yang, Z. PAML 4: análisis filogenético por máxima verosimilitud. mol. Biol. Evol. 24, 1586-1591 (2007).

Artículo CAS PubMed Google Académico

Langmead, B., Trapnell, C., Pop, M. & Salzberg, SL Alineación ultrarrápida y eficiente en memoria de secuencias cortas de ADN al genoma humano. Genoma Biol. 10, R25 (2009).

Artículo PubMed PubMed Central Google Académico

Krueger, F. & Andrews, SR Bismark: un alineador flexible y llamador de metilación para aplicaciones de Bisulfite-Seq. Bioinformática 27, 1571–1572 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Park, Y. & Wu, H. Análisis de metilación diferencial para datos BS-seq bajo diseño experimental general. Bioinformática 32, 1446–1453 (2016).

Artículo CAS PubMed Google Académico

Dobin, A. et al. STAR: alineador RNA-seq universal ultrarrápido. Bioinformática 29, 15–21 (2013).

Artículo CAS PubMed Google Académico

Anders, S., Pyl, PT & Huber, W. HTSeq-un marco Python para trabajar con datos de secuenciación de alto rendimiento. Bioinformática 31, 166–169 (2015).

Artículo CAS PubMed Google Académico

Love, MI, Huber, W. & Anders, S. Estimación moderada de cambio de pliegue y dispersión para datos de RNA-seq con DESeq2. Genoma Biol. 15, 550 (2014).

Artículo PubMed PubMed Central Google Académico

Li, Y. et al. HGT está muy extendida en insectos y contribuye al cortejo masculino en lepidópteros. Celda 185, 2975–2987.e10 (2022).

Artículo CAS PubMed Google Académico

Descargar referencias

Esta investigación fue apoyada por subvenciones de la Fundación Nacional de Ciencias Naturales de China (NSFC) a JW (subvención n.º U20A2049), LS (subvención n.º 31971699), XS (subvención n.º 32102318), el Programa clave de investigación y desarrollo de Zhejiang. Provincia a HL (subvención n.º 2021C02001), el Proyecto de Fondo de Inicio de Investigación Científica de la Universidad A&F de Zhejiang a HL (subvención n.º 2018FR028) y la subvención del Laboratorio Estatal Clave de Silvicultura Subtropical a JW (subvención n.º ZY20180312 y ZY20180209). Los autores agradecen a la Dra. Emily ED Coffey del Jardín Botánico de Atlanta (EE. UU.) y al Prof. Mark W. Schwartz de la Universidad de California, Davis por proporcionar muestras de plantas.

Estos autores contribuyeron por igual: Heqiang Lou, Lili Song, Xiaolong Li.

Laboratorio estatal clave de silvicultura subtropical, Universidad A&F de Zhejiang, Hangzhou, 311300, Zhejiang, China

Heqiang Lou, Lili Song, Weijie Chen, Yadi Gao, Shan Zheng y Jiasheng Wu

Centro de Innovación Colaborativa para la Producción Eficiente y Verde de Agricultura en Áreas Montañosas de la Provincia de Zhejiang, Universidad Zhejiang A&F, Hangzhou, 311300, Zhejiang, China

Xiaolong Li y Xuepeng Sun

Laboratorio clave de control de calidad y seguridad para frutas y verduras subtropicales, Ministerio de Agricultura y Asuntos Rurales, Hangzhou, 311300, Zhejiang, China

Xiaolong Li y Xuepeng Sun

Instituto de Bioinformática Novogene, 100083, Pekín, China

saludando a zi

Instituto Boyce Thompson, Universidad de Cornell, Ithaca, NY, 14853, EE. UU.

Zhangjun Fei

Departamento de Agricultura de los EE. UU. - Servicio de Investigación Agrícola, Centro Robert W. Holley para la Agricultura y la Salud, Ithaca, NY, 14853, EE. UU.

Zhangjun Fei

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

JW, XS, HL y LS concibieron y supervisaron el proyecto. WC, YG y SZ recolectaron muestras y realizaron experimentos transgénicos. XS, XL y HZ construyeron bibliotecas y realizaron análisis bioinformáticos. XS y HL escribieron el manuscrito. ZF y JW revisaron el manuscrito.

Correspondencia con Zhangjun Fei, Xuepeng Sun o Jiasheng Wu.

Los autores declaran no tener conflictos de intereses.

Nature Communications agradece a Amanda De La Torre, Liang Guo, Nathaniel Street y Haifeng Wang por su contribución a la revisión por pares de este trabajo. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Lou, H., Song, L., Li, X. et al. El genoma de Torreya grandis ilumina el origen y la evolución de la biosíntesis del ácido sciadónico específico de las gimnospermas. Nat Comun 14, 1315 (2023). https://doi.org/10.1038/s41467-023-37038-2

Descargar cita

Recibido: 28 de octubre de 2022

Aceptado: 28 de febrero de 2023

Publicado: 10 de marzo de 2023

DOI: https://doi.org/10.1038/s41467-023-37038-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.