Investigadores del Baylor College of Medicine han identificado las discrepancias entre las dos versiones del genoma humano de referencia utilizadas en los laboratorios. En un trabajo publicado en American Journal of Human Genetics, el equipo muestra resultados que contribuyen a mejorar el análisis e interpretación de genomas humanos y ofrece una valoración de las limitaciones de cada genoma de referencia.
Interpretar los resultados de la secuenciación del genoma de una persona implica ensamblar las secuencias obtenidas y comparar el genoma construido con el de la secuencia de referencia del genoma humano. Cuando se detecta una variante, la comparación con el genoma de referencia permite localizar de forma precisa su posición y saber, por ejemplo, si el cambio se ha detectado en otras personas o si está asociado a una patología concreta.
La última versión del genoma de referencia humano, GRCh38 (hg38), fue publicada hace más de siete años. No obstante, algunas herramientas bioinformáticas y bases de datos siguen adaptadas a la versión anterior, GRCh37 (hg19). Esta situación es conocida por los investigadores y profesionales que analizan genomas de pacientes o voluntarios en un contexto clínico o de investigación. Sin embargo, hasta el momento no se había evaluado en detalle las diferencias entre ambas versiones ni el impacto que podían tener en la interpretación de los resultados.
Un equipo de investigadores del Baylor College of Medicine ha abordado la cuantificación de las diferencias que derivan de utilizar un genoma de referencia u otro. Los investigadores han analizado 1572 exomas bajo la consideración de los dos genomas de referencia y han identificado 206 genes donde hay un enriquecimiento de variantes discordantes entre ambas versiones.
En la mayoría de las regiones del ADN consideradas, el equipo no ha detectado un gran impacto del genoma de referencia utilizado. Por ejemplo, ninguno de los genes recomendados por el Colegio Americano de Genética Médica para ser analizados como resultados secundarios de interés está afectado. No obstante, los investigadores han encontrado que un 1.5% de las variantes en un único nucleótido y un 2% de las pequeñas inserciones o deleciones de nucleótidos eran discordantes al considerar un genoma de referencia u otro. Estas discrepancias se encuentran enriquecidas en 206 genes, 8 de ellos relacionados con enfermedades raras mendelianas y 53 asociados a rasgos comunes evaluados en estudios de asociación de genoma completo.
Los resultados obtenidos son relevantes en la interpretación de los datos de secuenciación de genomas humanos, ya que, para las regiones y genes afectados, los investigadores y clínicos deberán considerar bien qué versión del genoma de referencia han utilizado. Algo parecido a lo que ya se hace, pero con el conocimiento de que hay unas regiones especialmente afectadas.
“Está claro que lo óptimo para no perder información a día de hoy es procesar la secuenciación de exoma con el GRCh38, pero sí es cierto que aún quedan herramientas in silico y bases de datos que funcionan únicamente con el GRCh37”, destaca Ana Sánchez, investigadora postdoctoral en el Laboratorio de Enfermedades Raras Neurodegenerativas del Instituto de Investigación Príncipe Felipe. “De todas formas, la gente que habitualmente trabaje con genes ya previamente asociados a una patología cuya anotación haya sufrido cambios lo tendrán ya controlado, dado que hace más de 7 años de la última versión del genoma”, añade la investigadora.
El genoma de referencia GRCh38 (hg38) es una versión mejorada y más completa que la versión anterior disponible, GRCh37. “La diferencia principal entre ambas referencias es que en la GRCh38 se han conseguido ‘cerrar’ más regiones del genoma, sin haber llegado a ser completado aún`”, indica Ana Sánchez. “Esto ha supuesto una mejora sobre todo de regiones complejas (ricas en repetición etc.), para las que ya antes había ensamblajes alternativos no incluidos en el genoma principal”.
A pesar de su mayor precisión, los investigadores del Baylor College of Medicine han detectado que algunas variantes relacionadas con enfermedades, presentes en 6 genes, solo eran detectables a partir del ensamblaje basado en GRCh37. Los investigadores señalan que para regiones genómicas como las correspondientes a los genes del complejo mayor de histocompatibilidad, los investigadores pueden considerar mejor GRCh38. Pero para otros genes como CBS, implicado en la homocistinuria, la mayor parte de las variantes identificadas están presentes únicamente en el ensamblaje correspondiente a GRCh37.
A través de su trabajo, los investigadores del Baylor College of Medicine buscan facilitar la transición de GRCh37 a GRCh38. De momento, esta transición no es completa, pese a que la última versión del genoma de referencia se publicó hace más de siete años. “Una cosa es crear una referencia mejor y otra integrarla en la práctica útil”, señala Richard Gibbs, director el Centro de Secuenciación del Genoma humano, Profesor de Genética Molecular y Humana en el Baylor College of Medicine y uno de los directores del trabajo. “Algunos laboratorios se han mantenido indecisos a la hora de utilizar la nueva referencia, pero este estudio proporciona confirmación y guía para aquellos que están considerando dar este paso”.
Los resultados del trabajo confirman lo que ya se conocía. “De una versión a otra del genoma, la anotación de muchos genes ha cambiado porque el genoma “ha crecido”. (esto ya lo vemos nosotros en Ensembl cuando estamos filtrado exomas), y esto puede tener un impacto a nivel interpretación de variantes/clínica”, destaca Ana Sánchez. “Lo más relevante de estudio es que se cuantifican las diferencias entre ambas versiones. Conocer esta información podría ser especialmente interesante a la hora de reanalizar con la versión GRCh38 genomas que proporcionaron resultados negativos con la versión GRCh37” añade la investigadora.
Amparo Tolosa, Genotipia
Fuente: https://genotipia.com/genetica_medica_news/genoma-humano-de-referencia/