Procesamiento de lenguaje aplicado a proteínas#
En este capítulo se introduce la tecnología de los transformer en el contexto en el que surgió inicialmente, que es el uso en traductores de lenguaje. A continuación se describe la tecnología BERT, derivada de los transformer, y su uso para clasificar frases de texto. Y finalmente se traslada el modelo BERT para clasificar proteínas y el uso que se le puede dar a la abstracción de las incrustaciones generadas con los modelos pre-entrenado. En concreto se usan las incrustaciones para mejorar los clusters de proteínas.
Bibliografía#
Datos#
En este capítulo usaremos los datos engspn.csv
, IMDB Dataset.csv
y PFAM que puedes encontrar en Moodle.