# RNNN - Ejercicio splicing para Entrega

__Ejercicio de redes neuronales para estudiar de secuencias de RNA__


In [1]:
import numpy as np
import pandas as pd
from IPython import display

Con las herramientas de sk-learn se reproducirá la red diseñada para el problema de RNA splicing por los autores:

M. O. Noordewier and G. G. Towell and J. W. Shavlik Training Knowledge-Based Neural Networks to Recognize Genes in DNA Sequences. Advances in Neural Information Processing Systems, vol. 3, Morgan Kaufmann (1991)

<img src="images/kbann-splicing.png" width="500px">

## Carga de datos a partir de CSV

Como el archivo no incluye los nombres de las columnas se asigna el nombre a partir de una lista con el parámetro __names__ de __read_csv__

Unnamed: 0,Class,Instance,Sequence
0,EI,ATRINS-DONOR-521,CCAGCTGCATCACAGGAGGCCAGCGAGCAGGTCTGTTCCAAGGGCC...
1,EI,ATRINS-DONOR-905,AGACCCGCCGGGAGGCGGAGGACCTGCAGGGTGAGCCCCACCGCCC...
2,EI,BABAPOE-DONOR-30,GAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCG...
3,EI,BABAPOE-DONOR-867,GGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTT...
4,EI,BABAPOE-DONOR-2817,GCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCC...


Todas las secuencias tienen 60 pares de bases. La primera columna (__Class__) indica la clase a la que pertenece la secuencia: EI para las que proporcionan un salto exon-intrón (donores); IE para las secuencias que contienen una frontera intron-exón (aceptores); N para aquellas secuencias que no son ni EI ni IE. 

La segunda columna (__Instance__) es una etiqueta para cada una de las instancias (filas), y la tercera columna da la __secuencia__ correspondiente en terminos del alfabeto A, T, C y G.

## Preproceso de las secuencias

Algunas de las secuencias tienen ambiguedad en determinadas posiciones, de forma que incluyen las letras D, N, S o R de acuerdo con la siguiente tabla:

| Letra | Significado |
| ----- | ------- |
| D | A o G o T |
| N | A o G o T o C |
| S | C o G |
| R | A o G |

Estos caracteres ambiguos aparecen en muy pocas instancias, así que se van a eliminar de los datos para simplificar el analisis. Primero se realiza un proceso de filtrado para saber cuantas secuencias quedan:

__Se borran las secuencias ambiguas como ya se vió en el ejercicio anterior__

### Primero se prepara la matriz X de los conjuntos de entranamiento y pruebas

Se separa la secuencia en 60 campos de un caracter identificando la base

2222 60 2222
953 60 953


((2222, 60), (953, 60))

## Efectuar el entrenamiento con el Perceptron multicapa (Multilayer perceptron - MLP)

La librería __sk-learn__ en el módulo __neural_network__ implementa el perceptron multicapa en la clas __MLPClassifier__.

Los parámetros del constructor de la clase __MLPClassifier__ son:
- __hidden_layer_sizes__ : Este parámetro permite establecer el número de capas y el número de nodos que se desean tener en el clasificador de redes neuronales. Cada elemento de la tupla representa el número de nodos en la i-ésima posición, donde i es el índice de la tupla. Por tanto, la longitud de la tupla denota el número total de capas ocultas en la red.
- __max_iter__ : número de épocas de entrenamiento.
- __activation__ : función de activación de las capas ocultas.
- __solver__ : algoritmo empleado en la optimización de los pesos de los nodos.
- __random_state__ : establece una semilla para reproducir los mismos resultados.

In [1]:
#len(X_train60[0]), np.unique(y_train), len(X_train60), len(y_train), len(X_test60), len(y_test)

In [11]:
# Creamos objeto con el constructor

In [12]:
## Entrenamiento de la red


  return f(**kwargs)


MLPClassifier(hidden_layer_sizes=(60, 240, 43, 3), max_iter=3000,
              random_state=1)

__Se presenta la exactitud del conjunto de entrenamiento y pruebas__

## Práctica con Pytorch. Opcionalmente con Google Colab

La práctica consistirá en realizar, al menos, una época de entrenamiento al conjunto de fotos de plantas con diversas patologias __PlantVillage__.

Se accederá al cuaderno que aparece en Moodle que se puede modificar reduciendo el tamaño de imagen para agilizar el proceso. El entrenamiento hay que realizarlo con el conjunto de 70.000 fotos que aparecen en la carpeta __train__ y la validación o bien con el conjunto de test __val__ de 10.000 fotos o con el conjunto abreviado de 380 fotos. Al dataset PlantVillage se accede en la siguiente carpeta compartida de Google Drive:


<a href="PlantVillage en Google Drive">https://drive.google.com/drive/folders/1bSkEQm7bAOzI09kbz0ltLnJjrerEmknG?usp=sharing</a>

Hay dos formas de trabajar:

* Se puede descargar de Google Drive la __carpeta en local__ y efectuar el proceso.
* Probar en Google Colab usando la carpeta, como compartida y creando un acceso directo en Drive. En Google Colab se puede activar el entorno de ejecución GPU.

Conseguida la ejecución dar unos __resultados de rendimiento__ con las opciones que se hayan probado. Utilizar una libreria que obtenga el tiempo de proceso y se pueda calcular el coste en minutos de la ejecución. El alumno entregará un cuaderno con la evidencia o un enlace a su Google Drive con la ejecución en Colab.

<img src="images/logo_googlecolab.png" width="150px">

<p><a href="https://githubtocolab.com/upmValeriano/notebook/blob/main/AA/05_07C_RRNN_Convoluciones_PlantVillage.ipynb" target="_blank">
<FONT SIZE=4>Abrir Cuaderno PlantVillage en Google Colab</font></a></p>