import matplotlib.pyplot as plt
from sklearn.datasets import load_sample_images
from sklearn.manifold import TSNE
from scipy.ndimage import rotate
import numpy as np


def plot_images(images, num=2):
    """Visualización de imagenes"""
    _, axes = plt.subplots(nrows=1, ncols=num, figsize=(10, 3))
    for ax, image in zip(axes, images):
        #ax.set_axis_off()
        ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")


#Definimos imágen de X
img_x = np.array([[-1,-1,-1,-1,-1,-1,-1,-1, -1],[-1, 1,-1,-1,-1,-1, -1, 1, -1],[-1,-1, 1,-1,-1, -1, 1, -1, -1],
                [-1,-1,-1, 1, -1, 1,-1,-1, -1],[-1,-1, -1,-1, 1, -1,-1,-1, -1],[-1, -1,-1, 1,-1, 1, -1,-1, -1],
                [-1,-1, 1,-1,-1,-1, 1,-1, -1],[-1, 1,-1,-1,-1,-1,-1, 1, -1], [-1, -1,-1,-1,-1,-1,-1, -1, -1]])

plt.imshow(img_x, cmap='Greys')
plt.show()


def translate(image, t=(1,1)):
    """Función de translación de la imagen"""
    tx,ty = t
    N,M = image.shape
    image_translated = -np.ones_like(image)
    image_translated[max(tx,0):M+min(tx,0), max(ty,0):N+min(ty,0)]=image[-min(tx,0):M-max(tx,0),-min(ty,0):N-max(ty,0)]  
    
    return image_translated


#Aplicamos la traslación
tr_img = translate(img_x, t=(1, 1))

plot_images([img_x, tr_img])
plt.show()


#Información de la diagonal
diag1 = np.array([[1,-1,-1],[-1,1,-1],[-1,-1,1]])
#Información del centro de la imagen
cent = np.array([[1,-1,1],[-1,1,-1],[1,-1,1]])
#Inofrmación de la diagonal contraria
diag2 = np.array([[-1,-1,1],[-1,1,-1],[1,-1,-1]])

plot_images([diag1, cent, diag2], num=3)
plt.show()


def calculate_target_size(img_size, kernel_size):
    """
    Función que calcula las dimensiones de 
    la imagen resultante de la convolución
    """
    num_pixels = 0
    for i in range(img_size):
        #i + tamaño de kernel
        added = i + kernel_size
        #Debe ser menor al tamaño de la imagen
        if added <= img_size:
            #Incrementa en 1
            num_pixels += 1
            
    return num_pixels

def convolve(img, kernel):
    """Función de convolución (cross correlation)"""
    #Obtieene el tamaño del target, la imagen que resultará de la convolución
    tgt_size = calculate_target_size(img.shape[0], kernel.shape[0])
    #Tamaño del kernel
    k = kernel.shape[0]
    
    #Inicializa la convolución con 0s
    convolved_img = np.zeros(shape=(tgt_size, tgt_size))
    for i in range(tgt_size):
        for j in range(tgt_size):
            #Vecinos de un pixel con respecto al tamaño del kernel
            neigs = img[i:i+k, j:j+k]            
            # Aplica la convolución
            convolved_img[i, j] = np.sum(neigs*kernel)
            
    return convolved_img


#Función relu
ReLU = lambda x: np.array([np.max([0,c]) for c in x.reshape(x.shape[0]*x.shape[1])]).reshape(x.shape[0],x.shape[1])


diag1_conv_x = ReLU( convolve(img_x, diag1) )
diag2_conv_x = ReLU( convolve(img_x, diag2) )
cent_conv_x = ReLU( convolve(img_x, cent) )

plot_images([diag1_conv_x, cent_conv_x, diag2_conv_x], num=3)


diag1_conv_Tx = ReLU( convolve(tr_img, diag1) )
diag2_conv_Tx = ReLU( convolve(tr_img, diag2) )
cent_conv_Tx = ReLU( convolve(tr_img, cent) )

plot_images([diag1_conv_Tx, cent_conv_Tx, diag2_conv_Tx], num=3)


def max_pooling(img, size=(2,2)):
    """Max pooling"""
    M, N = img.shape
    K, L = size
    MK = M // K
    NL = N // L
    
    return img[:MK*K, :NL*L].reshape(MK, K, NL, L).max(axis=(1, 3))


#Max pooling sobre imagen original
pool_x_d1 = max_pooling(diag1_conv_x)
pool_x_d2 = max_pooling(diag2_conv_x)
pool_x_c = max_pooling(cent_conv_x)
#Max pooling sobre imagen trasladada
pool_Tx_d1 = max_pooling(diag1_conv_Tx)
pool_Tx_d2 = max_pooling(diag2_conv_Tx)
pool_Tx_c = max_pooling(cent_conv_Tx)

plot_images([pool_x_d1, pool_x_c, pool_x_d2], num=3)
plot_images([pool_Tx_d1, pool_Tx_c, pool_Tx_d2], num=3)


#Imágene muestra
images = load_sample_images()        
plot_images(images.images)


#Filtro sharpen
sharpen = np.array([
    [0, -1, 0],
    [-1, 5, -1],
    [0, -1, 0]
])

#Filtro Blur
blur = np.array([
    [0.0625, 0.125, 0.0625],
    [0.125,  0.25,  0.125],
    [0.0625, 0.125, 0.0625]
])

#Filtro outline
outline = np.array([
    [-1, -1, -1],
    [-1,  8, -1],
    [-1, -1, -1]
])

#Filtro convolución
conv = np.array([
    [1, 0, -1],
    [2,  0, -2],
    [1, 0, -1]
])

plot_images([sharpen, blur, outline, conv], num=4)


#Convolución con kernel
img_conv = convolve(images.images[0], outline)
#Aplicando ReLU
x = ReLU(img_conv)
#Aplicando max pool
h = max_pooling(x, size=(2,2))

plot_images([img_conv, x, h], num=3)


import torch
import torch.nn as nn
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from tqdm import tqdm


#Cargar dataset
x = load_digits().images
y = load_digits().target
#Núm de clases:
n = len(set(y))

#Separar datasets
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.3)
#Dimensiones de dataset
N, H, W = x_train.shape


#Definimos la red feedforward
ffw = nn.Sequential(nn.Linear(H*W, 128), nn.ReLU(), nn.Linear(128, 254), nn.Tanh(), 
                    nn.Linear(254, n), nn.Softmax(1))

#De matriz de imagen a vector
x_simple = torch.Tensor(x_train.reshape(N, H*W))

#Entrenamiento
optimizer = torch.optim.Adam(ffw.parameters(), lr=0.1)
criterion = torch.nn.CrossEntropyLoss()
epochs = 1000
for t in tqdm(range(epochs)):
    prob = ffw(x_simple)
    loss = criterion(input=prob, target=torch.tensor(y_train))
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

100%|██████████| 1000/1000 [00:03<00:00, 253.48it/s]


y_pred = ffw(torch.Tensor(x_test.reshape(x_test.shape[0],H*W))).argmax(axis=1)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.00      0.00      0.00        49
           1       0.00      0.00      0.00        54
           2       0.00      0.00      0.00        55
           3       0.00      0.00      0.00        51
           4       0.00      0.00      0.00        60
           5       0.00      0.00      0.00        55
           6       0.00      0.00      0.00        51
           7       0.00      0.00      0.00        55
           8       0.00      0.00      0.00        45
           9       0.12      1.00      0.21        65

    accuracy                           0.12       540
   macro avg       0.01      0.10      0.02       540
weighted avg       0.01      0.12      0.03       540

/home/mijangos/.local/lib/python3.8/site-packages/sklearn/metrics/_classification.py:1221: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.
  _warn_prf(average, modifier, msg_start, len(result))


class ConvNet(nn.Module):
    def __init__(self, in_channels=1, out_channels=1, kernel=2, classes=2):
        super().__init__()
        #Capa convolucional
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=kernel, stride=1, padding=1)
        #Max-pooling
        self.maxpool = nn.MaxPool2d(kernel_size=2, stride=2)
        #Feedforward de salida
        self.hidden = nn.Sequential(nn.Linear(4*4*out_channels, 128), nn.Tanh())
        self.ffw = nn.Sequential(nn.Linear(128, classes), nn.Softmax(1))
        #Guarda las representaciones
        self.convolved = None
        self.h = None
        
    def forward(self,x):
        #Aplica convolución
        self.convolved = self.conv(x)
        #Aplica ReLU
        h = self.convolved.relu()
        #Max-pooling
        h = self.maxpool(self.convolved)
        #Reshape
        h = h.view(h.size(0), -1)
        #Capa oculta feedforward
        self.h = self.hidden(h)
        #Salida
        out = self.ffw(self.h)
        
        return out


#Reshapea los datos para que los tome la red
x_input = torch.Tensor(x_train.reshape(N,1,H,W))


#Modelo
model = ConvNet(classes=n)

#Resultados del modelo
conv_x = model(x_input)
conv_x.shape

torch.Size([1257, 10])


optimizer = torch.optim.Adam(model.parameters(), lr=0.1)
criterion = torch.nn.CrossEntropyLoss()

epochs = 1000

for t in tqdm(range(epochs)):
    prob = model(x_input)
    loss = criterion(input=prob, target=torch.tensor(y_train))
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

100%|██████████| 1000/1000 [00:03<00:00, 292.97it/s]


y_pred = model(torch.Tensor(x_test.reshape(x_test.shape[0],1,8,8))).argmax(axis=1)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.90      0.94      0.92        49
           1       0.75      0.70      0.72        54
           2       0.77      0.87      0.82        55
           3       0.80      0.80      0.80        51
           4       0.90      0.87      0.88        60
           5       0.89      0.85      0.87        55
           6       0.96      0.96      0.96        51
           7       0.92      0.84      0.88        55
           8       0.66      0.73      0.69        45
           9       0.84      0.82      0.83        65

    accuracy                           0.84       540
   macro avg       0.84      0.84      0.84       540
weighted avg       0.84      0.84      0.84       540


conv_learn = model.conv.weight.detach().numpy()[0][0]
plot_images([convolve(x_test[0],conv_learn),convolve(x_test[1],conv_learn),convolve(x_test[2],conv_learn)], num=3)


#Aplicación del modelo
model(x_input)
#Reducción de dimensionalidad
h = TSNE(3).fit_transform(model.h.detach().numpy())

#Ploteo
fig = plt.figure(figsize=(7,7))
ax = fig.add_subplot(projection='3d')
ax.scatter(h[:,0], h[:,1], h[:,2], c=y_train)
plt.title('Representaciones de la red convolucional')
plt.show()

Convolutional Neural Networks¶

Ejemplo de funcionamiento de convoluciones¶

Translaciones¶

Filtros¶

Convolución¶

Convolución sobre la imagen original¶

Convolución sobre imagen transladada¶

Max pooling¶

Ejemplo en imágenes más complejas¶

Otros kernels comúnes¶

Redes convolucionales¶

Preparación del dataset¶

Comparación con Feedforward¶

Evaluación de la Feedforward¶

Red convolucional¶

Entrenamiento¶

Evaluación¶