import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split

class MyDataset(Dataset):
    def __init__(self,file_name):
        #Carga del csv
        dataframe = pd.read_csv(file_name, index_col=0)
        #Datos y clases
        x = dataframe.iloc[:,:-1].values
        y = dataframe.iloc[:,-1].values
        self.x = torch.tensor(x, dtype=torch.float)
        self.y = torch.tensor(y, dtype=torch.long)
        #Tamaño de los datos
        self.size = self.x.size()

    def __len__(self):
        #Regresa tamaño
        return len(self.y)

    def __getitem__(self,idx):
        #Regresa un dato
        return self.x[idx], self.y[idx]


#Carga de datos
data = MyDataset('dataset.csv')


#Imprime tamaño de datos
print(data.size)
#Regresa el dato indicado
print(data[0])

torch.Size([569, 30])
(tensor([1.7990e+01, 1.0380e+01, 1.2280e+02, 1.0010e+03, 1.1840e-01, 2.7760e-01,
        3.0010e-01, 1.4710e-01, 2.4190e-01, 7.8710e-02, 1.0950e+00, 9.0530e-01,
        8.5890e+00, 1.5340e+02, 6.3990e-03, 4.9040e-02, 5.3730e-02, 1.5870e-02,
        3.0030e-02, 6.1930e-03, 2.5380e+01, 1.7330e+01, 1.8460e+02, 2.0190e+03,
        1.6220e-01, 6.6560e-01, 7.1190e-01, 2.6540e-01, 4.6010e-01, 1.1890e-01]), tensor(0))


#Cargador de datos con mini-lotes
loader = DataLoader(data, batch_size=64, shuffle=True)

print(loader.dataset[0])

(tensor([1.7990e+01, 1.0380e+01, 1.2280e+02, 1.0010e+03, 1.1840e-01, 2.7760e-01,
        3.0010e-01, 1.4710e-01, 2.4190e-01, 7.8710e-02, 1.0950e+00, 9.0530e-01,
        8.5890e+00, 1.5340e+02, 6.3990e-03, 4.9040e-02, 5.3730e-02, 1.5870e-02,
        3.0030e-02, 6.1930e-03, 2.5380e+01, 1.7330e+01, 1.8460e+02, 2.0190e+03,
        1.6220e-01, 6.6560e-01, 7.1190e-01, 2.6540e-01, 4.6010e-01, 1.1890e-01]), tensor(0))


for x_batch, y_batch in loader:
    print('Tamaño de lote x e y: {}, {}'.format(x_batch.size(),y_batch.size()))

Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([64, 30]), torch.Size([64])
Tamaño de lote x e y: torch.Size([57, 30]), torch.Size([57])


%%time
import torch.nn as nn
from tqdm import tqdm

#Arquitectura de red
model = nn.Sequential(nn.Linear(data.size[1], 60), nn.Tanh(), nn.Linear(60, 2), nn.Softmax(1))
risk = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
#Entrenamiento con mini-lotes
for t in tqdm(range(0, 1000)):
    for x_batch, y_batch in loader:
        y_pred = model(x_batch)
        optimizer.zero_grad()
        loss = risk(y_pred, y_batch)
        loss.backward()
        optimizer.step()

100%|██████████| 1000/1000 [00:10<00:00, 99.15it/s]

CPU times: user 10.1 s, sys: 39.9 ms, total: 10.1 s
Wall time: 10.1 s


%%time
#Cargador de datos con mini-lotes
loader = DataLoader(data, batch_size=1, shuffle=True)

#Arquitectura de red
model = nn.Sequential(nn.Linear(data.size[1], 60), nn.Tanh(), nn.Linear(60, 2), nn.Softmax(1))
risk = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
#Entrenamiento con mini-lotes
for t in tqdm(range(0, 1000)):
    for x_batch, y_batch in loader:
        y_pred = model(x_batch)
        optimizer.zero_grad()
        loss = risk(y_pred, y_batch)
        loss.backward()
        optimizer.step()

100%|██████████| 1000/1000 [06:32<00:00,  2.55it/s]

CPU times: user 6min 32s, sys: 576 ms, total: 6min 32s
Wall time: 6min 32s

Cargadores de datos¶

Mini-lotes¶