from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

class kNN():
    """
    Clase para el modelo de k-NN.
    """
    def __init__(self, k=1, p=2):
        #Núm de vecinos
        self.k = k
        #Métrica a utilizar
        self.metric = lambda u,v: sum([(u[i]-v[i])**p for i in range(len(u))])**(1/p)
        #Modelo de entrenamiento
        self.X = None
        self.Y = None
        self.n = 0
        
    def fit(self, X,Y):
        """
        Entrena la red guardando los datos de entrenamiento.
        """
        self.X = X
        self.Y = Y
        self.n = X.shape[0]
        
    def predict(self, x):
        """
        Función que predice la clase de un elemento.
        """
        #Guarda los puntos guardados y sus métricas con x
        results = []
        for j in range(self.n):
            #Calcula la cercanía
            close = self.metric(x,self.X[j])
            #Guarda las clases de los vecinos más cercanos
            results.append((close, self.Y[j]))
        
        #Considera sólo los k vecinos más cercanos
        knn = [neigh[1] for neigh in sorted(results)[:self.k]]
        #Cuenta las repeticiones de cada clase en los vecinos
        repetitions = Counter(knn)
        #Predice la clase más frecuente
        predicted_class = max(repetitions, key=repetitions.get) 
        
        return predicted_class
    
    def predict_proba(self, x):
        """
        Función para obtener la probabilidad de la clase dado x.
        """
        #Guarda los puntos guardados y sus métricas con x
        results = []
        for j in range(self.n):
            #Calcula la cercanía
            close = self.metric(x,self.X[j])
            #Guarda las clases de los vecinos más cercanos
            results.append((close, self.Y[j]))
        
        #Considera sólo los k vecinos más cercanos
        knn = [neigh[1] for neigh in sorted(results)[:self.k]]
        #Cuenta las repeticiones de cada clase en los vecinos
        repetitions = Counter(knn)
        #Guarda las probs.
        proba = {}
        for neigh, frec in repetitions.items():
            #Obtiene las probabilidades
            proba[neigh] = frec/self.k
        
        return proba

#Dataset de entrenamiento
X = np.array([[0,1], [0,0.7], [1,0], [1,0.3]])
y = [0, 0, 1, 1]

#Visualización
plt.scatter(X[:,0], X[:,1], c=y)
plt.show()

#Cargamos el modelo y lo entrenamos
knn = kNN(k=3, p=2)
knn.fit(X,y)

#Hacemos las predicciones
print(knn.predict([0.9,0.5]))
print(knn.predict_proba([0.9,0.5]))

1
{1: 0.6666666666666666, 0: 0.3333333333333333}

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Cargamos el dataset
X = load_iris().data
Y = load_iris().target

# separamos en train y test
x_train, x_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.3, random_state=123
)

#Cargamos y entrenamos el modelo
model = kNN(k=5, p=2)
model.fit(x_train, y_train)

#Obtenemos las clases que predice el modelo
y_pred = [model.predict(x) for x in x_test]
#Imprimimos la evaluación
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        18
           1       1.00      0.90      0.95        10
           2       0.94      1.00      0.97        17

    accuracy                           0.98        45
   macro avg       0.98      0.97      0.97        45
weighted avg       0.98      0.98      0.98        45

k-Nearest Neighbors¶

Un ejemplo sencillo¶

Un ejemplo más complejo¶