import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
import pandas as pd

#Carga dataset
data = load_diabetes()
#Visualiza variables
print(data.feature_names)

#Formato de pandas
table_data = pd.DataFrame(data.data, columns=data.feature_names)
#Agregamos la clase a la tabla
table_data['Y'] = data.target

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

#Información del dataset
print(data.DESCR)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 10 feature variables have been mean centered and scaled by the standard deviation times the square root of `n_samples` (i.e. the sum of squares of each column totals 1).

Source URL:
https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

For more information see:
Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (with discussion), 407-499.
(https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

#Correlaciones lineales
table_data.corr()

#Valores de X para BMI
X_BMI = table_data[['bmi']].to_numpy()
#Valores de salida Y
Y = data.target

#Visualización
plt.scatter(X_BMI, Y)
plt.title('Dataset completo')
plt.ylabel('Y')
plt.xlabel('BMI')
plt.show()

#Separación de los datos
X_train, X_test, Y_train, Y_test = train_test_split(
    X_BMI, Y, test_size=0.3, random_state=123
)
#Número de datos
print('Datos de entrenamiento: {}\nDatos de evaluación: {}'.format(len(X_train), len(X_test)))

Datos de entrenamiento: 309
Datos de evaluación: 133

#Visualización datos de entrenamiento
plt.scatter(X_train,Y_train)
plt.title('Train dataset')
plt.show()

#Visualización datos de evaluación
plt.scatter(X_test,Y_test)
plt.title('Test dataset')
plt.show()

class LinearRegression(object):
    """Clase del modelo de regresión lineal"""
    def __init__(self):
        #Parámetros
        self.w = None
        self.b = None
        
    def predict(self, x):
        """Predicción del modelo"""
        f = np.dot(x,self.w) + self.b
        
        return f
        
    def fit(self, x,y):
        """Estimación de los parámetros"""
        #Se concatena una columna de 1's a X
        Xb = np.concatenate((x, np.ones((len(x),1))), axis=1)
        #XX^-1 
        term1 = np.linalg.inv(np.dot(Xb.T,Xb))
        #XY
        term2 = np.dot(Xb.T,y)
        #Vector solución
        w = np.dot(term1,term2)
        #Guarda parámetros
        self.w = w[:-1]
        self.b = w[-1]

#Creación del modelo
model = LinearRegression()
#Entrenamiento del modelo
model.fit(X_train,Y_train)

print('Valor de w: {}\nValor de b: {}'.format(model.w, model.b))

Valor de w: [958.96106016]
Valor de b: 153.34795164225764

#Visualización en datos de entrenamiento
plt.scatter(X_train, Y_train)
plt.plot(X_train, model.predict(X_train), color='r')
plt.title('Regression (train data)')
plt.show()

from sklearn.metrics import mean_squared_error, r2_score

#Predicción sobre datos de evaluación
y_pred = model.predict(X_test)
#Obtención de métricas
mse = mean_squared_error(Y_test, y_pred)
r2 = r2_score(Y_test, y_pred)

print('Error cuadrático medio: {}\nScore R2: {}'.format(mse,r2))

Error cuadrático medio: 4113.813814261837
Score R2: 0.3082201463223282

#Visualización en datos de evaluación
plt.scatter(X_test, Y_test)
plt.plot(X_test, model.predict(X_test), color='r')
plt.title('Regression (test data)')
plt.show()

# Separa los datos multi-dimensionales
X_train, X_test, Y_train, Y_test = train_test_split(
    data.data, Y, test_size=0.3, random_state=7772
)

print("Ejemplo de vector de entrada:\n{}".format(X_train[0]))

Ejemplo de vector de entrada:
[ 0.04170844  0.05068012  0.06169621 -0.04009893 -0.01395254  0.00620169
 -0.02867429 -0.00259226 -0.01495969  0.01134862]

#Crea el modelo
model_multi = LinearRegression()
#Entrena el modelo
model_multi.fit(X_train, Y_train)

print('Sesgo: {}'.format(model_multi.b))
pd.DataFrame(data=model_multi.w, index=data.feature_names, columns=['wi']).T

Sesgo: 156.14571327447828

from mpl_toolkits.mplot3d import Axes3D

#Visualización de dos variables
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.view_init(azim=240)
ax.scatter(table_data[['bmi']].to_numpy(), table_data[['s5']].to_numpy(), Y)
plt.title('Variables con correlación positiva')
plt.xlabel('bmi')
plt.ylabel('s5')
ax.set_zlabel('Y')
plt.show()

#Visualización de dos variables
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.view_init(azim=60)
ax.scatter(table_data[['s3']].to_numpy(), table_data[['s1']].to_numpy(), Y)
plt.title('Variables con correlación negativa')
plt.xlabel('s3')
plt.ylabel('s1')
ax.set_zlabel('Y')
plt.show()

#Predicción sobre datos de evaluación
y_pred = model_multi.predict(X_test)

#Métricas
MSE = mean_squared_error(Y_test, y_pred)
R2 = r2_score(Y_test, y_pred)

print('Error cuadrático: {}\nScore R2: {}'.format(MSE, R2))

Error cuadrático: 2976.8765392178
Score R2: 0.5189382469731116

	age	sex	bmi	bp	s1	s2	s3	s4	s5	s6	Y
age	1.000000	0.173737	0.185085	0.335428	0.260061	0.219243	-0.075181	0.203841	0.270774	0.301731	0.187889
sex	0.173737	1.000000	0.088161	0.241010	0.035277	0.142637	-0.379090	0.332115	0.149916	0.208133	0.043062
bmi	0.185085	0.088161	1.000000	0.395411	0.249777	0.261170	-0.366811	0.413807	0.446157	0.388680	0.586450
bp	0.335428	0.241010	0.395411	1.000000	0.242464	0.185548	-0.178762	0.257650	0.393480	0.390430	0.441482
s1	0.260061	0.035277	0.249777	0.242464	1.000000	0.896663	0.051519	0.542207	0.515503	0.325717	0.212022
s2	0.219243	0.142637	0.261170	0.185548	0.896663	1.000000	-0.196455	0.659817	0.318357	0.290600	0.174054
s3	-0.075181	-0.379090	-0.366811	-0.178762	0.051519	-0.196455	1.000000	-0.738493	-0.398577	-0.273697	-0.394789
s4	0.203841	0.332115	0.413807	0.257650	0.542207	0.659817	-0.738493	1.000000	0.617859	0.417212	0.430453
s5	0.270774	0.149916	0.446157	0.393480	0.515503	0.318357	-0.398577	0.617859	1.000000	0.464669	0.565883
s6	0.301731	0.208133	0.388680	0.390430	0.325717	0.290600	-0.273697	0.417212	0.464669	1.000000	0.382483
Y	0.187889	0.043062	0.586450	0.441482	0.212022	0.174054	-0.394789	0.430453	0.565883	0.382483	1.000000

Regresión lineal¶

Preparación de los datos¶

Estadísticas y visualización de los datos¶

Separación de los datos¶

Regresión lineal¶

Evaluación de los datos¶

Regresión lineal multi-variable¶

Evaluación¶