|
|
|
"""Regressao_california_housing.ipynb |
|
|
|
Automatically generated by Colaboratory. |
|
|
|
Original file is located at |
|
https://colab.research.google.com/drive/1scAuuquey_Jr4vD3oBLVzLHQ_Hd6VLJb |
|
|
|
# **Regressao california housing** |
|
|
|
Dados de habitação da Califórnia ou o conjunto de dados de habitação de Ames. |
|
|
|
Este conjunto de dados contém informações sobre habitação na Califórnia. Ele inclui atributos como a renda média, idade média da casa, número médio de quartos, número médio de ocupantes por casa, latitude e longitude. |
|
""" |
|
|
|
! pip install datasets |
|
|
|
|
|
import pandas as pd |
|
import numpy as np |
|
from sklearn.datasets import fetch_california_housing |
|
from sklearn.model_selection import train_test_split, cross_val_score |
|
from sklearn.linear_model import LinearRegression |
|
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score |
|
from sklearn.preprocessing import StandardScaler |
|
from sklearn.datasets import fetch_california_housing |
|
|
|
|
|
housing = fetch_california_housing() |
|
|
|
|
|
df = pd.DataFrame(housing.data, columns=housing.feature_names) |
|
df['target'] = housing.target |
|
|
|
df.head() |
|
|
|
|
|
scaler = StandardScaler() |
|
df[housing.feature_names] = scaler.fit_transform(df[housing.feature_names]) |
|
|
|
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.2, random_state=42) |
|
|
|
|
|
model = LinearRegression() |
|
model.fit(X_train, y_train) |
|
|
|
|
|
y_pred = model.predict(X_test) |
|
|
|
|
|
mse = mean_squared_error(y_test, y_pred) |
|
print(f'Erro Quadrático Médio: {mse}') |
|
|
|
"""Erro Quadrático Médio (MSE): O MSE é uma medida comum de erro de previsão que penaliza grandes erros mais do que pequenos erros. Seu valor é 0.5558915986952441, o que significa que, em média, as previsões do seu modelo estão cerca de 0.56 unidades distantes do valor real.""" |
|
|
|
|
|
mae = mean_absolute_error(y_test, y_pred) |
|
print(f'Erro Absoluto Médio: {mae}') |
|
|
|
"""Erro Absoluto Médio (MAE): O MAE é outra medida de erro de previsão que é menos sensível a grandes erros do que o MSE. Seu valor é 0.5332001304956565, o que significa que, em média, as previsões do seu modelo estão cerca de 0.53 unidades distantes do valor real.""" |
|
|
|
|
|
r2 = r2_score(y_test, y_pred) |
|
print(f'Coeficiente de Determinação (R^2): {r2}') |
|
|
|
"""Coeficiente de Determinação (R^2): O R^2 é uma medida de quão bem as previsões do seu modelo se ajustam aos dados reais. Seu valor é 0.575787706032451, o que significa que seu modelo explica cerca de 57.6% da variância na variável alvo.""" |
|
|
|
|
|
scores = cross_val_score(model, df.drop('target', axis=1), df['target'], cv=5, scoring='neg_mean_squared_error') |
|
avg_mse = np.mean(scores) |
|
print(f'Erro Quadrático Médio Médio da Validação Cruzada: {-avg_mse}') |
|
|
|
"""Erro Quadrático Médio Médio da Validação Cruzada: Este é o MSE médio calculado através da validação cruzada. Seu valor é 0.5582901717686553, o que é ligeiramente maior do que o MSE calculado no conjunto de teste. Isso sugere que seu modelo pode estar um pouco sobreajustado aos dados de treinamento.""" |
|
|
|
|
|
coefficients = pd.DataFrame(model.coef_, index=housing.feature_names, columns=['Coefficient']) |
|
print(coefficients) |
|
|
|
"""Os coeficientes do modelo de regressão linear representam a relação entre as características (ou variáveis independentes) e a variável alvo (ou variável dependente). |
|
|
|
* MedInc: Um aumento de uma unidade em MedInc está associado a um aumento de 0. |
|
852382 na variável alvo. Isso sugere que a renda média é um forte preditor positivo da variável alvo. |
|
* HouseAge: Um aumento de uma unidade em HouseAge está associado a um aumento de 0.122382 na variável alvo. Isso indica que a idade da casa tem uma relação positiva com a variável alvo, mas não tão forte quanto MedInc. |
|
* AveRooms: Um aumento de uma unidade em AveRooms está associado a uma diminuição de 0.305116 na variável alvo. Isso sugere que o número médio de quartos tem uma relação negativa com a variável alvo. |
|
* AveBedrms: Um aumento de uma unidade em AveBedrms está associado a um aumento de 0.371132 na variável alvo. Isso indica que o número médio de quartos tem uma relação positiva com a variável alvo. |
|
* Population: Um aumento de uma unidade em Population está associado a uma diminuição de 0.002298 na variável alvo. Isso sugere que a população tem uma relação negativa muito fraca com a variável alvo. |
|
* AveOccup: Um aumento de uma unidade em AveOccup está associado a uma diminuição de 0.036624 na variável alvo. Isso indica que a ocupação média tem uma relação negativa com a variável alvo. |
|
* Latitude: Um aumento de uma unidade em Latitude está associado a uma diminuição de 0.896635 na variável alvo. Isso sugere que a latitude tem uma forte relação negativa com a variável alvo. |
|
* Longitude: Um aumento de uma unidade em Longitude está associado a uma diminuição de 0.868927 na variável alvo. Isso indica que a longitude também tem uma forte relação negativa com a variável alvo. |
|
""" |
|
|
|
|
|
import pickle |
|
|
|
with open('model.pkl', 'wb') as file: |
|
pickle.dump(model, file) |