Calculadora de Regressão Linear Simples (Mínimos Quadrados)
A regressão linear simples modela a relação entre duas variáveis quantitativas — uma independente (X) e uma dependente (Y) — por meio de uma reta ŷ = mx + b, em que m é a inclinação (quanto Y muda para cada unidade de X) e b é o intercepto (valor esperado de Y quando X = 0). O método dos mínimos quadrados ordinários (MQO) encontra os coeficientes que minimizam a soma dos quadrados dos resíduos — as diferenças entre os valores observados e os preditos pela reta. O coeficiente de determinação R² (de 0 a 1) indica a proporção da variância de Y explicada por X: por exemplo, R² = 0,85 significa que o modelo linear explica 85% da variabilidade de Y. O método foi desenvolvido independentemente por Carl Friedrich Gauss (1809) e Adrien-Marie Legendre (1805) e continua sendo a base da estatística aplicada dois séculos depois. É amplamente usado em economia, epidemiologia, engenharia (curvas de calibração), finanças, ciências sociais e aprendizado de máquina (baseline antes de ridge/lasso/redes neurais). Quando usar esta calculadora: quantificar uma relação linear entre duas variáveis contínuas, projetar valores futuros com base em dados históricos, verificar associação linear antes de modelos mais complexos, ou reproduzir e conferir a equação de regressão gerada por softwares estatísticos. Para intervalos de confiança, testes de hipótese e diagnósticos de resíduos, use R, Python statsmodels ou SPSS.
A regressão linear simples ajusta a reta ŷ = mx + b pelo método dos mínimos quadrados ordinários (MQO). A fórmula da inclinação é m = [n·Σxy − Σx·Σy] / [n·Σx² − (Σx)²] e do intercepto é b = (Σy − m·Σx) / n. O R² mede a qualidade do ajuste: R² = 0,85 significa que X explica 85% da variância de Y. Exemplo: com X = (1, 2, 3) e Y = (2, 4, 5), obtém-se m = 1,500, b = 0,667 e R² ≈ 0,964.
Quando usar esta calculadora
- Estimar o preço de venda de um imóvel com base na área construída em m², usando dados históricos do mercado local.
- Projetar tendências do PIB ou da inflação a partir de séries temporais divulgadas pelo IBGE ou Banco Central do Brasil.
- Analisar a relação entre dose de um medicamento e resposta clínica em estudos farmacológicos ou ensaios clínicos.
- Calibrar sensores e instrumentos de medição, verificando a linearidade entre o valor real e o valor lido (exigência ABNT NBR ISO/IEC 17025 para laboratórios acreditados pelo INMETRO).
- Determinar a tendência de vendas mensais de um produto para apoiar decisões de estoque e planejamento financeiro.
- Modelar a relação entre horas de estudo e desempenho em provas, com aplicações em pesquisas educacionais.
- Estimar o consumo de energia elétrica (kWh) em função da temperatura ambiente para otimizar custos operacionais.
- Correlacionar investimento em marketing digital (R$) com o volume de leads gerados, medindo o retorno por real investido.
Exemplo resolvido
- X = 1, 2, 3, 4, 5 | Y = 2, 4, 5, 4, 5
- Σx=15, Σy=20, Σxy=63, Σx²=55, n=5
- m = (5·63 − 15·20) / (5·55 − 15²) = (315−300)/(275−225) = 15/50 = 0,300
- b = (20 − 0,3·15)/5 = (20−4,5)/5 = 3,100
- ŷ = 0,300x + 3,100, R² ≈ 0,375 (ajuste fraco a moderado)
Como funciona
4 min de leituraComo se calcula a regressão linear por mínimos quadrados
O MQO minimiza a função de custo:
Minimizar: S(m, b) = Σᵢ [yᵢ − (m·xᵢ + b)]²Derivando em relação a m e b e igualando a zero (equações normais), obtemos:
Dados n pares (x₁,y₁), …, (xₙ,yₙ):
─── Somas intermediárias ─────────────────────────────────────
Σx = x₁ + x₂ + … + xₙ
Σy = y₁ + y₂ + … + yₙ
Σxy = x₁y₁ + x₂y₂ + … + xₙyₙ
Σx² = x₁² + x₂² + … + xₙ²
x̄ = Σx / n
ȳ = Σy / n
─── Inclinação ─────────────────────────────────────────────────
m = [n·Σxy − Σx·Σy] / [n·Σx² − (Σx)²]
= Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²]
─── Intercepto ─────────────────────────────────────────────────
b = (Σy − m·Σx) / n = ȳ − m·x̄
─── Reta ajustada ──────────────────────────────────────────────
ŷ = m·x + b
─── Resíduos e R² ──────────────────────────────────────────────
eᵢ = yᵢ − ŷᵢ (resíduo do ponto i)
SQRes = Σeᵢ² (soma dos quadrados dos resíduos)
SQTot = Σ(yᵢ − ȳ)² (soma total dos quadrados)
R² = 1 − SQRes / SQTot (coeficiente de determinação)> Atenção: na regressão simples com um preditor, R² = r², onde r é o coeficiente de correlação de Pearson.
---
Tabela de referência do R²
| R² | Interpretação | Contexto típico |
|---|---|---|
| 0,00 – 0,19 | Muito fraco / negligível | Pesquisas sociais com dados ruidosos |
| 0,20 – 0,39 | Fraco | Biologia exploratória em fase inicial |
| 0,40 – 0,59 | Moderado | Modelos econômicos e de marketing |
| 0,60 – 0,79 | Satisfatório | Regressão clima vs. consumo de energia |
| 0,80 – 0,94 | Forte | Calibração de instrumentos laboratoriais |
| 0,95 – 1,00 | Muito forte / quase perfeito | Verificação de leis físicas |
Interpretação do |r| de Pearson:
| r | Força | ||
|---|---|---|---|
| 0,00 – 0,10 | Negligível | ||
| 0,10 – 0,39 | Fraca | ||
| 0,40 – 0,69 | Moderada | ||
| 0,70 – 0,89 | Forte | ||
| 0,90 – 1,00 | Muito forte |
---
Tabela de valores comuns
Exemplos de conjuntos de dados e seus parâmetros de regressão:
| X | Y | m | b | R² |
|---|---|---|---|---|
| 1, 2, 3 | 2, 4, 5 | 1,500 | 0,667 | 0,964 |
| 1, 2, 3, 4, 5 | 2, 4, 5, 4, 5 | 0,300 | 3,100 | 0,375 |
| 1, 2, 3, 4, 5 | 5, 4, 3, 2, 1 | −1,000 | 6,000 | 1,000 |
| 10, 20, 30, 40, 50 | 14, 17, 19, 22, 25 | 0,230 | 11,800 | 0,993 |
| 50, 70, 90, 110, 130 | 180, 240, 310, 370, 430 | 3,125 | 23,750 | 0,999 |
---
Casos típicos resolvidos
Caso 1 — Conjunto simples (3 pontos)
Dados: X = (1, 2, 3), Y = (2, 4, 5)
| i | xᵢ | yᵢ | xᵢ² | xᵢyᵢ |
|---|---|---|---|---|
| 1 | 1 | 2 | 1 | 2 |
| 2 | 2 | 4 | 4 | 8 |
| 3 | 3 | 5 | 9 | 15 |
| Σ | 6 | 11 | 14 | 25 |
m = (3·25 − 6·11) / (3·14 − 6²) = (75−66)/(42−36) = 9/6 = 1,5
b = (11 − 1,5·6) / 3 = 2/3 ≈ 0,667
ŷ = 1,5x + 0,667 → R² ≈ 0,9821Caso 2 — Preço vs. Área de imóveis (5 pontos)
| Área (m²) | Preço (R$ mil) |
|---|---|
| 50 | 180 |
| 70 | 240 |
| 90 | 310 |
| 110 | 370 |
| 130 | 430 |
m ≈ 3,125 (R$ mil por m² adicional)
b ≈ 23,75
ŷ = 3,125x + 23,75 → R² ≈ 0,9987
Para 100 m²: preço estimado ≈ R$ 336,25 milCaso 3 — Relação negativa (horas de TV vs. nota escolar)
X = (1, 2, 3, 4, 5), Y = (9, 8, 6, 5, 4)
m ≈ −1,3 (cada hora extra de TV reduz ≈1,3 pontos na nota)
b ≈ 10,3
ŷ = −1,3x + 10,3 → R² ≈ 0,9762---
Erros comuns
1. Extrapolar além do intervalo dos dados — a reta é válida apenas na faixa de X observada. Prever fora desse intervalo pode gerar resultados absurdos.
2. Confundir R² alto com causalidade — correlação forte não implica que X causa Y. Exemplo clássico: consumo de sorvete e afogamentos têm R² alto, mas ambos são causados pelo calor.
3. Inverter X e Y — a regressão de Y em X não é a mesma que a de X em Y. Defina claramente qual é a variável dependente antes de calcular.
4. Não verificar a linearidade — se a relação real for curvilínea, o modelo linear terá resíduos sistemáticos e R² artificialmente baixo. Visualize o diagrama de dispersão antes.
5. Usar regressão simples com múltiplos preditores relevantes — omitir variáveis explicativas importantes introduz viés nos coeficientes (viés de variável omitida).
6. Interpretar o intercepto b sem contexto — b é o valor esperado de Y quando X = 0, o que muitas vezes não tem sentido prático (ex.: peso de uma pessoa com altura = 0 cm).
---
Calculadoras relacionadas
Como este é um tema de matemática/estatística pura, complemente sua análise com outros recursos quantitativos disponíveis no site.
Perguntas frequentes
O que significa a inclinação m na prática?
A inclinação m indica quanto Y aumenta (ou diminui) em média para cada incremento unitário em X. Se m = 1,5 em um modelo que relaciona horas de estudo (X) e nota em prova (Y), significa que cada hora extra de estudo está associada a +1,5 ponto na nota. Se m for negativo, a relação é inversa: X cresce enquanto Y decresce. A inclinação tem unidades iguais a (unidade de Y) / (unidade de X).
O que significa um R² de 0,85?
R² = 0,85 significa que 85% da variância total de Y é explicada pela relação linear com X. Os 15% restantes correspondem a variações não explicadas — ruído de medição, variáveis omitidas ou efeitos não lineares. Segundo o e-Handbook do NIST/SEMATECH, R² ≥ 0,80 é considerado ajuste muito forte na maioria das áreas aplicadas. Porém, um R² alto não garante predições precisas se os resíduos apresentarem padrões sistemáticos — analise sempre o gráfico de resíduos.
Qual é a diferença entre R² e o coeficiente de correlação de Pearson (r)?
O coeficiente de Pearson r mede a direção e a intensidade da associação linear, variando de −1 a +1. O R² (coeficiente de determinação) é simplesmente r², sempre positivo e entre 0 e 1. Um r = −0,99 indica correlação negativa fortíssima, e R² = 0,98 significa que 98% da variância de Y é explicada por X — independentemente do sinal da relação. O sinal do relacionamento fica visível apenas em m (inclinação) ou em r, não em R².
Quantos pontos são necessários para uma regressão confiável?
Matematicamente, dois pontos já definem uma reta, mas sem nenhum grau de liberdade para estimar o erro (R² = 1 sempre). Em geral, recomenda-se no mínimo 20 a 30 observações para que os estimadores sejam estáveis e os intervalos de confiança tenham sentido. Em calibração laboratorial (ABNT NBR ISO/IEC 17025), usa-se ao menos 5 a 10 pontos distribuídos ao longo de toda a faixa de interesse. Para aprendizado de máquina e aplicações industriais, n ≥ 100 é o mínimo prático.
O que acontece se eu inverter X e Y na regressão?
A regressão de Y em X não é a mesma que a regressão de X em Y — exceto quando r = ±1. Se você ajustar ŷ = m·x + b e depois inverter, obterá coeficientes diferentes de uma regressão direta x = m'·y + b'. O MQO minimiza resíduos verticais (em Y) no primeiro caso e horizontais (em X) no segundo. Sempre defina claramente qual variável é a dependente (Y) antes de calcular.
Como calcular a regressão manualmente com poucos dados?
Monte uma tabela com colunas xᵢ, yᵢ, xᵢ², xᵢyᵢ e calcule as somas. Aplique: m = (n·Σxᵢyᵢ − Σxᵢ·Σyᵢ) / (n·Σxᵢ² − (Σxᵢ)²) e b = (Σyᵢ − m·Σxᵢ)/n. Para X=(1,2,3) e Y=(2,4,5): Σx=6, Σy=11, Σx²=14, Σxy=25, n=3 → m=1,5, b≈0,67. O R² = 1 − SQRes/SQTot, onde SQRes = Σ(yᵢ−ŷᵢ)².
Posso usar regressão linear para séries temporais do IBGE ou Banco Central?
Sim, mas com ressalvas. Séries temporais frequentemente apresentam autocorrelação nos resíduos (violação da premissa de independência dos erros), tornando os erros-padrão estimados por MQO inválidos. Para tendências de longo prazo (ex.: crescimento do PIB), a regressão linear simples dá uma boa aproximação inicial. Para previsões mais rigorosas, use modelos ARIMA, regressão com erros AR(1) ou modelos de espaço de estados.
Quais são as premissas do MQO (mínimos quadrados ordinários)?
O MQO requer quatro premissas clássicas (sigla LINE em inglês): (1) Linearidade — a relação verdadeira é linear nos parâmetros. (2) Independência — as observações não são correlacionadas entre si (violação crítica: autocorrelação em séries temporais). (3) Normalidade dos resíduos — os resíduos têm distribuição aproximadamente normal (importante para inferência, menos crítico para estimativas pontuais). (4) Homoscedasticidade — a variância dos resíduos é constante em todos os valores de X. Verifique via gráfico de resíduos, Q-Q plot, teste de Durbin-Watson (autocorrelação) e de Breusch-Pagan (heterocedasticidade).
O R² pode ser negativo?
Sim, tecnicamente. O R² pode ser negativo quando calculado para um modelo que não foi ajustado por MQO nos mesmos dados — por exemplo, ao impor uma inclinação fixa de conhecimento externo ou ao avaliar o modelo em um conjunto de teste com dados de treino diferentes. R² negativo significa que o modelo se ajusta pior do que simplesmente prever a média ȳ para todas as observações. Quando se usa as fórmulas padrão do MQO nos mesmos dados do ajuste, o R² é sempre entre 0 e 1 por construção matemática.
Quando devo usar transformações logarítmicas ou regressão polinomial?
Use transformações logarítmicas quando a relação for multiplicativa (elasticidades econômicas, dados que abrangem várias ordens de grandeza, ou quando a variância dos resíduos cresce com X). Transformações comuns: log Y em log X (modelo de elasticidade), log Y em X (crescimento exponencial), Y em log X (crescimento logarítmico). Use regressão polinomial (y = a + bx + cx² + …) quando o diagrama de dispersão mostrar curvatura clara que uma reta não consegue capturar. Limite o grau polinomial a 2 ou 3 para evitar oscilações selvagens nas bordas (fenômeno de Runge).
Qual é a diferença entre regressão simples e múltipla?
A regressão linear simples usa apenas um preditor (X): ŷ = mx + b. A regressão linear múltipla usa dois ou mais: ŷ = b₀ + b₁x₁ + b₂x₂ + … Adicionar mais preditores quase sempre aumenta o R², mesmo que as variáveis extras sejam irrelevantes — por isso usa-se o R² ajustado na regressão múltipla, que penaliza preditores desnecessários. A regressão múltipla também introduz multicolinearidade (preditores correlacionados entre si) e maior risco de superajuste quando o número de preditores se aproxima do número de observações.
Como validar o modelo após a regressão?
Verificações padrão pós-regressão: (1) Diagrama de dispersão — confirme visualmente que a relação parece linear e identifique outliers. (2) Gráfico de resíduos (resíduos vs. ŷ) — dispersão aleatória em torno de zero indica modelo adequado; padrões em U ou em funil indicam não-linearidade ou heterocedasticidade. (3) Q-Q plot dos resíduos — verifica a premissa de normalidade necessária para inferência. (4) Distância de Cook — identifica observações influentes que deslocam desproporcionalmente as estimativas. (5) Validação cruzada — divida os dados em treino/teste e compare os valores preditos vs. observados no conjunto de teste para estimar o erro de predição real.