A Geometria da Regressão Linear
Resumo
A regressão linear é um tema normalmente explorado (nas escolas) com recurso a uma calculadora científica gráfica ou software da moda (GeoGebra, por exemplo), ficando os estudantes com a tarefa aborrecida de introduzir números em listas e obter, como recompensa, uma equação que utilizam para fazer previsões num dado contexto. O que aqui se trata é de mostrar o grande valor didático deste problema, mobilizando conhecimentos que os alunos detêm para aclarar, do ponto de vista geométrico, o que está em causa em todo este processo que decorre nos “bastidores” da tecnologia.
1 A geometria do problema
O problema que consiste na determinação da recta que melhor se ajusta a uma dada nuvem de pontos é tradicionalmente tratado como o problema de encontrar os parâmetros e da equação que minimizam a soma , em que os são as diferenças entre os valores observados e os valores do modelo, isto é, (veja-se [3]).
Sejam os dados observados (nuvem de pontos na Figura 1). Para a determinação do parâmetro (declive da recta), seria “simpático” que a nuvem tivesse o seu centro de massa na origem do referencial, isto é, no ponto de coordenadas . Isto porque libertar-nos-íamos do parâmetro da equação da recta, o que parece reduzir a dificuldade do problema, pois, nesta condições, o modelo associado à recta de regressão seria . Para fazer com que o centro de massa da nuvem se desloque para a origem, é suficiente efectuarmos uma translação de toda a nuvem de pontos segundo o vector , ou seja, basta subtrairmos o centro de massa a todos os pontos da nuvem. Obtém-se assim uma nova nuvem de pontos da forma cujo centro de massa é .
Fazendo e , a nuvem sobre a qual o trabalho prossegue será , com , cuja recta de regressão tem o mesmo declive que a recta de regressão da nuvem original, em consequência da translação efetuada.

A nova nuvem é constituída por pontos da forma e os pontos da forma , , são os pontos sobre a recta , que coincidiriam com os primeiros caso a correlação fosse perfeita. Os vectores determinados por estes pontos são colineares. Mas aqui, uma mudança de dimensão vai tornar o trabalho mais simples: em vez de considerarmos estes vectores de dimensão 2, utilizamos os dados organizados em vectores de dimensão :
Os vectores e são colineares:
(1) |
Para além do mais, o escalar em (1) é precisamente o declive da recta procurada! Assim, determinar será equivalente a determinar (algo sobre) , agora num espaço de dimensão 111Veja o Apêndice no final do artigo para melhor clarificação. .
units < 0.9mm, 0.9mm> \setplotareax from 0 to 55, y from 0 to 35 \arrow< 3mm> [ .2679492, .7279404] from 0 0 to 55 0 \arrow< 3mm> [ .2679492, .7279404] from 0 0 to 36.86184 25.81094 \arrow< 3mm> [ .2679492, .7279404] from 0 0 to 36.86184 0 \arrow< 3mm> [ .2679492, .7279404] from 36.86184 0 to 36.86184 25.81094 \circulararc35 degrees from 8 0 center at 0 0
Repare-se que não é mais do que o vector dos resíduos, isto é, o vector cujas componentes são as diferenças entre os dados observados e os dados teóricos da nova nuvem. Ora, o que se pretende é que a norma (ou distância) seja mínima. Isto só acontecerá se for normal a (como sugere a figura 2). Para que tal aconteça, tem de ser a projecção de sobre . Logo, o produto escalar de com tem de ser nulo, retirando-se desta condição o valor do multiplicador , declive da recta de regressão:
(2) |
Depois de se calcular através de (1), a determinação do parâmetro é um simples exercício: dado que pertence à recta procurada, ele terá de satisfazer a condição . Daqui se retira que .
2 Exemplos de aplicação
Exemplo 1
Vejamos a aplicação destes resultados a um exercício típico de um manual escolar.
Existirá alguma relação entre a temperatura e a quantidade de chuva que cai em Amarante? Para responder a esta pergunta vamos comparar num gráfico de dispersão as temperaturas médias (ºC) dos vários meses do ano com a pluviosidade média (mm).
Temperatura | Pluviosidade |
---|---|
11.3 | 122 |
12.0 | 108 |
13.5 | 101 |
15.2 | 54 |
17.6 | 44 |
20.0 | 22 |
22.2 | 4 |
22.5 | 6 |
21.3 | 29 |
18.3 | 80 |
14.2 | 102 |
11.6 | 107 |
Temperatura | Pluviosidade |
---|---|
-5.3417 | 57.0833 |
-4.6417 | 43.0833 |
-3.1417 | 36.0833 |
-1.4417 | -10.917 |
0.9583 | -20.9167 |
3.3583 | -42.9167 |
5.5583 | -60.9167 |
5.8583 | -58.9167 |
4.6583 | -35.9167 |
1.6583 | 15.08333 |
-2.4417 | 37.08333 |
-5.0417 | 42.08333 |
Neste exemplo, a tabela da esquerda é dada e a da direita foi calculada por nós. O centro de massa da nuvem de pontos é .
Os vectores e são as colunas da tabela da direita, depois de efectuada a translação da nuvem original: são vectores num espaço de dimensão 12.
De acordo com as conclusões da secção anterior, os parâmetros da equação da recta de regressão podem ser calculados do seguinte modo:
Assim, será a equação da recta de regressão e, com ela, podemos fazer estimativas no contexto do problema.
Note-se que o produto escalar de dois vectores de dimensão não é mais do que a soma dos produtos das correspondentes componentes desses vectores (uma generalização do que se faz para ou na disciplina de Matemática A no Ensino Secundário), ou seja, se e ,
Também a norma de um vector de dimensão é uma generalização da norma de vectores em 2 e 3 dimensões, isto é,
Assim, no presente exemplo, corresponde a efectuar a soma dos produtos dos elementos correspondentes de cada linha da tabela da direita.
Exemplo 2222Para quem quiser criar uma lição no Geogebra Classroom com este exemplo, seguir para https://www.geogebra.org/m/ncpffvne
Neste exemplo, aplicaremos os conceitos anteriores à construção de um modelo linear do número de infetados pelo novo coronavírus em função do tempo decorrido no período de 8 a 31 de maio. Aqui, o centro de massa é dado pelas coordenadas do ponto e os vetores e habitam um espaço de dimensão 24 (colunas da tabela da direita).
Nº de dias | Nº de infetados |
---|---|
67 | 27268 |
68 | 27406 |
69 | 27581 |
70 | 27679 |
71 | 27913 |
87 | 31596 |
88 | 31946 |
89 | 32203 |
90 | 32500 |
Nº de dias | Nº de infetados |
-11.5 | -2380.583 |
-10.5 | -2242.583 |
-9.5 | -2067.583 |
-8.5 | -1969.583 |
-7.5 | -1735.583 |
8.5 | 1947.417 |
9.5 | 2297.417 |
10.5 | 2554.417 |
11.5 | 2851.417 |
O produto escalar é (soma dos produtos dos elementos de cada linha da tabela da direita). O quadrado da norma do vector (quadrância de ) é .
![[Uncaptioned image]](https://cdn.awesomepapers.org/papers/3aff2c60-db23-4e8b-b20d-0d528f73074b/exemplo_covid_RevistaCC.png)
Assim, com e , obtemos a equação da reta mostrada na figura acima.
3 Coeficiente de correlação linear
O coeficiente de correlação é uma medida que pretende determinar o grau de alinhamento dos dados. Sobre ele costumam ser colocadas duas questões:
-
•
Por que razão varia no intervalo ?
-
•
Por que razão a correlação entre as variáveis é tanto mais forte quanto mais próximo de ou de se encontra o coeficiente? Não seria razoável pensarmos que quanto mais próximo de zero mais forte será a correlação, uma vez que ele mede o grau de proximidade dos dados em relação à recta?!
Repare-se que o coeficiente de correlação, sendo uma medida do alinhamento dos dados, deve estar relacionado com o “grau de colinearidade” entre os vectores e , referentes aos dados transladados 333A correlação não depende da nuvem que se considera, uma vez que a operação de translação efectuada à nuvem inicial garante a manutenção das relações entre os dados observados e os teóricos.. E uma forma natural de medir este “grau de colinearidade” é estudar o ângulo que e formam entre si (ver figura 2).444Em tudo o que se segue pode-se substituir a unidade grau por rad Assim, poderia ser usado com legitimidade como medida do grau de alinhamento dos dados, ou seja, como coeficiente de correlação. O diagrama da figura 3 resume a variação deste coeficiente de correlação.
units < .3333333mm, .3333333mm> \setplotareax from -20 to 200, y from -15 to 98 \circulararc180 degrees from 150 0 center at 90 0 \plot168 0 12 -0.00000682 / \circulararc-20 degrees from 155.7785 23.94141 center at 90 0 \arrow<1.5mm> [0.5, 1] from 159.9929 .9999856 to 160 0 \circulararc20.00001 degrees from 24.22152 23.94142 center at 90 0 \arrow<1.5mm> [0.5, 1] from 20.00714 .9999839 to 20 -0.00000612 \circulararc23 degrees from 119.5833 63.44155 center at 90 0 \arrow<1.5mm> [0.5, 1] from 93.44209 69.91532 to 92.44296 69.95736 \circulararc-23.00001 degrees from 60.41672 63.44154 center at 90 0 \arrow<1.5mm> [0.5, 1] from 86.55791 69.91532 to 87.55704 69.95736 \setdashes\plot90 0 163.296 26.67757 / \putrulefrom 90 0 to 90 78 \plot90 0 16.70398 26.67758 /
Visto que pode ser obtido através de
(3) |
No exemplo 1 da secção anterior, o coeficiente de correlação é
e no segundo exemplo, (Muito forte, positiva?).
No entanto, na literatura sobre o assunto, é convenientemente substituído pelo seu cosseno (porquê?), e assim se compreende a sua variação tal como encontramos nos manuais:
Uma fórmula que normalmente acompanha os manuais para determinar o valor do coeficiente de correlação, , é
(4) |
Sendo (4) equivalente a
fica estabelecida a igualdade
4 Apêndice
A interpretação geométrica que se explora neste texto tem como elemento essencial a translação da nuvem de pontos original para uma nuvem de pontos com centro de massa na origem do referencial. Esta operação faz com que as seguintes condições se verifiquem
Reescrevendo-as, ficamos com
e | |||
que, do ponto de vista geométrico, permitem afirmar que os vectores e (e, consequentemente, ) são perpendiculares ao vector unitário . Assim, , e habitam o hiperplano de dimensão , normal ao vector unitário . Este facto não altera a argumentação seguida pois no hiperplano de dimensão continuamos a querer reduzir ao mínimo a norma de e a condição continua a ser a ortogonalidade deste vector a . No caso em que a amostra observada é constituída apenas por dois pontos, , e são colineares e a correlação é perfeita, como seria de esperar555Para a situação em que , pode manipular e descarregar a animação GeoGebra em
https://www.geogebra.org/m/muxygsbz.
5 Conclusão
Ao longo dos anos, o tema da regressão linear tem sido tratado nas nossas escolas, quase exclusivamente, como uma manipulação de fórmulas, à qual a tecnologia veio retirar algum desse desprazer salvando, por um lado, os alunos dos cálculos fastidiosos, mas atirando-os, por outro, para uma cegueira determinada pela calculadora gráfica. O que aqui se quis mostrar foi que essas abordagens tradicionais ao tema podem, com enormes vantagens, serem substituídas por uma abordagem geométrica sólida, coerente e palpável, em que a única novidade (mas não surpresa) reside na generalização de conceitos de geometria analítica a espaços de dimensão superior a três. Para além disso, abre também espaço à compreensão dos “bastidores” da calculadora gráfica, permitindo que os alunos olhem para ela como uma biblioteca de algoritmos que podem compreender e até criar.
Referências
-
[1]
Steve Simon
http://www.pmean.com/10/LeastSquares.html, visualizado em 15.08.2019. - [2] José Martínez Salas. Elementos de Matematicas, 6.ª edición, págs 177-190.
- [3] Helena Ribeiro, Maria Alice Martins, Rui Santos. A regressão linear simples no ensino secundário. Gazeta de Matemática da SPM, nº 168, pág. nº 42, Novembro 2012.