Capítulo 23 Regressão Linear

Este capítulo está em desenvolvimento. Visite a página do projeto se tiver alguma sugestão, dúvida ou estiver disposto a colaborar. Sua opinião/ajuda é muito importante!

O modelo de regressão linear múltipla, aplicado a um conjunto de dados observados do solo, \(y(\boldsymbol{s})\), é formulado da seguinte maneira:

\[Y(\boldsymbol{s}) = Z(\boldsymbol{s}) + \varepsilon(\boldsymbol{s}) = \sum_{j = 0}^{p} \beta_{j}\cdot X_{j}(\boldsymbol{s}) + \varepsilon(\boldsymbol{s})\]

onde \(Z(\boldsymbol{s}) = \sum_{j = 0}^{p} \beta_{j}\cdot X_{j}(\boldsymbol{s})\) é o que chamamos de sinal do processo espacial responsável pela geração dos dados. Aqui, \(\beta_{j}\) são os coeficientes desconhecidos do modelo de regressão linear múltipla, os quais precisamos estimar utilizando as observações disponíveis, e \(X_{j}(\boldsymbol{s})\) são constantes conhecidas, ou seja, o valor de cada uma das covariáveis em cada uma das \(n\) observações do solo, onde \(j = 0, 1, 2, \ldots, p\), a variável \(p\) sendo o número de covariáveis. Para explicitar melhor a estrutura do modelo, a covariável \(X_0(\boldsymbol{s})\) é definida como sendo igual a 1 em todas as \(n\) observações do solo, o que significa que \(\beta_0\) é o intercepto do modelo de regressão linear múltipla. Por fim, \(\varepsilon(\boldsymbol{s})\) é um termo que representa o ruído resídual, ou seja, a parte não explicada da variância dos dados observados, \(y(\boldsymbol{s})\), compreendida como sendo uma variável aleatória cujos valores não são correlacionados espacialmente com valores vizinhos, e cuja
média, \(E\{\varepsilon(\boldsymbol{s})\} = 0\), e variância, \(Var\{\varepsilon(\boldsymbol{s})\} = \tau^2\), são constantes em toda a extensão do domínio espacial \(\mathscr{D}\). Em geostatística, \(\tau^2\) é frequentemente chamado de efeito pepita.