Capítulo 24 Regressão Logística

Este capítulo está em desenvolvimento. Visite a página do projeto se tiver alguma sugestão, dúvida ou estiver disposto a colaborar. Sua opinião/ajuda é muito importante!

Até agora, este capítulo contou com contribuições na forma de conteúdo intelectual e/ou revisões relevantes das seguintes pessoas:

24.1 Introdução

Em diversas situações, estudamos uma propriedade do solo \(Y(\boldsymbol{s})\) que consiste numa variável aleatória de natureza categórica com dois ou mais níveis, especificamente, uma variável aleatória binomial, para o caso de dois níveis – \(k = 2\) – ou multinomial, quando houverem três ou mais níveis – \(k \geq 3\). Para uma variável aleatória categórica, todas as \(k\) categorias constituintes possuem probabilidade de ocorrência positiva em toda a extensão do domínio espacial \(\mathscr{D}\).

O modelo linear de probabilidade é dado por:

\[\pi_c(\boldsymbol{s}) = \sum_{j = 0}^{p} \beta_{c,j}\cdot X_{j}(\boldsymbol{s})\]

24.2 A função logit

O modelo de regressão logística quantifica a correlação entre as \(p\) covariáveis, qualitativas e/ou quantitativas, e a probabilidade de ocorrência de cada uma das \(k\) categorias da variável dependente. Para isso, o modelo de regressão logística usa como função de ligação a função logit:

\[\text{logit}_c(\boldsymbol{s}) = \log\frac{\pi_c(\boldsymbol{s})}{\pi_k(\boldsymbol{s})} = \sum_{j = 0}^{p} \beta_{c,j}\cdot X_{j}(\boldsymbol{s})\]

onde \(c = 1, \ldots, k – 1\), \(\text{logit}_c(\boldsymbol{s})\) é o logaritmo natural da razão entre a probabilidade \(\pi_c(\boldsymbol{s})\) de uma dada observação do solo pertencer à \(c\)-ésima categoria, condicionada aos valores das variáveis preditoras \(X_{j}(\boldsymbol{s})\), e a probabilidade \(\pi_k(\boldsymbol{s})\) daquela observação do solo pertencer à categoria \(k\) tomada como referência. \(\beta_{c,j}\) é um vetor com os coeficientes ajustados para cada uma das \(p\) variáveis preditoras.