• Nenhum resultado encontrado

UTILIZAÇÃO DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DE PROVÁVEIS ÁREAS DE OCUPAÇÕES PRETÉRITAS

N/A
N/A
Protected

Academic year: 2021

Share "UTILIZAÇÃO DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DE PROVÁVEIS ÁREAS DE OCUPAÇÕES PRETÉRITAS"

Copied!
9
0
0

Texto

(1)

Í. Tsuchiya; V. M. Tachibana; N. N. Imai; R. C. C. Thomaz

UTILIZAÇÃO DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DE

PROVÁVEIS ÁREAS DE OCUPAÇÕES PRETÉRITAS

ÍTALO TSUCHIYA VILMA MAYUMI TACHIBANA

NILTON NOBUHIRO IMAI

ROSÂNGELA CUSTÓDIO CORTEZ THOMAZ Universidade Estadual Paulista - Unesp Faculdade de Ciências e Tecnologia - FCT Departamento de Cartografia, Presidente Prudente - SP

{italo, vilma, nnimai, rocortez}@prudente.unesp.br

RESUMO - O presente trabalho tem como referência o Projeto de Salvamento Arqueológico de Porto

Primavera, cujo objetivo foi resgatar, analisar e conservar os vestígios das antigas civilizações ribeirinhas do Rio Paraná. Uma das etapas de um projeto de salvamento é a prospecção, nela, o arqueólogo realiza a vistoria em toda a área de interesse à procura de indícios das habitações pretéritas, porém, essa etapa é demorada e onerosa. Com base na técnica de modelagem preditiva multivariada (regressão logística), aliada às ferramentas de Geoprocessamento, pudemos avaliar as prováveis áreas de ocupação pretérita, reduzindo assim, a etapa de prospecção. Como resultado temos um mapa de classes, com as probabilidades de ocorrência de sítios arqueológicos utilizando o método de regressão logística.

ABSTRACT – The source of this work is the Porto Primavera Archaeological Rescue Project, whose

objective was to rescue, to analyze and to preserve the vestiges of the old river side civilizations of the Paraná River. One of the stages of a rescue project when the archaeologists carries through the inspection of all areas of interest in order to search of marks past dwellings, however, this stage is slow and onerous. On the basis of technique of multivariate predictive modeling (logistic regression), joined to the tools of Geographical Information System, we could evaluate the probable areas of past occupation, so that it is reduce the stage of prospect. As a result we have a map that shows the sites of probable occurrence of archaeological sites through logistic regression.

1 INTRODUÇÃO

Análise espacial de fenômenos geográficos são costumeiramente realizadas para auxiliar na compreensão desses fenômenos e, assim, reduzir tempo e custo em possíveis ações ou intervenções. No presente trabalho, realizou-se uma modelagem preditiva multivariada (regressão logística), aliada aos recursos de Geoprocessamento, para subsidiar e facilitar o planejamento da etapa de prospecção em Projetos de Salvamento Arqueológico.

No contexto da Arqueologia, os arqueólogos realizam um trabalho de verificação da existência de ocupações ou passagens de antigas civilizações: a etapa de prospecção. Esse processo é realizado pelos pesquisadores com base no conhecimento de como se comportavam essas populações, bem como a associação das variáveis ambientais (geomorfologia, geologia, vegetação, ...). Na prospecção, ocorre o caminhamento, por parte dos arqueólogos, em toda área a procura de vestígios ou materiais arqueológicos. Para Morais (1990), a prospecção é um processo inicial, determinado como reconhecimento da área, durante o qual são realizadas

missões de averiguação do terreno, com base em informações cartográficas, textos especializados e declarações da comunidade local. Nesse processo são demarcadas as áreas onde estão localizados os sítios e ocorrências arqueológicas. A verificação de sua existência no campo permite o seu posicionamento (determinação das coordenadas geográficas) e sua plotagem no material cartográfico existente. No decorrer desta verificação são, também, feitas coletas de material arqueológico comprobatório, com o objetivo de garantir o testemunho e possibilitar uma análise mais acurada em laboratório, da potencialidade em vistas de uma futura escavação do sítio.

Como visto acima, o processo de prospecção é demorado e oneroso, pois se trata de uma busca de materiais ou vestígios das habitações pré -históricas no campo. Assim sendo, propomos verificar a performance da análise espacial (regressão logística), em um modelo de dados geográficos do lago de inundação da UHE Sérgio Motta, para gerar um produto adequado à predição de locais mais propícios para encontrar indícios de antigas civilizações.

(2)

Este trabalho insere-se em um Projeto de Salvamento Arqueológico que busca representar espacialmente a relação entre o meio ambiente natural à possibilidade de uma posição territorial constituir um local que foi passagem ou habitação dos homens pré -históricos.

O trabalho utilizou, como área teste, uma região situada aproximadamente 800 km a oeste da cidade de São Paulo, mais precisamente nas margens do Rio Paraná (Cidade de Presidente Epitácio), as quais limitam os Estados de Mato Grosso e São Paulo.

A jusante deste ponto encontra -se a Usina Hidrelétrica de Porto Primavera (também conhecida como Sérgio Motta), cuja influência do lago, afetou, no sentido extensivo, mais a margem do Mato Grosso do que São Paulo, devido à conformação no terreno.

A concessão para utilização do potencial hidrelétrico dessa UHE é da Companhia de Energia de São Paulo (CESP), que de acordo com a nova legislação dos Estudos sobre Meio Ambiente, teve que realizar todo o levantamento da preservação da fauna, flora e patrimônios culturais nas áreas a serem afetadas pela formação do lago da UHE. Os indícios das antigas civilizações Tupiguaranis devem ser considerados como parte do patrimônio artístico e cultural, ou seja, a CESP foi obrigada a realizar o levantamento de todos os locais que foram passagem ou habitação dos homens pré -históricos. Esse tipo de trabalho é denominado como Arqueologia de Salvamento ou Contrato.

A Arqueologia de Contrato é realizada por meio de convênios, onde a empresa contratante oferece recursos financeiros para a equipe ou instituição para realizar o resgate das informações e dos materiais pré-históricos.

Segundo Caldarelli (1989), a exemplo do que ocorreu em outros países, a p esquisa arqueológica, levada a cabo no Brasil, é predominantemente realizada por contrato de prestação de serviços, no qual os arqueólogos elaboram pareceres técnicos, integrados ao Estudo de Impacto Ambiental (EIA) e ao Relatório de Impacto do Meio Ambiente (RIMA), diferenciando-se da Arqueologia Acadêmica, cujo objetivo é o crescimento teórico da Ciência.

Um Projeto de Salvamento Arqueológico divide-se nas etapas de campo e gabinete, sendo que na primeira são realizadas a prospecção (procura de indícios de habitações ou passagens) e a escavação (resgate de material). Na segunda parte são realizados a análise do material coletado e o arquivamento no acervo pré-histórico.

Para realizar uma avaliação de modelos preditivos baseados em Regressão Logística, foi implementada uma base de dados geográficos que representa o meio ambiente natural da área de estudo. As variáveis selecionadas, assim como a região de abrangência foi previamente definida no projeto mencionado.

Assim, apresenta-se o aspecto considerado fundamental da teoria sobre modelagem de dados geográficos e de regressão logística. Descrevendo os testes estatísticos mais utilizados na validação desses modelos. Os resultados da regressão logística, bem como

os testes de validação, são apresentados juntamente com um mapa preditivo de prováveis áreas de ocorrência arqueológica.

Espera-se com isso, contribuir para a otimização do processo de prospecção em futuros Projetos de Salvamento Arqueológico.

2. OBJETIVO

O objetivo deste trabalho é determinar parâmetros de um modelo matemático que represente a probabilidade de ocorrência de um evento de interesse (presença de sítios arqueológicos), baseado nas variáveis ambientais preditoras (geologia, geomorfologia, pedologia, altimetria, ...) e em algumas ocorrências arqueológicas (presença ou ausência de vestígios).

Para tal, foi realizado um estudo e uma aplicação nesse conjunto de observações e desenvolvido uma hipótese útil para explicar o padrão verificado, com implicações preditivas para as observações futuras. Esse tipo de modelo é dito como preditivo.

O foco principal está na aplicação da Regressão Logística utilizando as ferramentas de Geoprocessamento, dentro de uma área de inundação da UHE Sérgio Motta.

Todo o processo pode validar uma ferramenta de análise, para a geração de mapa com as prováveis áreas de ocupações pretéritas, reduzindo a etapa de prospecção.

3. ABORDAGEM ARQUEOLÓGICA

Nesse tópico, realizaremos uma descrição sobre Arqueologia, descrevendo a população que habitava a região de estudo, bem como seus costumes, tradições e tecnologias que empregavam para gerar utensílios do dia a dia. Esse entendimento é de suma importância, pois é utilizado para a modelagem dos dados.

Segundo Thomaz (2002) a região onde está inserido o módulo de estudo, assim como várias outras do território Nacional foram intensamente ocupadas no passado por grupos de caçadores -coletores e agricultores, principalmente da denominada Tradição Tupiguarani, fato esse constatado por meio das evidências arqueológicas em amplos programas de pesquisa, desenvolvidos pelas instituições afins. Esses dados são complementados por informações referentes à cultura, material indígena, transmitida pelos cronistas dos séc. XVI e XVII, e pelos relatos de viajantes naturalistas dos séc. XVIII e XIX.

Com base nas pesquisas de salvamento arqueológico realizado no Alto Paraná, Kashimoto (1997) observa que, em associação à marcante implantação ao longo dos cursos fluviais, os sítios apresentam material arqueológico tipicamente Guarani, dos quais se destacam líticos lascados e polidos como: raspadores, chopper, lascas retocadas, polidores de sulco, mão-de-pilão, lâminas de machado, tembetás (matéria-prima quartzo, sílex, arenito silicificado etc), bem como utensílios cerâmicos cujas decorações características são: corrugada,

(3)

Í. Tsuchiya; V. M. Tachibana; N. N. Imai; R. C. C. Thomaz Universo físico Universo matemático Universo de representação Universo implementação

ungulada incisa, com pintura policrômica, por vezes utilizadas no sepultamento humano (urnas funerárias).

As aldeias desses homens primitivos eram caracterizadas por famílias numerosas, compostas por até 7 gerações convivendo em uma mesma casa. Essas casas conhecidas como tapy’iguassu’ (cabana grande),

possuíam base quadrangular e cobertura de sapé até o chão, era uma construção sólida e resistente por muitos anos. Próximo a elas, além da roça instalada em clareiras nas matas, havia dentro do perímetro da aldeia, pomares, hortas interligadas por trilhas. O território de cada aldeia Guarani era pontilhado por roças e áreas de descanso, estas áreas em descanso eram reativadas após 10 ou 15 anos.

Com base nesse conhecimento aliado às ferramentas de análise espacial, foi realizada a modelagem da base de dados geográficos.

4. MODELAGEM DA BASE DE DADOS GEOGRÁFICOS

Na modelagem de um sistema de informação geográfica deve-se levar em consideração os componentes que os envolvem, não somente analisar qual programa utilizar, mas também ter a preocupação da integração das três componentes básicas: organizações, pessoas e a tecnologia, os quais resultam num trabalho coeso e eficiente.

A modelagem do universo geográfico trata dos níveis de abstração de uma realidade, ou seja, a idéia metafísica da realização de um projeto.

Neste trabalho adotou-se o paradigma dos quatro universos, do qual tratam Gomes e Velho (1995), Câmara (1996), Davis et. al. (2002).

Figura 01: Níveis conceituais de abstração (fonte: Gomes e Velho, 1995) A modelagem de um sistema de informação geográfica requer um conhecimento e uma habilidade prática com tecnologias de informação geográfica; uma compreensão de organizações e indivíduos, com uma perspectiva comportamental (relacionamento e funcionalidade) e uma compreensão ampla de como analisar e resolver problemas, como mostra a figura 02.

Figura 02: Temas centrais do conhecimento em Sistemas de Informação (Laudon, 1999).

Assim sendo, tratamos de uma técnica de projeto, que visa a análise dos processos inerentes para realização

de determinadas atividades, servindo para diversos objetivos, como Rumbaugh (1991) define:

- Testar uma entidade física antes de lhe dar a forma;

- comunicação com clientes (arqueólogos); - visualização e

- redução da complexidade.

No processo de modelagem são utilizadas definições sobre modelos espaciais, que contextualizam conceitualmente as informações espaciais. Segundo Worboys (1995), o SIG tem como característica a dicotomia dos modelos espaciais (campos versus objetos).

4.1. Modelo Conceitual

Segundo Davis et. al. (2002), o modelo busca sistematizar o entendimento, que é desenvolvido a respeito de objetos e fenômenos que serão representados em um sistema informatizado. Os objetos e fenômenos reais, no entanto, são complexos demais para permitir uma representação completa, considerando os recursos à disposição dos sistemas gerenciadores de bancos de dados (SGBD) atuais. Desta forma, é necessário realizar uma abstração dos objetos e fenômenos do mundo real, de modo a se obter uma forma de representação conveniente, embora simplificada, que seja adequada às finalidades das aplicações do banco de dados.

Neste trabalho, o modelo conceitual deve representar o universo de interesse aos arqueólogos de forma adequada à responder a seguinte indagação:

“Quais os locais mais propícios para encontrar vestígios arqueológicos sem realizar o levantamento in loco em

toda área de inundação do lago da UHE?”.

Warren (1990) utilizou modelos de regressão logística na predição de locais arqueológicos, baseando-se na variável dependente dicotômica (ausência ou presença de sítios arqueológicos) e em variáveis independentes, que explicaram o fenômeno da variável dependente (características da área de pesquisa), permitindo assim, a determinação de um modelo estatístico que representou a probabilidade da ocorrência de sítios arqueológicos no resto das áreas não prospectadas pelos arqueólogos.

Assim, no modelo conceitual proposto considerou-se as variáveis comumente utilizadas, pelos arqueólogos, para a escolha de áreas prospectadas. Nesse sentido, realizou-se a representação do conhecimento sobre esse assunto, como por exemplo:

“... nas confluências dos rios grandes com os rios

pequenos, é notória a grande concentração de sítios arqueológicos, sendo explicados pelo fato que os rios de grande porte serviam geralmente para o transporte e pesca e os rios de pequeno porte serviam para banhos e obtenção de água...”;

“... as depressões permitiam a formação de lagoas em

épocas de estiagem, confinando grande quantidade de peixes nas suas formações, permitindo a pesca mais Habilidades para análise

e solução de problemas Habilidades para comportamento organizacional e individual Habilidades para tecnologia de informação Conhecimento em SIG

(4)

acessível, como ainda é notado em algumas regiões do Brasil...”.

Assim, foram representados os seguintes conhecimentos como novas variáveis para o modelo de predição: as áreas de influência do Rio Paraná; áreas de influência das confluências e áreas de influência das lagoas, por serem inferências relevantes na localização das prováveis áreas de ocupações pretéritas.

Esses conhecimentos foram modelados na base de dados geográficos, através da ferramenta buffer, onde foram formados os seguintes planos de informação:

- Buffer das confluências: áreas de influência das

confluências dos rios de pequeno porte (Xavantes, Santo Anastácio,...) com o rio de grande porte (rio Paraná);

- Buffer das lagoas: áreas ao entorno das lagoas,

vistas principalmente no estado do Mato Grosso (margem direita no sentido montante à jusante);

- Buffer do Rio Paraná: áreas de influência do rio

Paraná e

- Buffer dos rios de pequeno porte: áreas

entornando os pequenos afluentes e rios de pequeno porte.

Como os dados foram restritos à área de inundação da UHE Sérgio Motta, ao olharmos para a representação cartográfica das cotas de inundação da área selecionada para o experimento, notamos que a área a ser inundada no Estado de Mato Grosso do Sul é de aproximadamente 112 km2 e a área do Estado de São Paulo é de aproximadamente 22 km2.

O modelo conceitual foi realizado pelo modo GMOD (figura 03)

Figura 03 – Modelo Conceitual

Podemos notar que são basicamente formados por geocampos.

4.2. O modelo de Regressão Logística

A regressão logística, desenvolvida para problemas especiais de regressão, é um modelo probabilístico que descreve a relação entre uma variável resposta e uma ou mais variáveis explicativas, apresentando a resposta de maneira sucinta (geralmente como um número ou uma série de números).

O que diferencia um modelo de regressão logística do modelo de regressão linear é que a variável resposta é categórica, geralmente binária ou dicotômica, relativa a dois grupos. Os grupos podem ser diferenciados pela presença/ausência de certas características ou ocorrência/não ocorrência de um certo evento. Então, o

modelo possibilita determinar a probabilidade de ocorrência de um evento, em presença de um conjunto de variáveis independentes (explicativas), formando um modelo preditivo indutivo, no qual uma função é explicada por observações empíricas.

Warren (1990), escreve que o modelo de regressão logística foi originalmente desenvolvido por Berkson em 1944, sendo difundido nos últimos anos pela alta capacidade de processamento dos computadores e pelo desenvolvimento de pacotes estatísticos.

Hosmer e Lemeshow (1989) ressaltam que em problemas de regressão, a quantidade chave é o valor médio da variável resposta dado o valor da variável independente, esse valor é denominado de média condicional e expressa pela esperança de Y, dado um valor x, E (Y/X=x). É freqüente o caso em que a variável resultante é discreta, podendo assumir dois ou mais valores possíveis.

Em regressão linear assumimos que esta média pode ser expressa como uma equação linear em x (ou alguma transformação de X ou em Y), tal como:

E(Y/X=x) = β0 + β1x (1)

Assim sendo, é possível que a média assuma qualquer valor quando x varia entre -∞ e +∞.

Com as variáveis dicotômicas, a média condicional deve ser maior ou igual a zero e menor ou igual a 1 [0 ≤

E(Y/x) ≤ 1], aproximando-se de 0 e de 1 gradualmente

(forma de “S”) , cujo gráfico se parece com uma distribuição acumulada (Figura 04).

0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 10

Figura 04: Classes x Média condicional

Portanto, no modelo de regressão linear assumimos que a variável resposta é contínua, enquanto que no modelo de regressão logística a variável resposta é discreta (binária ou dicotômica). Assim sendo, quando o vetor da média condicional E(Y/X) pode assumir qualquer valor, quando X varia entre -∞ e +∞, os parâmetros do modelo podem ser estimados usando-se o método dos Mínimos Quadrados (MMQ). Porém, quando o vetor da média condicional apresentar a forma de uma distribuição acumulada (caso da variável dicotômica) a estimação dos parâmetros da função é dada pela máxima verossimilhança (não linear), que produz valores para os parâmetros desconhecidos que maximizam a probabilidade de obtenção dos conjuntos de dados observados.

Segundo os estudos de Cox (1969) apud Hosmer & Lemeshow, muitas das funções distribuições têm sido propostas, porém a função ideal para o caso da variável resposta ser dicotômica, é a função logito, pois é extremamente flexível, de fácil utilização e interpretação.

Geologia Geomorfologia Pedologia Altimetria Área de influência do rio Paraná Área de influência dos afluentes Área de influência das lagoas Área de influência das confluências Sítios e não sítios Geocampo Estado de São Paulo

(5)

Í. Tsuchiya; V. M. Tachibana; N. N. Imai; R. C. C. Thomaz A forma do modelo de regressão logística, baseada no modelo logito, para dados univariados, é representada como: x x 1 0 1 e 1 β β β β π ++ + 0 e = (x) (2) Para obter muitas das desejáveis propriedades do modelo de regressão linear, devemos aplicar uma transformação denominada g(x), que torna o modelo logito linear em seus parâmetros contínuos, assumindo valores entre -∞ e +∞, dependendo do limite de x:

x + = ) x ( (x) ln = g(x) β0 β1 π π       − 1 (3)

No modelo de regressão linear existe um ε que expressa um desvio da observação em relação à média condicional ( y = E(Y/X=x) + ε ) , cuja distribuição é suposta normal com média zero e variância constante. Já no caso de variáveis de resposta dicotômica, a quantidade

ε segue uma distribuição binomial com probabilidade dada pela média condicional π(x).

Considere agora um conjunto com p variáveis explicativas denotado por X’=(x1, x2, ..., xp). Então,

P(Y=1/X=x) = π(x), a probabilidade condicional que o evento ocorre é obtida de

p p p p X X X X X X

e

e

x

β β β β β β β β

π

+ + + + + + + +

+

=

... ... 2 2 1 1 0 2 2 1 1 0

1

)

(

(4)

Após obtenção de uma amostra de n observações independentes das variáveis explicativas e resposta, o ajustamento do modelo requer estimativas do vetor

ββ’=(β0, β1, β2, ..., βn).

Segundo Hosmer e Lemeshow (1989), na regressão linear o método mais usado para estimação dos parâmetros ββ é o dos mínimos quadrados (MMQ), no qual são determinados valores de ββ que minimizam a soma dos quadrados dos desvios de valores observados de Y dos valores preditos, baseados no modelo.

Quando o MMQ é utilizado em modelo com resultado dicotômico, os estimadores não mais apresentam as propriedades estatísticas desejáveis.

Para solucionar o problema é utilizado o método da máxima verossimilhança (MV), que produz valores para os parâmetros desconhecidos que maximizam a probabilidade de obtenção dos conjuntos de dados observ ados. Portanto, a função de verossimilhança expressa a probabilidade dos dados observados como uma função de parâmetros desconhecidos e seus estimadores resultantes, são aqueles que mais se aproximam dos dados observados.

Neste caso, a função de verossimilhança é definida como a seguinte função da amostra e de ββ:

l(ββ)

= − = n i y yi i 1 1 i i) [1- (x )] x ( π π (5)

onde π (xi) é dado por (4) e as observações são

supostamente independentes.

A questão primordial, sendo β desconhecido, é: Para qual valor de β, L(β) será máxima?.

A resposta está baseada no valor do parâmetro que torne o mais provável possível a ocorrência do evento que já ocorreu, como estabelece a definição da estimativa da MV.

O vetor ββ que maximiza (5) também maximizará o logaritmo de (5), portanto para facilitar o tratamento matemático aplica-se o logaritmo à expressão (5) que torna: ) (ββ L =ln[l(β)]= {yln[ (x )] (1 y)ln[1 (x )]} 1 i i n i i i π π + − −

= (6)

Para determinar os valores de ββ que maximizam

L(ββ), derivamos a função acima em relação aos (p+1)

coeficientes, obtendo-se (p+1) equações de verossimilhança.

O valor de ββ dado pela solução das equações de verossimilhança, é denominado estimativa de máxima verossimilhança e será denotado como ββ. Em geral, o uso do símbolo ^ denotará o estimador de máxima verossimilhança (EMV). O processo de determinação de parâmetros é iterativo.

A teoria desenvolvida para o modelo dado por (4) considera todas as variáveis explicativas observadas. Mas, na pratica temos uma grande quantidade de variáveis envolvidas no problema que tornam tal modelo inviável. O objetivo passa ser a seleção, dentre essas variáveis, daquelas que resultam no melhor modelo dentro do contexto científico do problema. Neste trabalho utilizou-se o método stepwiutilizou-se, no qual as variáveis foram selecionadas tanto por inclusão como por exclusão no modelo em forma seqüencial para determinar se as variáveis independentes no modelo estão “significantemente” relacionadas com a variável resposta. Em cada etapa há a verificação da importância de cada variável incluída no modelo.

Para Hosmer e Lemeshow (1989) uma aproximação para testar a significância do coeficiente de uma variável em qualquer modelo relaciona-se com a seguinte questão: o modelo que inclui a variável em questão informa mais na variável resultante (ou resposta) do que o modelo que não inclui a variável?

No processo comparamos os valores observados da variável resposta com aqueles preditos, por cada um dos dois modelos; o primeiro com a variável e o segundo sem essa. A função matemática usada para comparar os valores observados e preditos depende do problema em particular.

A comparação entre os valores preditos e observados usando a função de verossimilhança é baseada na seguinte expressão.

=

saturado

modelo

do

hança

verossimil

atual

modelo

do

hança

verossimil

-2ln

D

(7) ^

(6)

que é denominada como razão de verossimilhança, aplicada em testes de hipóteses devido a sua distribuição ser uma qui-quadrado.

Para estimar a significância de uma variável independente, comparamos o valor de D com e sem a variável independente na equação.

A alteração em D devido a inclusão da variável independente no modelo é obtido como:

G = D(para o modelo sem a variável) – D(para o modelo com a variável) = -2ln       variável) a com lhança (verossimi variável) a sem lhanças (verossimi (8)

Então, a cada etapa o novo modelo deve ser comparado com o antigo, através desse teste denominado de razão de verossimilhança. Sob a hipótese de que o coeficiente ββi da variável xi, recém introduzida no

modelo, é igual a zero, a estatística G terá uma distribuição qui-quadrado (χ2) com v graus de liberdade, com v=1, se a variável Xi é contínua e v=k+1, se a

variável Xi é nominal com k categorias.

Segundo Hosmer & Lemeshow (1989), os cálculos do log de verossimilhança e o teste da razão de verossimilhanças são aspectos característicos de qualquer pacote de regressão logística. Isto torna possível checar a significância da adição de novos termos no modelo como um assunto de rotina.

6. RESULTADOS E DISCUSSÕES DA REGRESSÃO LOGÍSTICA

Como resultado será apresentado o procedimento e o modelo de regressão logística ajustado, e a partir dos parâmetros βs, geramos um mapa de classes que visualiza as prováveis áreas de localização arqueológica.

Para a Regressão Logística são utilizadas variáveis independentes, que explicam a variável dependente (presença/ausência de ocorrências arqueológicas). No conjunto de dados desse Projeto, as variáveis independentes consistem em uma ou mais classes preditoras, que puderam ser mensuradas em nominais, ordinais, intervalos ou variações em escala:

- Mapa geológico: representa a formação e a transformação das estruturas envolventes (nominal);

- Mapa de geomorfologia: representa as formas do terreno (ordinal);

- Mapa pedológico: representa as estruturas do solo (nominal);

- Mapa altimétrico: representa a altitude do terreno (intervalos);

- Buffer das confluências: áreas de confluência dos rios de pequeno porte (Xavantes, Santo Anastácio, ...) com o rio Paraná (intervalo);

- Buffer das lagoas: áreas ao entorno das lagoas, (intervalo);

- Buffer do Rio Paraná: áreas de influência do rio Paraná (intervalo) e

- buffer dos rios de pequeno porte: áreas entornando

os pequenos afluentes e rios de pequeno porte (intervalo).

A variável dependente (ausência/presença de sítios arqueológicos) foi verificada em campo durante a etapa de prospecção do Projeto de Salvamento Arqueológico de Porto Primavera.

De todas as variáveis pre sentes no modelo conceitual, somente algumas foram aceitas como mais importantes.

A escolha das variáveis mais importantes foi realizada por passos. Como se trata de um processo iterativo de determinação de parâmetros, a cada passo, insere-se uma variável no modelo onde são realizados os testes dos valores observados relacionados com os estimados.

No primeiro passo, é determinado o logaritmo da verossimilhança para o modelo contendo o termo constante (β0), considerando que nenhuma variável

explicativa fornece informações significativas no modelo. Usando um pacote estatístico de regressão logística, obtiveram-se os seguintes resultados apresentados na Tabela 1.

Tabela 1- Resultados do ajustamento do modelo contendo apenas o termo constante.

Erro

Termo coeficiente Padrão (ep) coef/e.p. Constante -1.3471 0.1392 -9.675 Logaritmo da verossimilhança = -160,360

As estimativas de β0 é = -1.3471 e seu erro

padrão é igual a 0,1392. O teste de Wald pode ser realizado comparando-se com a estimativa do seu erro padrão. O resultado da razão entre esses dois valores, sob a hipótese que β0 = 0, terá uma distribuição normal

padrão. Com um valor extremamente pequeno (-9,675) não há evidência para aceitarmos a hipótese.

No segundo passo, foram ajustados os possíveis modelos univariados de regressão logística (um para cada variável explicativa), apresentados na Tabela 2 e comparados seus respectivos logaritmos de verossimilhança. Seleciona-se a variável mais “importante” com menor p-valor. Vemos na tabela 2, a variável mais importante é altimetria. A importância dessa variável no modelo foi verificada através do teste da razão de verossimilhança e o teste de Wald.

O terceiro passo inicia-se com um ajuste do modelo de regressão logística contendo a variável altimetria. Para verificar se outras variáveis explicativas são importantes, uma vez que altimetria está no modelo, ajustamos modelos de regressão logística contendo altimetria e cada uma das variáveis explicativas. Nesse ponto é visualizada a estatística para adição ou remoção dos termos, sendo verificado pelo p-valor, que condiz com a probabilidade da variável assumir um valor maior ou igual ao valor observado. A seleção dessa variável é feita como descrito anteriormente no segundo passo. O

β0

^

β0

(7)

Í. Tsuchiya; V. M. Tachibana; N. N. Imai; R. C. C. Thomaz valor para aceitação da variável (entrada) tem que ser menor que o valor atribuído como limite probabilístico. Para verificar se uma variável que tenha sido acrescentada ao modelo não é mais importante, ou seja, se ela deve ser eliminada do modelo, comparamos se seu p-valor é maior que o limite probabilístico que fixamos previamente.

Tabela 2 – Logaritmo da verossimilhança, graus de liberdade (g.l.) e p -valores p ara as variáveis entrarem ou permanecerem no modelo.

Variável χ2 g.l . χ2 g.l. p-valor log

aprox aprox veros. entrada remoção buffRP 10.53 1 0.0012 -155.0965 buffaflu 0.98 1 0.3214 -159.8684 buffconf 3.77 1 0.0521 -158.4730 lagoas 1.80 1 0.1794 -159.4588 geologia 24.96 1 0.0000 -147.8815 geomorf 0.11 1 0.7433 -160.3064 pedolog 30.21 4 0.0000 -145.2526 altimetria 32.21 1 0.0000 -144.2530 constante 115.96 1 0.0000 -218.3412 Logaritmo da verossimilhança = -144.253

Os limites para adicionar ou remover variáveis foram: para retirada (Valor P deve ser maior que) 0.1500 e para entrada (Valor P deve ser menor que) 0.1000

Os passos subseqüentes seguem o mesmo padrão de análise, realizando iterações até a última variável.

A tabela 3 mostra as variáveis mais importantes para o modelo. Se olharmos para os valores em negrito, vemos que os valores p são menores que o limite probabilístico, ou seja, são mais significativas na explicação do modelo de presença de sítios arqueológicos. As variáveis mais importantes para o modelo foram

Buffer do Rio Paraná; Buffer das confluências; Buffer das

lagoas; Altimetria e o intercepto.

Tabela 3: Logaritmo da verossimilhança, graus de liberdade (g.l.) e p -valores para as variáveis entrarem ou permanecerem no modelo.

Variável χ2 g.l . χ2 g.l. p-valor log aprox aprox veros. entrada remoção BuffRP 62.39 1 0.0000 -77.8820 Buffaflu 0.20 1 0.6551 -46.5889 BuffCon 4.41 1 0.0357 -48.8951 Lagoas 14.68 1 0.0001 -54.0288 Geologia 29.51 1 0.0000 -61.4446 Geomorf 2.64 1 0.1043 -45.3697 Pedologia 1.27 4 0.8658 -46.0517 Altimetria 182.25 1 0.0000 -137.8119 Tabela 4: Resultados do ajuste dos parâmetros Padrão

Variáveis Coeficiente erro Coef/E.p. Buffrg -0.19509E-02 0.3330E-03 -5.858 Buffcon 0.50166E-03 0.2454E-03 2.044 Lagoas 0.75441E-03 0.2181E-03 3.459 Geologia 4.5896 1.052 4.364 Altimetria 6.3859 0.9556 6.683 Constante -14.557 2.158 -6.745

O modelo de regressão logística para predição de ocorrência de vestígios arqueológicos é dado por:

i i i i i i i i i i altimetria luencias bufferconf as bufferlago bufferRP geo altimetria luencias bufferconf as bufferlago bufferRP geo e e B p 14.5574.5896 log 0.0019509 0.00075441 0.00050166 6.3859 3859 . 6 00050166 . 0 00075441 . 0 0019509 . 0 log 5896 . 4 557 . 14 1 ) ( + + + + + + + + − + + − + =

Com base nas ferramentas de álgebra de mapas, o modelo ajustado pode ser aplicado em todos os planos de informação. Cada cover estava representada no formato matricial (grid), todas contendo as mesmas coordenadas limites e as mesmas resoluções.

Cada plano de informação (PI) representa uma variável Xi e cada posição no grid um valor (linha,

coluna) associado. O modelo obtido pela regressão logística foi aplicado para cada posição: linha , coluna com os valores das variáveis independentes armazenados no PI correspondentes estimando um valor probabilístico para cada posição.

Esse processo foi realizado com o recurso de álgebra de mapas disponível no Arc/Info e produziu um novo PI representando a probabilidade de encontrar vestígios arqueológicos em cada uma das células do MNT (lattice).

Como resultado um modelo numérico do terreno (MNT) probabilístico foi gerado, como mostra a figura 05.

Figura 05: Aplicação do modelo logís tico.

Após a geração do MNT, foi realizada uma classificação das probabilidades de ocorrências de vestígios. As fatias formaram 3 grupos equiprováveis: 0≤baixa<0,33; 0,33≤média<0,66 e 0,66≤alta<1,00.

A figura 06 mostra o mapa de classes das probabilidades de ocorrência de vestígios arqueológicos.

(8)

7. CONCLUSÕES

As ferramentas de Geoprocessamento permitiram uma maneira de analisar e predizer espacialmente as prováveis áreas de ocupação pretéritas em Projetos de Salvamento Arqueológicos, reduzindo a etapa de prospecção numa amostragem casual simples, no qual são verificadas áreas de ausência e presença de vestígios arqueológicos, bem como sua localização geográfica.

As variáveis selecionadas pelo modelo (altimetria,

buffer do Rio Paraná, buffer das lagoas, buffer das

confluências e geologia) apontaram as áreas de baixa, média e alta probabilidade de ocorrência arqueológica, cuja localização dos pontos, já conhecidos, coincidem com as áreas de alta probabilidade, ou seja, não há observações que fogem do padrão conhecido (outlier).

A áreas de influências (buffers) se destacam na validação de que a proximidade das fontes d’água é um dos fatores determinantes para os padrões de estabelecimento de locais arqueológicos, bem como a altimetria, que aponta a presença dos vestígios nos locais mais elevados, sendo verificado no mapa de predição.

O modelo de Regressão Logística mostrou-se muito eficiente para análise de predição de locais arqueológicos, tendo em vista outros tipos de modelos preditivos como a função discriminante de Fischer, transferência de densidade e outros utilizados usualmente por especialistas da área.

AGRADECIMENTOS

Agradecemos pela contribuição ao trabalho, à Paulo de Oliveira Camargo, Luís Fernando Sapucci, Ruth Künzli, Milton Hirokasu Shimabukuro, Maria de Lourdes Bueno Trindade Galo, João Bosco Nogueira Jr., Maurício Galo, Edílson Ferreira Flores e Fábio Leme de Almeida.

REFERÊNCIAS

CALDARELLI, S. B. , Arqueologia de Contrato no

Brasil, Revista USP/ Coordenadoria de Comunicação

Social, Universidade de São Paulo – N1, São Paulo, 1989.

CÂMARA, G. & MEDEIROS, J. S. de.,

Geoprocessamento para Projetos Ambientais. INPE,

São José dos Campos, São Paulo, 2ª ed. 1996.

CÂMARA, G.; CASANOVA, M. A.; HERMERLY A. S.; MAGALHÃES G. C.; MEDEIROS, C. M. B. –

Anatomia de Sistemas de Informação Geográfica,

Campinas – Instituto de Computação, Unicamp, 1996. COX, D. R.; HINKLEY D. V. Monographs on Statistics

and Applied Probability: Analysis of Binary Data –

Chapman and Hall, London –1969. Figura 06: Mapa de classes de probabilidades de ocorrências arqueológicas.

(9)

Í. Tsuchiya; V. M. Tachibana; N. N. Imai; R. C. C. Thomaz DAVIS, C.; PAIVA, J. A.; CASANOVA, M. A. e CÂMARA, G. – Banco de Dados Geográficos. http://www.dpi.inpe.br/gilberto/livro/bdados/index.htm - 2002.

GOMES, J.; VELHO, L. – Computação Gráfica:

Imagem – Rio de Janeiro – IMPA, 1994.

GOODCHILD, M. - A spatial analytical perspective on

geographical information systems. International

Journal of Geographical Information Systems. New York:

Oxford University Press, 1 (4): 327-334, 1987.

GOODCHILD, M.; BRADLEY, P.; STEYAERT, L. - Environmental Modelling with GIS. New York: Oxford University Press, 1993.

GOODCHILD, M.; MAGUIRE, D. J.; RHIND, D. -Geographical Information Systems: Principles and applications. (2 volumes) New York: John Wiley and Sons, 1991.

HOSMER, D. W.; LEMESHOW JUNIOR., S. - Applied

logistic regression, John Wiley & Sons, New York,

1989.

KASHIMOTO, E. M. - Variáveis ambientais e arqueologia no Alto Paraná . Tese de Doutorado, São Paulo, FFLCH-USP – 1997.

KVAMME, K.L. The fundamental principles and

practice of predictive modelling. In A. Voorrips (ed)

1990. Mathematics and Information Science in Archaeology: a Flexible Framework: 257-295. Bonn:

Studies in Modern Archaeology 3, Holos-Verlag 1990. KVAMME, K. L. - A view from across the water: the

North American esperience in archaeological GIS . En:

Lock, G. and Stancic, Z. (eds.) Archaeology and

Geographical Information Systems: A European Perspective. Taylor & Francis, London - 1995.

LAUDON, K. C.; LAUDON P. L. Sistemas de

Informação e a Internet – LTC, Rio de Janeiro, 1999.

MEYER, P. L. – Probabilidade: aplicações à estatística; tradução do Prof. Ruy de C. B. Lourenço Filho. Rio de Janeiro, Livros Técnicos e Científicos,

1978.

MORAIS, J. L. – Arqueologia de salvamento no Estado

de São Paulo, Dédalo Revista Anual de Arqueologia e

Etnologia, n.º28, São Paulo – 1990.

RUMBAUGH, J.,BLAHA, M., PREMERLANI, W., EDDY, K. AND LORENSEN, W. - Object-Oriented

Modeling and Design, Prentice Hall, Englewood Cliffs,

N.J - 1991.

THOMAZ, R. C. C. – O uso de SIG na predição da

localização de sítios arqueologicos: um estudo de Caso na bacia do paraná superior", Tese de Doutorado, São

Paulo, FFLCH-USP – 2002 (no prelo)

WARREN, R.E. - Predictive modelling of archaeological site location: a primer. In K.M.S. Allen,

S.W. Green, and E.B.W. Zubrow, (eds) Interpreting Space: GIS and archaeology: 90-111. London: Taylor & Francis, 1990.

WORBOYS, M. F.- GIS – A Computing Perspective – Taylor & Francis, London, 1995.

Referências

Documentos relacionados

A disponibilização de Web Services que se destinam a fornecer uma interface de acesso e manipulação a fontes de dados (também conhe- cidos como serviços de dados) tem

Os resultados obtidos foram comparados com análise quantitativa de fases feita em um equipamento de Difração de raios-x e análises química realizadas por espectrometria de

Os maiores coeficientes da razão área/perímetro são das edificações Kanimbambo (12,75) e Barão do Rio Branco (10,22) ou seja possuem uma maior área por unidade de

A participação foi observada durante todas as fases do roadmap (Alinhamento, Prova de Conceito, Piloto e Expansão), promovendo a utilização do sistema implementado e a

À vista de tudo quanto foi dito, a forma mais adequada para compreender a questão parece ser a seguinte: (i) os direitos fundamentais são, em princípio,

Decidiu-se então criar um plano fatorial com base no ensaio Pn8, variando 3 parâmetros (pH, dose de depressor e dose de coletor) em dois níveis cada, tal como descrito no

forficata recém-colhidas foram tratadas com escarificação mecânica, imersão em ácido sulfúrico concentrado durante 5 e 10 minutos, sementes armazenadas na geladeira (3 ± 1

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco