Análise de segmentacão utilizando o
procedimento de chi-square automation
interaction detection (
CHAID
)
Ana Augusta Ferreira de Freitas
Professora Titular do Departamento de Administração Universidade Estadual do Ceará
Centro de Estudos Sociais Aplicados Rua 25 de Março, 780 - Cep: 60060-120 e-mail: [email protected]
Luiz Fernando Heineck
Professor Titular do Programa de Pós-Graduação em Engenharia de Produção
Universidade Federal de Santa Catarina - Centro Tecnológico, Trindade Departamento de Engenharia de Produção e Sistemas
Cep: 08840-900 - Florianópolis SC Brasil e-mail: [email protected]
Resumo
Este trabalho tem como objetivo apresentar uma análise de segmentação de mercado através do uso da técnica de CHAID, exemplificando a sua aplicação em um caso para o mercado imobiliário. O banco de dados utilizado na análise consta de cerca de 3000 entrevistas com clientes potenciais que procuravam imóveis para comprar entre os anos de 1995 e 1998. As entrevistas foram conduzidas em onze diferentes cidades do Brasil, durante a realização de feiras de imóveis. Um exemplo de segmentação é introduzido para mostrar a importância da renda mensal familiar e do valor patrimonial na explicação do preço desejado de compra. Com base nestes resultados, utilizam-se os modelos de análise de variância para quantificar a diferença dos preços entre os diversos segmentos. Conclui-se pela importância do método, tanto para configuração de nichos de mercado, como para o pré-processamento dos dados através de outras técnicas que exijam limitações no número de categorias das variáveis, como nos casos dos modelos Logit.
Palavras-Chave: Segmentação de Mercado, Mercado de Imóveis, Determinação de Nichos de Mercado.
Abstract
In this article we present an application of market segmentation analysis with the CHAID technique, and we illustrate the application in a real estate market case. The data come from 3,000 interviews with potential homebuyers from 1995 to 1998. The interviews were conducted in eleven different cities in Brazil. An example of segmentation is presented in order to indicate the importance of monthly household earnings and net worth as determinants of maximum purchase price. Given those results, analysis of variance is used in the quantification of the price differences among the various segments. The methods relevance can be easily perceived, both in terms of market niche configuration and in terms of preprocessing of data for techniques that are restrictive as to the number of variable categories, such as logit models.
1-
Introdução
Em um mercado livre em termos de concorrência, tem sido cada vez mais importante estudar as características quantitativas e qualitativas do consumi-dor, identificar nichos de mercado de produtos específicos e descobrir oportu-nidades de negócios. Isto é particularmente verdade no segmento imobiliário, que agora depende quase exclusivamente dos clientes como principal fonte de financiamento direto das suas atividades. Portanto, torna-se imprescindível que os empresários e responsáveis pelo setor conheçam o mercado e as variáveis que influenciam a decisão de comprar um imóvel.
Para estudar as características envolvidas no processo de escolha da com-pra de um imóvel, várias técnicas foram pesquisadas e aplicadas dentro da área de escolha e mobilidade residencial. Clark et al. (1988) resumem o con-junto destas técnicas e ilustram a sua utilização na análise da escolha habitacional.
Como regra geral, os pesquisadores demonstram o relacionamento entre as características sócio-econômicas e demográficas das famílias e a escolha da habitação (com respeito a tipo, localização e preço). Nesta linha, encontram-se os trabalhos de Deurloo et al. (1990), Clark et al. (1994) e Boostma (1995). Além das variáveis tradicionais como idade e renda, algumas variáveis apare-cem para integrar o modelo. Entre elas inclui-se a composição familiar, a parti-cipação no mercado de trabalho e o número de pessoas que contribuem com a formação da renda domiciliar. No entanto, alguns trabalhos mostram que cada uma dessas variáveis afeta diferentemente os diversos segmentos do mercado. Grande parte dos estudos no exterior enfoca a forma de propriedade do imóvel, ou seja, a escolha entre comprar e alugar. Por exemplo, Clark et al. (1991) sugerem que a escolha entre alugar e comprar é influenciada pelo tipo de habitação ofertada nos segmentos de renda média e pelo tipo de habitação prévia nos segmentos de alta renda.
A fim de descobrir esta estrutura, propõe-se a utilização do CHAID, com o objetivo de identificar os principais grupos (formados em função de algumas variáveis sócio-econômicas) e suas escolhas em relação ao preço do imóvel desejado para a compra. Várias outras análises poderiam ter sido realizadas, considerando o tipo do imóvel ou a localização como variável dependente. Neste caso, o preço desejado do imóvel foi tomado como exemplo para fins de ilustração do uso da técnica.
2-
Coleta de dados
Cerca de 3 mil clientes potenciais foram entrevistados em onze diferen-tes cidades do país: Belém, Recife, Natal, Vitória, Blumenau, Florianópolis, Porto Alegre, Caxias, Pelotas, Santa Maria e Passo Fundo. Nas últimas qua-tro cidades, os dados foram cedidos pelos responsáveis pelas pesquisas nestes locais.
As entrevistas foram realizadas em Salões de Imóveis ou Feiras de Exposi-ção e os entrevistados eram convidados a responder o questionário caso ex-pressassem o desejo de comprar um imóvel dentro dos próximos três anos.
Em algumas cidades, as pessoas eram chamadas indistintamente a partici-par da pesquisa. Nestes casos, apenas os questionários que tinham resposta afirmativa à questão sobre a pretensão de compra de um imóvel dentro dos próximos anos foram utilizados.
Os dados foram coletados entre abril de 1995 e março de 1998. Nas cidades de Belém, Florianópolis e Santa Maria as pesquisas foram feitas mais de uma vez em anos distintos.
Os questionários seguiram uma estrutura similar e eram divididos em qua-tro partes. A primeira era formada por perguntas relacionadas às características sócio-econômicas do indivíduo (a saber, estado civil, número de filhos, idade, condição de posse do imóvel atual, renda mensal e valor dos bens disponíveis para colocar no negócio).
A segunda parte abordava questões relativas às macro-variáveis do imóvel (número de quartos, garagens, suites e localização) e condições de pagamento (preço do imóvel procurado, valor da prestação, valor da entrada e prazo de pagamento).
A terceira parte do questionário analisava a disposição de pagar a mais por vários atributos residenciais, classificados dentro das seguintes categorias:
a) Área privativa (closet, lavabo, despensa); b) Área de lazer (piscina, sauna, quadra);
c) Qualidade do imóvel (número de apartamentos por andar, número de blocos, sofisticação da fachada) e
d) Equipamentos (bancada de granito, aterramento, box blindex nos ba-nheiros).
A última parte testava a força de alguns atributos através de questões que colocavam o entrevistado em uma situação na qual ele deveria avaliar a tro-ca entre possibilidades de projeto (por exemplo, sala maior sem varanda ou sala menor com varanda; ou sala maior ou cozinha com espaço para mesa de refeições).
O presente trabalho utiliza dados relativos às duas primeiras partes do ques-tionário, tratando do preço declarado pelo cliente para a compra do imóvel e de algumas características sócio-econômicas do entrevistado. No entanto, os de-mais dados foram apropriadamente analisados e documentados em outros tra-balhos (Freitas, 2000).
3-
Fundamentação Teórica da Análise de
CHAIDO procedimento original de automatic interaction detection (AID), desen-volvido por Sonquist & Morgan (1964), tem a sua origem na análise de variância.
Nesta técnica, supõe-se a utilização de uma variável dependente contínua e de variáveis independentes qualitativas (ou categorizadas), e através de um proce-dimento em cascata divide-se o conjunto de variáveis em dois subgrupos, com a maximização da soma dos quadrados entre subconjuntos. Esta técnica foi expandida para os casos nos quais a variável dependente é qualitativa, como propõe Kass (1980) e é conhecida como Chi-square Automatic Interaction Detection (CHAID). No caso do CHAID, os dados são divididos, a cada etapa, em grupos otimizados (e não necessariamente em dois subgrupos), através da maximização da significância da estatística Chi-quadrado. Alguns autores fize-ram uso desta técnica em pesquisas sobre mercados em geral (Perreault & Barksdale, 1980), mas raros exemplos podem ser encontrados para o caso do mercado habitacional (Deurloo, 1988).
No CHAID, as categorias das variáveis independentes são agregadas caso elas exibam padrões de comportamento semelhantes em relação à variável de-pendente. Além disto, para cada uma das categorias das variáveis independen-tes selecionadas, a técnica escolhe a próxima variável que melhor explica a variância da variável dependente. Ao final, os resultados da análise são mostra-dos em forma de uma árvore (chamada na literatura de dendograma). O resul-tado final do CHAID mostra segmentos de mercado que diferem segundo um conjunto de critérios, critérios estes que podem ser particulares para cada gru-po formado.
Os segmentos derivados do CHAID são mutuamente exclusivos e exausti-vos. Isto significa que eles não se sobrepõem, e cada indivíduo está contido em apenas um segmento. Além disto, pelo fato de serem definidos através de com-binações de variáveis independentes, pode-se facilmente classificar cada caso dentro de um segmento.
No caso deste trabalho, o objetivo principal do CHAID é encontrar as prin-cipais interações entre grupos de pessoas e suas escolhas habitacionais em gran-des tabelas de tabulação cruzada e oferecer uma gran-descrição parcimoniosa de um conjunto de dados. No entanto, os resultados podem ser usados ainda para re-duzir as dimensões dos problemas de modelagem (quando, por exemplo, traba-lha-se com modelos Logit), através da redução do número de categorias e de variáveis (Clark, 1991). Em especial, o tipo de resposta obtida através da aná-lise do dendograma é propício para o uso de técnicas em redes (nested approach), como o Nested Multinomial Logit Model, descrito por este último autor. Com será visto a seguir, a variável renda é o principal elemento de explicação do preço desejado; no entanto, o valor dos bens patrimoniais influencia classes específicas de renda, enquanto o estado civil influencia outras. Ou seja, dife-rentes variáveis atuam em distintos níveis da estrutura em árvore.
Além disto, se ao invés de aplicar modelos mais complexos e de maior exigência computacional como os Logits, estivermos interessados apenas em conhecer o relacionamento de cada variável independente com a variável de-pendente, pode-se ainda utilizar os resultados do CHAID em modelos lineares gerais, como os modelos de análise de variância.
4-
Análise dos Dados
Para exemplificar o funcionamento da técnica, o preço do imóvel desejado foi tomado como variável dependente e será explicado em função das caracte-rísticas sócio-econômicas dos clientes potenciais, utilizando a técnica CHAID. Ao contrário de outras técnicas de segmentação disponíveis, não é necessário selecionar nenhuma variável independente a priori, pois cada uma delas será testada de acordo com a sua importância na explicação do preço de compra procurado. A tabela 1 mostra as categorias da variável dependente e das variá-veis independentes envolvidas na análise.
O conjunto total de pessoas entrevistadas nas feiras de imóveis reduziu-se neste exemplo de 2764 para 2344 casos. Cada um destes estará alocado a uma das ramificações da análise do CHAID. Em alguns casos, não foi possível obter informações para as cinco variáveis independentes, o que caracteriza a existên-cia de pontos faltantes (missing values). Para fins de simplificação da visualizacão, os missing values relativos às variáveis independentes foram reti-rados do dendograma (figura 1), quando eles apareciam em uma categoria iso-lada. Onde esta categoria (missing values) teve semelhança com outras catego-rias, as mesmas foram automaticamente agregadas pelo CHAID e estão
sentadas por um ponto (por exemplo, bens34). As categorias das variáveis in-dependentes são representadas, nas próximas análises, pelo mesmo número com o qual foram codificadas na tabela 1.
Pela análise do dendograma é possível concluir alguns itens importantes: 1. A variável mais importante na predição do preço desejado é renda familiar
mensal. O fato de não ter sido possível agregar nenhum nível de renda mostra a tamanha importância da definição desta variável, já que cada classe acima referenciada comporta-se de maneira estatisticamente diferente das outras. 2. Para a categoria de renda mais baixa (até R$ 1.000) a grande maioria dos
clientes (60%) escolhe imóveis até RS 42.500, como era de se prever. No entanto, os solteiros têm uma predisposição de pagar um pouco mais com-parativamente aos casados e outros (divorciados e viúvos).
3. Indivíduos com renda mensal familiar entre R$ 1.000 e R$ 4.000 colocam em segundo lugar o valor dos bens que eles possuem. Em todos os casos, o au-mento do valor dos bens é acompanhado pelo auau-mento da predisposicão em pagar a mais pelo valor do imóvel. No entanto, é importante perceber como as categorias destas variáveis foram agregadas segundo os diferentes níveis de renda. Nas classes de renda até R$ 2.000, o aumento do valor dos bens leva a um ajuste mais preciso da definição do preço desejado (mais categorias da variável valor dos bens). Em classes superiores de renda, o nível de agregação das categorias é maior (em geral apenas duas categorias). Seria possível, neste caso, dividir-se novamente a categoria valor dos bens. Inicialmente, ela foi considerada de maneira geométrica (até R$ 13.000, de R$ 13.000 a R$ 27.000, de R $27.000 a R$ 41.000, etc.), o que garantiu que se tivesse mais ou menos o mesmo número de casos em cada uma das categorias. Seria o caso agora de explorar uma subdivisão maior do valor dos bens para estas rendas mais altas a fim de conseguir uma precisão maior para o efeito desta variável.
4. Para os clientes com renda entre R$ 4.000 e R$ 5.000, o elemento diferen-ciador volta a ser o estado civil. Casados e outros (divorciados e viúvos) têm uma predisposição a adquirir apartamentos de maior valor que os sol-teiros. No entanto, entre estes, o aumento da idade está associado a um aumento de preço. Pode-se perceber que houve uma inversão da influência do estado civil na predisposição para pagar a mais pelo imóvel. Na primeira faixa de renda, os solteiros pagam mais que os casados, enquanto que na faixa de R$ 4.000 a R$ 5.000 inverte-se esta relação.
5. Para os indivíduos na última faixa de renda, a variável diferenciadora volta a ser valor dos bens patrimoniais, só que a um nível muito mais agregado e, é claro, separando os patrimônios elevados dos de menor valor (maior que R$ 78.000 e os outros). No caso de valores patrimoniais altos, 90,70% das pessoas procuram imóveis da mais alta faixa de preço (acima de R$ 120.000). Para faixas menores de valor de bens, a idade do chefe da família é impor-tante na definição do valor a pagar, sendo os jovens mais bem representa-dos nas faixas inferiores de valor.
Como proposto anteriormente, os resultados do CHAID foram utilizados numa etapa posterior em modelos de análise de variância, descritos a seguir.
5-
Utilização dos Resultados do CHAID em Modelos
de Análise de Variância
A análise geral dos resultados do dendograma permite gerar algumas equa-ções através dos modelos de análise de variância, para cada nível de renda. Estas equações levam em consideração as variáveis escolhidas pela análise do
CHAID e a agregação das suas categorias. Para facilitar a interpretação dos resultados, a variável preço foi utilizada na forma contínua e não na forma categórica, como apresentado anteriormente.
Renda 1 (até R$ 1.000,00)
A principal variável para esta categoria de renda é o estado civil, sendo que este pode ser agregado em apenas dois níveis: solteiros e outros (casados, divorcia-dos e viúvos).
Preço = 36.602 + 16.182 (civil1)*
* A categoria base corresponde à legenda indicada por civil23, que engloba os casados, divorciados e viúvos.
Isto significa que os solteiros pagam em média 16 mil reais a mais que os outros, um valor alto considerando que o valor dos imóveis é, na maioria dos casos, inferior a R$ 42.500.
Renda 2 (de R$1.000 a R$ 2.000)
A principal variável para esta categoria de renda é o valor dos bens, dividido em três níveis: até R$ 13.000, entre R$ 13.000 e R$ 41.000 e mais de R$ 41.000. A equação neste caso toma a seguinte forma:
Preço = 69.871 28.165 (bens12)* 20.616 (bens34)*
* A categoria base corresponde à legenda indicada por bens45 que significa aqueles com valor maior que R$ 41.000.
Isto significa que um aumento no valor dos bens disponíveis pode signifi-car uma disposição para pagamento de preço na faixa de 20 a 30 mil reais. Renda 3 (de R$ 2.000 a R$ 3.000)
A principal variável para esta categoria de renda é o valor dos bens, dividido em dois níveis: até R$ 41.000 e mais de R$ 41.000. A equação neste caso toma a seguinte forma:
Preço = 82.307 25.394 (bens123)*
* A categoria base corresponde à legenda indicada por bens45 que significa aqueles com valor maior que R$ 41.000.
Isto significa que os indivíduos que ganham entre 2 e 3 mil reais, com um patrimônio superior a R$ 41.000, pagariam cerca de 30% a mais pelo imóvel desejado do que os indivíduos com patrimônio abaixo deste limite.
Renda 4 (de R$ 3.000 a R$ 4.000)
A principal variável para esta categoria de renda é o valor dos bens, dividido em três níveis: até R$ 27.000, entre R$ 27.000 e R$ 78.000, e mais de R$ 78.000. A equação, neste caso, toma a seguinte forma:
Preço = 111.071 43.807 (bens12)* - 34.600(bens34)*
* A categoria base corresponde à legenda indicada por bens5, que significa aqueles com valor maior que R$ 78.000.
Isto significa que um aumento nos valor dos bens disponíveis pode signifi-car uma disponibilidade para pagamento do próximo imóvel na ordem de 30 a 40 mil reais.
Renda 5 (de R$ 4.000 a R$ 5.000)
As principais variáveis nesta categoria são: estado civil (em dois níveis: soltei-ros e outsoltei-ros), idade (em três níveis: até 35 anos, entre 36 e 45 anos, e mais de 45 anos) e patrimônio (em dois níveis: até R$ 13.000 e mais de R$ 13.000). A equação neste caso toma a seguinte forma:
Preço = 110.951 18.205 (bens1)* 16.400 (idade12)** 8.295(idade3.)** 33.927 (civil1)***
* A categoria base corresponde à legenda indicada por bens2345, que significa aqueles com valor maior que R$ 13.000; ** A categoria base corresponde à legenda indicada por idade4, que significa aqueles com idade maior que 45 anos; *** A categoria base corresponde à legenda indicada por civil23, que representa os casados, divorciados e viúvos.
É interessante notar que nesta equação apenas a variável estado civil é sig-nificativa (no nível de 5%). Isto significa que a variável idade, assim como detectado pelo CHAID, só é importante para os indivíduos casados, divorciados e viúvos. Da mesma forma, a variável valor dos bens só é significativa para os indivíduos com idade entre 36 e 45 anos. Cabe lembrar que dentro deste grupo de idade também estão incluídos os valores faltantes.
Renda 6 (mais de R$ 5.000)
As principais variáveis nesta categoria são: valor dos bens (em dois níveis: até R$ 78.000 e mais de R$ 78.000) e idade (em dois níveis: ate 35 anos e mais de 36 anos). A equação, neste caso, toma a seguinte forma:
Preço = 172.786 69.551 (bens1234.)* 10.964 (idade12)**
* A categoria base corresponde à legenda indicada por bens5, que significa aque-les com valor maior que R$ 78.000; ** A categoria base corresponde à legenda indicada por idade34, que significa aqueles com idade maior que 36 anos. Cabe salientar que nesta categoria base também estão incluídos os valores faltantes.
Interpretando a equação, nota-se que os indivíduos nesta faixa de renda, acima de 36 anos e com elevado patrimônio estariam dispostos a pagar em média cerca de 172 mil reais pelo imóvel. A diferença para a segunda categoria (valor dos bens menor que R$ 78.000 e menos de 36 anos) é cerca de 46%.
6-
Conclusões
Como etapa preliminar da análise de dados, o método CHAID propiciou a definição de variáveis importantes a serem usadas em modelos posteriores, in-dicando para segmentos específicos um conjunto diferente de fatores influenciadores do processo de formação de preços. Em continuidade, na aná-lise de variância foi possível quantificar valores para os imóveis escolhidos.
No exemplo escolhido para ilustrar a técnica, os resultados obtidos mostra-ram que a principal variável influenciadora do preço que os indivíduos dese-jam pagar pelo novo imóvel é a renda familiar. Em geral, o valor dos bens patrimoniais é também uma variável muito importante neste processo. Ade-mais, o estado civil aparece como fator influente no valor de compra para casos particulares, como nas rendas menores que R$ 1.000 e entre R$ 4.000 e R$ 5.000. Finalmente, de maneira singular, a idade também se mostra importante para categorias de rendas maiores. Com base nestes resultados, conclui-se que a técnica do CHAID mostrou-se um bom método para descobrir estruturas prin-cipais em tabulações cruzadas multidimensionais.
Aproveitando-se das características do CHAID, abre-se o caminho para a utilização de técnicas mais sofisticadas como os modelos Logit, sugeridos na literatura. A utilização de uma técnica que ajude a diminuir o número e as categorias das variáveis seria de enorme ajuda em modelos que visam repre-sentar comportamento de compra e que possuem como principal desvantagem as restrições impostas em relação ao número de variáveis a serem utilizadas.
Com base nestes resultados e na vasta bibliografia disponível ilustrando a técnica, sugere-se que a mesma seja incluída na gama de técnicas utilizadas nos estudos mercadológicos que visam a análise de comportamentos específicos de um segmento do mercado.
7-
Referências Bibliográficas
BOOSTMA, H.G. The influence of a work-oriented life style on residential location choice of couples. Netherlands Journal of Housing and the Built Environment, v. 10, n. 1, p. 45-63, 1995. CLARK, W.A.V.; DEURLOO, M.C.; DIELEMAN, F.M. Modeling strategies for categorical data: examples for housing and tenure choice. Geographical Analysis, v. 20, p. 198-219, 1988. CLARK, W.A.V.; DEURLOO, M.C.; DIELEMAN, F.M. Categorical data with chi square automatic interaction detection and correpondence analysis. Geographical Analysis, v. 23, p. 332-345, 1991.
CLARK, W.A.V.; DEURLOO, M.C.; DIELEMAN, F.M. Tenure changes in the context of the micro-level family and the macro-micro-level economics shifts. Urban Studies, v. 31, n. 1, p. 137-154, 1994. DEURLOO, M.C.; DIELEMAN, F.M.; CLARK, W.A. Multinomial response models of housing choice. Environment and Planning, v. 19, 1988.
DEURLOO, M.C.; CLARK, W.A.V.; DIELEMAN, F.M. Choice of residential environment in the randstad. Urban Studies, v. 27, n. 3, p. 335-351, 1990.
FREITAS, A.A.F. Segmentação do mercado imobiliário utilizando dados de preferência decla-rada. 2000. (Tese de Doutorado) - Programa de Pós-Graduação em Engenharia de Produção, Universidade Federal de Santa Catarina.
PERREAULT, W.D.; BARSDALE, H.C. A model-free approach for analysis of complex contingency data in survey research. Journal of Marketing Research, v. 17, p. 503-515, 1980.