Investigação por Inquérito

(1)

DEPARTAMENTO DE MATEMÁTICA

LICENCIATURA EM MATEMÁTICA APLICADA

Investigação por Inquérito

Trabalho elaborado por: Nisa Ávila do Couto Alves

(2)

ÍNDICE

INTRODUÇÃO... 2

1- IMPORTÂNCIA DOS INQUÉRITOS ... 3

2- ETAPAS DA INVESTIGAÇÃO POR INQUÉRITO ... 5

3- ETAPA 1: PLANEAMENTO E DESENHO DO INQUÉRITO ... 7

3.1- AMOSTRAGEM... 7

3.1.1- TÉCNICAS DE AMOSTRAGEM ... 8

3.1.1.1- Amostragem Aleatória: ... 10

3.1.1.2- Amostragem Não Aleatória... 12

3.1.2- DIMENSÃO DA AMOSTRA ... 17

3.2- MÉTODOS DE RECOLHA DOS DADOS ... 23

3.3- CONCEPÇÃO DAS QUESTÕES... 24

3.4- DESENHO DO QUESTIONÁRIO ... 28

3.5- PRÉ-TESTE DO QUESTIONÁRIO ... 29

3.6- O PLANO DO QUESTIONÁRIO... 29

4- ETAPA 2: RECOLHA DOS DADOS... 32

5- ETAPA 3: ACESSO AOS DADOS... 32

6- ETAPA 4: PREPARAÇÃO DOS DADOS... 32

7- ETAPA 5: ANÁLISE DOS DADOS ... 37

7.1- ESTATÍSTICA DESCRITIVA versus ESTATÍSTICA INDUTIVA... 39

7.1.1- ESTATÍSTICA DESCRITIVA... 40

7.1.2- ESTATÍSTICA INDUTIVA... 41

7.1.2.1- Intervalos de Confiança... 41

7.1.2.2- Testes de Hipóteses... 43

7.1.2.3- Relação entre Testes de Hipóteses e Intervalos de Confiança... 48

7.2- MÉTODOS PARAMÉTRICOS versus MÉTODOS NÃO-PARAMÉTRICOS ... 48

7.2.1- MÉTODOS NÃO-PARAMÉTRICOS ... 49 7.2.1.1- Testes de Ajustamento ... 49 7.2.1.2- Testes de Aleatoriedade ... 51 7.2.1.3- Testes de Simetria ... 52 7.2.1.4- Tabelas de Contingência ... 53 7.2.1.5- Testes de Localização ... 55

7.2.1.6- Testes de escala e outros problemas de duas amostras... 60

7.2.1.7- Testes de Associanção... 61

7.3- MÉTODOS QUE ANALISAM DIFERENÇAS versus MÉTODOS QUE ANALISAM RELAÇÕES... 65

7.3.1- MÉTODOS QUE ANALISAM DIFERENÇAS ... 65

7.3.2- MÉTODOS QUE ANALISAM RELAÇÕES ... 66

7.4- TÉCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS ... 68

7.4.1- TÉCNICAS MULTIVARIADAS... 68

7.4.1.1- Regressão múltipla ... 71

7.4.1.2- Regressão logística... 76

7.4.1.3- Análise discriminante... 77

7.4.1.4- Árvores discriminantes (de decisão) ... 79

7.4.1.5- Análise de variância multivariada ... 81

7.4.1.6- Análise em componentes principais (ACP)... 83

7.4.1.7- Análise factorial ... 86 7.4.1.8- Análise de clusters ... 88 7.4.1.9- Análise loglinear ... 91 7.4.1.10- Análise de correspondências ... 91 7.4.1.11- Análise conjunta... 93 7.4.1.12- Correlação canónica ... 93 7.4.1.13- Escalonamento multidimensional ... 94

7.4.1.14- Modelos de equações estruturais... 95

7.4.1.15- Técnicas emergentes ... 96

7.5- REPRESENTAÇÕES GRÁFICAS ... 97

8- ETAPA 6: PRODUÇÃO DO RELATÓRIO ... 101

9- ETAPA 7: DIVULGAÇÃO DOS RESULTADOS... 102

(3)

INTRODUÇÃO

Este trabalho foi elaborado no âmbito do Trabalho Final de Curso da Licenciatura em Matemática Aplicada.

Tentou-se abordar o assunto da investigação por inquérito de uma forma equilibrada em relação à complexidade e à abrangência/profundidade para que pudesse ser um instrumento útil a alunos interessados nestas temáticas.

De modo que, à medida que as técnicas estatísticas aqui apresentadas se vão tornando mais complexas (nomeadamente nas técnicas de análise multivariada), os aspectos matemáticos das mesmas vão sendo omitidos apresentando-se apenas a aplicabilidade e os fundamentos gerais de cada um dos métodos.

Inicia-se por elucidar a importância dos inquéritos na sociedade actual, sintetizando-se depois, as etapas de uma investigação por inquérito.

Desenvolve-se especialmente a etapas referentes ao planeamento e desenho do questionário, à preparação dos dados e, à de análise dos dados.

No capítulo do planeamento e desenho do questionário, abordam-se, entre outros, assuntos como a amostragem, métodos de recolha de dados, concepção das questões e desenho do questionário.

No capítulo referente à análise dos dados apresentam-se diversas técnicas de análise (descritivas, indutivas, paramétricas, não-paramétricas, para analisar diferenças, para analisar relações: univariadas, bivariadas, multivariadas e ainda representações gráficas).

(4)

1- IMPORTÂNCIA DOS INQUÉRITOS

Os inquéritos estatísticos são usados para recolher informação quantitativa nos campos de

marketing, sondagens políticas, e pesquisa nas ciências sociais, entre outros. Um inquérito

pode incidir sobre opiniões ou informação factual, dependendo do seu objectivo, mas todos os inquéritos envolvem a administração de perguntas a indivíduos. Quando as perguntas são colocadas por um pesquisador, o inquérito é chamado entrevista ou inquérito ministrado por um pesquisador. Quando as questões são administradas pelo inquirido, o inquérito é referido por questionário ou inquérito auto-administrado.

Nos processos de tomada de decisão de qualquer organização é essencial obter o máximo de informação sobre o meio que a envolve. Deste modo, os inquéritos, se correctamente utilizados são meios eficazes de obter a informação necessária.

Contudo, os inquéritos estatísticos apresentam vantagens e desvantagens. De seguida apresentam-se algumas dessas vantagens e desvantagens.

As vantagens dos inquéritos estatísticos incluem:

São uma forma eficiente de recolher informação de um grande número de inquiridos. Podem ser usadas técnicas estatísticas para determinar a validade, a fiabilidade e a significância estatística.

São flexíveis no sentido em que pode ser recolhida uma grande variedade de informação. Podem ser usados para estudar atitudes, valores, crenças e comportamentos passados.

São relativamente fáceis de administrar.

Há uma economia da recolha dos dados devido à focalização providenciada por questões padronizadas, ou seja, não há um gasto de tempo e dinheiro em questões tangenciais.

As desvantagens dos inquéritos incluem:

Dependem da motivação, honestidade, memória e capacidade de resposta dos sujeitos.

Não são apropriados para estudar fenómenos sociais complexos.

Se a amostra não for representativa da população então as características da população não podem ser inferidas.

(5)

É necessário ter em consideração que fazer um inquérito é muito mais que construir um questionário. É um processo com múltiplos passos e em que cada etapa está claramente definida – para se ter sucesso deve-se planear cuidadosamente todas estas etapas desde a forma de recolha da informação até à apresentação dos resultados.

De modo a aumentar a sua eficiência, qualquer inquérito deve ter as seguintes características: ser claro – os seus objectivos devem ser precisos; fáceis – os inquiridos devem perceber facilmente o seu conteúdo; fiáveis – os dados recolhidos devem traduzir a opinião do inquirido – sem erros; analisado – os dados devem ser sujeitos a análise estatística para se poder inferir resultados e tomar decisões e, atempado – o tempo entre o seu planeamento e a obtenção de resultados deve ser o menor possível para que seja útil à decisão.

Quem promove um inquérito procura conhecer características, comportamentos ou opiniões de uma população usando um processo de amostragem.

Deste modo, um inquérito ajuda o decisor a:

Obter informação adicional sobre o que pensam os clientes ou os utilizadores dos serviços, os empregados ou, em última instância, a população em geral sobre determinado assunto;

Criar mais valor indo de encontro às expectativas do mercado, ou seja, ajuda o decisor a conhecer o mercado;

Enfrentar maior concorrência conhecendo as expectativas dos clientes e a avaliação que fazem dos produtos tanto da própria empresa como das concorrentes com o objectivo de inovar, fidelizar e diferenciar-se;

Identificar oportunidades de, por exemplo, criação de novos produtos;

Aumentar o retorno do investimento confrontando o conhecimento das relações entre a empresa e as pessoas ou instituições que com ela se relacionam com a opinião que estes expressam nos inquéritos que se promove, ou seja, quanto mais satisfeitos estiverem os melhores clientes, maior a fidelização e mais seguro será o futuro da empresa.

Algumas pessoas pensam que fazer um inquérito é somente colocar questões. Mas isso não é verdade, actualmente deve-se encará-lo como um processo. Quando é correctamente executado obtêm-se dados de boa qualidade sobre os quais se pode agir.

O processo de inquirição pode falhar se incorrectamente implementado em qualquer das suas etapas. Alguns dos erros mais frequentes relacionam-se com a qualidade das

(6)

questões colocadas; com os erros cometidos na entrada de dados ou com o tempo entre o lançamento do inquérito e a tomada de decisão.

2- ETAPAS DA INVESTIGAÇÃO POR INQUÉRITO

A pesquisa por inquérito, de acordo com o site do PSE (Produtos e Serviços de Estatística, Lda.), pode ser dividida em sete etapas, como se mostra abaixo. Para que se obtenha sucesso, qualquer uma delas deve ser correctamente implementada.

1. Planeamento e desenho do inquérito 2. Recolha dos dados

3. Acesso aos dados 4. Preparação dos dados 5. Análise dos dados 6. Produção do relatório 7. Divulgação dos resultados

(7)

Determinar orçamento, calendário e recursos Definir a população

Determinar dimensão da amostra e técnica amostral a utilizar Escolher método de recolha de dados

Elaborar o questionário Testar o questionário

Obter dados “claros”, não enviesados e actualizados

Método de recolha atractivo para obter uma boa taxa de resposta

Acelerar o processo (métodos automáticos de entrada de dados) Passar dados para o software de análise

Compatibilidade entre software de análise e de recolha de dados

Examinar os dados

Identificar outliers e missing values. Encontrar solução adequada Verificar pressupostos dos métodos de análise

Cálculo de variáveis transformadas

Definir a escala das variáveis Escolher um software analítico

Produzir estatísticas descritivas e representações gráficas Construir modelos explicativos

Registar análises executadas Interpretar resultados

Personalizar quadros e gráficos

Tornar relatório simples e de fácil interpretação

Preparar apresentação dos resultados em software adequado

Distribuir rapidamente

Permitir interacção dos decisores Controlar segurança e confidencialidade Planeamento e desenho do inquérito

Acesso aos dados Recolha dos dados

Preparação dos dados

Análise dos dados

Preparação do relatório final

Divulgação dos resultados

(8)

3- ETAPA 1: PLANEAMENTO E DESENHO DO INQUÉRITO

Antes de se iniciar o processo é necessário determinar os objectivos, orçamento e recursos do projecto, bem como planificar o calendário. Nenhum inquérito deve prosseguir sem que os seus propósitos sejam claros e aceites para que não se esteja a coleccionar informação desnecessária e cara.

“Um bom formulário começa com uma boa hipótese cuidadosamente estudada.” GOODE (1979).

Para que se possa testar correctamente as hipóteses operacionais convém que estas sejam especificadas antes da recolha de dados. É essencial saber quais as relações e padrões que se pensa poder vir a encontrar e quais as análises estatísticas a efectuar, pois estas dependerão do tipo de dados recolhidos. Deve-se pensar “para que servem os resultados a obter”. Ou seja, as análises desejadas, os relatórios a escrever e a forma como a informação resultante será utilizada.

Antes de se criar as questões e o formato do questionário a utilizar, é preciso ter em atenção o tipo de população a inquirir – por exemplo, idade, nível educacional ou motivação. É ainda necessário determinar o método de recolha de dados a utilizar.

Depois então será necessário estimar a dimensão da amostra requerida. A amostragem é um assunto bastante complexo e será abordado no sub capítulo 2.1.

3.1- AMOSTRAGEM

Se se tivesse a possibilidade de estudar todos os membros da população, estar-se-ia na presença de um censo. Contudo promover um censo é extremamente caro e moroso, assim, faz-se uma sondagem que, segundo FERRÃO (2001) é a resposta ao conhecimento de uma população tomando por base uma fracção da população – a amostra.

Os maiores esforços neste processo estão relacionados com a determinação de uma amostra da população, para a qual são utilizados métodos probabilísticos. A amostra deve ter a dimensão adequada para obter a precisão pretendida – e não deve ser superior, pois à medida que cresce a dimensão da amostra os custos do processo aumentam e os ganhos de precisão são mínimos.

Uma vez seleccionada a amostra, é necessário verificar que a amostra é representativa da população, ou seja, que os indivíduos que não respondem são similares

(9)

aos que respondem. Caso contrário, os resultados serão enviesados. Uma amostra representativa é aquela que reflecte os aspectos típicos da população.

Pode-se discriminar as etapas do plano amostral do seguinte modo: 1º Definir o Universo;

2ª Se possível, identificar a base de sondagem (listagem dos elementos da qual se vai seleccionar a amostra);

3º Escolher uma técnica amostral;

O sub capítulo 2.1.1 abordará as diversas técnicas de amostragem com base em FERRÃO (2001).

3.1.1- TÉCNICAS DE AMOSTRAGEM

Segundo BACELAR (1999), as técnicas de amostragem são utilizadas para seleccionar os elementos da população de forma a obter uma amostra representativa.

Podem-se dividir as técnicas de amostragem em amostragem aleatória e não aleatórias sub dividindo-se cada uma delas em diversas sub categorias.

Cada um dos métodos apresenta vantagens e desvantagens que devem ser tidas em consideração aquando da escolha de uma ou outra técnica.

Deste modo, a amostragem aleatória apresenta algumas vantagens como o facto de os critérios de selecção dos elementos estarem rigorosamente definidos, não permitindo que a subjectividade dos investigadores ou do entrevistador intervenham na escolha dos elementos e minimizando assim o enviesamento muitas vezes introduzido pelos entrevistadores. São igualmente vantagens a possibilidade de se determinar matematicamente a dimensão da amostra em função da precisão e grau de confiança desejados para os resultados.

Contudo, também apresenta desvantagens, nomeadamente: dificuldade em obter listagens ou registos actuais e completos da população (base de amostragem); a selecção aleatória pode originar uma amostra muito dispersa geograficamente aumentando o tempo e os custos dos estudos e, pode haver dificuldade em estabelecer contacto com os potenciais inquiridos.

Note-se que a desactualização ou dados em falta nas bases de amostragem (lista dos elementos que compõem a população), das quais se extrai a amostra, leva a que nem todos os elementos da população tenham a mesma probabilidade de selecção (os que fazem parte

(10)

da população, mas não da base de amostragem, têm uma probabilidade nula de serem seleccionados).

Em relação às técnicas de amostragem não aleatória, estas têm a vantagem de permitir que se obtenha a informação com custos mais reduzidos, mais rapidamente e com menores necessidades de pessoal. Como desvantagens, é de referir que há unidades do universo que não têm possibilidade de ser escolhidas; pode ser introduzido enviesamento pela opinião pessoal e, não se sabe com que grau de confiança as conclusões obtidas são generalizáveis à população.

As técnicas de amostragem não aleatória “têm em comum o facto de não utilizarem o método de selecção aleatória para os elementos da amostra. Isto significa que não há “garantia estatística” de que a amostra seleccionada seja representativa. Note-se que a aleatoriedade não “garante” que a amostra a obter seja representativa, garante apenas que existe uma probabilidade significativamente elevada de que a amostra possua esse qualificativo.” BACELAR (1999).

As vantagens e desvantagens de cada tipo de amostragem devem ser ponderadas em cada estudo. O caminho a percorrer deve ser o que permita que o erro nos resultados derivado de questões amostrais seja o mais pequeno possível.

A figura seguinte apresenta algumas das técnicas de amostragem categorizadas em não aleatórias ou aleatórias.

T Tééccnniiccaassddee a ammoossttrraaggeemm Não Aleatórias Por

Bola de Neve Intencional Por quotas Random route

conveniência

Aleatórias

(11)

Nos próximos dois sub-capítulos sumariam-se as etapas, desvantagens, vantagens ou conceitos associados a diversos tipos de técnicas de amostragem aleatória e não aleatória, respectivamente.

3.1.1.1- Amostragem Aleatória: Simples

Corresponde a um método de selecção dos elementos da amostra, em que cada um deles tem uma probabilidade igual (e não nula) de ser seleccionado.

Consiste em:

1. Numerar consecutivamente os elementos da população de 1 a N; 2. Escolher n elementos mediante o uso de um procedimento aleatório;

3. Uma vez escolhidos os números, os elementos da população que lhes correspondem constituem a amostra.

Esta técnica raramente é adoptada, pois para além de ser cara é muitas vezes impraticável por exigir que todos os elementos da população sejam enumerados.

Sistemática

Segundo BACELAR (1999), a amostragem sistemática é uma variante da amostragem aleatória simples que se usa quando os elementos da população estão organizados de forma sequencial. O primeiro elemento é seleccionado aleatoriamente; calcula-se em seguida o intervalo de amostragem (i = dimensão da população / dimensão da amostra). Sendo i o intervalo da amostragem, cada i-ésimo elemento, a partir do primeiro já seleccionado, irá constituir a amostra. O resultado duma tiragem sistemática é, na maior parte das vezes, equivalente ao duma amostra aleatória simples. A excepção ocorre quando a sequência dos elementos da população é afectada pela periodicidade. Se aquela apresentar uma regularidade, um padrão periódico, pode-se correr o risco de um viés sistemático.

Sumaria-se em:

1. Calcular o intervalo da amostra (k) obtido pelo quociente N/n, que deverá ser arredondado ao inteiro mais próximo por defeito;

2. Escolher aleatoriamente um número j entre 1 e k;

3. Partindo desse número, adicionar sucessivamente o valor k, ficando assim seleccionados os elementos j, j+k, j+2k, j+3k, …, j+ (n-1)k, perfazendo n.

(12)

Estratificada

Esta técnica de amostragem usa informação existente sobre a população para que o processo de amostragem seja mais eficiente.

A lógica que assiste à estratificação de uma população é a da identificação de grupos que variam muito entre si, no que diz respeito ao parâmetro em estudo, mas muito pouco dentro de si, ou seja, cada um é homogéneo e com pouca variabilidade.

As três etapas para se definir uma amostra estratificada são: 1. Definir os estratos;

2. Seleccionar os elementos dentro de cada estrato mediante um processo aleatório simples;

3. Conjugar os elementos seleccionados em cada estrato, que na sua totalidade constituem a amostra.

Pode ser particularmente eficaz quando na população existem valores extremos para a característica em estudo, sendo possível agregá-los num estrato separado.

Por clusters

Requer menos informação a priori, sendo útil na ausência duma base de amostragem, o que sucede muitas vezes. É especialmente útil quando o universo estatístico é formado por populações de grande dimensão, dispersas por vastas áreas geográficas. A amostragem por clusters usa agrupamentos naturais de elementos da população, nos quais cada elemento da população pertence a um só grupo.

Só exige que se disponha de uma listagem completa das unidades amostrais primárias (por exemplo, as turmas de uma escola). Os clusters são escolhidos aleatoriamente e dentro de cada cluster todos os elementos são seleccionados, ou seja, só existe uma etapa de amostragem. Está orientada para a selecção de grupos de elementos e não de elementos individuais.

As etapas da amostragem por clusters são: 4. Especificar os clusters;

5. Seleccionar uma amostra.

Muitas vezes é a única possível de obter porque só existem disponíveis bases de sondagem que listam clusters de elementos da população.

A amostragem por clusters é frequentemente usada na prática porque muitas populações estão já agrupadas em subgrupos naturais. Uma grande vantagem económica é

(13)

Multi-etapas

Selecciona-se em primeiro lugar, aleatoriamente uma amostra por clusters – repare-se que é muito mais fácil obter uma lista de clusters (por exemplo de escolas) do que uma lista exaustiva dos elementos que compõem a população (por exemplo, todos os alunos). Em seguida, pode-se realizar – ou não – uma segunda etapa, na qual são escolhidos aleatoriamente alguns elementos dos clusters seleccionados na fase anterior ou então, continuando com a selecção de clusters até se chegar às unidades elementares.

Ou seja: Definir os clusters; e seleccionar a amostra. Este tipo de amostragem apresenta as mesmas vantagens que a amostragem por clusters.

3.1.1.2- Amostragem Não Aleatória Intencional

Resulta em elementos seleccionados deliberadamente pelo investigador, geralmente por este considerar que possuem características que são típicas ou representativas da população. Isso não significa que a amostra assim obtida seja necessariamente representativa da população ainda que o investigador possa ter essa opinião.

Pode ser aplicada com sucesso nas seguintes situações: estudos exploratórios, amostras de dimensão reduzida, impossibilidade de conseguir uma amostra aleatória, pretende-se deliberadamente uma amostra enviesada.

Contudo, frequentemente surgem enviesamentos difíceis de avaliar.

Snowball – bola de neve

Identificam-se um ou mais indivíduos da população a estudar e pede-se-lhes para que identifiquem outros elementos da mesma população. Este processo repete-se sucessivamente, sendo a amostra final composta por todos os elementos identificados. É normalmente utilizada quando os elementos da população são de difícil acesso ou identificação e estão inter-relacionados por redes de conhecimento.

Um dos inconvenientes é que os inquiridos tendem a indicar o nome de amigos ou pessoas de relação mais próxima, o que pode originar uma amostra de pessoas que pensam e se comportam de modo similar àquele que as indica. Da mesma forma são aqueles socialmente mais visíveis os que têm mais possibilidade de serem seleccionados.

(14)

Conveniência

Não é representativa da população. Ocorre quando a participação é voluntária ou os elementos da amostra são escolhidos por uma questão de conveniência, por isso, o processo amostral não garante à partida que a amostra seja representativa. Pode ser usada com êxito em situações nas quais seja mais importante captar ideias gerais, identificar aspectos críticos do que propriamente a objectividade científica, como é o caso na maioria dos inquéritos disponibilizados na web.

Quotas

É uma amostragem semi-aleatória.

Justifica-se fundamentalmente pela inexistência de listagens da população. O pressuposto é o de que as variáveis de controlo, que definem as quotas, justificam toda a variação sistemática na população relativamente à característica em estudo.

Os dois passos fundamentais para a sua execução são:

1. Definir as quotas – as quotas são identificadas dividindo a população em categorias, usando variáveis de controlo pré-definidas;

2. Seleccionar os elementos.

Podem-se utilizar quotas independentes que facilitam o trabalho aos entrevistadores, ou quotas interrelacionadas que são mais fiáveis uma vez que os entrevistadores têm de cumprir uma amostra específica, distribuída por diversos factores de estratificação. Nas tabelas 1 e 2 apresenta-se um exemplo muito simples de quotas independentes e de quotas interrelacionadas. Sexo Idade Masculino 15 15-24 6 Feminino 18 25-34 8 35-44 12 45-64 7 TOTAL 33 33

TABELA 1:QUOTAS INDEPENDENTES

Sexo Idade Masculino Feminino

15-24 3 3 6

25-34 4 4 8

35-44 5 7 12

45-64 3 4 7

15 18 33

TABELA 2:QUOTAS INTERRELACIONADAS Como vantagens pode-se referir a rapidez, economia e facilidade de administração. Nem sempre garante à partida a representatividade da amostra, pois:

A amostra pode estar longe de reflectir alguns aspectos importantes capazes de influenciar os resultados, por estes não serem tomados como quotas. O

(15)

estabelecimento de quotas para todas as características potencialmente importantes seria uma solução por um lado, mas uma dificuldade por outro, uma vez que, quantos mais critérios forem identificados mais difícil se torna encontrar indivíduos que os preencham a todos;

Como a selecção está a cargo do livre arbítrio dos entrevistadores, estes têm tendência a seguirem certas práticas sistemáticas como escolher determinado tipo de inquiridos e evitar outros.

Segundo BACELAR (1999), aparentemente, esta técnica é semelhante à amostragem estratificada, mas de facto é bastante diferente, uma vez que a selecção dos elementos da população não é aleatória. O objectivo desta técnica é o de tentar compensar as notórias insuficiências da amostragem acidental. Normalmente procura-se combinar a técnica de amostragem por quotas com outras técnicas (por exemplo random route) complementares e sistemáticas que possibilitem gerar alguma diversidade na amostra e controlar os enviesamentos sistemáticos mais gritantes. Para efectuar a amostragem estratificada é necessário possuir uma base de amostragem na qual são conhecidas para cada elemento da população as características que forem usadas como critérios de estratificação. De cada um destes estratos populacionais será seleccionada uma amostra. Na amostragem por quotas não é necessária qualquer base de amostragem. Basta conhecer, na população, a distribuição das características a utilizar. Também os elementos da amostra não são seleccionados aleatoriamente: são apenas encontrados segundo um “acaso” que não corresponde às regras do acaso estatístico, isto é, não garante a equiprobabilidade de selecção dos elementos da população.

Random route – percurso aleatório

É utilizado para definir critérios de movimentação do entrevistador no terreno. Consiste em:

1. Seleccionar aleatoriamente a partir de uma lista/mapa um endereço ou ponto de referência – esta escolha servirá de ponto de partida para o entrevistador; 2. Definir as regras de orientação para o entrevistador – o entrevistador é

instruído para realizar o seu trabalho circunscrevendo-se a determinada área ou seguindo um itinerário aleatório na escolha das unidades a inquirir.

Ou seja, é atribuído ao entrevistador um ponto de partida e um ponto de chegada no espaço geográfico no qual se vai desenrolar o inquérito, e um critério sistemático e

(16)

aleatório relativo ao percurso do entrevistador entre esses dois pontos (inquirir o terceiro alojamento de seis em seis edifícios, alternando o lado da rua, por exemplo).

3.1.2- DIMENSÃO DA AMOSTRA

Factores determinantes na dimensão da amostra

Existem seis factores que se podem considerar determinantes na escolha da dimensão da amostra, nomeadamente:

Características da população, ou seja, a variância da característica em estudo e o número de elementos (a sua dimensão N);

Distribuição amostral do estimador a utilizar;

Precisão e confiança requeridas para os resultados, sendo necessário especificar a diferença máxima entre a estimativa e o parâmetro ou o nível de confiança;

Custo, pois recolher mais inquéritos pode ter um aumento de custo muito elevado; Consequências para os erros de não amostragem

O grande dilema que o investigador enfrenta na realização de um estudo por sondagem é se deve seleccionar uma amostra maior para reduzir o erro amostral, ou se deve concentrar os recursos e esforços numa amostra de dimensão mais reduzida, para garantir um melhor controlo do trabalho dos entrevistadores, uma taxa de respostas mais alta, respostas mais exactas, melhor trabalho de processamento da informação, etc., ou seja, uma redução dos outros erros. Idealmente os esforços são concentrados na redução simultânea dos erros relacionados com amostragem e não relacionados com amostragem, apesar das restrições financeiras e de tempo tornarem este ideal difícil de concretizar;

As técnicas estatísticas que serão utilizadas.

Note-se que, para que se obtenham resultados com um grau de exactidão aceitável, algumas técnicas estatísticas exigem uma amostra de dimensão maior do que outras.

Determinação da dimensão da amostra 1. Fixar os limites de erro aceitáveis;

2. Encontrar uma equação que relacione n com a precisão e confiança desejadas para os resultados;

(17)

4. Estimar características para sub-domínios; 5. Estimar mais do que uma característica;

6. Avaliar o n encontrado (custo, tempo, pessoal e material necessário).

O cálculo da dimensão da amostra em amostras aleatórias pode ser efectuado com base em fórmulas relativamente complexas, nas quais entra o número de elementos da população (número de clusters, número de elementos por cluster, número de estratos, número de elementos por estrato, etc.), a variância, o erro associado e o valor retirado da distribuição Gaussiana correspondente ao grau de confiança imposto para a estimativa.

De seguida apresentam-se estas fórmulas sumariadas na tabela 4 com base em FERRÃO (2001).

A tabela 3 apresenta a notação que será utilizada nas fórmulas posteriores.

A tabela 4 apresenta uma síntese das fórmulas que se devem utilizar quando se pretender calcular o número de observações necessário para estimar uma média, proporção ou total, com uma amplitude máxima de erro igual a B para cada tipo de amostra aleatória.

(18)

DESIGNAÇÃO POPULAÇÃO AMOSTRA Número de elementos N n i-ésima observação X_i X i Média N X N i i/ 1

∑

= = µ X n X n i i/ 1

∑

= = Total

∑

= = N i i X 1 τ NX N n X n i i / 1

∑

= = Proporção (variáveis dicotómicas) p X N N i i/ 1

∑

= = p n X n i i/ ˆ 1

∑

= = ESTRATIFICADA Número de estratos L L Número de elementos N =N1+N2+...+NL n=n1+n2+...+nL Número de elementos no estrato i N i n i j-ésima observação no estrato i X ij X ij Média do estrato i i N i ij i X N i / 1

∑

= = µ n _i i ij i X n X i / 1

∑

= = Média L N N i i i / 1

∑

= = µ µ X L N X N i i i st / 1

∑

= = 1 Total

∑

= = L i i i N 1 µ τ

∑

= = L i i i st N X X N 1 Proporção no estrato i (variáveis dicotómicas) i N i ij i X N p i / 1

∑

= = n _i i ij i X n pˆ i / 1

∑

= = Proporção p L N p N i i i / 1

∑

= = p L N p N i i i st ˆ / ˆ 1

∑

= = …

(19)

POR CLUSTERS Número de clusters M m Número de elementos no cluster i N i ni =Ni Número de elementos

∑

= = M i i N N 1

∑

= = M i i n n 1

Dimensão média dos

clusters N =N/M n=n/m

j-ésima observação no

cluster i X ij X ij

Média por cluster

∑∑

= = = M i N j ij i M X 1 1 / . µ

∑∑

= = = m i n j ij cl i m X X 1 1 / Média global

∑∑

= = = M i N j ij i N X 1 1 / µ

∑∑

∑

= = = = m i n j m i i ij cl i n X X 1 1 1 / Total

∑∑

= = = M i N j ij i X 1 1 τ

∑∑

∑

= = = = m i n j m i i ij cl i n X N X N 1 1 1 / Proporção (variáveis dicotómicas) =

∑∑

₌ ₌ M i N j ij i N X p 1 1 /

∑∑

∑

= = = = m i n j m i i ij cl i n X p 1 1 1 / ˆ MULTI-ETAPAS Número de clusters M m Número de elementos no cluster i N i n i

Número de elementos por

cluster N n Número de elementos N =MN n=mn j-ésima observação do cluster i X ij X ij Média no cluster i N X N i ij i / 1

∑

= = µ X n X n i ij ime / 1

∑

= = Média global M N i i/ 1

∑

= = µ µ X m X mn i n j ij me / 1 1

∑∑

= = = Total

∑∑

= = = M i N j ij X 1 1 τ

∑

= = m i i me N X m X N me 1 / Proporção no cluster i (variáveis dicotómicas) p X N N j ij i / 1

∑

= = p n X n j ij i / 1

∑

= = Proporção p M p N i i/ 1

∑

= =

∑∑

= = = m i n j ij me X mn p 1 1 / ˆ

(20)

(21)

(22)

Determinação de n em amostras não aleatórias

Nas amostras não aleatórias determina-se a dimensão da amostra que é possível custear ou então adopta-se a dimensão já utilizada, com sucesso, em estudos anteriores das mesmas características. Também é possível utilizar as expressões da tabela 4 para o caso das amostras aleatórias, ou seja, determinar qual a dimensão que seria necessária se a amostra fosse aleatória, sendo que o valor encontrado é meramente indicativo.

3.2- MÉTODOS DE RECOLHA DOS DADOS

Os fundamentos dos vários métodos de recolha dados num inquérito são praticamente os mesmos.

Contudo, já na altura do planeamento se deve decidir qual o método de recolha de informação que se irá utilizar, pois a construção do questionário depende muito do método escolhido.

Não existe um método óptimo de recolha de dados. Cada um tem as suas virtudes e os seus defeitos. Por exemplo, enviar os inquéritos por correio tem custos relativamente baixos, mas tem baixas taxas de resposta se não houver um esforço de acompanhamento. Os inquéritos por correio electrónico podem ter custos ainda mais baixos, mas não se podem utilizar em universos genéricos porque apenas são aplicáveis a pessoas com acesso ao correio electrónico. As entrevistas pessoais são caras, mas permitem a utilização de questionários mais longos.

Normalmente definem-se três métodos de recolha da informação: Entrevista pessoal;

Entrevista telefónica; Questionário por correio.

A escolha do método a utilizar deve depender dos seguintes factores: Tipo de população, ou seja, o universo;

Representatividade da amostra; Tipo de questões;

Custo e pessoal disponível.

Segundo GOODE (1979), a adequação de um questionário remetido, ou seja, auto-administrado, dependerá das exigências do problema da pesquisa em relação:

(23)

Uma quantidade muito extensa de dados não pode ser obtida com o questionário. O questionário é eficaz somente quando o inquirido é capaz ou quer expressar as suas reacções claramente. A diferença entre um questionário e uma entrevista não está na questão da franqueza, mas na dimensão e profundidade, pois tanto um bom questionário como uma boa entrevista pode obter respostas francas sobre quase todos os assuntos.

Ao tipo de inquirido alcançado;

O questionário auto-administrado não pode ser usado para uma amostra representativa de toda a população porque, por exemplo, é necessário saber ler e escrever.

À acessibilidade dos inquiridos;

À partida pensa-se que o questionário é mais barato e leva menos tempo que a entrevista, mas nem sempre é assim, pois, por exemplo, o tempo de espera para as respostas aos questionários pode ser muito elevado; a questão do custo depende de quão dispersa está a amostra. “As despesas não devem ser calculadas na base do número de entrevistas ou questionários a serem obtidos, mas na base da quantidade de informação útil a ser obtida.” GOODE (1979). À precisão da hipótese.

Quanto mais claramente focalizada é a hipótese, mais eficaz é o questionário auto-administrado.

Analisando os prós e contras de cada método de recolha de dados pode-se escolher aquele que será mais vantajoso para a situação particular em estudo.

3.3- CONCEPÇÃO DAS QUESTÕES

Um dos caminhos para o sucesso de um inquérito reside na inclusão de questões concisas e de fácil compreensão. Por muito atractivo que seja o questionário, não servirá de muito se as questões forem pobres, pois o valor dos dados a obter será reduzido.

De seguida apresentam-se alguns conselhos práticos sobre a concepção das questões de um questionário de sucesso com base em HILL (2000).

(24)

O investigador deve pensar bem se quer informação do tipo geral ou específico. Pois não é possível fazer inferências correctas sobre atitudes, opiniões, satisfações ou gostos específicos a partir das respostas dadas às perguntas gerais.

É preciso também analisar cuidadosamente o objectivo geral (o tipo de informação que se quer solicitar – factos, opiniões, atitudes, preferências, valores, satisfações) de cada uma das perguntas que se está a inserir no questionário.

Em relação às perguntas para solicitar factos é preciso ter especial atenção se se está a pedir factos “sensíveis” demais, ou seja, informação que o inquirido não está interessado em fornecer; detalhes desconhecidos pelos inquiridos ou, detalhes que obrigam os respondentes a gastar muito tempo na recolha de informação para preencher o questionário.

Pode-se também colocar a questão se serão preferíveis perguntas de resposta aberta ou perguntas fechadas.

As perguntas abertas têm a vantagem de poderem dar mais informação e, muitas vezes informação mais “rica” e detalhada ou até inesperada. No entanto, também apresentam as seguintes desvantagens:

Muitas vezes as respostas necessitam de ser “interpretadas”; É preciso muito tempo para codificar as respostas;

Normalmente é preciso utilizar pelo menos dois avaliadores na “interpretação” e codificação das respostas;

As respostas são mais difíceis de analisar estatisticamente; A análise requer muito tempo.

As perguntas fechadas têm a vantagem de ser fácil aplicar análises estatísticas para analisar as respostas, sendo muitas vezes possível analisar os dados de maneira sofisticada. Outro facto a ter em conta quando se formulam perguntas está relacionado com a extensão e clareza das perguntas. Note-se que a clareza está inversamente relacionada com a extensão de uma pergunta. Devem-se escrever perguntas curtas, com palavras e sintaxe simples e evitando, sempre que possível, o uso de termos técnicos.

PINTO (1986) defende que, dado o elevado número de inquéritos exigido pela representatividade estatística, as vantagens das perguntas fechadas acabam por vingar sobre as possíveis desvantagens.

(25)

que usam uma mistura de conjunções e disjunções; perguntas não-neutras (as perguntas para medir opiniões, atitudes ou satisfações devem ter uma forma neutra, ou seja, não devem ter uma forma que convide apenas a uma resposta positiva ou negativa) e, perguntas indefinidas (pergunta vaga, o respondente tem a responsabilidade de definir o significado da pergunta podendo utilizar critérios diferentes).

Em relação ao número de respostas alternativas a usar, quando o objectivo da pergunta é solicitar factos quantitativos e não se conhece a provável gama (e distribuição) dos valores, é útil usar uma das seguintes opções:

Escrever uma pergunta aberta para a qual a resposta seja um valor exacto escrito pelo respondente. Caso seja conveniente categorizar as respostas após a recolha dos dados, é fácil olhar para a gama de valores e sua distribuição para decidir quantas categorias usar para classificar as respostas.

Quando o pedido de um valor exacto for “sensível” demais convém usar uma pergunta fechada. É útil consultar pessoalmente alguns potenciais respondentes para obter conselho prático sobre a provável gama de valores, bem como sobre o número óptimo de respostas alternativas (categorias) associadas à pergunta.

Outra questão que muitas vezes se põe é se se deve utilizar um número par ou ímpar de respostas alternativas.

Perante um número ímpar de respostas alternativas, muitos inquiridos têm tendência para dar a resposta de uma maneira “conservadora” e reponderem no meio da escala, pensando que é mais “seguro” não dar uma opinião forte (nem positiva nem negativa) – mas provavelmente têm uma opinião mais forte do que mostram. Portanto, um número de respostas alternativas ímpar pode ajudar à obtenção de respostas “erradas”. As respostas são “erradas” porque não são representativas das verdadeiras opiniões (ou atitudes ou satisfações) de uma grande parte dos inquiridos.

Esta tendência está especialmente ligada a perguntas “sensíveis” sobre atitudes, opiniões ou satisfações, ou seja, perguntas que tratam de assuntos potencialmente embaraçosos, ou perguntas em que o respondente pensa que pode estar a correr um risco se responder de forma clara – portanto prefere evitar o risco por meio de uma resposta mais ou menos “neutra”. Por outro lado, um número par de respostas alternativas, tal como já se disse anteriormente, é de evitar pois obriga todos os inquiridos a dar uma opinião (ou atitude) definitivamente positiva ou negativa. Não é possível dar uma opinião neutra –

(26)

mesmo no caso em que a opinião do inquirido seja verdadeiramente neutra. Portanto, um número par de respostas alternativas pode forçar a respostas “erradas”.

Não há uma regra de ouro para decidir se é melhor utilizar um número par ou ímpar de respostas alternativas. Contudo, se o investigador pensar que uma variável é “sensível”, pode ser útil utilizar um número par de respostas alternativas. Se o questionário for anónimo e não contiver perguntas “sensíveis” geralmente é recomendado que se utilize um número ímpar de respostas alternativas.

Podem surgir problemas com escalas ordinais quando:

Há confusão nos tipos de resposta alternativa (alternativas de frequência e misturadas com alternativas de quantidade);

A gama de respostas alternativas é demasiado restrita;

As respostas alternativas não têm descrições e é necessário interpretar os valores da escala, pois a interpretação não é única (ordem crescente ou decrescente);

As respostas alternativas são apenas parcialmente descritas (por exemplo, com descrições só nos extremos).

Quando as perguntas para solicitar opiniões ou atitudes sobre assuntos precisam de conhecimento específico, é preferível escrever duas perguntas: uma primeira para investigar sobre o conhecimento do respondente e uma segunda (só para aqueles que têm conhecimento adequado) para investigar as suas opiniões ou atitudes.

Normalmente a primeira ou última secção do questionário referem-se às características socioeconómicas dos respondentes ao questionário. O motivo pelo qual por vezes se coloca esta secção no final deve-se ao facto de serem perguntas simples de responder o que poderá motivar o respondente a terminar o questionário.

É muito importante recolher apenas as características estritamente relevantes à investigação porque perguntas sobre características não necessárias e que não vão ser incluídas nas análises dos dados, aumentam o cumprimento do questionário e, portanto, aumentam o risco de falta de cooperação dos respondentes. Para escolher as características relevantes é preciso considerar os dois aspectos seguintes: todas as hipóteses da investigação e os detalhes dos casos requeridos para descrever a amostra e replicar a investigação.

As questões de um inquérito devem estar normalmente estruturadas e padronizadas. A estrutura pretende reduzir o enviesamento. Por exemplo, as questões devem ser ordenadas

(27)

de tal forma que uma questão não influencie a resposta às questões subsequentes. Os inquéritos são padronizados para assegurar a confiança, a generalidade e a validade.

É fundamental ter em mente que “a formulação de perguntas não pode perder de vista as características da população a inquirir.” PINTO (1986).

3.4- DESENHO DO QUESTIONÁRIO

Um questionário pouco atractivo pode levar a que as pessoas não o preencham, por isso, este é também um tópico muito importante.

Ao se desenhar um questionário deve-se ter presente dois objectivos – reduzir a não resposta e minimizar o erro de medida.

O questionário deve ser construído de modo a: Motivar os inquiridos a preenchê-lo; Permitir a correcta leitura das questões;

Instruir os inquiridos a responder a cada questão, com instruções claras de sequência no preenchimento do questionário;

Garantir a sua correcta devolução depois de preenchido.

Os questionários devem ter uma introdução que contenha os seguintes aspectos: Um pedido de cooperação no preenchimento do questionário;

A razão da aplicação do questionário;

Uma apresentação curta da natureza geral do questionário; O nome da instituição (faculdade, centro de investigação); Uma declaração formal da confidencialidade das respostas; Uma declaração formal da natureza anónima do questionário.

Outra questão que se deve ter em consideração é o layout do questionário, nomeadamente:

A clareza e o tamanho do questionário; As secções e as perguntas do questionário; As instruções.

Por fim há que analisar a aparência estética do questionário e fazer uma verificação final do questionário.

(28)

3.5- PRÉ-TESTE DO QUESTIONÁRIO

Um pré-teste não é mais que uma revisão formal do questionário e da metodologia de recolha de dados que lhe está associada. O que por vezes se faz é aplicar o questionário a uma sub amostra pedindo colaboração para identificar possíveis problemas.

Deste modo, deve-se, sempre que possível, realizar um estudo preliminar para verificar a relevância, clareza e compreensão das perguntas aplicadas aos respondentes.

Por exemplo, quando se procede à tradução do questionário para diversas línguas, deve-se fazer um estudo preliminar para testar a tradução do questionário tendo em consideração: o significado pessoal e o significado comum de uma palavra; o problema da polissémia (uma palavra que tem vários significados comuns); o problema de versões diferentes de uma língua (por exemplo: português de Portugal e do Brasil) e o problema da linguagem idiomática e da linguagem coloquial. Uma técnica que se poderá utilizar é a do “traduz – retraduz”, ou seja traduzir e verificar a tradução do questionário voltando a traduzir para a língua original e então comparar o original com a “retradução”.

3.6- O PLANO DO QUESTIONÁRIO

Segundo HILL (2000) os passos a seguir na construção de um questionário são: 1. Listar todas as variáveis da investigação, incluindo as características dos casos; 2. Especificar o número de perguntas para medir cada uma das variáveis, com

especial atenção a quando se tem variáveis latentes, ou seja, variáveis que não podem ser observadas nem medidas directamente, mas que podem ser definidas a partir de um conjunto de outras variáveis (possíveis de serem observadas ou medidas) que medem qualquer coisa em comum (nomeadamente, a variável latente);

3. Escrever uma versão inicial para cada pergunta;

4. Pensar cuidadosamente na natureza da primeira hipótese geral e nas variáveis e perguntas iniciais com ela associadas. Identificar em seguida que tipo de hipótese se tem (hipótese que trata de diferenças entre grupos de casos ou hipótese que trata de relações entre variáveis);

5. Consoante o tipo de hipótese geral, decidir quais as técnicas estatísticas adequadas para testar a hipótese e ter em atenção os pressupostos destas técnicas;

(29)

6. Decidir, com base na informação anterior, o tipo de resposta desejável para cada pergunta associada com a hipótese geral (respostas qualitativas descritas por palavras pelo respondente; qualitativas escolhidas pelo respondente a partir de um conjunto de respostas alternativas fornecido pelo autor do questionário ou, quantitativas escolhidas pelo respondente a partir de um conjunto de respostas alternativas fornecido pelo autor do questionário);

7. Com base na informação dos últimos 3 passos escrever a hipótese operacional; 8. Considerar as perguntas iniciais (e os tipos de respostas) associadas com a

primeira hipótese operacional e, caso necessário, “limar arestas” (polimento) de forma a chegar às versões finais para incorporar no questionário;

9. Verificar se as versões finais das perguntas e das respostas ainda são adequadas para testar a hipótese operacional;

10. Repetir os passos 3-9 para as outras hipóteses gerais;

11. Escrever as instruções associadas com as perguntas para informar o respondente como deve responder;

12. Planear as secções do questionário.

Em suma, um questionário para ser eficiente na recolha de informação deve: manter a cooperação e motivação do respondente sendo para isso determinante o comprimento do questionário e o tema em estudo; comunicar com o respondente ou seja, utilizar palavras que ele conheça, não fazer perguntas ambíguas e empregar conceitos abstractos ou vagos; ajudar o respondente a formular as suas respostas explicando sem induzir a resposta ou, utilizando auxílios visuais para recordar situações ou ainda, nas perguntas abertas, se a resposta não atingir os objectivos pode-se estimular a dar mais informação através de frases como “e mais alguma coisa?”, “e que outras razões?”; evitar enviesamentos através do modo como a questão é escrita; facilitar o trabalho do entrevistador ou do respondente elaborando um questionário bem organizado, com as perguntas devidamente numeradas, com indicações, com espaço suficiente para as respostas, e com tamanho de fonte adequado, boa impressão, etc; facilitar o processamento da informação codificando previamente as categorias de resposta das perguntas que a isso se adequam.

Conseguir uma taxa de respostas aceitável exige um acompanhamento sistemático do estudo, podendo ser adoptadas diversas práticas. Pode-se, por exemplo, fazer acompanhar o questionário de uma carta de apresentação – personalizada, honesta, interessante,

(30)

persuasiva mas curta – dando resposta a potenciais questões que podem surgir ao inquirido como a natureza do estudo, porque foi o inquirido escolhido, quem está a fazer o estudo, porque é importante a colaboração do inquirido, o que se pretende que faça, que uso terá a informação fornecida e se o respondente será ou não mantido no anonimato. Esta carta deve, preferencialmente, ser assinada à mão por um responsável do estudo. Pode-se também incluir com o questionário um envelope com porte pago para devolução do questionário respondido.

A oferta de pequenas recompensas, monetárias ou de outro tipo, pode igualmente ser uma estratégia a adoptar, embora se coloquem algumas ressalvas nesta técnica de indução de respostas. Existem situações em que o inquirido não sabe de todo o que responder, mas como está a ser aliciado com uma recompensa se responder, esforça-se por fazê-lo, expressando opiniões que não traduzem o seu sentimento real.

Uma táctica também utilizada consiste em contactar o respondente antes de este receber o questionário. A promessa de confidencialidade pode também surtir efeito em alguns respondentes, bem como o compromisso em comunicar os resultados do estudo.

Alguns princípios essenciais para maximizar o envolvimento e valor de um inquérito postal são: despertar a curiosidade; transmitir com clareza a importância do estudo; fazer sentir ao respondente a sua importância no estudo; ser interessante; ser de fácil compreensão, resposta e devolução.

As questões abertas devem ser evitadas, especialmente em questionários por correio, pois elas tendem a causar alguma ansiedade ao inquirido o que pode resultar na rejeição de todo o questionário.

O desenho do questionário influencia em muito a validade da informação.

A própria forma como a pergunta é feita pode enviesar a resposta. As perguntas devem ser expressas da forma mais neutral possível, não devem ser ambíguas e devem ser escritas numa linguagem que seja simples o bastante para ser entendida por respondentes de todos os níveis de inteligência. Devem-se evitar perguntas vagas, ambíguas, com dupla negações, com fortes apelos à memória e perguntas que deixem o inquirido responder à sua maneira.

Muitas pessoas pensam que é fácil desenhar um questionário porque é comum no dia a dia fazer perguntas. Contudo, na conversação as perguntas seguem-se de formas diferentes conforme as respostas que vão sendo dadas enquanto que nos questionários

(31)

interessa ter sempre as mesmas perguntas e ordem para cada membro da amostra, desviando apenas se as instruções o permitirem.

Desenhar um questionário de sucesso é uma arte que não pode ser aprendida sem prática. Note-se que com maus dados só se podem obter maus resultados, por mais malabarismos matemáticos que possam ser utilizados.

4- ETAPA 2: RECOLHA DOS DADOS

Uma vez planeado e desenhado o inquérito, pode-se começar a recolher os dados. De modo a ter sucesso nesta etapa, devem-se recolher dados “claros”, não enviesados e actualizados de um modo eficiente.

5- ETAPA 3: ACESSO AOS DADOS

Nesta etapa pretende-se “ler” os dados obtidos pelo método de recolha para o

software analítico onde procederá à análise. As fontes podem ser as mais variadas,

dependendo do método de recolha utilizado.

6- ETAPA 4: PREPARAÇÃO DOS DADOS

O objectivo desta etapa é garantir que os dados estão prontos para análise. Para isto será necessário identificar e corrigir erros.

Ao se começar a usar um conjunto de dados inevitavelmente encontrar-se-ão problemas. Os dados podem ter elementos inconsistentes, incompletos ou errados. Segundo DAVIDSON (2002), estima-se que 80% do tempo associado ao processo de prospecção e descoberta de informação será gasto a lidar com esses problemas.

Numa investigação por questionário podem surgir diversos erros, sejam motivados pela amostragem ou não.

Os erros motivados pela amostragem podem ser de várias tipos:

Variabilidade amostral ou erro amostral que decorre da própria noção de amostra, pois uma amostra nem sempre é representativa da população;

(32)

Enviesamento amostral resultante de um erro sistemático que desvia o ponto central da distribuição do estimador; representa uma tendência para deslocar esse ponto para a direita ou esquerda do verdadeiro valor do parâmetro. O enviesamento amostral pode ser causado:

Por se utilizar uma listagem de elementos da população para fazer a selecção da amostra – base de sondagem – incompleta ou imperfeitamente definida, levando a considerar indivíduos que não deveriam ser considerados ou a omitir outros que deveriam ser considerados;

Por uma incompleta ou incorrecta execução do processo de amostragem, frequentemente motivada pelas não respostas ou missing values;

Por se utilizarem maus estimadores.

Os erros não motivados pela amostragem podem ser:

Erros na recolha da informação (exemplo: em entrevistas pessoais):

Por factores comportamentais tanto do entrevistador como do entrevistado, ou seja, a impressão que o entrevistador e o entrevistado têm um do outro;

Por características intrínsecas; Por factores psicológicos;

Por características visíveis (idade, educação, sexo, …); Por atitudes, percepções, expectativas, motivações;

Pela forma como se colocam as questões (por exemplo, se as questões não forem lidas da forma como estão redigidas);

Ao se prestar esclarecimentos, caso se induza a resposta do inquirido; No registo das respostas, principalmente quando são perguntas abertas;

Por uma resposta inadequada ou inexacta seja por incapacidade ou por relutância de responder com exactidão;

Por falsificação, por exemplo, no caso de se forjar uma entrevista, sem nunca se ter tido contacto com o “inquirido”).

Erros no processamento da informação (erro de compilação ou codificação).

Os diferentes tipos de erros não são independentes uns dos outros, mas para motivos práticos é razoável considerar diferentes tipos de erros separadamente e procurar estratégias para reduzi-los um por um, então é de esperar que o total do erro do

(33)

Como parte do processo de preparação dos dados pode-se fazer uma variedade de acções com a matéria-prima, como por exemplo nomear de forma consistente e não ambígua. Estes procedimentos de rotina ajudam a assegurar que os dados são de boa qualidade e integridade.

Antes de se efectuar qualquer tipo de análise é necessário examinar os dados, de modo a identificar outliers, missing values e verificar se os dados cumprem os pressupostos do método de análise que se pretende utilizar.

As representações gráficas (assunto desenvolvido no sub-capítulo 3.5) são extremamente úteis nesta etapa, pois permitem:

Examinar a forma da distribuição: através, por exemplo, de um histograma pode-se ganhar uma perspectiva da forma da distribuição da variável;

Examinar as relações entre as variáveis: através, por exemplo, de um gráfico de dispersão (ou de uma matriz de gráficos de dispersão) pode-se examinar as relações entre duas ou mais variáveis;

 Identificar outliers: através, por exemplo, de um gráfico de “bigodes”.

Um dos problemas dos dados a tratar nesta etapa são os missing values (dados em falta).

Os dados em falta podem ser causados por factor externo ao inquirido (erro na introdução dos dados ou na recolha dos dados) ou então, podem dever-se ao inquirido (recusa à resposta).

Quando os missing values se devem ao inquirido, o investigador deve tentar encontrar padrões que possam caracterizar o processo de dados em falta, ou seja, descobrir o grau de aleatoriedade presente nos missing values.

É necessário entender o impacto que os dados em falta podem ter na análise e encontrar alternativas para resolver o problema.

Antes de implementar uma solução para os dados em falta, o investigador deve entender o que está subjacente ao processo de dados em falta.

LEVY (1999) aponta alguns métodos para lidar com os dados em falta disponíveis em diversos packages estatísticos, nomeadamente:

 Complete case aproach: método a utilizar apenas se houverem poucos dados em falta e se a amostra for suficientemente grande para permitir a eliminação de todos os indivíduos (casos) com missing values;

(34)

 Delete case(s) and/or Variable(s): o investigador determina a extensão dos dados em falta para cada indivíduo (caso) e variável e então elimina os indivíduos ou variáveis com número excessivo de dados em falta.

 Métodos de introdução: (por exemplo: replace with mean) estimar o missing

value baseando-se em valores de outras variáveis ou de outros casos na amostra.

Utilizar um destes métodos pode ser útil porque fica-se com os dados completos e com as relações que foram identificadas nos restantes dados, mas pode ser perigoso porque se está a “falsificar” os dados. É necessário analisar o impacto que essa “falsificação” terá na análise.

A escolha certa depende de: dimensão da amostra completa; natureza da análise estatística que o investigador pretende efectuar; variável com maior número de valores

missing nessa análise; distribuição dos indivíduos (casos) com missing values no conjunto

de variáveis na análise.

Outra questão de realce nesta etapa é a identificação de outliers.

Outliers são observações com uma combinação única de características identificada

como distintamente diferente das outras observações; são casos que podem distorcer as relações por serem únicos numa ou mais das variáveis em estudo. Podem ser benéficos ou problemáticos, mas devem ser examinados no contexto da análise e devem ser avaliados pelo tipo de informação que fornecem. Quando benéficos, embora diferentes da maioria da amostra, podem dar indicações das características da população que não seriam descobertas no curso normal da análise.

Os outliers podem resultar de:

Erros na entrada dos dados ou na codificação (devem ser eliminados na fase de limpeza dos dados);

Observação devida a um evento extraordinário (neste caso o investigador deve decidir se esse evento deve ser representado ou eliminado);

Observações atípicas para as quais o investigador não tem explicação (se o investigador achar que eles representam um segmento da população devem ser retidos);

Observações normais em cada variável individualmente, mas com uma combinação única de valores nas diversas variáveis, ou seja, outliers multivariados (devem ser retidos, a não ser que haja informação suficientemente

(35)

Os outliers podem ser identificados de forma univariada (por exemplo, através de um histograma), bivariada (identificando pontos isolados no gráfico de dispersão, por exemplo) ou, de forma multivariada (através, por exemplo, de uma distância de

Mahalanobis).

Outro passo importante desta etapa de preparação dos dados é verificar se os dados cumprem os pressupostos das técnicas de análise que se pretende utilizar. Alguns dos pressupostos mais comuns são a normalidade, a homocedasticidade e a linearidade. Veja-se então, para cada um destes pressupostos, as formas de identificação.

Normalidade: Pode-se identificar graficamente através de um histograma ou, aplicando testes estatísticos como kurtose e swewness (ver sub-capítulo 3.1.1).

zskewness = skewness / (6/N)1/2

zkurtosis = kurtosis / (24/N)1/2

Se o valor z for superior ao valor crítico então a distribuição é não gaussiana.

Homocedasticidade (relacionada com a variância dos desvios não constante): Pode-se identificar graficamente através de um gráfico de dispersão dos resíduos, pois se houver correlação então há homocedasticidade. Também se podem aplicar os testes estatísticos de

Levene e de Box’s M. (ver PINDYCK (1991))

Linearidade: Pode-se identificar através de um gráfico de dispersão ou fazendo uma análise de regressão.

Como forma de resolução no caso de um dos pressuposto não ser cumprido, podem-se aplicar transformações aos dados (no sub-capítulo 3.4.1.1, aquando da abordagem à análise de regressão múltipla são dados alguns exemplos de transformações).

(36)

7- ETAPA 5: ANÁLISE DOS DADOS

O objectivo desta etapa é extrair informação útil dos dados recolhidos para suporte ao processo de tomada de decisão. Qualquer informação obtida tem um valor intrínseco. A chave é extrair esse valor.

Existem inúmeros procedimentos estatísticos para análise de dados, dependendo do que se deseja saber e do tipo de medida das variáveis (dados).

As técnicas estatísticas podem ser classificadas de várias maneiras, por exemplo: Técnicas paramétricas e não-paramétricas;

Técnicas que tratam de diferenças entre amostras de casos, e técnicas que tratam da relação entre variáveis (para uma só amostra de casos);

Técnicas univariadas, técnicas bivariadas e técnicas multivariadas.

Note-se que uma técnica pode ser, por exemplo, simultaneamente uma estatística indutiva e um método não-paramétrico. Neste capítulo, cada técnica será apresentada apenas no sub-capítulo correspondente à classificação mais comum, podendo ser apresentada como exemplo em outro sub-capítulo onde também se enquadra.

Tal como já foi referido, o tipo de técnica escolhida depende muito da escala de medida das variáveis. Deste modo, os diversos tipos de escalas existentes são:

Escalas não métricas

Escala nominal – se se estiver a falar de categorias cuja sequência é arbitrária, pois os números codificam apenas “nomes”, são rótulos (e.g., sexo, cor dos olhos). As metodologias que podem ser utilizadas no tratamento estatístico deste tipo de dados são aquelas que envolvem contagens de efectivos em cada categoria (ou proporções). Não é lícito fazer operações aritméticas com dados nominais. Escala ordinal – se existir uma ordenação natural das categorias (e.g., classes

etárias, habilitações literárias). No tratamento estatístico deste tipo de dados podem ser usadas metodologias destinadas a análise de ordens (ranks), assim como metodologias para dados nominais.

Escalas métricas

Escala intervalar – se o zero da escala for arbitrário, isto é, não corresponder à anulação da característica em estudo (e.g., temperatura), pelo que as comparações

(37)

ordinais e as operações de adição e subtracção fazem sentido, mas a divisão é uma operação ilegítima.

Escala de razões – se o zero da escala corresponder de facto à anulação da característica em estudo (e.g., peso, velocidade), pelo que quer ordenações quer operações aritméticas, sejam elas de adição e subtracção, sejam elas de comparação através de quocientes, são legítimas.

Segundo HILL (2000), os dois tipos de escala mais frequentemente utilizados em questionários são as escalas nominais e ordinais. No entanto, para medir algumas características dos casos, também se usam escalas métricas (escalas de intervalo e escalas de razões).

Veja-se de seguida, segundo HILL (2000), as técnicas estatísticas mais adequadas para analisar respostas dadas em cada um dos tipos de escala.

Escala nominal

As escalas nominais fornecem dados na forma de frequências. Isto significa que o que se tem é o número de respostas em cada categoria da escala. As análises estatísticas adequadas são principalmente as técnicas não-paramétricas.

Escala ordinal

As perguntas que originam respostas numa escala ordinal podem ser de dois tipos. Sendo o tipo 1 um conjunto de itens que o inquirido tem de avaliar uns em relação aos outros. Ou seja, o inquirido tem de dar uma ordenação aos itens. O tipo 2 consiste em avaliar um só item em termos de uma variável (por exemplo, perguntas para avaliar a satisfação).

Para analisar as respostas a uma pergunta do tipo 1 é comum utilizar-se uma análise de variância de Friedman (ver sub-capítulo 3.2.1.5).

Em relação ao tipo 2, embora essas perguntas usem escalas ordinais, quando a distribuição das respostas é unimodal e mais ou menos gaussiana, é vulgar tratar os valores numéricos ligados com as respostas como tendo sido obtidos através de uma escala métrica. Usam-se normalmente métodos paramétricos (por exemplo: teste t, ANOVA, correlações do tipo Pearson e mesmo análises multivariadas – análise factorial, análise discriminante, etc.) (ver sub-capítulos correspondentes aos métodos paramétricos e à análise multivariada). Antes de se utilizar um destes métodos é muito importante verificar se os dados estão mais ou menos de acordo com os pressupostos da respectiva técnica.