Número de classes - GLOSSÁRIO DE ESTATÍSTICA

C : Combinações de n objetos r a r.

CADASTRO (OU MARCO) DE AMOSTRAGEM: Rol de unidades ou indivíduos, como na relação de domicílios, utilizando para selecionar uma amostra.

CADEIA DE MARKOV: Essa expressão é usada com dois sentidos diferentes, ambos relacionados com o Processo de Markov. Em um deles, um processo [x₁] é chamado de cadeia se o parâmetro de tempo é discreto. No outro, é chamado de cadeia se os valores de x são discretos. O primeiro é preferível. Em inglês Markov Chain.

CADEIAS DE MARKOV: É um processo estocástico definido assim: Consideremos uma sequencia de ensaios cujos resultados, x x₁, , ,₂  satisfazem as seguintes propriedades. i) Cada resultado pertence a um conjunto finito de resultados, chamado o espaço dos estados do sistemas; se o resultado da n-ésima tentativa é a_idizemos que o sistema se encontra no estado a_i no instante n., ii) O resultado de qualquer ensaio depende no máximo do resultado do ensaio imediatamente anterior e não de qualquer outro dos precedentes; a cada par de estados

(

a ai^, j

)

está associada a probabilidade P_ij de que a_jocorre imediatamente após ter ocorrido a_i. Sendo assim o processo estocástico com as propriedades descritas ante- riormente é chamado cadeia de Markov finita. Os números P_ij, chamados probabilidades de transição, podem ser dispostos segundo a matriz P abaixo, a qual é denominada de matriz de transição.

11 12 1

21 22 2

1 2

m m

m m mm

p p p

 

 

= 

 

 



   



Assim a cada estado a_i corresponde a i – ésima linha

(

p p_i1, _i2, , p_im

)

da matriz de transição P, se o sistema está no estado a_i, então esse vetor – linha representa as probabilidades de todos os possíveis resultados do próximo ensaio, de forma que é um vetor de probabilidade. Consequentemente, a matriz de transição P da cadeia de Markov é uma matriz estocástica. Ver matriz estocástica.

CADEIA DE MARKOV ABSORVENTE: Uma classe importante de cadeias de Markov não ergódicas;

aquela cadeia que possui um estado absorvente. Absorving Markov chain.

CADEIA DE MARKOV FINITA: Uma cadeia de Markov {x_n} é chamada finita com k estados se o número de valores possíveis da variável aleatória {x_n} é finito e igual a k. Em inglês Finite Markov chain.

CADEIA DE MARKOV IRREDUTÍVEL: Uma cadeia de Markov é chamada irredutível se todos os pares de estados da cadeia se comunicam. Em inglês Irreducible Markov chain.

CADEIA ERGÓDICA: Cadeia de Markov com propriedade de ergodicidade. Em inglês Ergodic chain.

Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C

99 98

CARGA (LOADINGS): Em uma análise de componentes principais, os parâmetros que são multiplicados por cada variável de uma observação multivariada para gerar uma nova variável, ou escore de componente principal para cada observação. Cada um desses escores é uma combinação linear das variáveis originais.

CARGA DOS FATORES (FACTOR LOADINGS): Os coeficientes lineares com que os fatores comuns em uma análise fatorial são multiplicados para obter uma estimativa da variável original.

CASUAL (HAPHAZARD): Atribuição de indivíduos ou populações a grupos de tratamentos que não é verdadeiramente aleatória. Comparar com randomização.

CCA: Ver análise de correspondência canônica.

CÉLULA (CELL): Um campo em uma planilha. É identificada pelo número de sua linha e coluna e con- tém um único valor, ou dado.

CENTROIDE (CENTROID): O vetor médio de uma variável multivariada. Pense nele como o centro de uma nuvem de pontos no espaço multivariado, ou o ponto em que você poderia equilibrar essa nuvem de pontos na ponta de uma agulha.

CENTRO DE GRAVIDADE (OU DE MASSA): ermo usado na física para indicar o centro de equilíbrio de um corpo, barra ou sistema. Um corpo consiste de um grande número de partículas que estão todas sujeitas à gravidade. Para se encontrar o centro de gravidade pode-se citar o caso de simples de dois pontos P₁ e P₂ de mesma massa. Então, por simetria, o centro de gravidade é o ponto médio C, que por meio da álgebra de vetores, é representado através de setas com a origem em zero (0) e extremidades em P₁ e P₂, dados por a₁ e a_2,respectivamente. Usando um paralelogramo, determina-se a soma dos vetores a₁ e a₂. Já que as diagonais de um paralelogramo se bisseccionam, o vetor c, que aponta para C é dado por,

2 ²

1 a

c= a + .

Isto é simplesmente a média aritméticas dos dois vetores a₁ e a₂. Sejam 

 



=

1 1

1 y

a x e 

 



=

2 2

2 y

a x .

Então c tem coordenadas

( )

2 ²

1 x

x + _e

( )

2 ²

1 y

y + . Se forem dados n pontos de mesma massa, por vetores

a₁, ₂,, , a mecânica mostra que o centro de gravidade é dado pelo vetor

∑

= ⁿ

i i

n a

n n

a a c a

1 2

1, ,, 1

. O resultado é simplesmente uma extensão da fórmula

2 ²

1 a

c= a + _{. A mesma} fórmula é de importância básica na análise estatística de direções, como aplicada em exemplos de aves migradoras. Uma generalização ocorre quando diferentes massas M_i estão localizadas nos pontos deter- minados por vetores a_i

(

i= ,12,3,,n

)

. Neste caso, a média aritmética usual se transforma na média aritmética ponderada, ou seja,

n n n

M M

a M a

M a c M

+ + + +

+ +

= +



2 2 1

2 2 1 1

Os exemplos podem ser aplicados ou estendidos para casos de três massas, quatro massas, etc., mas a fórmula é válida nos espaços bi e tridimensionais. É também útil nos espaços de dimensões mais elevadas, apesar de perder seu significado físico. Uma importante aplicação da equação é feita na análise estatística CAIXA DE BIGODES (BOXPLOT): É um tipo de representação gráfica, em que se realçam algumas

características da amostra. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartis, Q₂₅ e Q₇₅ é representado por um retângulo ou caixa com a mediana indicada por uma barra. Consideram-se seguidamente duas linhas que unem os lados dos retângulos com os chamados valores adjacentes.

CAIXA DE TEXTO: Espaço destinado à entrada de uma determinada informação, requerida para o teste de hipótese em programas de computador, software ou pacote estatístico.

CÁLCULO DE COMPOSIÇÕES: É feito por meio da média ponderada do teor pelas espessuras selecionadas para o intervalo de trabalho, como mostra a equação a seguir:

1 n i i i

C n

i i

t t e e

∑

onde n é o número de trechos para compor o intervalo de trabalho; t_i é o teor do i-ésimo trecho; e_i é a espessura do i-ésimo trecho.

CÁLCULO DE COVARIÂNCIAS: Para fins de krigagem de bloco, onde se deseja estimar o teor médio do bloco ou painel e não de um único ponto no interior dos mesmos, é feito por meio da discretização, do domínio a ser estimado, em um número de pontos igualmente espaçados dentro do domínio, de tal forma que cada ponto represente o centro de um sub-bloco ou sub-painel. Feito isto, o cálculo da cova- riância média é simplesmente a média aritmética das covariâncias entre uma amostra e cada ponto ou então somente entre os pontos dentro do domínio, respectivamente para a covariância média entre uma amostra e o bloco/painel ou para a covariância média dentro do bloco/painel.

CÁLCULO DO TAMANHO DA AMOSTA: Cálculo matemático, feito geralmente quando o ensaio é planejado, que estabelece o número de pacientes que deve ser recrutado, a um dado nível de significância e um dado poder de teste.

CAMADA OCULTA: Série ou camada de interconexões em uma rede neural perceptron de multicama- das que estão entre as interconexões de entrada e saída. O pesquisador pode ou não controlar o número de interconexões por camada oculta ou a quantia de camadas ocultas. As camadas ocultas fornecem a capacidade de representar funções não-lineares no sistema de rede neural.

CAMPO DE NÚMEROS ALGÉBRICOS: Um campo algébrico é um sub- campo dos Reais (R) ou Com- plexos (C) que contém os números racionais (Q) bem como as raízes de algum polinômio com coeficientes racionais. Por exemplo, o campo Q ( 2) é o conjunto dos números reais {a + b 2 | a, b racionais}. Este campo contém as raízes da equação x²-2=0. Em inglês algebraic number field.

CAMPOS DE VARIÁVEL: Espaços de computador destinados a uma variável e a ela correspondentes no questionário.

CAMPO GEOMÉTRICO: É a extensão máxima possível do variograma, considerando as informações disponíveis. Geralmente, para dados com uma extensão igual a L, tem sido aceito um campo geométrico igual a

2 L_.

CÁLCULO DE PROBABILIDADE (PROBABILITY CALCULUS): Temática usada para lidar com probabilidades, envolvendo quaisquer conceitos.

Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C

CARACTERÍSTICA QUANTITATIVA: Característica que pode ser descrita por uma escala de medidas rígida e dimensional.

CARACTERÍSTICA QUANTITATIVA: Características em que não há nenhuma distinção bem definida entre fenótipos, com variação gradual de um fenótipo a outro. Por exemplo, altura, perímetro torácico, peso ao desmame, dentre outras. Geralmente, muitos pares de genes e influências ambientais estão envolvidos.

CARACTERÍSTICAS ESPAÇO-TEMPORAIS: Valores observados ao longo do tempo e em diversos locais geográficos. Em inglês Space-time attibutes.

CARDINAL: Simbolo de contagem que indica número de elementos. #.

CARGA ALOSTÁTICA: O termo alostático provém do grego e significa encontrar estabilidade por meio da mudança. É o nível atual de demanda para adaptações em um indivíduo. Um nível muito alto pode contribuir de forma importante para muitas doenças crônicas. Em inglês Allostatic load.

CARGA FATORIAL: Em análise fatorial, medidas da correlação entre um item e um dos fatores calculados.

CARGAS CANÔNICAS: Medida da correlação linear simples entre as variáveis independentes e suas respectivas variáveis estatísticas canônicas, Essas podem ser interpretadas como cargas fatoriais e também são conhecidas como correlações de estrutura canônica.

CARGAS CRUZADAS CANÔNICAS: Correlação de cada variável independente ou dependente observada com a variável estatística canônica oposta. Por exemplo, as variáveis independentes são correlacionadas com a variável estatística canônica dependente. Elas podem ser interpretadas como cargas canônicas, mas com a variável estatística canônica oposta.

CARGAS FATORIAIS: Correlação entre as variáveis originais e os fatores, bem como a chave para o entendimento da natureza de um fator em particular. As cargas fatoriais ao quadrado indicam qual per- centual da variância em uma variável original é explicado por um fator.

CARGAS DISCRIMINANTES: Medida da correlação linear simples entre cada variável independente e o escore Z discriminante para cada função discriminante; também chamadas de correlações estruturais.

As cargas discriminantes são calculadas sendo ou não incluída uma variável independente na função discriminante.

CARTA : Uma carta de controle usada quando um processo de produção é medido em termos do valor médio de uma variável como comprimento, peso, temperatura e assim por diante.

CARTA DE CONTROLE: Uma ferramenta gráfica usada para ajudar a determinar se um processo está sob controle ou fora de controle.

CARTA np: Uma carta de controle usada para monitorar o processo de produção em termos do número de itens defeituosos.

CARTA p: Uma carta de controle usada quando um processo de produção é medido em termos da pro- porção defeituosa.

CARTA R: Uma carta de controle usada quando um processo de produção é medido em termos da amplitude de uma variável.

multivariada. A esperança matemática, média, valor médio, valor esperado ou esperança de variável aleatória discreta ou contínua, é interpretada como um centro de gravidade, a qual é dada para o caso discreto por

( ) ∑

= ^m

i pixi

X E

1 a qual tem uma interessante correlação em mecânica, pois se for considerado cada valor x_i como a abscissa de um ponto em uma reta e se for interpretado p_i como uma massa ou um peso con- centrados no ponto x_i, então, o ponto com abscissa E

( )

X é idêntico ao centro de gravidade (c.g.) do sistema.

CIRCULARIDADE (CIRCULARITY): A premissa da análise de variância de que a variação entre amostras dentro de subparcelas ou blocos é a mesma ao longo de todas as subparcelas ou blocos.

CLASSIFICAÇÃO (CLASSIFICATION): O processo de posicionar, colocar em grupos. Um termo geral para os métodos multivariados, como a análise de agrupa mento ou a análise discriminante, que estão preocupados em agrupar observações. Comparar com ordenação.

COEFICIENTE BINOMIAL (BINOMIAL COEFFICIENT): A constante ou a combinação pela qual multiplica-se a probabilidade de uma variável aleatória de Bernoulli para obter uma variável aleatória binomial. O coeficiente binomial ajusta a probabilidade para levar em conta múltiplas combinações equi- valentes de cada um dos dois resultados possíveis. Ele é escrito como:



 



 X

n , e é lido como “n sobre X”. É calculado como: !

(

)

! X n X

− ^,

onde ”!” indica o fatorial de um número ou o produto de n números inteiros.

COEFICIENTE DE CAMINHOS OU DE CAMINHAMENTO OU DE TRILHA (PATH COEFFICIENT):

Um tipo de parâmetro de regressão parcial calculado na análise de caminhos que indica a magnitude e o sinal de efeito de uma variável sobre outra.

CANÔNICO: Termo usado em estatística para implicar algo que foi reduzido à sua forma mais simples.

CAR (CONDICIONAL AUTO-REGRESSIVO): Efeitos aleatórios estruturados, utilizados em modelos para dados espaciais. Inicialmente utilizados na restauração eletrônica de imagens e também usados em estatística por Besag (1974). Assumem, para um particular local geográfico, uma média igual à média dos vizinhos e uma variância inversamente proporcional ao número de vizinhos. Em inglês CAR (conditional autoregressive).

CARACTERÍSTICA (ATRIBUTO): Uma característica qualitativa de um indivíduo, geralmente empre- gado em distinção a uma variável ou característica quantitativa. Portanto, para seres humanos, o sexo é um atributo e a idade é uma variável.

CARACTERÍSTICA QUALITATIVA: Características em que há uma distinção bem definida entre fenótipos, tal como pelagem negra e branca ou mocho e chifrudo. Normalmente, um único ou poucos pares de genes estão envolvido (s) na expressão de caracteres qualitativos.

CARACTERÍSTICA QUALITATIVA: Característica que pode ser descrita em detalhes, mas que não é verdadeiramente mensurável.

Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C

103 102

COEFICIENTE DE VARIAÇÃO (CV) (COEFFICIENT OF VARIATION): A quantidade obtida pela divisão do desvio padrão da amostra pela média da amostra. O coeficiente de variação é útil para comparar a variabilidade entre diferentes populações, pois foi ajustada ou padronizada para a média da população.

Conhecido também como coeficiente de variação de Pearson CVp.

CV_T: COEFICIENTE DE VARIAÇÃO DE THORNDIKE: É igual ao quociente entre o desvio padrão e a mediana da série de valores. Determina-se através das seguintes equações:

CV_T = S ou ^CVT _Md^S ^x¹⁰⁰



 



=

quando o resultado é expresso em porcentagem (%.). Ele varia entre 0 e 1 , ou 0 e 100%.

COM REPOSIÇÃO: Um método de selecionar amostras, em que itens são repostos entre sucessivas seleções.

CORRELAÇÃO BIVARIADO: O coeficiente de correlação bivariado mede como variáveis ou postos estão relacionados. Coeficientes: Pearson, Spearman’s rho e Kendall’s tau-b.

COEFICIENTE DE CORRELAÇÃO LINEAR SIMPLES DE PEARSON (r): Conforme Figueiredo filho e Silva Júnior (2009), o coeficiente de correlação de Pearson tem esse nome devido ao estatístico inglês Karl Pearson, no entanto não se deve atribuir exclusivamente a Karl Pearson o desenvolvimento dessa estatística.

Na verdade a origem desse coeficiente remonta o trabalho conjunto dos estatísticos inglês Karl Pearson e Francis Galton, sendo que na literatura especializada se afirma que correlação é uma medida do grau de associação bivariada, força de correlação ou relação, ou ainda se refere ao grau de relacionamento entre duas variáveis quantitativas discretas ou contínuas, nunca variáveis categóricas. A correlação mensura a direção e o grau da relação linear entre duas variáveis quantitativas. Ou seja, o coeficiente de correlação de Pearson (r) é uma medida de associação linear entre variáveis. Sua fórmula é a seguinte:

( )( )

y n i

i x

S Y y S

X x

r n − −

= −

∑

1 =1

1 .

Dois conceitos são importantes para entendê-la: associação e linearidade. O significado que duas variáveis estão associadas é a seguinte. Em termos estatísticos, duas variáveis se associam quando elas guardam seme- lhanças na distribuição dos seus escores. Mais precisamente, elas podem se associar a partir da distribuição das frequências ou pelo compartilhamento de variância. No caso da correlação de Pearson (r) vale esse último parâmetro, ou seja, ele é uma medida da variância compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o aumento ou decremento de uma unidade na variável X gera o mesmo impacto em Y. Em termos gráficos, por relação linear entende-se que a melhor forma de ilustrar o padrão de relacionamento entre duas variáveis é através de uma linha reta. Portanto, a correlação de Pearson (r) exige um compartilhamento de variância e que essa variação seja distribuída linearmente. O coeficiente de correlação Pearson (r) varia de -1 a 1. O sinal indica direção positiva ou negativa do relacionamento e o valor sugere a força da relação entre as variáveis. Uma correlação perfeita (-1 ou 1) indica que o escore de uma variável pode ser determinado exatamente ao se saber o escore da outra. No outro oposto, uma correlação de valor zero indica que não há relação linear entre as variáveis. Faz-se necessária a indepen- dência das observações, ou seja, a ocorrência de uma observação X₁ não influencia a ocorrência de outra observação X₂, Sendo que a violação desta orientação implica risco de assumir correlações espúrias. Em termos mais técnicos, o pesquisador pode enfrentar o problema de lurking ou counfouding variables. A CARTOGRAMAS: São ilustrações relativas a cartas geográficas ou mapas. O objetivo desse gráfico é o

de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.

CASO-ÍNDICE: Caso em que a condição sob investigação foi identificada pela primeira vez.

CASO SINGULARIZADO: Uma investigação de um indivíduo ou grupo em que as variáveis medidas e os relacionamentos empíricos explorados são características do indivíduo ou grupo e não de uma sub – unidade dele.

CASOS HEYWOOD: Um tipo comum de estimativa transgressora, que ocorre quando o termo do erro estimado para um indicador se torna negativo, o que é um valor absurdo. O problema é remediado pela eliminação do indicador ou pela restrição do erro de mensuração para um valor positivo pequeno.

CAPACIDADE DE PROCESSO: A capacidade de um processo para produzir produtos dentro dos limites de especificação. Veja razão de capacidade de processo, estudo de capacidade de processo, PCR e PCR_k. CAUSA ATRIBUÍDA: A porção da variabilidade em um conjunto de observações que pode ser registrada como causas específicas, tais como operadores, materiais ou equipamentos. Também chamada de causa especial.

CAUSA CASUAL: A porção da variabilidade em um conjunto de observações que é devida somente a forças aleatórias e que não pode ser creditada a fontes específicas, tais como operadores, materiais ou equipamentos. Também chamada de causa comum.

COEFICIENTE DE CONFIANÇA: A probabilidade (1-α) associada com um intervalo de confiança expressando a probabilidade de que o intervalo verdadeiro estabelecido conterá o valor verdadeiro do parâmetro.

COEFICIENTE DE CORRELAÇÃO: Uma medida adimensional da associação linear entre duas variá- veis, geralmente estando no intervalo de -1 a +1, com zero indicando a ausência de correlação, porém não necessariamente a independência das duas variáveis.

COEFICIENTE DE DETERMINAÇÃO: É o coeficiente que mede a qualidade do ajuste de um modelo matem´patico de regressão, pode múltiplo ou simples, e é dado pela porcentagem da variação total que é explicada pela equação de regressão estimada. Veja R².

COEFICIENTE(S) DE REGRESSÃO: São o(s) parâmetro(s) em um modelo de regressão.

COEFICIENTE DE CORRELAÇÃO PRODUTO-MOMENTO (R) (PRODUCT MOMENT CORRELA- TION COEFFICIENT): Uma medida de quão bem duas variáveis são relacionadas uma com a outra. Ele pode ser calculado como a raiz quadrada do coeficiente de determinação, ou como a soma dos produtos cruzados dividida pela raiz quadrada do produto da soma dos quadrados das variáveis X e Y.

COEFICIENTE DE DETERMINAÇÃO (R²) (COEFFICIENT OF DE- TERMINATION): A quantidade de variabilidade da variável resposta, que é explicada por um modelo de regressão linear simples. É igual à soma dos quadrados da regressão dividida pela soma dos quadrados total.

COEFICIENTE DE DISPERSÃO (COEFFICIENT OF DISPERSION): A quantidade obtida pela divisão da variância da amostra pela média da amostra. O coeficiente de dispersão é usado para determinar se os indivíduos distribuídos com padrão espacial agregado, regular, aleatório ou hiperdisperso.

Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C Glossário de Estatística — Assis, J. P.; Sousa, R. P., Dias, C.T.S. — Letra C

das amostras para essa finalidade é geralmente chamada de combinação e é comumente usada para estimar a variância.

COMPONENTE DE VARIÂNCIA: Os componentes individuais da variância total que são atribuídos a fontes específicas. Isso geralmente se refere a componentes individuais de variância surgindo de um modelo aleatório ou misturado de análise de variância. Nos modelos de análise de variância envolvendo efeitos aleatórios, um dos objetivos é determinar quanta variabilidade pode ser associada com cada uma das fontes potenciais de variabilidade definida pelos experimentalistas. É costume se definir uma variância associada com cada uma dessas fontes. Essas variâncias, em certo sentido, somam a variância total da resposta e são geralmente chamadas de componentes da variância.

COMPONENTES DE VARIÂNCIA: São variâncias associadas aos efeitos aleatórios de um modelo matemático.

COMPRIMENTO MÉDIO DE CORRIDA (CMC): O número médio de amostras tomadas na monito- ração ou esquema de inspeção de um processo até que o esquema sinalize que o processo está operando em um nível diferente daquele no qual começou.

COLINEARIDADE (COLLINEARITY): A correlação entre duas variáveis preditoras. Ver também multicolinearidade.

CASUALIZAÇÃO: É a atribuição dos tratamentos às unidades experimentais de forma aleatória, sem nenhuma interferência por parte do pesquisador. Para cada tipo de delineamento experimental existe uma forma adequada de se fazer esta alocação dos tratamentos.

CONTROLE LOCAL: Tipo de técnica usada pelo pesquisador que está associada ao conhecimento do ambiente experimental e consiste na divisão das parcelas experimentais em subconjuntos homogêneos, quando é sabido que o total das unidades experimentais não possui a homogeneidade exigida na condu- ção do ensaio. No geral, o conjunto de parcelas homogêneas constitui o que se convencionou chamar de bloco. Quando o bloco contém todos os tratamentos uma única vez, ele é chamado de bloco completo, e os delineamentos experimentais que apresentam esta característica são ditos em blocos completos. Se os blocos comportam apenas parte dos tratamentos, os delineamentos são chamados de delineamentos em blocos incompletos.

COMBINAÇÃO (COMBINATION): A organização de n objetos discretos com x objetos a cada vez. O número de combinações de um grupo de n objetos é calculado usando o coeficiente binomial. Comparar com permutação.

COMBINAÇÃO LINEAR (LINEAR COMBINATION): A reexpressão de uma variável como a com- binação de outras, cujos parâmetros da nova expressão são lineares. Por exemplo, a equação Y = b₀X₀ + b₁X₁ + b₂X₂ expressa a variável Y como uma combinação linear de X₀ a X₂, pois os parâmetros b₀, b₁ e b₂ são lineares. Em contraste, a equação Y = a₀X₀ +X₁^a1não é uma combinação linear, pois o parâmetro a₁ é exponencial, e não linear. Note que a segunda equação pode ser transformada em uma combinação linear, tirando os logaritmos de ambos os lados da equação. Nem sempre será o caso, entretanto, que combinações não lineares possam ser transformadas em lineares.

COMPLEMENTO (COMPLEMENT): Na teoria de conjuntos, o complemento A^c, AC, A , ou A^'de um conjunto A é tudo que não está incluído no conjunto A.

violação desses pressupostos pode comprometer os resultados, levando o pesquisador a cometer os erros do tipo I ou tipo II. O erro do tipo I consiste em concluir que a hipótese nula é falsa quando ela é verdadeira. Logo, não existe relação entre as variáveis sendo a hipótese de nulidade da ausência de correlação linear simples entre as variáveis na população Ho verdadeira, mas o pesquisador argumenta que X e Y são estatisticamente dependentes. Ou seja, ele não poderia ter rejeitado a hipótese nula. O erro do tipo II consiste em concluir que a hipótese nula é verdadeira quando ela é falsa. Logo, existe relação entre X e Y, ou seja, a hipótese de nulidade Ho é falsa, mas o pesquisador defende que as variáveis são estatisticamente independentes. Isto é, ele deveria ter rejeitado a hipótese nula. O último tópico concernente ao coeficiente de correlação de Pearson (r) diz respeito ao problema das lurking ou counfouding variables já que elas podem produzir correlações espúrias. Por exemplo, ao se estimar a relação entre o número de leitos hospitalares e a taxa de mortalidade de um determinado estado, o pesquisador pode chegar à conclusão de que quanto mais camas, maior é a taxa de mortalidade. A variável omitida, nesse caso, é o número de pessoas internadas. Será utilizado como exemplo a relação entre gofar e engordar. Isso por- que existe a crença de que bebê que gofa muito, ganha peso mais rápido. O coeficiente de correlação de Pearson (r) é fortemente influenciado pela média da distribuição. Por esse motivo, um dos pressupostos centrais para que essa medida seja adequadamente utilizada é de que as observações obedeçam a uma distribuição normal. Existem testes disponíveis para averiguar em que medida as observações estão normalmente distribuídas, sendo o teste de Kolmogorov-Smirnov e a observação gráfica dos dados um dos procedimentos mais comumente utilizados. No caso do teste, um resultado não significativo, isto é um valor p maior que 5% (p>0,05) indica normalidade. Caso o p valor assuma valores abaixo desse patamar (p<0,05), isso é um indicativo de que o pressuposto da normalidade foi violado. Em relação à análise gráfica, é comum a utilização de histogramas e gráficos Q-Q plots para analisar o formato da distribuição.

Em relação ao histograma, o pesquisador deve observar em que medida a distribuição dos seus dados se aproxima da curva normal. A presença de outliers tende a distorcer o valor da média e, por consequência, o valor do coeficiente de correlação. Dessa forma, a presença de outliers pode comprometer fortemente as estimativas dos pesquisadores, levando inclusive a cometer erros do tipo I ou do tipo II. No artigo de Anscombe (1973), citado por Figueiredo filho e Silva Júnior (2009), o autor mostra um exemplo para explicar esse efeito. Nesse trabalho ele mostra os dados sobre como a correlação observada entre gofar e engordar pode ser explicada na medida em que elas têm a mesma causa: gulodice. Ou seja, essa última variável estava agindo como lurking variable. Ao se controlar pelo efeito da gulodice, a correlação entre as variáveis desaparece. Dessa forma, os pesquisadores, antes de apresentar suas conclusões, devem analisar cuidadosamente os seus dados e investigar em que medida uma correlação entre suas variáveis de interesse pode estar sendo afetada pela presença de lurking variables.

CORRELAÇÃO CANÔNICA: Com a correlação bivariada mede-se o relacionamento entre duas variáveis com a correlação canônica é medido como dois conjuntos de variáveis estão associados.

CORRELAÇÃO PARCIAL: A correlação parcial é um coeficiente que mede o relacionamento linear entre duas variáveis enquanto são controlados os efeitos de uma ou mais variáveis adicionais.

COMBINAÇÃO: Um subconjunto selecionado sem reposição de um conjunto usado para determinar o número de resultados em eventos e espaços amostrais.

COMBINAÇÃO (POOLING): Quando vários conjuntos de dados podem ter sido gerados do mesmo modelo, é possível cominá-los geralmente para finalidades de estimar um ou mais parâmetros. A associação

No documento GLOSSÁRIO DE ESTATÍSTICA - Livraria Edufersa (páginas 54-61)