• Nenhum resultado encontrado

Conceitos Básicos de Estatística Conceitos Básicos de Estatística

No documento CPA-20 Apostila Internet.pdf (páginas 35-44)

Resumo – mo – Princíp Princípios Básicos d ios Básicos de Finanças e Finanças

3. Conceitos Básicos de Estatística Conceitos Básicos de Estatística

3. Conceitos Básicos de Estatística

Estaremos agora revisando alguns conceitos básicos de estatística que serão úteis para o entendimento de vários pontos de nosso programa.

Vamos então encará-lo como sendo uma importante prepara ção, principalmente, para o ultimo módulo de nosso curso que tratará de Gestão de Risco e Medidas de Performance. Bom estudo!

3.

3.1 -1 - Medidas Medidas de Posde Posiçiçãoão

São medidas que localizam o centrocentro de uma amostra, sendo as três mais populares, a média, a mediana e a moda.

3.1

3.1.1 -.1 - MMédiédiaa

A média aritmética ou simplesmente média, é uma medida de localização do centrocentro de uma amostra. Veja suas características.

Exemplo:

Imagine que você queira determinar o valor médio das casas de uma determinada rua cujos valores estão abaixo descritos:

Casa 1 - $ 125.000,00 Casa 2 - $ 150.000,00 Casa 3 - $ 135.000,00 Casa 4 - $ 120.000,00 Casa 5 - $ 140.000,00 Casa 6 - $ 110.000,00 Casa 7 - $ 1.000.000,00 Casa 8 - $ 100.000,00 Casa 9 - $ 100.000,00

A média será a soma dos valores destas casas ($ 1.980.000,00) dividido pelo número de casas (9), que será de $ 220.000,00.

Embora todos os dados, menos um,menos um,estejam no intervalo [$100.000,00-$150.000,00], o valor obtido par a a média está "bem afastado" deste intervalo, não é verdade? O que acontece é que a média, apesar de ter como carac terística levar em conta todostodos elementos da amostra é muito sensívelmuito sensível a valores muito grandes ou muito pequenos. No caso do exemplo foi o valor $ 1.000.000,00 que inflacionou a média.

3.1.

3.1.2 –2 – MeMediadianana

A mediana é uma medida de localização do centro da distribuição dos dados definida do seguinte modo:

Ordenados os elementos da amostra utilizado no tópico anterior, a mediana é o valor (pertencente ou não à amostra), que a divide ao meiodivide ao meio, isto é, em duas partes iguais.

Vamos utilizar o mesmo exemplo anterior, com seus valores em milhares de $: 1) O primeiro passo é colocar a amostra em ordem crescente;

[100], [100], [110], [120], [125], [135], [140], [150] e [1.000]

MA3

MA3

2) A mediana será representada pelo seu elemento central, onde metade da amostra estará de seu lado direito e a outra metade de seu lado esquerdo.

3) Ela é especialmente útil quando trabalhamos com amostras com valores extremos

extremos que distorcem a média aritmética.

4) Como medida de localização do centro da amostra, a mediana é mais robusta do que a média pois não é tão sensívelnão é tão sensívela valores extremos.

Apenas uma dica: se a amostra total resul tar em um número par, a mediana será a média aritmética dos dois elementos centrais desta amostra.

3.1. 3.1.3 -3 - MoModada

Para um conjunto de dados define-se moda como sendo: o valor que surge como valor que surge com mais freqüência.

mais freqüência.É uma medida muito utilizada por sindicatos para se obter o salário representativo de uma categoria.

Continuando no mesmo exemplo: valores valores casas casas 220 220 1000 1000 150 150 140 140 135 135 125 125 120 120 110 110 100 100 100 100 média média 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 mediana mediana

Dividiu-se a amostra ao meio, deixando a mesma quantidade de elementos para cada lado, neste caso, quatro.

valores valores casas casas 1000 1000 150 150 140 140 135 135 125 125 120 120 110 110 100 100 100 100 9 9 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 Moda

Programa ANBID CPA20 - © Bankrisk 2005

3737

3.

3.2 -2 - MediMedidas de Disdas de Dis persãpersãoo

Um aspecto importante no estudo descritivo de um conjunto de dados é o da determinação de sua variabilidade ou dispersão desses dadosvariabilidade ou dispersão desses dadosrelativamente à medida de localização do centro da amostra.centro da amostra.

Repare nas três amostras seguintes - representam a idade de 3 grupos diferentes de pessoas que, embora resultem na mesma idade médiamesma idade média, têm uma dispersão bem diferente. Como a medida de localização mais utilizada é a média , é em relação à ela que se define a principal medida de dispersão - a variânciaa variância, apresentada logo a seguir:

Dispersão Dispersão Como você percebe, a idade média destas três amostras é comum a todas = 32,5.

Contudo a dispersão de seus dados é bem diferente, concorda?

3.2.

3.2.1 1 –– VariâVariânciancia

Obtem-se a variância da seguinte maneira:

a) Encontrada a média de uma amostra, calculam-se as diferenças de todos os seus elementos em relação à esta média;

b) Eleva-se ao quadradoEleva-se ao quadrado todas estas diferenças (negativas e positivas);

c) Soma-se todas estas diferenças elevadas ao quadrado e, divide-se pelo número de elementos desta amostra.

Veja n a próxima página. Média = 32,5 anos Média = 32,5 anos

Nas três amostras a idade média será a soma dos quadradinhos escuros, divido pela sua quantidade. Faça o teste!

Eleva-se ao quadrado Eleva-se ao quadrado

Por que elevamos ao quadrado estas diferenças? Primeira Amostra 5 10 51 02 25 30 35 04 54 50 55 60 Segunda Amostra 20 30 35 45 Terceira Amostra 60 5 5 1 0 5

Variância!?! Vamos entender o que realmente esta definição significa.

Retomemos nossas três amostras da página anterior que sabemos têm médias iguais (32,5 anos ) e vamos ver quais são suas variâncias.

Pontos para observação 1) Comente as variâncias encontradas aqui 2) Os resultados encontrados são de fácil interpretação?

3) Quais suas conclusões?

TABELA NÚMERO 1 N X(i) N X(i) idades idades Média

Média (x (x – – média) média) (x – (x – média)²média)²

1 5 32,5 - 27,5 756,25 2 10 32,5 - 22,5 506,25 3 15 32,5 - 17,5 306,25 4 20 32,5 - 12,5 156,25 5 25 32,5 - 7,5 56,25 6 30 32,5 - 2,5 6,25 7 35 32,5 + 2,5 6,25 8 40 32,5 +7,5 56,25 9 45 32,5 +12,5 156,25 10 50 32,5 +17,5 306,25 11 55 32,5 +22,5 506,25 12 60 32,5 +27,5 756,25

Total 32,5 32,5 Zero Zero 3.5753.575

Variânci Variância = 3575/12 = 297,92a = 3575/12 = 297,92 TABELA NÚMERO 2 N X(i) N X(i) idades idades Médi Média a (x (x –– média) média) ( x – média )² ( x – média )² 1 20 32,5 -12,5 156,25 2 30 32,5 -2,5 6,25 3 35 32,5 +2,5 6,25 4 45 32,5 +12,5 156,25

Total 32,5 Zero Zero 325325

Variância = 325/4 = 81,25 Variância = 325/4 = 81,25 TABELA NÚMERO 3 N X(i) N X(i) idades idades Média

Média (x (x – – média) média) ( x ( x – – média média )²)²

1 5 32,5 -27,5 756,25 2 10 32,5 -22,5 506,25 3 55 32,5 +22,5 506,25 4 60 32,5 +27,5 756,25 Total 32,5 2.525 Variância =2525/4 = 631,25 Variância =2525/4 = 631,25

Vamos conferir as conclusões nas páginas seguintes.

Grupo Eletrônico

Por que elevamos os resultados as diferenças ao quadrado?

Respondendo nossa pergunta da página anterior: Perceba que, caso não elevássemos as diferenças dos dados em relação à média ao quadrado, as diferenças positivas seriam anuladas pelas negativas, resultando em variância Zero.

Programa ANBID CPA20 - © Bankrisk 2005

3939

Bem... vamos aqui, em conjunto, tirarmos algumas conclusões sobre a variância: 1. Amostras de dados com médias iguais podem ter um nível de dispersão muito diferente. 2. O resultado obtido pelas variâncias de nossas três amostras demonstrou isto claramente, as amostras mais dispersas foram as que tiveram maiores variâncias.

3. Se observarmos com cuidado as três tabelas da página anterior, podemos perceber que elevamos ao quadrado todas as diferenças de seus elementos em rela ção a sua média. Por que s erá?

4. Bem, como salientamos, se não elevássemos ao quadrado estas diferenças, elas se anulariam (negativas com positivas).

5. O que a variância faz é neutralizar estes n úmeros negativos elevando-os ao quadrado. 6. Isto, porém, provoca um efeito na variânci a que é o que chamamos de forma “não“não organizada”

organizada” de vermos uma dispersão. A unidade de mA unidade de medida da variâedida da variância não ncia não éé aa mesma da média.

mesma da média.

7. Precisamos então encontrar uma medida mais organizada para observarmos esta dispersão. Confira o próximo ponto.

3.2.

3.2.2 –2 – DesDesvio Pavio Padrãdrãoo

Uma vez que a variância envolve a soma de quadrados de suas diferenças, ela perde um pouco a referência para efeitos de compara ção.

Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades dos dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão. -- Então qEntão quer dizuer dizer que o der que o desvio pesvio padrãadrão éo é simplesmensimplesmente a raiz te a raiz quadrada quadrada dada variância?

variância?

- Isto mesmo, basta você tirar a raiz quadrada da variância que o bteremos o desvio padrão de nossas três amostras. Vamos conferir:

Desvio Padrão Desvio Padrão O desvio padrão é uma medida que só pode assumir valores positivos e quanto maior for, maior será a dispersão dos dados.

Primeira Amostra: Variância = 297,92 Desvio padrão =

Desvio padrão =

Segunda Amostra: Variância = 81,25

Desvio padrão = Desvio padrão =

Terceira Amostra: Variância = 631,25 Desvio padrão = Desvio padrão = anos

16

,

17

92

,

297

=

ano

01

,

9

25

,

81

=

anos

12

,

25

25

,

631

=

O que você achou do desvio padrão como medida de dispersão, não é muito mais de ser analisado do que a variância?

Pois bem, para o estudo de Gerenciamento de Risco o Desvio Padrã o será uma de nossas Vamos interpretar os resultado obtidos com o desvio padrão de nossas três séries.

Em primeiro lugar sabemos que os três grupos de pessoas analisadas têm a mesma idade média ou seja 32,5 anos.

Sabemos também que a dispersão das idades destas pessoas em relação à média é bem diferente para os três grupos. Vamos então analisar seus Desvios Padrões.

Amostras Amostras Des

Desviovio PadPadrãorão

17,16 anos

9,01 anos

25,12 anos

Em primeiro lugar vamos interpretar os resultados dos desvios padrões obtidos.

a) Na primeira amostra temos que a idade média é de 32,5 anos e seu desvio é de 17,16 anos. Isto significa que o desvio médio em relação a esta média é de 1 7,16 anos para mais e parapara mais e para menos

menos em relação aos 32,5 anos. Desta forma, é de se esperar que, na média,na média,a idade desta primeira amostra fique assim:

b) Para a segunda amostra é de se esperar que a idade média situe-se entr e 23,49 anos23,49 anos (32,5 – 9,01) e 41,51 anos41,51 anos (32,5 + 9,01)

c) Para a terceira amostra é de se espe rar que a idade média si tue-se entre 7,38 anos7,38 anos (32,5 – 25,12) e 57,6257,62 anos (32,5 + 25,12)

Percebemos que a mostra número três tem a maior disp ersão dentre todas. Observação Final:

Observação Final:

Da mesma forma que a média, o desvio padrão é uma medida pouco resistente,pouco resistente,pois é influenciado por valores muito grandes ou muito pequenos (o que seria de esperar já que seu cálculo que é derivado da variância é baseado nas diferenças entre os dados e sua média). Assim, se a distribuição dos dados for bastante enviesada, isto é, com valores extremos elevados, não é conveniente utilizar a média como medida de localização, nem o desvio padrão como medida de variabilidade.

Estas medidas só dão informação útil, respectivamente sobre a localização do centro da distribuição dos dados e sobre a variabilidade, se as distribuições dos dados forem aproximadamente simétricas,simétricas, cujo conceito você entenderá a seguir.

Média 32,5 anos Desvio Padrão (-)

15,34 anos Desvio Padrão (+)49,66 anos

32,5 – 17,16 = 15,34 anos= 15,34 anos 32,5 + 17,16 = 49,66 anos= 49,66 anos Podemos dizer que, na média,na média,os participantes deste grupo têm idade

que varia entre 15,34 15,34 e e 49,66 49,66 anosanos Primeira Amostra 5 10 15 20 25 30 35 40 45 50 55 60 Segunda Amostra 20 30 35 45 Terceira Amostra 5 10 55 60

Programa ANBID CPA20 - © Bankrisk 2005

4141

3.

3.3 3 -- DisDistrtribuibuição ição NormalNormal

Uma distribuição de dados dita como normal possui uma importante propriedade: seus dados possuem uma classe média predominante e as outras classes se distribuem à volta desta de forma aproximadamente simétricasimétrica e com freqüência a decrescer à medida que se afastam da classe média, da seguinte forma:

Aproximadamente 68% de seus elementos estão no intervalo de seu desvio padrão e ao calcularmos dois desvios padrões cobriremos aproximadamente 95% de seus elementos.

Observe o exemplo abaixo:

Imagine um grupo de 10 0 pessoas onde a idad e média é de 30 anos, sendo seu desvio padrão de 10 anos. Desta forma teríamos a seguinte situa ção:

Continuando ainda no nosso exemplo, outra propriedade de uma distribuição considerada normal é que ao calcularmos dois desvios padrões estaremos cobrindo aproximadamente 95% de toda sua população.

Neste caso, dado a média do grupo de 30 anos e desvio padrão de 10 anos , se a distribuição for normal, aproximadamente 95% de seus participantes, neste caso 95 pessoas, terá entre 10 anos (30 anos de média menos 2 desvios padrões de 10 anos e 50 anos (30 anos de méd ia mais 2 desvios pad rões de 10 anos). No caso deste grupo de 100 pessoas aproximadamente 68 teriam idade entre 20 e 40 anos, ou seja, dada a média do grupo de 30 anos e desvio padrão de 10 anos, se a distribuição for normal, aproximadamente 68% de seus participantes terá entre 20 anos (30 anos de média menos 10 de desvi o padrão e 40 a nos (30 anos de média mais 10 anos de desvio padrão).

Uma distribuição normal tem a forma de um sinoforma de um sino. Observe ao lado.

Simetria Simetria

Significa que os dados - negativos e positivos - estão distribuídos de forma igualmente proporcionais em torno da média.

3.

3.4 4 -- InterIntervalo valo de Cde Confianonfiança e ça e NNível ível de Confiande Confiançaça

Um intervalo de confiança é uma faixa ou a extensão de val ores ou dados que represente a probabilidade de conter um determinado parâmetro estatístico a ser estimado para um conjunto de dados representados por uma distribuição normal. Os intervalos de 95% e 99% são os mais utilizados para este fim. Para exemplificar o que estamos falando tomemos utilizar o exemplo do item anterior.

Imagine que tenhamos 100 pessoas com idade média de 30 anos, com desvio padrão de 10 anos, cuja amostra resultou em uma distribui ção normal.

Desta forma, quando falamos em 95% de intervalo de confiança, estaremos falando que, aproximadamente 95% desta amostra terá pessoas entre 10 e 50 anos, isto porque, se a média é 30 anos e 95% de intervalo de confiança, representa 2 desvios padrões, teremos que adicionar e tirar 20 anos de cada lado desta média para saber sua amplitude.

Por dedução sabe mos que este intervalo de confian ça terá 95% de chances de conter um valor que se desvie da média na proporção de até dois desvios padrões. Já um nível de confiança é uma probabilidade associada ao intervalo de confiança. É normalmente expressa em forma percentual. Por exemplo, digam os que o nível de confiança seja de 95% para a situação abaixo:

Suponha que uma pesquisa de opinião predissesse que, se a eleição ocorresse hoje, o Partido Político XYZ teria 60% dos votos.

O responsável pela pesquisa associou à mesma um nível de confiança de 95%. Isto quer dizer que imagina-se que o partido XYZ poder á ter algo em torno de 57% a 63% dos votos, ou seja 5% de erro dos 60% dos votos que resultam em 3% , devem adicionados e tirados do percentual esperado de votos.

Não sei se você percebeu mas, introduzimos também uma nova maneira de ver dados estatísticos. Trata-se da distribuição de freqüênciadistribuição de freqüência.

Imagine que você tenha 100 dados que queira organizá-los na chamada distribuição de freqüência. O eixo vertical determinará a quantidade de vezes que o dado apareceu e o eixo horizontal mostrará a característi ca do intervalo da amostra inclusive com sua média. Observe:

Freqüência Freqüência Quantidade de vezes em que o dado apareceu. 40

30 20 10

21 24 27 30 33 36 39

Programa ANBID CPA20 - © Bankrisk 2005

4343

A correlaçãocorrelação é a medida padronizada da relação entre duas variáveis. El a é calculada com base na covariância.

§Uma correlação próxima a zero indica que as duas variáveis não estão relacionadas. §Uma correlação positiva indica que as duas variáveis se movem juntas, sendo a relação mais forte quanto mais a correlação se aproxima de 1.

§Uma correla ção negativa indica que as duas variáveis se movem em direções opostas, sendo que a relação fica mais forte quanto mais próxima de menos 1 ela ficar.

Veja abaixo a hip ótese de pre ços de duas a ções: Sadia (Série A) e Perdigão (série B) Coeficiente de

Coeficiente de Correlação Correlação Seu valor vai ficar entre menos 1 e mais 1 e será assim que poderemos observar a dependência entre duas variáveis.

Períod

Período o Série Série A A Série Série BB

Cotação Cotação Ações Sadia

Ações Sadia Ações PerdigãoAções PerdigãoCotaçãoCotação

Mês 1 10 11 Mês 2 15 13 Mês 3 20 19 Mês 4 25 21 Mês 5 30 29 Mês 6 35 27 Covariância Covariância 54,1666754,16667 Coeficiente

Coeficiente de de Correlação Correlação 0,960,96

Perceba o coeficiente de correlação destas ações. Vamos discuti-lo na próxima página. O coeficiente de correlação também constitui-se em importante medida estatística. Tente se lembrar as várias vezes que você deve ter ouvido falar que existe uma forte correlação entre dólar e juros, ou entre a bolsa de valores e papéis emitidos no exterior. Pois bem, através do coeficiente de correla ção, sairemos do campo das suposições e teremos condições de realmente saber se existem tais correla ções. Veja como.

3.5. Coeficiente de Correlação 3.5. Coeficiente de Correlação

Dado duas séries de dados, exist irão várias medidas estat ísticas que podem ser usadas para analisar como as duas séries se movem através do tempo. As duas mais largamente usadas são: a correlação e a covariância.

Para duas séries de dados, X (X1, X2,.) e Y(Y1,Y2,.), a covariânciacovariância fornece uma medida não padronizadanão padronizadado grau no qual elas se movem, e é estimada tomando o produto dos desvios da média, para cada variável, em cada período.

O sinal na covariânciacovariância indica o tipo de relação que as duas variáveis tem.

Um sinal positivo indica que elas movem na mesma direção e, um negativo, que elas se movem em direções opostas.

Enquanto a covariância cresce com o poder do relacionamento, ainda é relativamente difícil fazer julgamentos sobre o poder do relacionamento entre as duas variáveis observando a covariância, pois ela não é padronizada.

Covariância Covariância Seu sinalsinal, positivo ou negativo, indica o tipo de relação entre duas séries de dados.

O que você notou de importante nestas séries de dados? Vamos tentar identificar os principais pontos juntos?

1. A Série “A” é uma sér ie da dados que em 100% do tempo está em direção

ascendente, come çando com 10 e terminando com 35, sempre em intervalos de 5. 2. A Série “B” também é uma séri e de dados que, em praticamente 100% do tempo,

(todos, exceto um ), está em direção ascendente.

3. Como podemos observar, o coeficiente de correlaçã o destas duas sér ies para um mesmo período é muito forte, e aliás, não poderia deixar de ser. Elas movimentam- se de forma bem uniforme, pois todas sobem ao mesmo tempo e em padrões relativamente parecidos.

Vamos ver se o diagrama abaixo ajuda você a fixar melhor os conceitos aqui explicados.

C

No documento CPA-20 Apostila Internet.pdf (páginas 35-44)