Novas abordagens na avaliação e construção de rankings

(1)

Fundação Getulio Vargas

Escola Brasileira de Administração Pública e de Empresas Doutorado em Administração

Rodrigo de Magalhães Cunha

NOVAS ABORDAGENS NA AVALIAÇÃO E CONSTRUÇÃO DE RANKINGS

Rio de Janeiro

(2)

(3)

RODRIGO DE MAGALHÃES CUNHA

Novas abordagens na avaliação e construção de rankings

Tese submetida à Escola Brasileira de Administração Pública e de Empresas (EBAPE) da Fundação Getulio Vargas (FGV) como requisito parcial para obtenção do título de Doutor em Administração.

Orientador: Doutor Alexandre Linhares

Rio de Janeiro

(4)

Ficha catalográfica elaborada pela Biblioteca Mario Henrique Simonsen/FGV

Cunha, Rodrigo de Magalhães

Novas abordagens na avaliação e construção de rankings / Rodrigo de Magalhães Cunha. – 2016.

315 f.

Tese (doutorado) - Escola Brasileira de Administração Pública e de Empresas, Centro de Formação Acadêmica e Pesquisa.

Orientador: Alexandre Linhares. Inclui bibliografia.

1. Ranking. 2. Análise por conglomerados. 3. Teoria da resposta do item. 4. Sistemas de suporte de decisão. I. Linhares, Alexandre. II. Escola Brasileira de Administração Pública e de Empresas. Centro de Formação Acadêmica e Pesquisa. III. Título.

(5)

(6)

(7)

Dedico esta tese aos meus amados filhos, Bernardo e Heitor, à minha querida e sempre presente esposa Valquíria, ao meu irmão e amigo Igor e aos meus estimados e incansáveis pais, os quais sempre lutaram incondicionalmente pela minha felicidade,

Regina e Américo. Minha vida e,

(8)

(9)

AGRADECIMENTOS

Agradeço, primeiramente, a Deus, por tudo o que já proporcionou a mim, especialmente por me permitir nascer numa família tão especial e abençoada que foi fundamental para a minha formação e para todas as minhas conquistas, entre elas, a conclusão desta tese. Vocês, meus pais, são um exemplo de conduta na qual me espelho. Espero que, algum dia, eu possa representar, para os meus filhos, pelo menos um pouquinho do que vocês representam para mim.

Em especial, também agradeço à Valquíria, minha esposa querida, que dividiu comigo todas as minhas frustações, anseios e angústias e que soube, como ninguém, respeitar o meu espaço e o meu tempo. Você, meu amor, também soube absorver toda a demanda dos nossos filhos, tão novinhos, e da nossa casa durante as minhas ausências, de certo modo comuns nesses quatro anos. Sem você, com certeza a conclusão deste trabalho não seria possível.

Agradeço aos meus filhos, amores da minha vida, que mesmo sem terem consciência e compreensão da importância que tiveram, foram fundamentais para que momentos de descontração e relaxamento fossem intercalados aos momentos de profundos estudos e leituras, muitas vezes longos e densos, que foram necessários durante este percurso.

Ao meu orientador, professor Doutor Alexandre Linhares –uma “mente brilhante” a serviço da ciência –, serei sempre agradecido por ter me aceitado como seu orientando, acreditando, desde a nossa primeira conversa, que eu teria condições de realizar um trabalho dessa natureza. Além das inúmeras teorias e visões que você me passou, especialmente aquelas sobre os rankings, sua paciência, respeito e motivação foram fundamentais durante toda a minha trajetória no curso de Doutorado.

(10)

Ainda no contexto da FGV/EBAPE, agradecimento também não pode faltar à dedicada e competente Kaillen, um “anjo da guarda” que inúmeras vezes cedeu parte do seu precioso tempo de trabalho para me ajudar com questões burocráticas e de secretariado.

Agradeço também aos meus colegas de doutorado por sua disponibilidade e interesse constante em me ajudar. Em destaque, agradeço às minhas amigas Janaina Piana e Marne Melo: nossas conversas muito me ajudaram e fortaleceram durante esse longo caminho.

Gostaria também de destinar um agradecimento especial ao meu amigo e colega de turma de doutorado Tenente Coronel Doutor Eduardo Migon. Sua paciência, disponibilidade, companheirismo, respeito, amizade e inteligência contribuíram, em alto grau, para que eu transformasse meu modo de pensar e de perceber as coisas. Se, algum dia, eu vier a me tornar, de fato, um pesquisador, em grande parte será graças à sua influência.

Agradecimento também não pode faltar ao meu irmão Igor pelo amor e amizade sempre dispensados a mim, fundamentais para o bem estar de qualquer pessoa, principalmente em tempos tão difíceis. À Lívia, minha cunhada, agradeço pelo precioso tempo dedicado tanto às leituras dos meus artigos quanto às nossas aulas de inglês. Aos meus sogros, Vera e Mazinho, e à minha cunhada Vanessa agradeço pelo apoio sempre disponível e atenção sempre dedicados.

Agradeço ainda aos meus avós paternos e maternos, todos em memória. Em especial, à querida e sempre presente Vovó Leda, com a qual tive o prazer de conviver um pouco mais de tempo. Você, vovó, foi e sempre será, para mim, uma fonte inesgotável de serenidade, sabedoria, caráter e humildade. Aqui, nesta tese, fica meu eterno agradecimento a você.

Agradeço aos colegas do Instituto Federal de Educação, Ciência e Tecnologia do Sudeste de Minas Gerais (IF Sudeste MG) campus Juiz de Fora, instituição na qual trabalho. Em especial, agradeço aos meus colegas e amigos do Núcleo de Gestão os quais acataram o meu pedido de afastamento das atividades profissionais para me dedicar exclusivamente à minha capacitação no curso de Doutorado. Sem esse afastamento, a qualidade deste trabalho estaria fortemente comprometida. Agradecimento extensivo, nesse contexto, aos, na ocasião, chefe de Departamento de Educação e Tecnologia professor Doutor Jalon e Diretor Geral do Campus Juiz de Fora professor Doutor Paulo Rogério, atualmente reitor do IF Sudeste MG.

(11)

“Há um tempo em que é preciso abandonar

as roupas usadas, que já tem a forma do nosso corpo, e esquecer os nossos caminhos, que nos levam sempre aos mesmos lugares. É o tempo da travessia: e, se não ousarmos fazê-la, teremos ficado, para sempre, à margem de nós

mesmos”.

(12)

(13)

RESUMO

Esta tese apresenta algumas abordagens ainda não exploradas na avaliação e construção de rankings, exclusivamente daqueles baseados em indicadores compostos. Para isso, três artigos foram desenvolvidos com o intuito de evoluir com uma literatura genericamente aplicável, ou seja, não restrita a contextos de rankings específicos. No primeiro desses artigos, composto por três estudos, mostrou-se que as informações percebidas pelos usuários através dos rankings nem sempre são fornecidas por eles. No segundo, o qual pode ser entendido como uma extensão do primeiro, propôs-se a criação de uma métrica – intitulada COMP – destinada a mensurar o grau de compatibilidade entre as informações percebidas pelos usuários e aquelas fornecidas pelos rankings. No terceiro artigo, independente dos dois primeiros, explorou-se o potencial da Teoria de Resposta ao Item (TRI) enquanto metodologia para a avaliação e construção de rankings. Para isso, dois estudos, o primeiro deles focado no Failed States Index (FSI) e o segundo no Index of Economic Freedom (IEF) foram desenvolvidos para mostrar as potencialidades da metodologia proposta.

(14)

(15)

ABSTRACT

This thesis presents some unexplored approaches in rankings evaluation and building, particularly in those based upon composite indicators. To do so, three papers have been developed with the goal of evolve a generic literature, that is it, not restricted to the specific context of a single ranking. In the first one, composed by three studies, it is shown that the information perceived by users toward rankings are not necessarily provided by the rankings. In the second paper, that could be interpreted as an extension of the first one, a metric – named COMP – has been proposed designed to measure the compatibility level between the information perceived by users with those provided by rankings. The last one, independent of the firsts, has explored the potential of Item Response Theory (IRT) as a methodology to be applied on rankings evaluation and building. To do so, two studies, the first one focused on the Failed States Index (FSI) and the last one on the Index of Economic Freedom (IEF) have been developed to show the potentiality of the proposed methodology.

(16)

(17)

LISTA DE FIGURAS

Figura 1.1 – Visão geral do processo de construção de rankings 35

Figura 1.2 – Duas frentes teóricas sobre as informações dos rankings 38 Figura 1.3 – Como a TRI poderia ser explorada na avaliação e construção de

rankings? Algumas possíveis potencialidades descritas através de um

exemplo hipotético 40

Figura 1.4 – Framework da tese 42

Figura 2.1 – Cenário de um ranking hipotético num universo bidimensional discreto 50 Figura 2.2 – DM entre as entidades limites das categorias top e seus vizinhos no

ARWU 59

Figura 2.3 – DM entre as entidades limites da categoria top-10 e seus vizinhos para

todos os rankings 60

Figura 2.4 – HDI: DM entre a entidade 1 e todas as outras entidades 62 Figura 2.5 – DM entre a entidade 4 (de referência) e todas as outras entidades

consideradas no escopo de análise da categoria top-5 do estudo 2 do

ranking THE 65

Figura 2.6 – Representação gráfica da coluna “mínimo %” da tabela 2.3 de todos os

rankings e categorias top analisados 66

Figura 2.7 – Histograma dos percentuais relacionados à categoria top-50 do FSI 67

Figura 3.1 – Framework do processo para a construção da métrica 89

Figura 3.2 – Relacionamento entre o número de entidades e as categorias top 93

Figura 3.3 – Consolidado das propriedades dos rankings analisados 98

Figura 3.4 – Alguns histogramas das métricas obtidas para os rankings simulados 102

Figura 3.5 – Exemplos de clusters obtidos para rankings simulados 103

Figura 3.6 – Relacionamento entre a métrica e a dispersão das entidades top pelos

clusters 105

Figura 3.7 – Clusters gerados para o ARWU 2012 106

Figura 3.8 – Clusters gerados para o EFW 2012 107

Figura 3.9 – Clusters gerados para o FSI 2012 108

Figura 3.10 – Clusters gerados para o HDI 2013 109

Figura 3.11 – Clusters gerados para o IEF 2013 110

Figura 3.12 – Clusters gerados para o RGI 2013 112

Figura 4.1 – Exemplo de uma Curva Característica típica de um item dicotômico

hipotético num modelo logístico de 3 parâmetros 125

Figura 4.2 – Relação entre a correlação média com os demais indicadores e o

parâmetro de discriminação ai do modelo M9 do FSI 140

Figura 4.3 – Curvas de Informação do Teste e de Erro Padrão para M4 e M9 do FSI 143

Figura 4.4 – CIs do indicador SL do FSI 146

Figura 4.5 – CCI, referente ao primeiro modelo intermediário, do indicador ECO em

M9 do FSI 147

Figura 4.6 – Escalas de Insegurança 149

Figura 4.7 – Percentual de países por faixa de confiabilidade para o FSI 157 Figura 4.8 – Correlações entre R4 e R9 com FSI baseadas nos anos de 2010 a 2013 160

Figura 4.9 – Scores estimados para o Brasil de 2006 a 2013 162

Figura 4.10 – Relação entre a correlação média e o parâmetro de discriminação ai

para o IEF 176

(18)

modelos do IEF

Figura 4.13 – CCIs dos indicadores MF, IF, IF_09, TF e TF_7 nos primeiros modelos

intermediários de M5 e M7 do IEF 184

Figura 4.14 – Escalas de liberdade econômica 186

Figura 4.15 – Percentual de países por faixa de confiabilidade para o IEF 195 Figura 4.16 – Correlações entre R5 e R7 com IEF baseadas nos anos de 2007 a 2014 198

Figura 4.17 – Scores estimados para o Brasil de 2007 a 2014 200

Figura A.1 – Esquema dos códigos fontes desenvolvidos para os artigos 1 e 2 da tese 239

Figura A.2 – Algumas funções do código C.COMP 245

Figura C.1 – CCIs e CIs dos indicadores do modelo final de 4 categorias do FSI 260 Figura C.2 – Código fonte programado no Multilog referente ao modelo final de 4

categorias do FSI 261

Figura C.3 – CCIs e CIs dos indicadores no modelo final de 9 categorias para o FSI 263 Figura C.4 – Código fonte programado no Multilog referente ao modelo final de 9

categorias para o FSI 264

Figura C.5 – CCIs dos indicadores com categorias com mau funcionamento no primeiro modelo intermediário do FSI com 9 categorias calibrado a

partir de 2013 265

Figura C.6 – CCI do indicador REF: categoria com mau funcionamento no segundo modelo intermediário do FSI com 9 categorias calibrado a partir de

2013 267

Figura C.7 – CCIs dos indicadores com categorias com mau funcionamento nos

primeiros modelos intermediários do IEF 271

Figura C.8 – CCIs dos indicadores com categorias com mau funcionamento nos

segundos modelos intermediários do IEF 273

Figura C.9 – CCIs e CIs dos indicadores no modelo final do M5 para o IEF 274 Figura C.10 – CCIs e CIs dos indicadores no modelo final M7 para o IEF 275 Figura C.11 – Código fonte programado no Multilog referente ao modelo final M5 do

IEF 276

Figura C.12 – Código fonte programado no Multilog referente ao modelo final M7 do

(19)

LISTA DE QUADROS

Quadro 1.1 – Principais stakeholders envolvidos no contexto de rankings 33 Quadro 2.1 – Fórmulas dos modelos para análise da sensibilidade dos resultados

do estudo 3 do artigo 1 aos parâmetros da simulação 71

Quadro 3.1 – 82

Quadro 4.1 – Interpretação dos níveis âncora do M4 do FSI 151

Quadro 4.2 – Interpretação dos níveis âncora do M9 do FSI 153

Quadro 4.3 – Algumas mudanças na construção do IEF de 2007 a 2014 169

Quadro 4.4 – Interpretação dos níveis âncora do M5 do IEF 188

Quadro 4.5 – Interpretação dos níveis âncora do M7 do IEF 191

Quadro 4.6 – Relação entre as categorias e a confiabilidade dos modelos 216 Quadro A.1 – Detalhes dos códigos fontes desenvolvidos para os artigos 1 e 2 da

tese 240

Quadro A.2 – Alguns parâmetros de configuração do código para obtenção dos

clusters através do AP 243

Quadro B.1 – Distribuição das entidades pelos clusters no pior cenário para n=20 251

Quadro C.1 – Resumo dos modelos gerados 256

Quadro C.2 – Indicadores e anos do IEF 268

Quadro D.1 – Relação entre as descrições da CAST e as categorias de M9 do FSI 286 Quadro D.2 – Relação entre os valores dos indicadores e as categorias de M5 do

IEF

288

Quadro D.3 – Relação entre os valores dos indicadores e as categorias de M7 do IEF

(20)

(21)

LISTA DE TABELAS

Tabela 2.1 – Extrato de uma amostra de rankings: sumário de algumas

características 49

Tabela 2.2 – Sumário das similaridades calculadas para o estudo 1 do artigo 1 58 Tabela 2.3 – Resumo das comparações realizadas para o estudo 2 do artigo 1 64 Tabela 2.4 – Simulação: casos compatíveis com a percepção dos usuários 72 Tabela 2.5 – Coeficientes dos modelos para análise da sensibilidade dos

resultados do estudo 3 do artigo 1 aos parâmetros da simulação 73 Tabela 3.1 – Características da correlação de Pearson de alguns rankings 88 Tabela 3.2 – Coeficientes do modelo de regressão para validação da métrica 99 Tabela 3.3 – Estatísticas descritivas da métrica para os rankings simulados 101 Tabela 4.1 – Parâmetros estimados para os modelos da TRI para o FSI 139 Tabela 4.2 – Extrato dos rankings gerados para o FSI para o ano de 2010 159 Tabela 4.3 – Algumas informações sobre as diferenças entre as posições no

FSI e nos novos rankings R4 e R9 161

Tabela 4.4 – Indicadores do Brasil no FSI de 2006 a 2013 163

Tabela 4.5 – Parâmetros estimados para os modelos M5 e M7 do IEF 175 Tabela 4.6 – Extrato dos rankings gerados para o IEF para o ano de 2014 197 Tabela 4.7 – Algumas informações sobre as diferenças entre as posições no

IEF e nos novos rankings R5 e R7 199

Tabela B.1 – Valor máximo da métrica para n = 20 antes da normalização 250 Tabela B.2 – Valor mínimo da métrica para n = 20 antes da normalização 252 Tabela C.1 – Resumo das características dos modelos “candidatos” de 4

categorias do FSI

258

Tabela C.2 – Resumo das características dos modelos “candidatos” de 9 categorias do FSI

262

Tabela C.3 – Algumas informações sobre as categorias com mau

funcionamento no primeiro modelo intermediário do FSI com 9 categorias calibrado a partir de 2013

267

Tabela C.4 – Parâmetros de discriminação ai dos indicadores com poder de discriminação muito baixo ou baixo nos primeiros modelos intermediários do IEF

270

funcionamento nos primeiros modelos intermediários do IEF

272

funcionamento nos segundos modelos intermediários do IEF

273

Tabela D.1 – Identificação dos itens âncoras para o modelo M4 do FSI 278 Tabela D.2 – Identificação dos itens âncoras para o modelo M9 do FSI 279 Tabela D.3 – Identificação dos itens âncoras para o modelo M5 do IEF 281 Tabela D.4 – Identificação dos itens âncoras para o modelo M7 do IEF 282 Tabela D.5 – Níveis âncora identificados para as escalas de insegurança 284 Tabela D.6 – Níveis âncora identificados para as escalas de liberdade

econômica

287

Tabela E.1 – Scores e novos rankings gerados para o FSI 2010 292

(22)

Tabela E.6 – Scores e novos rankings gerados para o IEF 2008 302

(23)

LISTA DE SIGLAS

AP Affinity Propagation (Progapação de Afinidades – método de clustering)

ARWU Academic Ranking of World Universities (Ranking Acadêmico de Universidades Mundiais elaborado pela Universidade de Shangai)

BBC British Broadcasting Corporation

BF Business Freedom (Liberdade de negócios – indicador do IEF)

BRI Bank Ranking Index

CAST Conflict Assessment System Tools (metodologia usada na construção do FSI) CCI Curva Característica do Item

CI Curva de Informação do Item

COMP Métrica de compatibilidade proposta no artigo 2

CNN Cable News Network

CPI Corruption Perception Index (Índice de Percepção da Corrupção)

CSS Characteristic Scores and Scales (Pontuações e Escalas Características) DB Doing Business (Índice de facilidade de geração de negócios)

DE Distância Euclidiana

DEQ Distância Euclidiana Quadrada

DIF Differential Item Functioning (Análise Diferencial do Item)

DM Distância de Mahalanobis

DP Demographic Pressures (Pressões demográficas – indicador do FSI)

ECO Poverty and Economic Decline (pobreza e decadência econômica – indicador do FSI)

EFW Economic Freedom of the world (Índice de Liberdade Econômica do Mundo)

ENEM Exame Nacional do Ensino Médio

EXT External Intervention (intervenções externas – indicador do FSI) FE Factionalized Elites (“elite fracionada” – indicador do FSI)

FFC Freedom from Corruption (Liberdade de corrupção – indicador do IEF) FFP The Fund for Peace (Fundo para a Paz – instituição responsável pelo FSI) FNF Financial Freedom (Liberdade financeira – indicador do IEF)

FSF Fiscal Freedom (Liberdade fiscal – indicador do IEF) FSI Failed States Index (Índice de Estados Falhados)

GG Group Grievance (reclamações do grupo – indicador do FSI)

GS Government Spending (Gastos do governo – indicador do IEF)

HDI Human Development Index (Índice de Desenvolvimento Humano)

HF Human Flight and Brain Drain (“voo humano e a fuga de cérebros” – indicador do FSI)

HR Human Rights and Rule of Law (direitos humanos e Estado de Direito – indicador do FSI)

IEF Index of Economic Freedom (Índice de Liberdade Econômica)

IF Investment Freedom (Liberdade de investimento – indicador do IEF) INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira LF Labor Freedom (Liberdade de trabalho – indicador do IEF)

M4 Modelo da TRI com 4 categorias utilizado no estudo 1 (FSI) do artigo 3 M5 Modelo da TRI com 5 categorias utilizado no estudo 2 (IEF) do artigo 3 M7 Modelo da TRI com 7 categorias utilizado no estudo 2 (IEF) do artigo 3 M9 Modelo da TRI com 9 categorias utilizado no estudo 1 (FSI) do artigo 3

MBA Master of Business Administration

(24)

MCDM Multiple Criteria Decision Making (Análise multi-critério de apoio à decisão)

MF Monetary Freedom (Liberdade monetária – indicador do IEF)

MRG Modelo de Resposta Gradual da TRI

NTBs Non-tarrif barriers (Barreiras não tarifárias – aspecto considerado no cálculo de alguns indicadores do IEF)

PCA Principal Component Analysis (Análise de Componentes Principais)

PIB Produto Interno Bruto

PR Poverty Rights (Direitos de propriedade – indicador do IEF)

REF Refugees and IDPs (Refugiados e deslocados internos – indicador do FSI) PS Public Services (Serviços públicos – indicador do FSI)

RGI Resource Governance Index (Índice de Governança de Recursos)

R4 Ranking obtido a partir dos scores estimados através do modelo M4

SARESP Sistema de Avaliação de Rendimento Escolar do Estado de São Paulo SEC Security Apparatus (aparato de segurança – indicador do FSI)

SL State Legitimacy (legitimidade do estado – indicador do FSI)

SOM Self-Organizing Maps (Mapas auto-organizáveis)

TCT Teoria Clássica de Testes

TF Trade Freedom (Liberdade de comércio – indicador do IEF)

THE Times Higher Education (Ranking de Ensino Superior elaborado pela Times)

TRI Teoria de Resposta ao Item

UED Uneven Economic Development (Desigualdade no desenvolvimento econômico

(25)

LISTA DE SÍMBOLOS

r Coeficiente de correlação de Pearson rs Coeficiente de correlação de Spearman

Coeficiente de correlação tau de Kendall

µ Média de uma amostra

Desvio padrão de uma amostra

α Alfa de Cronbach

θ Nível de habilidade de escalas construídas a partir dos modelos da TRI ai Parâmetro de discriminação do item i em MRGs da TRI

(26)

(27)

SUMÁRIO

1 INTRODUÇÃO GERAL 31

2 ARTIGO 1 – RANKINGS: OS USUÁRIOS ESTÃO VENDO O QUE

ELES DEVERIAM VER? 45

2.1 INTRODUÇÃO 45

2.2 REVISÃO DA LITERATURA 47

2.2.1 Que tipo de informação os rankings fornecem? 48

2.2.2 Como as pessoas estão interpretando as informações disponíveis nos

rankings? 52

2.3 OS ESTUDOS DESENVOLVIDOS NESTE ARTIGO 54

2.3.1 Estudo 1 – Analisando as entidades limites das categorias top 55

2.3.1.1 Metodologia 55

2.3.1.2 Resultados e discussão 57

2.3.2 Estudo 2 – Analisando todas as entidades das categorias top 61

2.3.3 Estudo 3 – Generalizando os resultados 68

2.4 DISCUSSÃO GERAL E CONCLUSÃO 74

3 ARTIGO 2 – COMP: UMA MÉTRICA PARA AVALIAR A COMPATIBILIDADE ENTRE AS INFORMAÇÕES FORNECIDAS PELOS RANKINGS E AQUELAS PERCEBIDAS PELOS USUÁRIOS 77

3.1 INTRODUÇÃO 77

3.3 METODOLOGIA 83

3.3.1 A escolha do método de clustering 84

3.3.2 A escolha da medida de similaridade 86

3.3.3 O framework para a construção da métrica 89

3.3.4 Algumas características que foram exploradas na construção da métrica 90

3.4 RESULTADOS 94

3.4.1 A métrica COMP 94

3.4.2 Como os resultados da métrica foram validados? 97

3.4.3 Como a confiabilidade dos resultados da métrica foi avaliada? 99

3.4.4 Alguns resultados da métrica para rankings reais e simulados 100

3.5 DISCUSSÃO e CONCLUSÃO 112

4 ARTIGO 3 – COMO A TEORIA DE RESPOSTA AO ITEM (TRI) PODERIA SER UTILIZADA NA AVALIAÇÃO E CONSTRUÇÃO DE

RANKINGS? 117

4.1 INTRODUÇÃO 117

4.2.1 O processo de construção de rankings: uma abordagem crítica 119

(28)

4.3 ESTUDO 1 – FSI: ALGUMAS POSSIBILIDADES PARA A MELHORIA

DO RANKING 131

4.3.1 Metodologia 132

4.3.1.1 As características da amostra considerada para calibração 132

4.3.1.2 Os métodos de categorização utilizados 133

4.3.1.3 A avaliação das premissas 134

4.3.1.4 O modelo da TRI e o aparato tecnológico utilizados 135

4.3.1.5 O método utilizado para a obtenção das escalas de insegurança 135

4.3.1.6 O estudo longitudinal 137

4.3.2 Resultados 137

4.3.2.1 Parâmetros estimados para os modelos 138

4.3.2.2 Análise da confiabilidade dos modelos 142

4.3.2.3 Análise da contribuição das CIs e CCIs 145

4.3.2.4 Escalas de insegurança 147

4.3.2.5 Análise das extremidades das escalas 156

4.3.2.6 Análise dos rankings gerados a partir dos scores estimados 158

4.3.2.7 Estudo longitudinal: o caso do Brasil 161

4.3.3 Discussão 164

4.4 ESTUDO 2 – IEF: TALVEZ UM EQUÍVOCO 167

4.4.1 Metodologia 168

4.4.1.1 As características da amostra considerada 168

4.4.1.2 Os métodos de categorização utilizados 171

4.4.1.3 A avaliação das premissas 172

4.4.1.4 O modelo da TRI e o aparato tecnológico utilizados 172

4.4.1.5 O método utilizado para a obtenção das escalas de liberdade econômica 173

4.4.1.6 O estudo longitudinal 173

4.4.2 Resultados 174

4.4.2.1 Parâmetros estimados para os modelos 174

4.4.2.2 Análise de confiabilidade dos modelos 179

4.4.2.3 Análise da contribuição das CIs e CCIs 182

4.4.2.4 Escalas de liberdade econômica 185

4.4.2.5 Análise das extremidades das escalas 194

4.4.2.6 Análise dos rankings gerados a partir dos scores estimados 196

4.4.2.7 Estudo longitudinal: o caso do Brasil 199

4.4.3 Discussão 201

4.5 DISCUSSÃO GERAL E CONSLUSÃO 205

4.5.1 Comparação entre a TRI e os métodos tradicionalmente usados na construção

e avaliação de rankings 205

4.5.2 A importância da dimensionalidade dos dados no contexto de rankings 212

4.5.3 A relação entre o método de categorização e a confiabilidade da escala 216

4.5.4 Análise de sensibilidade sobre os métodos de categorização 218

4.5.5 Novos rankings gerados a partir dos scores estimados através da TRI 220

4.5.6 Limitações e sugestões de estudos futuros 221

5 CONCLUSÃO 223

REFERÊNCIAS 225

(29)

EM PYTHON

APÊNDICE B – DETERMINAÇÃO DOS VALORES MÁXIMOS E

MÍNIMOS DA MÉTRICA 249

APÊNDICE C – PROCESSO DE OBTENÇÃO DOS MODELOS DA TRI 255

APÊNDICE D – IDENTIFICAÇÃO DOS NÍVEIS ÂNCORA E ITENS

ÂNCORA E QUASE ÂNCORA DAS ESCALAS DA TRI 277

APÊNDICE E – SCORES ESTIMADOS ATRAVÉS DOS MODELOS DA

(30)

(31)

1 INTRODUÇÃO GERAL

“Quer morar no lugar mais feliz do mundo? É para lá que você deve ir...” O título da notícia publicada pela CNN em 5 de maio de 2014 é totalmente apelativa. Qualquer pessoa que queira escolher outro país para morar irá, no mínimo, se interessar pela notícia. De acordo com essa publicação, a Austrália está na primeira posição do Better Life Index (OECD, 2014), de responsabilidade da Organisation for Economic Cooperation and Developments, e deve ser o destino a ser escolhido.

Pouco tempo depois, a BBC publicou, em 3 de junho de 2014, que a África do Sul está na 146ª posição no índice de qualidade geral da educação de acordo com o Global Information Technology Report (WORLD ECONOMIC FORUM; INSEAD, 2014) de responsabilidade do The World Economic Forum. A notícia também informou que, após a divulgação do relatório, a ministra “sombra” para educação básica, Annette Lovemore, declarou que “isso é um distúrbio profundo”. Mais do que isso, ela sugeriu que a responsável pela pasta, Angie Motshekga, deveria responder perguntas no parlamento sobre o precário estado da educação.

Além de terem sido publicadas há pouco mais de um ano por veículos de comunicação de grande alcance mundial, essas notícias ilustram a importância que tem sido dada aos rankings na sociedade atual. Elas sugerem, indiretamente, que os rankings estão sendo tratados, por muitas pessoas e pela mídia em geral, como critérios de qualidade a cerca de determinadas realidades. Essa é uma das explicações plausíveis para justificar a enorme influência dos rankings no apoio aos processos de tomada de decisão, aspecto esse já bem documentado em inúmeros trabalhos científicos. Como referência, exemplos dessa natureza estão descritos oportunamente ao longo dessa introdução geral.

Considerando que existe uma enorme gama de rankings, a abrangência dessas influências pode estar sendo alta. De fato, é possível que qualquer tipo de entidade possa estar sendo avaliada através deles. Hospitais, pessoas, equipes, universidades, marcas, cidades e países são alguns exemplos. Na verdade, cada um desses tipos de entidades pode estar sendo ranqueada através de diferentes critérios, ou seja, de diferentes rankings. Por exemplo, países são ranqueados através de medidas de qualidade de vida (UNITED NATIONS

DEVELOPMENT PROGRAMME, 2013a), corrupção (TRANSPARENCY

(32)

CENTER FOR ENVIRONMENTAL LAW & POLICY; CENTER FOR INTERNATIONAL EARTH SCIENCE INFORMATION NETWORK, 2014), insegurança (THE FUND FOR PEACE, 2012) e assim por diante. Em suma, dados a sua numerosidade e a sua importância, é possível que os rankings possam estar formando uma grande “onda de influências” sobre os processos de tomada de decisão.

(33)

Quadro 1.1 – Principais stakeholders envolvidos no contexto de rankings.

Tipo de

Stakeholder

Descrição Exemplos

ARWU2 FSI3 HDI4 IEF5

Responsável1 Envolve todos que, de alguma forma, são responsáveis pela construção e manutenção dos

rankings. Podem ser incluídos

nessa classificação: as

instituições e os seus diretores, os patrocinadores, os

estatísticos, outros

profissionais técnicos e assim por diante. Universi-dade de Shanghai. Fundo para a paz. Programa das Nações Unidas para o desenvol-vimento Fundação Heritage e The Wall Street Journal

Entidade Envolve “tudo” o que está sendo ranqueado. Isso inclui universidades, pessoas, países, etc. Cientificamente já está bem documentado que muitas entidades estão mudando suas ações e objetivos para alcançar melhores posições nos

rankings.

Universi-dades

Países Países Países

Usuário Envolve todos aqueles que não estão sendo ranqueados (não são, portanto, entidades), mas que, de alguma forma, estão interessados no ranking, ou seja, na ordem na qual as entidades estão classificadas. Isso inclui pessoas, empresas, instituições, países, etc. Eles frequentemente usam os

rankings para apoiar suas

escolhas. Empresas e estudantes. Empresas e pessoas. Empresas e pessoas. Empresas e pessoas.

Notas. 1Estão listados apenas os responsáveis institucionais; 2Academic Ranking of World Universities (CENTER FOR

WORLD-CLASS UNIVERSITIES OF SHANGHAI JIAO TONG UNIVERSITY (CWCU), 2012); 3Failed States Index

(THE FUND FOR PEACE, 2012); 4_{Human Development Index (UNITED NATIONS DEVELOPMENT PROGRAMME,}

2013a); 5Index of Economic Freedom (MILLER, A. T.; KIM; HOLMES, 2014). As siglas dos rankings referem-se aos

nomes em inglês, procedimento este que será utilizado em todo o trabalho. Os tipos de stakeholders aqui apresentados foram sugeridos pelo autor somente para suportar o desenvolvimento dessa tese e não tem por objetivo propor uma nova tipologia para representar os envolvidos no contexto de rankings. Fonte: elaborado pelo autor.

Relacionando os tipos de stakeholders sugeridos com as notícias apresentadas no início do texto, é possível notar que os usuários – isto é, pessoas que querem mudar para outro país – são influenciados pela primeira. Por sua vez, as entidades – isto é, países, mais especificamente a África do Sul – são influenciados pela segunda.

(34)

Entretanto, nesse novo horizonte de pesquisas, inúmeras possibilidades ainda não foram exploradas.

Para ilustrar, rankings poderiam estar sendo tratados como problemas de permutação de matrizes, onde se desejaria: (i) minimizar o número total de “descontinuidades”– ou seja, situações nas quais uma determinada entidade possui valores inferiores em algumas dimensões do que entidades com posições piores no ranking; (ii) minimizar o valor total destas “descontinuidades”; (iii) minimizar a “descontinuidade” máxima; ou (iv) minimizar o número máximo de “descontinuidades”. Estes problemas provavelmente são semelhantes aos problemas de sequenciamento de padrões de corte e projeto de circuitos VLSI (LINHARES; YANASSE, 2002; YANASSE, 1997). Entretanto, é necessário que sejam desenvolvidas provas formais para a real compreensão da complexidade computacional envolvida e também para a correta avaliação daquelas abordagens que poderão ser mais promissoras.

Apesar das possibilidades apresentadas acima, a grande maioria dos rankings conhecidos e com divulgação na mídia é construída baseada em indicadores compostos – também tratados por índices ou scores. Estes rankings são, de fato, aqueles que serão focados nesta tese. Por simplicidade, de agora em diante o termo ranking estará se referindo exclusivamente àqueles rankings cujas listas de entidades foram geradas a partir de indicadores compostos.

(35)

Figura 1.1 – Visão geral do processo de construção de rankings.

I1 I2 I3 ... In

E1

E2

E3

...

Ek

Posição Entidade Índice

1 E5 98,3

2 E8 96,7

3 EK 79,4

... ...

K E3 45,8

Fonte: elaborada pelo autor.

Nas últimas duas décadas, muitos estudos baseados em rankings foram desenvolvidos. Em geral, eles podem ser agrupados de acordo com os seus objetivos, ou ênfases principais. O processo de construção dos rankings representa um desses objetivos. Para efeitos de exemplificação desse grupo de estudos, alguns autores questionaram a metodologia usada para estimar o valor de alguns indicadores (ABRAMO; CICERO; D’ANGELO, 2012). Estudos com esse foco estão detalhados oportunamente nos artigos 1 e 3 desta tese.

Um segundo grande objetivo explorado está relacionado com o impacto dos rankings para apoiar os processos de tomada de decisão – principalmente de usuários e de entidades ranqueadas. Em relação aos usuários, por exemplo, é conhecido que os rankings estão influenciando a aplicação de estudantes para instituições de ensino (ALTER; REBACK, 2014; GRIFFITH; RASK, 2007; NAUDÉ; HENNEBERG; JIANG, 2009; YEN; YANG, H.-P.; CAPPELLINI, 2012). Numa posição mais crítica sobre essas aplicações, um estudo sugeriu que as posições das entidades nos rankings estão sendo tratadas como mercadorias adquiridas por estudantes-consumidores (HOGLER; GROSS, 2009).

Influência análoga pode ser encontrada no campo da saúde. Nesse sentido, uma pesquisa apontou que os hospitais mais bem ranqueados têm atraído mais pacientes do que os

CONJUNTO DE DADOS: matriz com k entidades relacionadas com n indicadores. Cada indicador está associado a uma característica importante para a construção do indicador composto (ou índice). O conjunto desses indicadores representa o aspecto multidimensional característico dos rankings.

PROCESSO DE CONSTRUÇÃO DO RANKING: amplo processo que, baseado em instrumentos estatísticos e matemáticos, é usado para calcular o índice de cada entidade tendo como base o conjunto de dados. Esse processo envolve, por exemplo, análise multivariada dos dados, normalização e agregação dos dados, definição dos pesos dos indicadores, tratamento dos dados faltantes e assim por diante.

RANKING: uma simples ordem na qual as entidades

(36)

outros (POPE, D. G., 2009). Outro estudo que evidencia a influência dos rankings sobre os usuários mostrou que os internautas confiam nas páginas de internet melhor ranqueadas pelo Google (PAN et al., 2007). Os autores identificaram que essa confiança acontece mesmo quando a descrição dos conteúdos é menos relevante nessas páginas do que naquelas não tão bem ranqueadas.

Em relação às entidades ranqueadas, por sua vez, sabe-se que os rankings têm sido usados para justificar suas práticas e procedimentos (WEDLIN, 2011). Por exemplo, acadêmicos têm sido pressionados para publicar nas revistas científicas mais bem conceituadas, consideradas de nível top (TOURISH, 2011), mudanças têm sido implementadas internamente nas organizações (MARTINS, 2005) e o preço das ações têm sido atualizado (TISCHER; HILDEBRANDT, 2014). Além disso, escolas de negócios estão reagindo tanto aos rankings quanto às informações refletidas por eles na sociedade (FEE; HADLOCK; PIERCE, 2005).

Por fim, um terceiro grande objetivo está relacionado com a avaliação das entidades ranqueadas. Por exemplo, foi sugerido que características diferentes podem levar cursos de MBA às melhores posições de um determinado ranking (NAUDÉ; HENNEBERG; JIANG, 2009). É importante notar que grande parte dos estudos desse terceiro grupo encontrados na literatura focou sua análise nas entidades posicionadas nas primeiras posições dos rankings. Entidades nessas condições são conhecidas popularmente como “entidades top”. Nesta tese, o termo “categoria top” será amplamente utilizado e estará se referindo ao grupo formado pelas entidades com melhores posições no ranking.

Para ilustrar o interesse dos pesquisadores nas entidades top, alguns estudos recentes realizados em contextos diferentes estão fornecidos a seguir. Primeiro, enquanto um estudo analisou o número de mulheres executivas em empresas ranqueadas no grupo das top-100 (SHARMA; GIVENS-SKEATON, 2010), outro explorou as estratégias usadas por elas para segurar as posições melhores ranqueadas no mercado de trabalho (WILSON, 2009).

Segundo, um estudo mostrou que o ranking diário dos top-100 aplicativos da Apple’s App Store influencia na intenção de pagar pelos aplicativos no dia seguinte (CARARE, 2012). Terceiro, as top-10 escolas e universidades de gestão da inovação foram analisadas (YANG, P.; TAO, 2012).

(37)

KASHANI, 2013). Sexto, num estudo com abordagem longitudinal, as cidades top foram comparadas em três momentos históricos (POLESE; DENIS-JACOB, 2010).

Sétimo, explorando o U.S. News & World Report’s Rankings, as medidas subjetivas e os índices do ranking dos hospitais top foram comparados (BUSH et al., 2011; SEHGAL, 2010). E, por fim, a importância da Econometria nos currículos de graduação em Economia nos Estados Unidos foi analisada (JOHNSON; PERRY; PETKUS, 2012). Essa análise baseou-se nas escolas top e algumas análises específicas foram fornecidas para as top-10.

Adicionalmente, alguns estudos, apesar de não fornecerem análises específicas para as entidades top conforme os estudos acima citados, focaram em categorias top para suportar outras análises. Por exemplo, um índice de internacionalização das universidades foi proposto baseado nas universidades top de pesquisa dos Estados Unidos (HORN; HENDEL; FRY, 2007). Em outro estudo, as revistas científicas top de psicologia educacional foram exploradas para identificar os pontos comumente pesquisados, as tendências atuais, além das áreas de pesquisa que poderiam ser “requeridas” como sendo integrantes da própria disciplina (NOLEN, 2009).

Pode ser identificado, independente do grupo ao qual o artigo foi aqui classificado, que a ampla maioria dos estudos mencionados foi desenvolvida tendo como foco um ranking ou um contexto específico – embora exceções possam ser encontradas (por exemplo, foi sugerido que incertezas são inerentes ao processo de construção dos rankings (HOYLAND; MOENE; WILLUMSEN, 2012)). Isso significa que a maioria dos autores não teve como objetivo pesquisar padrões, conceitos ou métodos que pudessem ser comuns à maioria dos rankings, mas adequados a contextos específicos. Essa tese, no geral, encara esse gap e tenta avançar na criação de uma literatura geral de rankings. Para isso, algumas abordagens que podem ser aplicadas à maioria dos rankings, pelo menos naqueles baseados em indicadores compostos aqui enfocados, estão sendo propostas.

(38)

constroem categorias top e percebem as entidades nela inseridas como sendo mais similares entre si do que são em relação às demais entidades do ranking (ISAAC; SCHINDLER, 2013). A figura 1.2 mostra esses aspectos.

Figura 1.2 – Duas frentes teóricas sobre as informações dos rankings

MATEMÁTICA / ESTATÍSTICA PSICOLOGIA / COGNIÇÃO

1 AAA 2 BBB 3 CCC 4 DDD 5 EEE 6 FFF 7 GGG

… k HHH

1 AAA

2 BBB

3 CCC

4 DDD

5 EEE

6 FFF 7 GGG

…

k HHH

Notas: rankings são listas de entidades baseadas em índices. Essas listas não possuem nenhum destaque para as entidades

top quando são divulgadas. Entretanto os usuários percebem mentalmente limites nessas listas embora estes não existam.

Esses limites estão relacionados com as posições ocupadas pelas entidades no ranking, especificamente àquelas terminadas em 0 ou 5 (5, 10, 15, 20...). O grupo de entidades posicionadas na faixa entre 1 até esses limites formam as conhecidas categorias top (top-5, top-10, top-15...). Acima está destacada a forma com que a categoria top-5 estaria sendo percebida pelos usuários. De acordo com a percepção dos usuários, as entidades dentro de uma categoria top são interpretadas como

“melhores” do que as outras. Além disso, essas entidades são consideradas mais similares entre si do que são em relação às

outras entidades do ranking. Essa percepção é destacada quando a entidade limite da categoria top (entidade 5) é comparada com seus vizinhos no ranking (entidades 4 e 6). Em outras palavras os usuários percebem a entidade 5 muito mais similar da entidade 4 do que da entidade 6. Além disso, os usuários comumente têm interesse nas entidades top a não ser que eles tenham interesse específico num cenário particular. Mesmo considerando que diferentes usuários podem ter diferentes percepções sobre as informações disponibilizadas num ranking, os aspectos aqui enfatizados podem ser interpretados como um padrão de percepção. Esse padrão, que pode ser entendido como a forma com que a maioria dos usuários interpretam as informações dos rankings, foi cientificamente encontrado e será oportunamente detalhado (veja revisão da literatura do

artigo 1). Portanto, nesta tese, o termo “percepção dos usuários” (e seus correspondentes) estará se referindo à esse padrão,

ou aos aspectos aqui destacados, e será usado em substituição ao termo “percepções dos usuários”. Fonte: elaborada pelo

autor.

Considerando que os usuários, pelo menos a maioria deles conforme destacado nas notas da figura 1.2, percebem um alto nível de similaridade entre as entidades top e que os rankings são construídos baseados em valores agregados, e não em medidas de similaridade, algumas questões emergem naturalmente, a saber: é possível que os rankings estejam ordenando entidades mais similares sequencialmente, embora não tenham sido projetados para isso? Ou seja, os usuários estão “vendo” (ou percebendo) através dos rankings as informações que, de fato, estão sendo disponibilizadas para eles?

Contrariando o padrão de percepção anteriormente destacado, para pessoas com alguns conhecimentos em matemática e/ou estatística, intuitivamente a resposta para essas

Que tipo de informação os rankings fornecem?

(39)

perguntas poderia ser “não” ou “provavelmente não”. Nessa linha de raciocínio, partindo do pressuposto que, de fato, os rankings não estejam representando as informações da forma com que os usuários percebem, questões adicionais podem ainda ser pontuadas: todos os rankings representam as similaridades entre as entidades ranqueadas da mesma forma? Caso negativo, quais características dos rankings (ou variáveis) poderiam interferir nessa representação? Ou ainda, como essa representação poderia ser medida e comparada entre rankings?

Na revisão da literatura realizada para essa tese, nenhum estudo que mostrasse claramente a resposta para essas questões foi encontrado. Dessa forma, os artigos 1 e 2, oportunamente detalhados nas seções apropriadas, foram propostos e desenvolvidos.

A segunda abordagem desenvolvida nesta tese é baseada na Teoria de Resposta ao Item (TRI). Sabe-se que a TRI, há alguns anos, vem sendo utilizada com sucesso na avaliação e construção de escalas em diversas áreas do conhecimento. Por exemplo, podem ser citados estudos recentes em áreas como saúde (OLINO et al., 2012), educação (ANDRADE, D. F.; TAVARES; VALLE, 2000; PEERAER; PETEGEM, 2012), estudos organizacionais (TRIERWEILLER et al., 2013; TRIERWEILLER; PEIXE; TEZZA; BORNIA; et al., 2012; TRIERWEILLER; PEIXE; TEZZA; PEREIRA; et al., 2012), estratégia (BUCHBINDER; GOLDSZMIDT; PARENTE, 2012), entre outros. No geral, essas escalas são construídas para representar traços latentes (ou constructos).

(40)

Figura 1.3 – Como a TRI poderia ser explorada na avaliação e construção de rankings? Algumas possíveis potencialidades descritas através de um exemplo hipotético

RANKING HIPOTÉTICO: ANO 1

CONJUNTO DE DADOS

I1 I2 I3 I4 I5

... ... ... ... ... ...

AB 3 4 5 7 3

foo 6 3 - 5 7

CB 5 5 6 - 8

NT 4 6 5 6 6

... ... ... ... ... ...

RANKING HIPOTÉTICO: ANO 2 CONJUNTO DE DADOS

I1 I2 I3 I4 I5* I6

... ... ... ... ... ... ...

AB 3 5 4 7 4 8

foo 5 5 4 5 6 5

CB 4 3 5 - 7 -

NT 5 8 4 - 7 7

... ... ... ... ... ... ...

(a) _(b)

Notas: (a) as tabelas representam conjuntos de dados de um ranking hipotético em dois anos seguidos. Os indicadores estão

representados pelas colunas e as entidades pelas linhas. No primeiro ano, existem 5 indicadores e a entidade “foo” não

possui valor (missing data) no indicador I3. No segundo ano, existem 6 indicadores e o quinto deles teve mudanças em relação ao ano anterior. (b) O gráfico representa a escala do índice usado para construir o ranking e algumas informações

obtida através da TRI. Pode-se observar que tanto entidades (“foo”) quanto indicadores (I5, I5* e I6) podem ser

representados na mesma escala. Embora a escala tenha sido desenvolvida na faixa de -3 a 3, existem “sub-faixas” nas quais

a escala não é tão confiável (isto é, naquelas em que existem altos valores de erro padrão). Ao contrário dos métodos

tradicionalmente usados na construção de rankings – assim como aqueles baseados na Teoria Clássica de Testes (TCT): (i)

o nível de informação de cada indicador em cada ponto da escala e a faixa dessa escala na qual esses indicadores fornecem alguma contribuição ao índice estão disponíveis; (ii) entidades com dados faltantes podem ser representadas na escala; e (iii) índices que sofreram alterações ao longo do tempo podem ser representados na escala e comparados. Resumidamente, esses aspectos podem ser vistos como algumas das muitas possíveis potenciais aplicações da TRI no contexto de rankings. Fonte: elaborada pelo autor.

Como mostrado na figura 1.3, é possível que muitos problemas comuns no contexto de rankings possam ser resolvidos, ou pelo menos minimizados, através da TRI. Por exemplo: (i) a possibilidade de ranquear entidades mesmo quando existem dados faltantes em alguns indicadores; (ii) a comparação de versões diferentes dos índices; (iii) a determinação das faixas nas quais a escala é mais confiável; (iv) a real contribuição de cada indicador em cada ponto da escala, e assim por diante. Essas possibilidades, aliadas a outras oportunamente descritas (veja artigo 3 desta tese), poderão permitir aos responsáveis pelos rankings algumas análises analíticas não possíveis através dos métodos tradicionais utilizados na construção dos mesmos.

Apesar de existirem muitas aplicações promissoras da TRI no contexto de rankings, um working paper focado em rankings de revistas científicas – ou seja, num contexto

INFORMAÇÃO ERRO PADRÃO

ESCALA

Índice de foo no ano 1 Curva de Informação do I5 no ano 1 Índice de foo no ano 2 Curva de Informação do I5 no ano 2 Curva de Informação do I6 no ano 2

(41)

específico – é um raro exemplar (BARTOLUCCI; DARDANONI; PERACCHI, 2013). Entretanto, os autores não usaram dados – ou indicadores – de um ranking específico como aqui intencionado. Eles analisaram alguns indicadores usados por vários rankings de revistas científicas – especificamente aqueles relacionados com a forma de contabilização das citações (por exemplo, fator de impacto e índice h) – e depois forneceram seu próprio ranking gerado, a partir desses indicadores, através da TRI.

Outro exemplo que pode ser citado, é a utilização da TRI no Exame Nacional do Ensino Médio (ENEM) (INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA, 2015a). Nesse exame, a nota de cada aluno em cada uma das quatro provas objetivas propostas – Ciências da Natureza e suas tecnologias; Ciências Humanas e suas tecnologias; Linguagens, Códigos e suas tecnologias; e Matemática e suas tecnologias – é obtida através de escalas de proficiência construídas através da TRI.

Além disso, o Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), responsável pelo ENEM, também divulga, além de outros indicadores, as notas consolidadas por escola. Para isso, em cada prova realizada pelos alunos, inclusive na redação, o resultado por escola é obtido através de uma média aritmética simples das notas dos respectivos alunos participantes do ENEM (INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA, 2015b, 2015c). Dessa forma, cada escola possui uma nota agregada (média) para cada uma das cinco provas.

Entretanto, apesar do INEP, atualmente, não estar divulgando um ranking por escolas, este documento pode ser encontrado com certa frequência na mídia em geral sob a alcunha de “ranking do ENEM”. Para isso, as notas consolidadas de cada escola nas provas realizadas pelos alunos são novamente agregadas em médias aritméticas simples, retirando-se, normalmente a redação, e uma nota única (ou índice) é encontrado. Esse índice é utilizado para a criação do referido ranking.

Pelo descrito, pode-se entender que a aplicação da TRI no “ranking do ENEM” acontece de uma forma bem particular. Na verdade, o ranking divulgado pela mídia é construído a partir de duas agregações realizadas com médias aritméticas simples, conforme detalhado nos parágrafos anteriores. Ou seja, pode-se perceber que a TRI não foi utilizada para a construção do ranking, como aqui intencionado, mas para a obtenção das proficiências dos alunos em cada prova objetiva realizada.

(42)

exploradas. Esta tese, portanto, encarou esse gap respondendo, essencialmente, à seguinte questão: como a TRI pode ser utilizada na construção e avaliação de rankings?

De acordo com as duas abordagens aqui apresentadas, esta tese propôs-se a solucionar alguns gaps presentes na literatura de rankings. Para um melhor entendimento, a figura 1.4 expõe um framework dos estudos realizados.

Figura 1.4 – Framework da tese

Fonte: elaborada pelo autor.

Conforme destacado na figura 1.4, esta tese está estruturada em três artigos. No primeiro deles, o confronto entre a informação fornecida pelos rankings e aquela percebida pelos usuários foi realizado. Este artigo está segmentado em três estudos, a saber: (i) a análise das similaridades entre as entidades limites das categorias top e seus vizinhos explorando dados de sete rankings; (ii) a análise das similaridades entre as entidades top e aquelas

Contribuições para a AVALIAÇÃO dos

rankings sob a visão dos USUÁRIOS

Contribuições para a AVALIAÇÃO dos rankings sob a visão dos USUÁRIOS

Contribuições para a CONSTRUÇÃO dos

rankings sob a visão dos RESPONSÁVEIS

Contribuições para a CONSTRUÇÃO dos rankings sob a visão dos RESPONSÁVEIS

ARTIGO 1 – Confrontando abordagens teóricas

Os usuários estão vendo o que eles deveriam ver?

ARTIGO 1 – Confrontando abordagens te

ESTUDO 3

Generalização dos resultados para a maioria dos rankings.

ESTUDO 2

Avaliação de todas as entidades das categorias top de sete rankings.

ESTUDO 1

Avaliação das entidades limites das categorias top de sete rankings.

ARTIGO 2 – Confrontando abordagens teóricas

Como medir o relacionamento entre “o tipo de informação que os usuários veem

(ou percebem)” e “o tipo de informação que os rankings realmente fornecem”?

ARTIGO 3 – Abordagem teórica pouco explorada

Como os rankings poderiam explorar as potencialidades da TRI?

ESTUDO 1 O uso da TRI aplicada ao FSI

(43)

externas à categoria top para os mesmos sete rankings; e (iii) a análise da abrangência dos resultados encontrados para a maioria dos rankings através de uma simulação.

No segundo artigo, uma métrica que representa o nível no qual a informação percebida pelos usuários está sendo representada pelos rankings foi desenvolvida. É oportuno ressaltar que, embora o termo usuário possa assumir diferentes significados (conforme descrito no quadro 1.1), em função da base teórica utilizada, ele estará se referindo exclusivamente às pessoas físicas nestes dois primeiros artigos da tese. Esse aspecto pode ser interpretado como uma limitação desses artigos. Dessa forma, estudos complementares poderão ser necessários para a avaliação de usuários de naturezas distintas – como, por exemplo, empresas e países.

No último artigo, por sua vez, algumas aplicações potenciais da TRI no contexto de rankings foram exploradas. No primeiro estudo, o FSI foi utilizado. No segundo, o IEF esteve em foco. Esses dois rankings foram oportunamente escolhidos para permitir a realização de diferentes aplicações da TRI. É importante notar que, embora focados em rankings específicos, esses estudos foram baseados em aspectos comumente encontrados na maioria dos rankings, pelo menos naqueles que são construídos a partir de indicadores compostos, permitindo, assim, evoluir com a literatura geral de rankings. Dessa forma, os estudos aqui realizados devem ser entendidos como exemplos de como a aplicação da TRI no contexto de rankings poderia ser conduzida tendo, portanto, cunho essencialmente metodológico.

Numa visão geral, deve-se entender que os dois primeiros artigos estão alinhados com a avaliação dos rankings sob a visão dos usuários. Esses artigos, portanto, não fornecem aspectos diretamente aplicados para melhorar o processo de construção dos rankings, mas focam na avaliação dos resultados fornecidos por eles. Ao contrário, o terceiro artigo explora uma abordagem que pode ser utilizada durante a construção dos rankings, sendo, portanto, interessante aos seus responsáveis. Importante notar que, embora os dois primeiros artigos dessa tese indiretamente sinalizem para a possibilidade de criação de rankings a partir de medidas de similaridade, o que não vem sendo realizado nos rankings aqui enfocados, o terceiro artigo não destina-se, diretamente, a solucionar essa questão. Entretanto, a solução apresentada, em função da natureza do modelo da TRI utilizado, sinaliza para essa possibilidade.

(44)

(45)

2 ARTIGO 1 – RANKINGS: OS USUÁRIOS ESTÃO VENDO O QUE ELES DEVERIAM VER?

Conforme descrito na introdução geral, este primeiro artigo da tese confronta as informações fornecidas pelos rankings com aquelas percebidas pelos usuários. Para isso, após a introdução do tema e a revisão da literatura, três estudos sequencialmente alinhados são apresentados. Por fim, a discussão dos resultados e a conclusão estão descritas.

2.1 INTRODUÇÃO

Cientificamente estão sendo valorizados estudos de rankings destinados a mostrar que as entidades pertencentes às categorias top possuem características diferentes entre si ou, em outras palavras, que não são muito similares. Nesses estudos, as diferenças encontradas são extremamente enfatizadas e, via de regra, é dada uma conotação de que os achados são, de certa forma, surpreendentes. Para efeitos de exemplificação, alguns desses estudos estão resumidos a seguir.

Primeiro, um estudo identificou que muitas “rotas” podem levar cursos de Master of Business Administration (MBA) para as melhores posições de um ranking (NAUDÉ; HENNEBERG; JIANG, 2009). O próprio título do artigo enfatiza essas diferenças: “Varying routes to the top...” (em inglês). Para isso, os autores exploraram o ranking Financial Times top 100 full-time MBA programs in 2008 – o qual utiliza (i) pontuações z como método de normalização, (ii) pesos diferentes para os indicadores, e (iii) a soma dos valores como método de agregação. Segundo os autores, os achados que “emergiram” do estudo indicam que cursos com diferentes características estavam presentes nas categorias top. Eles afirmaram que o valor do estudo foi ir além do ranking, buscando entender as diferenças que pudessem existir –ou que “eventualmente” acontecem – entre os programas de MBA.

(46)

resultados sugerem que diferenças relevantes poderiam ser encontradas nas top-50 entidades analisadas.

Terceiro, inúmeras diferenças significantes entre as top-6 revistas científicas – de acordo com um ranking formado pela opinião dos membros da Association of Business Communication – foram encontradas (MARTIN; DAVIS; KRAPELS, 2011). Embora esse estudo não tenha usado indicadores de um único ranking, mas indicadores comuns em rankings de revistas científicas de outras áreas, a forma com que os resultados foram divulgados sugere a importância dada pelos autores às diferenças encontradas. Importante destacar que a essência do estudo foi mostrar que essas diferenças existem, e, para isso, foram utilizados inúmeros testes para comparações de grupos, como ANOVA e Qui-Quadrado.

Dada a importância, sinalizada por esses autores – bem como por outros aqui não destacados –, a respeito das diferenças encontradas, pode-se interpretar que o raciocínio implícito nesses estudos sugere que, sendo entidades top e, portanto, bem classificadas nos rankings, suas características deveriam ser similares – ou, pelo menos, mais similares entre si do que são em relação às outras entidades do ranking. Esse, aliás, é exatamente o que estudos de psicologia sinalizam sobre a percepção dos usuários a respeito das entidades de um ranking (ISAAC; SCHINDLER, 2013).

Entretanto, os rankings, pelo menos aqueles focados nesta tese, são criados a partir de agregações de múltiplos indicadores – ou de indicadores compostos – normalmente realizadas através de médias aritméticas, somas, médias geométricas ou médias aritméticas ponderadas. Esses indicadores compostos, pelas suas próprias propostas, possuem, conhecidamente, naturezas multidimensionais (NARDO et al., 2005).

(47)

relatam casos de rankings em que as entidades top possuem características não muito similares – não são inesperados.

Talvez alguns pesquisadores – com conhecimentos mais aprofundados em matemática e/ou estatística – considerem essa proposta desnecessária. Entretanto, acredita-se que o valor da proposta aqui apresentada não pode ser minimizado considerando: (i) a existência de estudos recentes que exaltam as diferenças entre as entidades top; (ii) a conotação muitas vezes dada para os resultados encontrados nesses estudos; (iii) o padrão de percepção dos usuários dos rankings sobre as informações neles contidas obtido a partir dos estudos de psicologia; e (iv) a ausência de um estudo que mostre claramente essa questão.

Deve-se entender, de acordo com essa proposta, que o objetivo deste artigo não é criticar a forma com que os rankings são construídos e nem mesmo questionar a validade dos estudos de psicologia que tratam sobre a percepção dos usuários quando avaliam as entidades de um ranking. O objetivo aqui é, apenas, confrontar essas visões e mostrar que, dadas algumas características comuns à maioria dos rankings, a existência de entidades top não muito similares entre si é um padrão que, na grande maioria das vezes, pode ser esperado. Deve-se perceber que este artigo contribui, portanto, para auxiliar na avaliação das entidades ranqueadas e, por não tratar de nenhum ranking em particular, para o desenvolvimento de uma literatura geral de rankings.

Para atender às expectativas aqui propostas, este artigo está estruturado da seguinte forma. Primeiro, a revisão da literatura é apresentada contendo duas seções: a primeira destina-se a mostrar como os rankings são construídos e o tipo de informação que eles transmitem aos usuários; e a segunda enfatiza o padrão de percepção dos usuários ao avaliarem as entidades de um ranking. Em sequência, três estudos são apresentados de modo didático para mostrar que a existência de entidades top não muito similares entre si é um padrão que, na grande maioria dos casos, pode ser esperado na avaliação de rankings. Por fim, a discussão dos resultados e a conclusão do artigo são apresentadas.

2.2 REVISÃO DA LITERATURA