• Nenhum resultado encontrado

2. R EVISÃO B IBLIOGRÁFICA

2.4. Questões metodológicas em análise de sequências

2.4.2. Temporalidade

O tratamento do tempo nas análises de sequências merece uma reflexão especial, principalmente no que tange a inversões de ordem das sequências, inserções e eliminações de estados.

Em primeiro lugar, há a crítica que o tempo é tratado de forma linear - a passagem de dois períodos equivale à soma de um período mais outro período. Alguns críticos apontam que isto pode não ser adequado em ciências sociais. Por exemplo, o ano de uma formatura, de um casamento, do nascimento de um filho não é equivalente, sob a perspectiva das teorias de ciclo de vida, a mais um ano após a aposentadoria. No entanto, esta crítica é tratável analiticamente no arcabouço da análise de sequências.

Uma alternativa é codificar transições, tal qual em Biemann (2011). Utilizando o exemplo das trajetórias ocupacionais dos engenheiros, uma sequência na qual o engenheiro jovem permanece como engenheiro típico durante todo o período seria codificada como um estado, enquanto uma sequência na qual o engenheiro jovem faz uma transição para outra ocupação depois de quatro anos seria codificada como dois estados. Adicionalmente, a sequência do segundo indivíduo (que faz a transição para outra ocupação após quatro anos) seria codificada da mesma maneira que a de um terceiro indivíduo que eventualmente faça esta transição depois de seis anos, por exemplo. O que importa, neste tipo de abordagem, são as transições.

Alternativamente, Abbott e Hrycak (1990) propuseram codificar as proporções em cada estado ao invés do número de períodos em que cada indivíduo permanece em cada

19 estado (time-wrapping). Embora esta abordagem não tenha se transformado em um padrão na literatura, os autores propuseram este método para tratar sequências de durações diferentes. Novamente utilizando o problema de pesquisa tratado nesta tese, uma sequência de dois anos de duração em que um engenheiro passasse um ano como engenheiro típico e depois virasse gerente de recursos humanos seria equivalente a uma sequência de oito anos em que o engenheiro passasse quatro como engenheiro típico e depois quatro anos como gerente de RH. O que importaria, segundo esta abordagem, seria o fato que ambos teriam passado 50% de suas sequências como engenheiros típicos e os outros 50% como gerentes de RH.

No que tange à ordem das sequências, de fato o OMA, em sua formulação original, propõe uma simetria que pode ser inaceitável em determinados estudos. Isto, combinado com a crítica à arbitrariedade na atribuição dos custos de transição entre os estados e à questão das inserções e eliminações, deu origem a outras abordagens algorítmicas discutidas adiante.

As operações indel são uma questão de importante debate. Para ilustração, recorre- se a uma versão modificada da Tabela 2, exposta na Tabela 4. Nesta versão, os indivíduos 70 e 2151 passam alguns períodos fora do mercado de trabalho, suponha que por desemprego. Como alinhar as sequências destes indivíduos com os demais?

A única diferença entre as trajetórias dos indivíduos 1 e 70 é o ano de 2007 - o indivíduo 1 trabalha todos os anos, e o 70 passa o ano de 2007 desempregado. Lançando mão das opções de inserção e eliminação, pode-se alinhar as duas sequências de duas maneiras: (i) elimina-se o estado referente ao ano de 2007 na sequência do indivíduo 1; ou (ii) insere-se o estado “engenheiro típico” em 2007 para o indivíduo 70.

Tabela 4 Exemplo de trajetórias ocupacionais (com indivíduos fora do mercado de trabalho por alguns períodos)

id 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 1 Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico 70 Engº típico Engº típico Engº típico Engº típico Fora do mercado Engº típico Engº típico Engº típico Engº típico Engº típico 2151 Engº típíco Fora do mercado Fora do mercado Fora do mercado Fora do mercado Fora do mercado N-engº:

técnico Engº:

gestor Engº: gestor Engº: gestor 6205 Engº típico Engº: gestor Engº: gestor Conta-própria Engº: técnico Engº: técnico Engº: técnico Engº: técnico Engº típico Engº típico 9010 Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº típico Engº: gestor Engº: gestor Engº: gestor

Fonte: Elaboração própria a partir da Rais.

O problema é: quanto esta modificação vai “custar”? Ela custará o mesmo que as operações de substituição? Aliás, estas operações de inserção e deleção fazem sentido em sequências de eventos sociais? Como eles alteram a comparação de sequências de tamanhos diferentes?

20 Em suas primeiras aplicações, estes custos eram calibrados da mesma forma dos custos de substituição. A substituição entre os estados, quando possível, sempre seria preferível a operações de inserção e deleção, pois eliminar um estado para reinseri-lo custaria o dobro do que a operação de substituição. Aliás, uma recomendação tradicional era estabelecer o custo indel em pelo menos a metade do custo máximo de transição entre os estados, o que evitaria que o algoritmo de alinhamento realizasse “pseudo- substituições” – justamente, eliminações seguidas de reinserções, por estas custarem mais “barato” que a substituição (HOLLISTER, 2009).

Entretanto, Abbott e Tsay (2000, p. 12) sugeriram que a regra da metade do custo, na verdade, levaria à nunca utilização das operações de inserção ou eliminação.12 De toda

forma, Abbott e Tsay (2000) fizeram algumas simulações e sugerem a adoção dos custos indel em torno 10% do custo de substituição máximo, pois isto melhora o alinhamento de sequências e dá possibilita a identificação de regularidades interessantes.

O fato é que esta recomendação não é muito popular na literatura. A imensa maioria dos artigos prefere seguir a tradicional regra da metade do custo. As operações indel implicam em movimentos temporais ao longo das sequências, o que distorce o tempo (AISENBREY; FASANG, 2010, p. 126). Se o interesse analítico for sobre o tempo e a ordem dos eventos, então as operações indel devem ser utilizadas com parcimônia, pois elas dificultam o alinhamento de subsequências que podem ser de interesse de pesquisa.

Outra questão referente à temporalidade das sequências diz respeito à sua complexidade. Como sugerido na seção anterior, a complexidade é uma espécie de medida de dispersão das sequências. Alguns autores a medem a partir de medidas como entropia (GABADINHO et al., 2011) ou turbulência (ELZINGA, 2010). Ambos os conceitos consideram duas características das sequências: o número de estados e a duração nos mesmos.

A medida de entropia em Gabadinho et al. (2011) – em verdade, esta é uma versão da entropia de Shannon da teoria da informação - é expressa pela fórmula:

ℎ � = − ∑�= � log � (1),

onde s é o total de estados da sequência x e π é a proporção do tempo passado em cada

estado. Assim, a entropia mínima (h(x) = 0) é atingida quando um indivíduo passa todo o tempo em um mesmo estado (pois π = 1 e log(1)=0), e sua máxima depende do número de estados, mas é atingida quando uma sequência contém todos os estados possíveis e se passa igual período em cada estado.

A medida de turbulência de Elzinga (2010) trabalha com a variância das durações em cada estado de uma determinada sequência. Em verdade, se indivíduo passar muito tempo em um estado e pouco tempo nos demais esta variância será alta - excetuando-se, claro, o caso extremo em que ele passa todo o tempo em apenas um estado, quando esta

12 A afirmação é verdadeira quando as sequências são completas e de mesma duração, mas não parece ser verdade em todos os casos. Como nota Hollister (2009), às vezes operações de inserção ou eliminação, ainda que custosas, podem economizar operações de substituição em série.

21 variância é zero. Inversamente, se um indivíduo passar período igual em todos os estados, esta variância será zero. A fim de capturar a ideia de que a complexidade da carreira aumenta à razão inversa da variância (no exemplo, o primeiro caso tem uma carreira mais “simples” que o segundo) e para lidar com os casos extremos, Elzinga (2010) propôs a seguinte medida de “variância relativa inversa”:

1 ≤ � � =� ��−�−� ++ ;

E a complexidade ou turbulência é medida por

� � = log ∅ � . � � (2),

onde V(x) é a variância das durações das subsequências da observação x, Vmax e Vmin são

os limites inferior e superior para V(x), e ϕ(x) é o número de subsequências diferentes de x. Aqui aparece uma diferença fundamental entre a medida de entropia e de

complexidade: a última é afetada por mudanças de ordem nas subsequências, pois ϕ(x)

cresce, e a medida de entropia não, porque para esta medida o que interessa são os diferentes estados.

Documentos relacionados