• Nenhum resultado encontrado

flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental

N/A
N/A
Protected

Academic year: 2021

Share "flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental"

Copied!
92
0
0

Texto

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

UNIVERSIDADEFEDERAL DORIOGRANDE DO NORTE

INSTITUTOMETRÓPOLEDIGITAL

PROGRAMA DEPÓS-GRADUAÇÃO EMBIOINFORMÁTICA

flowDiv: uma nova ferramenta computacional

para análise da diversidade citométrica

ambiental

Bruno Mattos Silva Wanderley

Orientador: Prof. Dr. Adrião Duarte Doria Neto Coorientador: Prof. Dr. Daniel Sabino Amorim de Araújo

Tese de Doutorado apresentada ao Pro-grama de Pós-Graduação em Bioinformática da UFRN (área de concentração: Biologia de Sistemas) como parte dos requisitos para ob-tenção do título de Doutor em Bioinformá-tica.

(2)

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede Wanderley, Bruno Mattos Silva.

flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica ambiental / Bruno Mattos Silva Wanderley. - 2019.

92f. : il.

Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Bioinformática, Natal, 2019.

Orientador: Dr. Adrião Duarte Doria Neto.

Coorientador: Dr. Daniel Sabino Amorim de Araújo.

1. Citometria de fluxo - Tese. 2. diversidade citométrica - Tese. 3. flowDiv - Tese. I. Doria Neto, Adrião Duarte. II. Araújo, Daniel Sabino Amorim de. III. Título.

RN/UF/BCZM CDU 004.421

(3)

flowDiv: uma nova ferramenta computacional

para análise da diversidade citométrica

ambiental

Bruno Mattos Silva Wanderley

Tese de Doutorado aprovada em 25 de novembro de 2019 pela banca examinadora com-posta pelos seguintes membros:

Prof. Dr. Adrião Duarte Doria Neto (orientador) . . . UFRN

Prof. Dr. Daniel Sabino Amorim de Araújo (coorientador) . . . UFRN

Prof. Dr. Jorge Estefano Santana de Souza . . . UFRN

Prof. Dr. André Megali Amado . . . UFJF

Prof. Dr. Rosemberg Fernandes de Menezes . . . UFPB

(4)
(5)

"Queremos, até onde for possível,

introduzir a sutileza e o rigor da

matemática em todas as ciências;

não que imaginemos, com isso, que

chegaremos a conhecer as

coisas;queremos somente constatar

nossas relações com elas. A

matemática não é mais do que o

meio para conhecimento geral e

último dos homens."

(Friedrich Nietzsche, 1882)

(6)
(7)

Resumo

A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espec-troscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relati-vamente baixos - características que a tornam uma ferramenta bastante ubíqua em proto-colos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambien-tais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de CMF: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de pro-tocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade ci-tométrica - o estudo de dados de CMF com base em métodos de ecologia numérica - vem se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, mui-tos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizar-mos a lógica por trás do método e o compararpormenorizar-mos a estratégias computacionais similares, nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importan-tes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de lagos naturais da Patagônia argentina e do nordeste brasileiro. Nossos resultados sugerem que variáveis ambientais importantes - notadamente clorofila a e carbono, fósforo e nitro-gênio totais - afetam a diversidade citométrica de bactérias de maneiras distintas. Essas descobertas alinham-se com a literatura vigente sobre o tema e reafirmam a validade do flowDiv para refletir, de forma consistente, alterações na composição das comunidades bacterianas decorrentes de mudanças ambientais.

(8)
(9)

Abstract

Flow cytometry (FCM) is an analytical technique based on the spectroscopic characte-rization of particulates. This technique allows the quantitative and qualitative description of a wide range of cellular systems within seconds and at relatively low costs. Such fea-tures make it a very ubiquitous tool in both industrial and academic analytical protocols. The environmental sciences have been dealing with quite obvious obstacles with regrads to the structuring of FCM protocols: the highly heterogeneous nature of environmental samples makes it difficult to adjust protocols that balance standard mathematical reaso-ning and the intrinsic biological meareaso-nings of the system under study. Several approaches have been devised to correct these incongruities, including those that explore the idea of cytometric diversity - the study of FCM data based on numerical ecology methods - has been quite auspicious. However, despite the availability of solutions, many tech-nical challenges still need to be overcome. In this work, we develop and apply a new computational tool, flowDiv, specially designed for the analysis of cytometric diversity of environmental data. Here, in addition to detailing the logic behind the method and comparing it to similar computational strategies, we apply it to real problems, revealing how some important ecological factors, such as nutritional status, affect the cytometric diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Bra-zil. Our results suggest that important environmental variables - notably chlorophyll a and total carbon, phosphorus and nitrogen - affect the cytometric diversity of bacteria in different ways. These findings are in line with current literature and reaffirm the validity of flowDiv to consistently reflect changes in the composition of bacterial communities stemmed from environmental shifts.

(10)
(11)

Sumário

Sumário i

Lista de Figuras iii

Lista de Tabelas v

Lista de Símbolos e Abreviaturas vii

1 Introdução 1 1.1 Motivação . . . 2 1.2 Contribuições . . . 2 1.3 Organização do texto . . . 3 2 Fundamentação Teórica 5 2.1 Citometria de Fluxo (CMF) . . . 5 2.1.1 Princípios Operacionais . . . 5

2.1.2 Registro e Estruturação de Dados . . . 6

2.1.3 CMF Ambiental . . . 9

2.2 Bioinformática em CMF . . . 10

2.2.1 Mineração de Dados em CMF Ambiental . . . 10

2.2.2 Assinatura Citométrica . . . 11

2.3 Métodos Numéricos em Ecologia . . . 11

2.3.1 Diversidade Biológica . . . 12

3 Trabalhos relacionados & Problemática 13 3.1 Trabalhos relacionados . . . 13 3.1.1 Usos do método . . . 13 3.1.2 Implementações . . . 13 3.2 Problemática . . . 14 3.2.1 Lacunas operacionais . . . 14 3.2.2 Lacunas epistemológicas . . . 14 4 Implementação 17 4.1 Importação e processamento . . . 17

4.2 Tabelas de contingência e diversidade citométrica . . . 19

4.3 Ordenação, clusterização e mapeamento . . . 20

4.4 Disponibilidade . . . 20 i

(12)

5.1.1 Patagônia argentina . . . 23 5.1.2 Nordeste brasileiro . . . 24 5.2 Comparação do Método . . . 25 5.2.1 Metodologia . . . 25 5.2.2 Resultados e discussão . . . 26 6 Conclusão 27 Referências bibliográficas 28 A Informações adicionais 37 A.1 Artigo 1 (publicado) . . . 38

(13)

Lista de Figuras

2.1 Diagrama esquemático simplificado da técnica de citometria de fluxo. Fonte: Elaborado pelo autor (2019). . . 6 4.1 Estabilização das médias entre os citogramas. Para quaisquer citogramas

(a) e (b), os valores médios das regiões citométricas de referência (interse-ções das cruzes pontilhadas) são usados como ponto de ancoragem para a transformação de translação dos dados e geração do arquivo final (d). As variâncias são estabilizadas a posteriori por meio da aplicação da função arco seno hiperbólico aos dados (não mostrado). . . 18 4.2 Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis

é aplicada e a média aritmética é calculada para gerar o número ótimo de binspor citograma. . . 19 4.3 Ordenação, clusterização e mapeamento. Para quaisquer janelas de

inte-resse (a) e (b) (polígonos vermelhos), escores de ordenação são gerados (c), agrupados (d), reordenados (e) e sobrepostos aos citogramas originais (f) (apenas (a) mostrado). . . 21

(14)
(15)

Lista de Tabelas

5.1 Estatísticas de Mantel, calculadas a partir da comparação par-a-par das matrizes de distância das técnicas utilizadas. Asteriscos (*) representam resultados significativos (p < 0.05). . . 26

(16)
(17)

Lista de Símbolos e Abreviaturas

CMF Citometria de Fluxo

CRAN The Comprehensive R Archive Network DC Diversidade Citométrica

DGGE Eletroforese em Gel de Gradiente Desnaturante EDK Estimativa de Densidade Kernel

FCS Flow Cytometry Data File Standard FSC Forward Scatter

ISAC International Society for Advancement of Cytometry REPC Reconhecimento e Estudo de Padrões Citométricos SSC Side Scatter

TFM Tubo Fotomultiplicador

(18)
(19)

Capítulo 1

Introdução

A citometria de fluxo (CMF) é uma poderosa técnica analítica, ampla e crescente-mente utilizada em laboratórios de pesquisa e diagnóstico ao redor de todo o mundo.Tal ubiquidade é justificada por sua grande versatilidade: em apenas poucos segundos, pode-se realizar uma minuciosa caracterização quali-quantitativa de amostras provindas, virtu-almente, de qualquer natureza. Essa propriedade possui notório valor logístico em rotinas laboratoriais que exigem a caracterização morfofuncional de suas amostras, como é o cenário, por exemplo, de muitas pesquisas em microbiologia.

Sua ubíqua aplicação, não sem surpresa, propicia ao desenvolvimento e consolidação de uma miríade de protocolos analíticos, cada qual focado e especializado em sistemas particulares. É fato notável, contudo, que essa ampla variedade de protocolos define um viés analítico bastante assinalado, no qual algumas áreas, destacadamente as de natureza médica, contam com um rol de ferramentas analíticas extensamente estudadas e de reco-nhecida aplicabilidade (AGHAEEPOUR et al., 2013), enquanto outras, como as ciências ambientais, carecem da validação de estratégias que melhor se coadunem com as peculi-aridades do sistema em análise.

Em particular, os estudos em CMF ambiental debruçam-se massivamente em protoco-los assentados em métodos heurísticos de agrupamento visual, uma abordagem que possui um notável e criticado viés: as potenciais subjetividades analíticas. Essa é uma particula-ridade que acaba por dificultar, especialmente nas ciências ambientais, a reprodutibilidade e interpretação de muitos estudos.

Não obstante, esse tipo de viés vem sendo progressivamente suplantado por novas abordagens que minimizam a subjetividade ora através de automatizações ora por meio da caracterização post hoc dos resultados. A primeira estratégia engloba abordagens que envolvem máquinas classificadoras; a segunda, foco deste trabalho, contempla o campo de reconhecimento e estudo de padrões citométricos (REPC).

As estratégias de REPC vêm experimentando uma crescente expansão na última dé-cada, notadamente pelo aprimoramento, controle e distribuição de suas estratégias. Con-tudo, embora comumente assentados sobre arcabouços matemáticos bastante consolida-dos, muitos dos trabalhos em REPC falham em oferecer interpretações biológicas mais claras e acabam por contribuir com a permanência de uma lacuna bastante proeminente nos estudos ambientais de CMF: a imprecisa compreensão das relações entre o padrão citométrico e as características biológicas do sistema em estudo.

(20)

Nessa perspectiva, a implementação, validação e disseminação de novas estratégias de REPC que melhor se coadunem com as questões atuais de estudos ou diagnósticos ambientais é assunto de patente relevância.

1.1

Motivação

Métodos heurísticos de agrupamento visual são as abordagens mais comuns no pro-cesso analítico de dados de CMF (AGHAEEPOUR et al., 2013; LUGLI; ROEDERER; COSSARIZZA, 2010). Contudo, essa abordagem vem recentemente levantando questi-onamentos sobre seus limites, notadamente por se sustentar em processos subjetivos de juízo em detrimento de inferências matemáticas padronizadas (LO; BRINKMAN; GOT-TARDO, 2008), característica que limita a exploração dos dados citométricos.

Em contrapartida, a plena incorporação de ferramentas matemáticas esbarra em contra-argumentos bastante evidentes, como a necessária correlação biológica entre os resultados e os objetivos da análise (LUGLI; ROEDERER; COSSARIZZA, 2010). Neste contexto, observa-se que conquanto haja experimentos que evidenciem essa necessária correlação (BODDY et al., 2000; WILKINS et al., 1996; WILKINS; BODDY; MORRIS, 1994), tais resultados são logisticamente insuficientes, pois baseiam-se, essencialmente, em amos-tras de culturas celulares. Materiais de tal natureza, via de regra, possuem uma razão sinal:ruído muito menor (MARIE; SIMON; VAULOT, 2005) e uma diversidade bioló-gica sub-representativa quando comparada a ambientes naturais (YOUNG, 2006), carac-terísticas essas que dificultam sobremaneira a generalização de modelos para ambientes naturais.

Nesse panorama, a necessidade tanto da redução da subjetividade analítica quanto da ênfase em aspectos mais práticos de estudos citométricos ambientais evocam uma mu-dança de paradigmas a fim de harmonizar objetividade com aplicabilidade. Uma abs-tração possível, embora ainda insuficientemente explorada, é a aplicação de métodos de ecologia numérica a estudos citométricos. Contudo, a plena aceitação desse tipo de abor-dagem invoca uma impreterível discussão de pontos insuficientemente esclarecidos, no-tadamente sobre quais as melhores estratégias para estudos, isolados e comparativos, de citogramas de ambientes aquáticos naturais. Essas são questões ainda em aberto e focos deste trabalho.

1.2

Contribuições

Este trabalho teve o propósito geral de contribuir para o processo analítico em cito-metria de fluxo ambiental através de duas linhas sequenciais de ação:

1. Desenvolvimento de métodos computacionais em CMF aptos a extrair e analisar, objetiva e concisamente, informações de ambientes aquáticos;

2. Com base nesses métodos, a realização de um estudo sobre as propriedades cito-métricas de comunidades microbianas aquáticas de regiões continentais.

(21)

1.3. ORGANIZAÇÃO DO TEXTO 3

1. Aprimoramento de uma ferramenta computacional dedicada à análise da diversi-dade citométrica ambiental (cf. subsubseção 2.2.2), capaz de incorporar as resolu-ções, métricas e dimensões mais apropriados aos estudos ecológicos de comunida-des microbianas aquáticas;

2. Execução de um estudo sobre as diversidades citométricas α e β (cf. subsubse-ção 2.3.1) de comunidades bacterianas heterotróficas de 31 lagos da Patagônia Ar-gentina e 65 lagos do nordeste do Brasil.

1.3

Organização do texto

Neste documento, serão apresentados a fundamentação teórica, o arcabouço metodo-lógico, os principais resultados e as conclusões mais relevantes acerca desta tese.

O capítulo 2 apresenta uma revisão da literatura com o objetivo de delinear a compre-ensão e desenvolvimento deste trabalho. Neste capítulo, discorre-se sobre os princípios básicos da técnica de citometria de fluxo, suas aplicações em estudos de microbiologia aquática e sua inserção no contexto da biologia computacional e bioinformática. Ainda, abarca as principais considerações sobre o tema da diversidade citométrica, sua etimolo-gia, métodos e implementações.

No capítulo 3 há uma descrição dos principais trabalhos relacionados ao tema da diver-sidade citométrica, no que tange tanto às suas aplicações quanto às suas implementações, e uma explanação sobre as principais lacunas epistemológicas e operacionais do método. Os capítulos 4 e 5 discorrem, de forma concisa, sobre os principais resultados desta tese: (i) a implementação de uma nova ferramenta computacional dedicada à análise da diversidade citométrica ambiental (Capítulo 4); e (ii), os principais resultados aferidos com a aplicação desta ferramenta a sistemas aquáticos naturais (Capítulo 5).

O capítulo 6 dedica-se às conclusões mais notáveis e à articulação de perspectivas fu-turas deste trabalho. Por fim, o apêndice A compõe-se dos manuscritos aceitos e submeti-dos para publicação, nos formatos sugerisubmeti-dos para submissão nos periódicos, e contém as informações pormenorizadas sobre a implementação, desenho experimental e discussões dos resultados desta tese.

(22)
(23)

Capítulo 2

Fundamentação Teórica

2.1

Citometria de Fluxo (CMF)

2.1.1

Princípios Operacionais

Citometria de fluxo é uma técnica analítica fundamentada nos estudos das proprieda-des ópticas de fluorescência e difusão de partículas individuais alinhadas por um fluxo de fluidos líquidos (SHAPIRO, 2003). Instrumentalmente, a técnica é executada por meio de um equipamento denominado citômetro de fluxo; nesta máquina, partículas em sus-pensão são hidrodinamicamente alinhadas, conduzidas através de um sistema de tubos capilares e individualmente apresentadas a um conjunto de sensores ópticos eletrônicos, que registram os sinais e os transmitem a um computador(ADAN et al., 2017) (Figura 2.1).

Cada sistema de sensores é uma entidade tripartite, composta por emissores de fei-xes laser, espelhos dicroicos e receptores. Esse sistema é responsável por estimular e quantificar as partículas que os cruzam, registrando suas características ópticas individu-ais: enquanto os emissores lançam radiação eletromagnética de conhecido comprimento de onda1 sobre as partículas, os receptores capturam e registram os espectros ópticos, filtrados por espelhos dicroicos, resultantes da interação radiação-partícula. De forma essencial, essas interações podem ser manifestas e sumarizadas sob duas naturezas distin-tas: uma de caráter difusivo, consequência da difusão óptica; e outra de caráter emissivo, resultante da emissão luminosa (SHAPIRO, 2003).

A difusão, ou espalhamento, é quantificada sob duas perspectivas: através da difusão frontal, registrada por sensores que captam desvios ao longo do trajeto dos feixes de laser; e pela difusão lateral, percebidos por sensores que mensuram a intensidade do espalha-mento lateral, de cerca de 90◦, da radiação incidente. Essas duas naturezas, a difusão frontal (frequentemente referida por sua nomenclatura inglesa Forward Scatter - FSC) e lateral (conhecida pelo acrônimo, também inglês, de SSC - Side Scatter) fornecem, res-pectivamente, informações sobre o tamanho e a complexidade estrutural da partícula em análise.

As propriedades emissivas são estabelecidas pelo registro da luminescência - nota-damente da fluorescência - emitida por fluoróforos natural ou artificialmente associados

(24)

Figura 2.1: Diagrama esquemático simplificado da técnica de citometria de fluxo. Fonte: Elaborado pelo autor (2019).

a uma partícula: devidamente excitados, os fluoróforos emitem espectros de fluorescên-cia (conhecidos, de forma mais genérica, também por espectros de emissão (SHAPIRO, 2003)) próprios e característicos de cada comprimento de onda utilizado na excitação, que são capturados e registrados pelos receptores. A descrição qualiquantitativa dos espectros de fluorescência obtidos permite, então, uma caracterização molecular das partículas em estudo (ERRANTE et al., 2016).

2.1.2

Registro e Estruturação de Dados

Cada receptor é acoplado, de forma serial, a um tubo fotomultiplicador (TFM), dispo-sitivo eletrônico, regulável2responsável por amplificar o sinal elétrico resultante da pas-sagem das partículas pelo conjunto óptico3. Uma vez percebido e amplificado, o sinal, de natureza analógica (contínua), é subsequentemente discretizado (digitalizado) por conver-sores analógico-digitais (CAD’s) - aparatos que recebem, como entrada, sinais analógicos restritos a uma determinada faixa de tensão (frequentemente 0V a 10V) e os convertem em saídas discretas4, pré-definidas e proporcionais à magnitude desses sinais (SHAPIRO, 2003).

2O ganho de voltagem do dispositivo é controlável.

3Ao registro dessa passagem, dá-se o nome de "evento"(BIO-RAD, 2018).

4O número de saídas discretas, ou canais, nos quais um determinado citômetro de fluxo opera depende,

essencialmente, da resolução (avaliada em bits) dos CAD’s que o compõem - quanto maior a resolução, maior o número máximo de canais em operação e maior o poder discriminatório da análise.

(25)

2.1. CITOMETRIA DE FLUXO (CMF) 7

Esses sinais, ou pulsos analógicos, possuem naturezas senoidais, característica que os possibilita serem representados, numericamente, sob três perspectivas: altura, com-primento e área5. A altura corresponde ao valor da amplitude do sinal; o comprimento representa o intervalo entre o início e final do pulso; e a área equivale ao valor da integral desse pulso (BIO-RAD, 2018).

Uma vez estimados os valores de cada sinal, esses dados e metadados associados da análise são concatenados e registrados. Nesta fase, as várias informações sobre o expe-rimento são estruturadas e organizadas em arquivos que obedecem a um formato padrão, do tipo Flow Cytometry Data File Standard (FCS) (SPIDLEN et al., 2010a), cujas especi-ficações são ditadas e mantidas pela International Society for Advancement of Cytometry (ISAC). Em essência, estrutura dos arquivos FCS contemplam tanto o registro de metada-dos do experimento (informações sobre o modelo do citômetro de fluxo utilizado, versões do arquivo gerado6, datas e horas iniciais e finais do ensaio, nome do operador) quanto de seus dados - uma matriz nxm na qual as linhas identificam os valores individuais de cada uma das n partículas analisadas, as colunas representam cada qual dos m sensores utilizados (que variam tanto com a plataforma de citometria quanto com o protocolo ana-lítico em execução) e cada célula representa o valor nominal do estímulo percebido pelos receptores.

Processamento e Análise de Dados

Tradicionalmente, a análise de dados em CMF baliza-se pela manipulação sistemática de objetos gráficos uni-, bi- ou tridimensionais, construídos a partir da matriz de dados ar-mazenada no arquivo FCS. Nesta estratégia, cada coluna da matriz compõem um eixo do gráfico e os valores de cada célula são identificados como pontos nesta imagem, de forma a compor histogramas (no cenário unidimensional) ou gráficos de dispersão, densidade ou contorno bi- ou tridimensionais, conhecidos como citogramas7.

Cada objeto gráfico é, então, manipulado através da definição, demarcação e seleção de sub-regiões de interesse (janelas) que compõem a imagem - uma estratégia conhecida como janelamento (do inglês gating). Assim, informações quali-quantitativas sobre essas janelas, tais como a abundância, intensidade e posição relativa dos pontos que a com-põem são utilizadas pelo operador para a exploração e descrição do sistema em análise (GASOL; MORAN, 2015).

5A menção a cada uma dessas representações é feita com os sufixos, derivados das palavras inglesas

height, width e area, -H", -W"e -A"adicionados a radicais que representam o sensor utilizado. Por exemplo, as representações "FSC-H"e "FSC-A"indicam, respectivamente, os valores da altura e da área do pulso de sinal registrados para o sensor Forward Scatter (FSC).

6A versão mais recente é a 3.1; as anteriores restringem-se à 1.0, 2.0 e 3.0 (SPIDLEN et al., 2010b) 7A rigor, qualquer representação gráfica da matriz de dados do arquivo FCS pode ser reconhecido e

definido como um citograma ou histograma, malgrado o número de dimensões da qual se valha. Nesse sen-tido, por exemplo, um citograma univariado corresponde, precisamente, a um histograma unidimensional e um um histograma bidimensional corresponde, necessariamente, a um citograma bivariado (ORMEROD; NOVO, 2008). Preferências por uma ou outra denominação, constituem meras idiossincrasias.

(26)

Compensação, Padrões de Controle e Transformação de Dados

Alguns aspectos criticos a serem observados e diligenciados, incontinênti, em análises de CMF são as definições presentes ou exigidas para três variáveis:

• Compensação; • Transformação; • Padrões de controle.

A compensação é um processo matemático8voltado à minimização da sobreposição espectral entre dois ou mais detectores (SHAPIRO, 2003). Seu fundamento é simples, porém bastante pertinente: em cenários nos quais um determinado fluoróforo gera um espectro de emissão perceptível, em proporções distintas, por mais de um detector, faz-se necessárias a ampliação dos sinais captados pelo detector primário - o detector de interesse - e atenuação dos sinais percebidos pelos detectores secundários, prescindíveis à análise (NGUYEN et al., 2013). A não compensação, em contextos nas quais ela é necessária, implica na adição de ruídos e consequente prejuízo à análise.

O uso de padrões de controle concerne à utilização de materiais cujas características analíticas - em termos de quantidade e qualidade dos sinais gerados - são antecipada-mente conhecidas e podem ser previstas durante os ensaios pelo operador (ERRANTE et al., 2016). Uns dos materiais mais comuns utilizados como padrões são microesferas (be-ads) de látex ou poliestireno; seus propósitos são variados e incluem a padronização de contagem de eventos, referenciamento de tamanho particular, compensação ou calibração instrumental (SCIENTIFIC, 2018). Dentro do contexto da análise gráfica, a utilização de microesferas implica na uniformização de perspectivas entre citogramas obtidos sob distintas configurações de máquina9.

Por fim, as transformações de dados dizem respeito ao tipo de manipulação matemá-tica aplicada, ou aplicável, aos dados citométricos em mãos. Existe uma variedade de transformações possíveis10, muitas delas restritas e inteligíveis apenas em cenários par-ticulares de estudo11, sobre as quais operador deve guardar completa ciência durante o processo de análise de dados, sob o risco de obstaculizar a reprodutibilidade ou confron-tação de resultados por mera incongruência de escalas.

8Fundamentalmente, a compensação é uma multiplicação matricial entre a matriz de dados mxn e uma

matriz quadrada, simétrica, nxn, denominada matriz de compensação. A matriz de compensação é gerada pela inversão de uma outra matriz quadrada, conhecida como matriz de transbordamento (do inglês spillo-ver) que assemelha-se a uma matriz de distância, na qual as linhas e colunas representam os detectores e as células contém os valores percentuais do grau de sobreposição entre os canais (BIOINFORMIN, 2018)

9A regulação dos ganhos de voltagem dos TFM’s resulta na variação da intensidade de sinais dos eventos

registrados, com uma natural e consequente variação de sua representação nos eixos dos citogramas.

10Algumas variedades de transformações possíveis são: de truncamento, de escala, linearização,

quadrá-tica, logarítmica e arco-seno (ELLIS et al., 2016).

11Ensaios que preconizam o acompanhamento do ciclo de divisão celular, por exemplo, trabalham com

dados estritamente linearizados (LYONS; PARISH, 1994; LYONS, 2000), enquanto alguns estudos sobre a composição e dinâmica de comunidade microbianas sugerem o uso de escalas logaritmizadas (GASOL; MORAN, 2015).

(27)

2.1. CITOMETRIA DE FLUXO (CMF) 9

2.1.3

CMF Ambiental

A citometria de fluxo sempre teve por principal motor o estudos de sistemas biológi-cos. Desde os trabalhos seminais de Andrew Moldavan (MOLDAVAN, 1934), dedicados ao desenvolvimento de métodos fotoelétricos para a contagem de células microscópicas suspensas em água, até o aparecimento das primeiras tecnologias de separação celular baseada em fluorescência (implementadas sob a denominação inglesa Fluorescence Acti-vated Cell Sorter - FACS, no final dos anos 1960 (HERZENBERG et al., 2002) e posterior associação de novos fluoróforos à tecnologias de produção de anticorpos monoclonais, no final dos anos 1980 (ERRANTE et al., 2016), a técnica vem se aprimorando, de forma bastante sólida e progressiva (MELAMED, 2001), como uma importante estratégia na caracterização morfo-funcional de inúmeros sistemas celulares (VIRGO; GIBBS, 2012).

Não obstante sua histórica (HERZENBERG et al., 2006) associação a processos de pesquisa e diagnóstico médicos (BASHASHATI; BRINKMAN, 2009; CHEN; KOTE-CHA, 2014; FINAK et al., 2014), a abordagem clínica da citometria de fluxo não é a única: desde muito cedo, a técnica revelou-se também como uma poderosa ferramenta ao estudo da microbiologia ambiental (HUTTER; EIPEL, 1978), conquistando especial no-toriedade após o trabalho histórico de Chisholm et al. (1986) (CHISHOLM et al., 1988), no qual há o relato do gênero Prochlorococcus - grupo de bactérias considerado, mais tarde, como o maior dentre os organismos fotossintetizantes das regiões oceânicas (MO-ORE; ROCAP; CHISHOLM, 1998). Desde aquele momento, a citometria de fluxo vem se consolidando como um procedimento essencial às rotinas laborais e de pesquisa em microbiologia aquática, apresentando-se como uma técnica capaz de revelar, em curtos espaços de tempo, a heterogeneidade morfofisiológica de uma vasta gama de populações ou comunidades microbianas (VIVES-REGO; LEBARON; CARON, 2000; WANG et al., 2010).

Bacterioplâncton

Dentre os diversos grupos de microorganismos aquáticos, o bacterioplâncton - ou bac-térias planctônicas - é um dos mais extensivamente abordados em estudos de CMF ambi-ental.

O bacterioplâncton é um grupo diverso e numeroso, composto por organismos per-tencentes aos domínios Bacteria e Archea (GLÖCKNER; FUCHS; AMANN, 1999) e representa uma importante fração da biomassa total de lagos e oceanos (MALMSTROM et al., 2007; NEWTON et al., 2011; BUITENHUIS et al., 2012). Esse grupo é um impor-tante direcionador da dinâmica ecológica de sistemas aquáticos, pois atua centralmente nos processos de ciclagem de nutrientes e energia destes ambientes (FUHRMAN; CA-RON, 2016; AMADO; ROLAND, 2017).

Por oportuno, mudanças na composição do bacterioplâncton acabam por refletir, de maneira sempre sistêmica, na organização desses ecossistemas, algo que tem o poten-cial de desequilibrá-los de forma bastante sensível e trazer consequências ambientais ou econômicas consideráveis (CHRISTOFFERSEN et al., 1990; KAMIYAMA; ITAKURA; NAGASAKI, 2000). Neste prisma, o estudo da composição e da dinâmica do bacterio-plâncton acaba por se tornar uma condição sine qua non para uma adequada avaliação de

(28)

ecossistemas aquáticos de qualquer natureza.

2.2

Bioinformática em CMF

Sob o aspecto analítico, a CMF exige, além da interpretação dos resultados per se, um entendimento bastante claro e inequívoco sobre como as informações das análises são processadas em cada um de múltiplos sub-estágios, antes da apresentação final ao operador (LUGLI; ROEDERER; COSSARIZZA, 2010).

Tais sub-estágios podem ser sumarizados em três blocos principais de manipulação (BASHASHATI; BRINKMAN, 2009): (i) pré-processamento; (i) identificação dos even-tos de interesse; e (i) interpretação dos resultados.

O pré-processamento contempla atividades que visam à adequação dos dados aos ob-jetivos do estudo, algo que exige, comumente, a execução de técnicas de compensação, transformação, controle de qualidade e normalização dos dados.

A identificação, por sua vez, é uma etapa que se debruça sobre o reconhecimento das informações de interesse, consistindo, essencialmente, em estratégias para separação en-tre as informações pertinentes (i.e. sinais) e irrelevantes (i.e. ruído) ao estudo em questão. Tais estratégias são representadas tanto por abordagens heurísticas convencionais, como o janelamento sequencial, quanto por abordagens automatizadas mais robustas.

Por fim, a etapa da interpretação dos resultados trata das questões epistemológicas do estudo: procura dar respostas aos questionamentos que motivaram a execução do estudo. Essa é a fase na qual a exploração dos dados consolida-se ora em um diagnóstico ora em uma descoberta (O’NEILL et al., 2013).

Combinados, cada qual desses três blocos analíticos incorpora - de forma intrínseca e progressiva - particular complexidade à análise de dados citométricos. Isso somado ao vasto volume de dados gerados pela expansiva disseminação da técnica de CMF, vem gerando demandas por estratégias capazes de lidar, de forma rápida e consistente, com o processamento de grande número de informação (LIZARD, 2007). Como consequência, essas recentes demandas em CMF vêm progressivamente levando à expansão de novas áreas da bioinformática, especialmente dedicadas às etapas de armazenamento, recupera-ção, organização e, destacadamente, análise de dados em CMF (O’NEILL et al., 2013).

2.2.1

Mineração de Dados em CMF Ambiental

Mineração de dados é conceitualmente entendido como subcampo do processo de des-coberta de conhecimento (LEE; SIAU, 2001) que pode ser apreciado como uma composi-ção de dois paradigmas complementares: abordagens supervisionadas e não-supervisionadas de aprendizagem (BASHASHATI; BRINKMAN, 2009). Conquanto as discussões acerca das nuances conceituais de cada um desses paradigmas sejam extensas e fora do propó-sito deste trabalho, é possível diferenciá-los, de forma pragmática, pela exigência de uma pré-categorização dos dados em estudos: em uma abordagem não-supervisionada, não há a necessidade do conhecimento prévio da rotulação dos dados em análise (de forma sucinta, a figura do especialista é total ou parcialmente dispensável à execução da aborda-gem); nas análises supervisionadas, em contrapartida, a apresentação de exemplos é uma

(29)

2.3. MÉTODOS NUMÉRICOS EM ECOLOGIA 11

etapa mandatória (i.e. a figura dos especialista é indispensável) (CAMILO; SILVA, 2009; KOTSIANTIS, 2007).

No tocante à CMF, embora a variedade de técnicas contempladas em cada abordagem seja substancialmente grande (AGHAEEPOUR et al., 2013), suas aplicações na área am-biental são sensivelmente modestas. Em termos pontuais, os algoritmos supervisionados com aplicabilidade demonstrada na área incluem redes neurais artificiais(BODDY et al., 2000; SCARDI, 1996), máquina de vetores de suporte (MORRIS; AUTRET; BODDY, 2001), regressões (DURAND; OLSON, 1996; DURAND; OLSON; CHISHOLM, 2001), classificação bayesiana (BLASCHKO et al., 2005), K-nearest neighbors e modelos mistos gaussianos (WILKINS et al., 1996); os métodos de aprendizagem não-supervisionada, em contrapartida, mostraram-se aplicáveis através de redes neurais auto-organizáveis (WIL-KINS; BODDY; MORRIS, 1994) e técnicas de agrupamento(GARCÍA; LÓPEZ-URRUTIA; MORÁN, 2014; VELDHUIS; KRAAY, 2000; TRASK; ENGH; ELGERSHUIZEN, 1982).

2.2.2

Assinatura Citométrica

Uma terceira linha de abordagem, suplementar às estratégias supervisionadas, explora e desenvolve o conceito de assinatura citométrica - a análise qualiquantitativa de agrupa-mentos formados a partir de citogramas (KOCH et al., 2014). Neste paradigma, visa-se à exploração e desenvolvimento de métodos dedicados ao processamento de imagens 2D com o propósito de quantificar as semelhanças entre citogramas.

Atualmente, há cinco estratégias para estudo da assinatura citométrica, de reconhecida aplicabilidade em CMF ambiental: Dalmatian Plot (BOMBACH et al., 2011), Cytome-tric Histogram Image Comparison (CHIC) (KOCH et al., 2013), CytomeCytome-tric Barcoding (CyBar) (SCHUMANN et al., 2015) e FlowFP (HOLYST; ROGERS, 2009).

Uma terceira linha de análise, próxima mas conceitualmente distinta das supracitadas, apoia-se no resgate dos trabalhos de Li (1997), autor que sugere a aplicação explícita de métricas de diversidade ecológica ao estudos de citogramas. Em síntese, essa estratégia, definida como "diversidade citométrica"(DC), consiste em aplicar uma grade cartesiana bidimensional de nxn (originalmente, 16x16) células e então avaliar as n2 unidades re-sultantes sob uma perspectiva ecológica, utilizando métricas de diversidade biológicas pertinentes (cf. Seção 2.3).

Essa é uma estratégia promissora que vem sendo explorada por grupos restritos (QUI-ROGA et al., 2017; SEGOVIA et al., 2018; PROPS et al., 2016), mas que ainda conta com um limitado número de implementações e carece de uma avaliação crítica mais detalhada de seus potenciais.

2.3

Métodos Numéricos em Ecologia

A ecologia numérica é o campo da ecologia matemática - domínio do conhecimento que aplica a matemática a problemas ecológicos (KOT, 2001) - cujo objetivo é a descri-ção e interpretadescri-ção de dados ambientais através de abordagens numéricas (LEGENDRE; LEGENDRE, 2012). Embora vasta, a área consolida-se em arcabouço teórico bastante oportuno a problemas de REPC uma vez que se detém, explicitamente, em ferramentas

(30)

de demonstrada aplicabilidade na interpretação coerente de sistemas biológicos. Neste cenário, um conjunto particularmente útil de ferramentas é aquele dedicado às medidas de semelhança ecológica.

2.3.1

Diversidade Biológica

As medidas de semelhança ecológica são, em essência, métricas ou semi-métricas de distância utilizadas para capturar e quantificar um conceito epistemologicamente com-plexo: o de diversidade biológica. A ideia de diversidade biológica, ou biodiversidade, agrega definições frequentemente herméticas (SECRETARIAT, 1992), e sutilmente di-ferentes a cada hierarquia biológica apreciada (genes, espécies, ecossistemas) (PARRIS, 1996), porém, pode ser genérica e satisfatoriamente compreendida, simplesmente, como a variedade de elementos intra- e inter- sistemas. Ainda que sintética, essa definição retém profundo significado, cujas implicações motivam e justificam incontáveis estu-dos nas ciências da vida, desde os fundamentos mais primordiais da evolução biológica (DARWIN, 2003) até os aspectos mais pragmáticos apreciados pela biologia da conser-vação (HOBBS; HUENNEKE, 1992).

A diversidade biológica é tradicionalmente expressa e explorada através de uma rela-ção ternária simples (WHITTAKER, 1960), porém bastante significativa, cuja expressão matemática pode ser formalizada através de uma relação aditiva (γ = α + β) ou multipli-cativa (γ = α . β)(JOST, 2007). Nestas relações,α representa as propriedades (i.e. diversi-dade) individuais de cada ecossistema;γ indica a diversidade global, calculada a partir da união dos sistemas; e β corresponde à diversidade residual gerada pelas diferenças entre sistemas distintos. Embora a literatura registre uma profusão de formulações matemáti-cas possíveis para cada um desses três conceitos (KOLEFF; GASTON; LENNON, 2003; MORRIS et al., 2014), a escolha sobre qual utilizar dependerá, essencialmente, das con-vicções do pesquisador sobre como sopesar pontos intrínsecos do experimento, como o impacto da dupla-ausência (i.e. ausência simultânea do elemento em todos os sistemas comparados) e a importância relativa dos elementos raros ou abundantes nos cálculos finais (LEGENDRE; GALLAGHER, 2001).

(31)

Capítulo 3

Trabalhos relacionados & Problemática

3.1

Trabalhos relacionados

3.1.1

Usos do método

Desde sua concepção, o paradigma da diversidade citométrica sensu Li (1997) tem sido explorado e expandido por diversos trabalhos, sob diversas perspectivas. Em suas primeiras aplicações, a abordagem foi capaz de descrever como a diversidade citométrica α do fitoplânction marinho, de regiões do Oceano Atlântico Norte, conecta-se à caracte-rísticas fisiológicas e tendências espaço-temporais daquele grupo (LI, 1997; LI, 2002).

Posteriormente, novos trabalhos demonstraram a influência de fatores ambientais, morfofisiológicos e moleculares na diversidade citométrica de distintos grupos de micro-organismos aquáticos. Notadamente, Quiroga et al. (2017) correlacionaram a diversidade citométrica β do bacterioplâncton de turfeiras argentinas com suas estruturas morfofi-siológicas, enquanto Segovia et al. (2018) foram capazes de demonstrar os efeitos da predação exercida por microcrustáceos na equitatividade citométrica (J’) de bactérias.

Sob outras perspectivas, García et al. (2015) e Props et al. (2016), analisaram como a diversidade citométrica de alguns grupos bacterianos correlaciona-se com suas sequências do gene 16S rRNA.

3.1.2

Implementações

Conforme o método da diversidade citométrica vinha sido aplicado, investigadores o expandiam e implementavam, apresentando novos desenhos da abordagem ao longo dos anos subsequentes ao seu primeiro uso.

A primeira implementação do método fez-se por Ribalet (2012), através do software cytoDiv, uma ferramenta em linguagem R com as diretrizes de análise básicas propostas por Li (1997). Ribalet (2012) manteve-se estritamente fiel à abordagem original, ofere-cendo uma estratégia que retornava os índices citométricos α (i.e. índices de Shannon-Wiener, Simpson, recíproco de Simpson e Pielou) com base em citogramas bivariados. Contudo, propôs inovações importantes, ao flexibilizar a resolução do gradeamento apli-cado - permitindo o uso de outros esquemas de gradeamento, além do seminal 16x16 bins - e utilizar estimativas de densidade Kernel (EDK) para a categorização dos dados.

(32)

Em sequência, Wanderley et al. (2015), com o software flowDiv1, e Props et al. (2016), com o PhenoFlow, foram os primeiros a incorporar o cálculo da diversidade β ao processa-mento de citogramas, além de permitirem a análise simultânea de mais de duas dimensões por citograma.

3.2

Problemática

A concepção de metodologias que harmonizem a racionalidade matemática com a epistemologia biológica - pontos-chaves a qualquer estratégia de análise válida e potenci-almente bem sucedida em CMF - são, atupotenci-almente, pontos de intensa pesquisa (AGHAE-EPOUR et al., 2013; KOCH et al., 2014).

A estratégia da DC em particular, conquanto venha sendo progressivamente aprimo-rada, ainda possui lacunas críticas à sua consolidação: lacunas essas tanto operacionais (em termos de implementação) quanto epistemológicas (no tocante à interpretação de suas saídas numéricas). Abaixo, oferecemos um breve entendimento desses cenários.

3.2.1

Lacunas operacionais

Tradicionalmente, as aplicações da DC vem se dedicando à recuperação de informa-ções em espaços de baixas dimensionalidades (invariavelmente, duas dimensões), utili-zando resoluções empíricas de gradeamento (e.g. 23x23 ou 28x28 bins). Tal estratégia, embora satisfatória em muitos cenários (LI, 2002; QUIROGA et al., 2017), possui a ca-racterística imanente de limitar o escrutínio otimizado de informações de citogramas, ora por não conseguir administrar ensaios citométricos mutidimensionais, ora por não permi-tir um controle mais formal das resoluções de gradeamento.

A esse contexto, soma-se a dificuldade de integrar e comparar, em uma mesma análise, citogramas adquiridos sob diferentes protocolos analíticos. Esse cenário, notadamente, tange aos aspectos das correções de perspectivas ou estabilização das variância dos dados (AZAD; RAJWA; POTHEN, 2016).

3.2.2

Lacunas epistemológicas

As primeiras aplicações da DC concentraram-se do detalhamento das características individuais do citogramas (i.e. suas diversidades α). Essa abordagem, construída sobre as propriedades inerentes das categorias (i.e.bins), naturalmente invoca perguntas sobre as semelhanças compartilhadas (ou, de forma equivalente, suas diferenças) entres os ci-togramas e como esses bins, isolada ou conjuntamente, contribuem para as propriedades dos citogramas.

Outro ponto central concerne aos efeitos de algumas variáveis latentes, em particular variáveis ecológicas, nas propriedades citométricas de comunidades microbianas. Esse ponto pode ser capturado no seguinte silogismo:

(33)

3.2. PROBLEMÁTICA 15

• A DC é capaz de capturar e representar diferenças morfofisiológicas de algumas comunidades microbianas;

• Algumas variáveis físico-químicas influenciam, de forma quantificável, a composi-ção de certos grupos microbianos;

• Algumas variáveis físico-químicas são capazes de influenciar, de forma quantificá-vel, a DC de certos grupos microbianos.

Esse raciocínio, embora de simples concepção, carece de ampla constatação, uma vez que exige não apenas uma padronização metodológica (para fins de comparação), mas também um conjunto de dados suficientemente amplo (para fins de generalização).

(34)
(35)

Capítulo 4

Implementação

O flowDiv, acrônimo em inglês para "flow cytometric diversity", é uma pipeline de-senvolvida em linguagem R (v. 3.3.2) especificamente projetada para análise de dados de citometria de fluxo ambiental. Essa implementação consubstancia-se em 19 etapas de processamento e 11 estágios de orientação decisão.

Neste capítulo, oferecemos uma visão geral e sequencial do algoritmo. As informa-ções pormenorizadas podem ser consultadas no Apêndice A, seção A.1, deste trabalho.

4.1

Importação e processamento

As primeiras etapas do flowDiv consistem na importação e processamento das regiões citométricas de interesse (i.e. gates ou janelas), a partir de espaços de trabalho (workspa-ces) do software FlowJo® ou de objetos nativos do R (i.e. GatingSets). Aqui o analista define quais regiões, grupos de citogramas e canais comporão a análise de diversidade citométrica.

Nessa fase, o algoritmo estabiliza as médias e as variâncias dos citogramas (Figura 4.1), visando a uma correção de perspectivas (cf. Capítulo 3) e também define o domínio da análise dos dados (i.e. o intervalo de valores que contemplarão as análises). A estabiliza-ção da média é realizada por meio de uma transformaestabiliza-ção de translaestabiliza-ção, na qual se usa o valor médio de regiões citométricas de referência como ponto de ancoragem.

O deslocamento 4d aplicado a cada citograma é da seguinte forma:

4di j =

1jbi j

n − bi j (4.1)

Onde bi j representa a média aritmética da região de referência (comumente beads) do

canal i, citograma j, e n corresponde ao número absoluto de amostras.

Em sequência, a variância é estabilizada com a aplicação da função arco seno hiperbó-lico (AZAD; RAJWA; POTHEN, 2016) a cada um dos canais de fluorescência, de acordo com a seguinte fórmula:

T( fi) = asinh( fi/ci) (4.2)

(36)

(a) (b)

(c) (d)

Figura 4.1: Estabilização das médias entre os citogramas. Para quaisquer citogramas (a) e (b), os valores médios das regiões citométricas de referência (interseções das cruzes pontilhadas) são usados como ponto de ancoragem para a transformação de translação dos dados e geração do arquivo final (d). As variâncias são estabilizadas a posteriori por meio da aplicação da função arco seno hiperbólico aos dados (não mostrado).

(37)

4.2. TABELAS DE CONTINGÊNCIA E DIVERSIDADE CITOMÉTRICA 19

fluorescência f i, enquanto T( fi) corresponde ao canal fitransformado (AZAD; RAJWA;

POTHEN, 2016).

4.2

Tabelas de contingência e diversidade citométrica

As etapas seguintes consistem na construção de tabelas de contingência e subsequente cálculo dos índices de diversidade α e β. Na fase de construção das tabelas de contingen-cia, as dimensões ideias para cada citograma (Figura 4.2) são computadas e sugeridas a prioricom base na regra de Freedman-Diaconis(FREEDMAN; DIACONIS, 1981):

binsi j =     max(vi j) − min(vi j) 2 · IQR(vi j) · n − 1/3 j     (4.3) Onde binsi j representa o teto do número ideal de bins para o canal i da amostra j; n é

o número de observações para a amostra j; IQR indica a amplitude interquartil e vi j é o

vetor de canal i da amostra j.

O número ótimo de bins, binsb, é calculado a partir da média aritmética de todas as

sugestões de bins, como se segue:

binsb= ∑ i 1∑ j 1binsi j max(i) · max( j) (4.4)

Figura 4.2: Número ótimo de bins. Para cada dimensão, a regra de Freedman-Diaconis é aplicada e a média aritmética é calculada para gerar o número ótimo de bins por cito-grama.

Cada bin é então abstraído como sendo uma unidade ataxonômica especial 1 e

(38)

independen-teriormente gerenciado de acordo com os índices de diversidade definidos a priori pelo operador. Como opções de índice de diversidade, o flowDiv gerencia, além de um índice de equitatividade, três índices de diversidade α e 24 índices de diversidade β (cf. Oksanen et al. (2017)).

4.3

Ordenação, clusterização e mapeamento

Com os índices de diversidade β calculados, os próximos passos consistem na orde-nação - baseada na técnica de escalonamento multidimensional não métrico (nMDS) - e biplot dos resultados (citogramas e bins) com vistas a fornecer um resumo gráfico sobre a contribuição dos bins para as diferenças observadas.

Com o objetivo de permitir uma inspeção mais aprofundada dos citogramas usando abordagens visuais tradicionais, o flowDiv procede à clusterização dos escores de ordena-ção de bins para gerar uma única máscara, que é aplicada posteriormente a cada citograma (Figura 4.3).

Para a clusterização, nós usamos o método K-médias. O objetivo desse método é par-ticionar n observações em k agrupamentos mutualmente exclusivos. Em termos formais, o K-médias minimiza a função erro quadrático médio J, como se segue:

arg min c J= arg min c k

i=1 n

j=1 kxji− µik22 (4.5)

Onde kxi j− µik2 é a distância euclidiana entre um ponto de dados xj, pertencendo

ao agrupamento i, e o centro do agrupamento µi. No contexto do flowDiv, o conjunto

de observações x= (x1, x2, ..., xn) representa o conjunto bidimensional de vetores reais,

definidos por cada um dos escores da ordenação.

4.4

Disponibilidade

O flowDiv está pública e gratuitamente acessível sob versão 3 da Licença Pública Geral GNU (FREE SOFTWARE FOUNDATION, 2019) e encontra-se disponível tanto no The Comprehensive R Archive Network - CRAN (<https://cran.r-project.org/web/ packages/flowDiv/>) quanto no GitHub (<https://github.com/bmsw/flowDiv>).

(39)

4.4. DISPONIBILIDADE 21

(a) (b)

(c) (d)

(e) (f)

Figura 4.3: Ordenação, clusterização e mapeamento. Para quaisquer janelas de interesse (a) e (b) (polígonos vermelhos), escores de ordenação são gerados (c), agrupados (d), reordenados (e) e sobrepostos aos citogramas originais (f) (apenas (a) mostrado).

(40)
(41)

Capítulo 5

Experimentos e Resultados

Os experimentos deste trabalho foram estruturados de forma a contemplar uma ordem lógica para a avaliação da estratégia. Neste contexto, este trabalho deteve-se sobre dois experimentos sequenciais, após a implementação da ferramenta:

• Uso da ferramenta na análise de sistemas aquáticos naturais.

• Comparação do método perante estratégias computacionais concorrentes e outros métodos;

Todos os resultados, à semelhança da implementação, já se encontram compilados e or-ganizados no Apêndice A, seções A.1 e A.2, deste manuscrito. Abaixo, oferecemos um breve sumário dos métodos e achados deste trabalho.

5.1

Aplicação

As saídas do flowDiv foram utilizadas em um estudo sobre as diversidades citométri-cas α e β de comunidades bacterianas heterotróficitométri-cas de 31 lagos da Patagônia Argentina e 65 lagos do nordeste do Brasil. As análises contemplaram, separadamente, cada um dos ambientes e buscaram aferir os efeitos de diversas variáveis ambientais sobre a assinatura citométrica dos lagos.

5.1.1

Patagônia argentina

Estes dados1contemplam 31 amostras de lagos de água doce localizadas em um gra-diente latitudinal de S45°550a S54°360, coletadas entre os anos de 2007 e 2008 (SCHI-AFFINO et al., 2013).

Metodologia

Além dos dados de CMF janelados para populações bacterianas, segundo os protoco-los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluí-ram:

1Os dados foram gentilmente cedidos a esta pesquisa pelas Dras. Romina Schiaffino e Irina Izaguirre,

do Consejo Nacional de Investigaciones Científicas y Técnicas (Buenos Aires, Argentina), às quais direci-onamos nossos mais profundos agradecimentos.

(42)

• 12 variáveis ambientais: latitude, longitude, área do lago, temperatura, pH, condu-tividade elétrica, oxigênio dissolvido (DO), nitrogênio dissolvido (DN), coeficiente de atenuação difusa (vertical) da luz na água (Kd), clorofila a (Chla), fosfato e car-bono orgânico dissolvido (DOC).

• Assinaturas moleculares obtidas através da técnica de Eletroforese em Gel de Gra-diente Desnaturante (DGGE) do gene 16S rRNA.

Os dados foram explorados com as técnicas de análise de componentes principais (PCA), escalonamento multidimensional não métrico (nMDS) e formamelmente testa-dos em modelos de correlação e regressão lineares. Os testes de postos sinalizatesta-dos de Wilcoxon e ANOVA multivariada permutacional (PERMANOVA) foram aplicados para testar diferenças entre as diversidades citométricas entre os grupos de diferentes estados tróficos.

Resultados e discussão

As análises revelaram uma significativa correlação entre o estado trófico e os padrões da diversidade citométrica. Apontaram, ainda, que variáveis ambientais importantes, como carbono orgânico dissolvido (DOC) e clorofila a (Chla) podem balizar a diversi-dade citométrica de lagos temperados.

Em particular, observamos que o DOC é uma variável diretamente associada ao estado trófico do ambiente. Já foi demonstrado que, em baixas concentrações de DOC, apenas alguns especialistas em bactérias são capazes de incorporar ativamente os vários tipos de matéria orgânica (SARMENTO; MORANA; GASOL, 2016) e, como consequência, a diversidade bacteriana seria baixa. Por conseguinte, a relação positiva observada entre a diversidade α e o DOC está alinhada com a ideia de que concentrações mais altas desse nutriente, associadas a uma composição mais variada, resultariam em maior diversidade de bactérias que usam esses tipos de compostos.

5.1.2

Nordeste brasileiro

Estes dados contemplam 65 amostras de lagos de água doce localizados no estado do Rio Grande do Norte, Brasil, coletadas durante o mês de setembro de 2012 (CABRAL et al., 2019; JUNGER et al., 2019)2.

Metodologia

Além dos dados de CMF janelados para populações bacterianas, segundo os protoco-los descritos em Gasol e Moran (2015), as informações individuais de cada lago incluíram os seguintes dados ambientais:

• 31 variáveis espaciais derivadas da análise de Coordenadas Principais de Matri-zes Vizinhas (BORCARD; LEGENDRE, 2002). Essas novas variáveis espaciais,

2Por oportuno, externamos também nossa sincera gratidão a essas duas equipes, pela grande cortesia em

(43)

5.2. COMPARAÇÃO DO MÉTODO 25

derivadas das informações de latitude e longitude, são ortogonais e representam di-ferentes graus de estruturas espaciais dos dados (BUTTIGIEG; RAMETTE, 2014) • 9 variáveis ambientais: nitrogênio total (TN), clorofila a (Chla), fósforo total (TP),

carbono orgânico dissolvido (DOC), valores de absorbância da água a 430 nm (a430), as razões entre os valores de absorbância da água a 250nm e 350 nm (a250:a365), e as razões entre carbono e fósforo (C:P), carbono e nitrogênio (C:N) e nitrogênio e fósforo (N:P).

Os índices de diversidade α (riqueza e índices de Shannon e Pielou) e β (Bray-Curtis, aninhamento e turnover) foram ajustados a diferentes modelos de regressão (regressão li-near múltipla, análise de redundância baseada em distância (LEGENDRE; ANDERSON, 1999) e regressão múltipla de matrizes de distância (LICHSTEIN, 2007), usando as va-riáveis ambientais como preditores. Todos os modelos foram estatisticamente testados assumindo-se um nível de significância igual a 0,05.

Resultados e discussão

Os resultados sugerem que o aporte nutricional, em detrimento do espaço, são os principais direcionadores da diversidade citométrica dos lagos em estudo. Em particular, as variáveis relacionadas com a qualidade da matéria orgânica (i.e., Chla, a430 and a250: a365) e com a produtividade em sistemas aquáticos (i.e. TN e TP) afetam a diversidade citométrica do bacteriolplâncton de sistemas tropicais.

Tais achados estão alinhados com o entendimento de que a eutrofização nos ecossiste-mas aquáticos geralmente causa mudanças bruscas nas comunidades planctônicas, o que pode fazer com que grupos bacterianos distintos se desenvolvam de maneira diferente e causem alterações em seus parâmetros de diversidade (JOCHEM; LAVRENTYEV; FIRST, 2004; SMITH; JOYE; HOWARTH, 2006; ANDRADE et al., 2007; ŠOLIC et al., 2009; SMITH; SCHINDLER, 2009).

5.2

Comparação do Método

5.2.1

Metodologia

O flowDiv foi comparado com quatro ferramentas computacionais dedicadas à análise da assinatura citométrica - Dalmatian Plot (BOMBACH et al., 2011), Cytometric Histo-gram Image Comparison (CHIC) (KOCH et al., 2013), Cytometric Barcoding (CyBar) (SCHUMANN et al., 2015), e FlowFP (HOLYST; ROGERS, 2009) - e, também, com dados moleculares obtidos através da técnica de Eletroforese em Gel de Gradiente Des-naturante (DGGE) do gene 16S rRNA. Para a comparação, aplicou-se o teste de Mantel (MANTEL, 1967), utilizando-se as matrizes de distâncias geradas por cada técnica. Todas as análises foram executas assumindo-se um nível de significância igual a 0,05.

(44)

5.2.2

Resultados e discussão

flowDiv e FlowFP foram as únicas ferramentas que se correlacionaram significativa e positivamente com as informações DGGE (Tabela 5.1). Essas técnicas também foram altamente correlacionadas, provavelmente devido a seus princípios comuns de operação.

Notadamente, os resultados estão alinhados com a literatura especializada, que des-creve a correlação entre características moleculares e a diversidade citométrica de bacté-rias (PROPS et al., 2016; GARCÍA et al., 2015).

Tabela 5.1: Estatísticas de Mantel, calculadas a partir da comparação par-a-par das matri-zes de distância das técnicas utilizadas. Asteriscos (*) representam resultados significati-vos (p < 0.05).

DGGE CHIC Dalmation plot CyBar flowFP PhenoFlow flowDiv

DGGE -CHIC 0.05 -Dalmation plot -0.05 -0.06 -CyBar -0.07 -0.07 -0.11 -flowFP 0.18* 0.13 -0.34 0.42* -PhenoFlow 0.10 0.08 -0.35 0.15 0.37* -flowDiv 0.20* 0.12 -0.20 0.12 0.65* 0.22*

(45)

-Capítulo 6

Conclusão

Este trabalho dedicou-se ao desenvolvimento e avaliação de ferramentas computacio-nais para análises de CMF ambiental, com o propósito de oferecer aos analistas um novo método para o estudo objetivo, rápido e de baixo custo da estrutura subjacente de dados citométricos. Em particular, ele se concentrou em expandir, validar e a difundir a óptica de Li (1997) a respeito do método da diversidade citométrica, com vistas a reavivar o interesse em estudos ecológicos passados e direcionar as estratégias de pesquisas futuras em CMF ambiental.

Com essa tese, além de propormos uma nova ferramenta computacional especialmente projetada para a análise da diversidade citométrica de dados ambientais, pudemos revelar como as propriedades in silico inerentes ao método podem refletir, de forma consistente, padrões gerais esperados para algumas comunidades naturais de bactérias. Nesse qua-dro, é salutar notarmos o quão exitoso foi esse trabalho dentro da proposta a qual se prendeu - não apenas por conseguir satisfazer uma dinâmica cadenciada e autocontida de suas etapas (no que tange à sua concepção, implementação, validação e aplicação), mas, principalmente, por conseguir divulgar expressiva parte de seus achados à comunidade científica internacional - ato capital ao pleno desenvolvimento científico.

Naturalmente, este projeto está longe de esgotar o tema e, como esperado, cria muito mais perguntas do que se propusera a responder1. Com efeito, frente à era da informação - com novas técnicas, tecnologias e questões emergindo à profusão a cada instante - é pró-prio e esperado o surgimento de novas aplicações e mesmo a evolução ou obsolescência de alguns métodos propostos neste trabalho. Nesse sentido, esperamos que nossa proposta possa ser efetivamente considerada, utilizada e, como uma iniciativa de código aberto, continuamente melhorada por citometristas das mais variadas áreas do conhecimento, sempre com vistas a contribuir para um aprofundamento de estudos teórico-práticos no vasto campo da CMF ambiental.

1“A ciência nunca resolve um problema sem criar pelo menos outros dez.” (George Bernard Shaw,

(46)
(47)

Referências Bibliográficas

ADAN, A. et al. Flow cytometry: basic principles and applications. Critical reviews in biotechnology, Taylor & Francis, v. 37, n. 2, p. 163–176, 2017. 5

AGHAEEPOUR, N. et al. Critical assessment of automated flow cytometry data analysis techniques. Nature methods, v. 10, n. 3, p. 228–38, 2013. ISSN 1548-7105. 1, 2, 11, 14 AMADO, A. M.; ROLAND, F. Microbial role in the carbon cycle in tropical inland aquatic ecosystems. Frontiers in microbiology, v. 8, p. 20, 2017. 9

ANDRADE, L. et al. Distribution of hna and lna bacterial groups in the southwest atlantic ocean. Brazilian Journal of Microbiology, v. 38, n. 2, p. 330–336, 2007. 25 AZAD, A.; RAJWA, B.; POTHEN, A. flowvs: channel-specific variance stabilization in flow cytometry. BMC bioinformatics, BioMed Central, v. 17, n. 1, p. 291, 2016. 14, 17, 19

BASHASHATI, A.; BRINKMAN, R. R. A survey of flow cytometry data analysis methods. Advances in bioinformatics, p. 584603, 2009. ISSN 1687-8027. 9, 10 BIO-RAD. Flow Cytometry Basics Guide. 2018. [Online]. Disponível em: <hhttps: //www.bio-rad-antibodies.com/static/2016/fc-guide/flow-cytometry-basics-guide.pdf>. 6, 7

BIOINFORMIN. Flow cytometry - Compensation. 2018. [Online]. Disponível em: <http://www.bioinformin.net/cytometry/compensation.php>. 8

BLASCHKO, M. B. et al. Automatic in situ identification of plankton. In: IEEE. Application of Computer Vision, 2005. WACV/MOTIONS’05 Volume 1. Seventh IEEE Workshops on. [S.l.], 2005. v. 1, p. 79–86. 11

BODDY, L. et al. Identification of 72 phytoplankton species by radial basis function neural network analysis of flow cytometric data. Marine Ecology Progress Series, JSTOR, p. 47–59, 2000. 2, 11

BOMBACH, P. et al. Resolution of natural microbial community dynamics by

community fingerprinting, flow cytometry, and trend interpretation analysis. Advances in biochemical engineering/biotechnology, v. 124, p. 151, 2011. 11, 25

(48)

BORCARD, D.; LEGENDRE, P. All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological modelling, Elsevier, v. 153, n. 1-2, p. 51–68, 2002. 24

BUITENHUIS, E. T. et al. Picophytoplankton biomass distribution in the global ocean. Earth System Science Data, v. 4, n. 1, p. 37–46, 2012. 9

BUTTIGIEG, P. L.; RAMETTE, A. A guide to statistical analysis in microbial ecology: a community-focused, living review of multivariate data analyses. FEMS microbiology ecology, The Oxford University Press, v. 90, n. 3, p. 543–550, 2014. 25

CABRAL, C. R. et al. Are the patterns of zooplankton community structure different between lakes and reservoirs? a local and regional assessment across tropical ecosystems. Aquatic Ecology, Springer, v. 53, n. 3, p. 335–346, 2019. 24

CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009. 11

CHEN, T. J.; KOTECHA, N. Cytobank: Providing an analytics platform for community cytometry data analysis and collaboration. Current Topics in Microbiology and

Immunology, v. 377, p. 127–157, 2014. ISSN 21969965. 9

CHISHOLM, S. W. et al. A novel free-living prochlorophyte abundant in the oceanic euphotic zone. Nature, Nature Publishing Group, v. 334, n. 6180, p. 340–343, 7 1988. ISSN 0028-0836. Disponível em: <http:https://doi.org/10.1038/334340a0>. 9

CHRISTOFFERSEN, K. et al. Qualitative importance of the microbial loop and plankton community structure in a eutrophic lake during a bloom of cyanobacteria. Microbial ecology, Springer, v. 20, n. 1, p. 253–272, 1990. 9

DARWIN, C. A origem das espécies, no meio da seleção natural ou a luta pela existência na natureza. Tradução Joaquim da Mesquita Paul. Porto: Lello & Irmão, 2003. 12 DURAND, M. D.; OLSON, R. J. Contributions of phytoplankton light scattering and cell concentration changes to diel variations in beam attenuation in the equatorial pacific from flow cytometric measurements of pico-, ultra-and nanoplankton. Deep Sea Research Part II: Topical Studies in Oceanography, Elsevier, v. 43, n. 4-6, p. 891–906, 1996. 11

DURAND, M. D.; OLSON, R. J.; CHISHOLM, S. W. Phytoplankton population dynamics at the bermuda atlantic time-series station in the sargasso sea. Deep Sea Research Part II: Topical Studies in Oceanography, Elsevier, v. 48, n. 8, p. 1983–2003, 2001. 11

ELLIS, B. et al. flowCore: flowCore: Basic structures for flow cytometry data. [S.l.], 2016. R package version 1.38.2. 8

ERRANTE, P. R. et al. Flow cytometry: a literature review. Revista de Ciências Médicas e Biológicas, v. 14, n. 2, p. 221–224, 2016. 6, 8, 9

(49)

REFERÊNCIAS BIBLIOGRÁFICAS 31

FINAK, G. et al. High Throughput Flow Cytometry Data Normalization for Clinical Trials. Cytometry, v. 85, n. 3, p. 277–286, 2014. 9

FREE SOFTWARE FOUNDATION. GNU Affero General Public License Version 3 (AGPL-3.0). 2019. Accessed 26 August 2019. 20

FREEDMAN, D.; DIACONIS, P. On the histogram as a density estimator: L2 theory. Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete, v. 57, n. 4, p. 453–476, 1981. ISSN 0044-3719. Disponível em: <http://link.springer.com/10.1007/ BF01025868>. 19

FUHRMAN, J. A.; CARON, D. A. Heterotrophic planktonic microbes: virus, bacteria, archaea, and protozoa. In: . Manual of Environmental Microbiology, Fourth Edition. [S.l.]: American Society of Microbiology, 2016. p. 4–2. 9

GARCÍA, F. C. et al. Seasonality in molecular and cytometric diversity of marine bacterioplankton: the re-shuffling of bacterial taxa by vertical mixing. Environmental microbiology, Wiley Online Library, v. 17, n. 10, p. 4133–4142, 2015. 13, 26

GARCÍA, F. C.; LÓPEZ-URRUTIA, Á.; MORÁN, X. A. G. Automated clustering of heterotrophic bacterioplankton in flow cytometry data. Aquatic Microbial Ecology, v. 72, n. 2, p. 175–185, 2014. 11

GASOL, J. M.; MORAN, X. A. G. Flow Cytometric Determination of Microbial Abundances and Its Use to Obtain Indices of Community Structure and Relative Activity. Hydrocarbon and Lipid Microbiology Protocols - Springer Protocols Handbooks, p. 1–29, 2015. ISSN 19492448. 7, 8, 23, 24

GLÖCKNER, F. O.; FUCHS, B. M.; AMANN, R. Bacterioplankton compositions of lakes and oceans: a first comparison based on fluorescence in situ hybridization. Appl. Environ. Microbiol., Am Soc Microbiol, v. 65, n. 8, p. 3721–3726, 1999. 9

HERZENBERG, L. A. et al. The history and future of the fluorescence activated cell sorter and flow cytometry: a view from stanford. Clinical chemistry, Clinical Chemistry, v. 48, n. 10, p. 1819–1827, 2002. 9

HERZENBERG, L. A. et al. Interpreting flow cytometry data: a guide for the perplexed. Nature immunology, Nature Publishing Group, v. 7, n. 7, p. 681–685, 2006. 9

HOBBS, R. J.; HUENNEKE, L. F. Disturbance, diversity, and invasion: implications for conservation. Conservation biology, Wiley Online Library, v. 6, n. 3, p. 324–337, 1992. 12

HOLYST, H.; ROGERS, W. flowFP: Fingerprinting for Flow Cytometry. [S.l.], 2009. R package version 1.30.0. 11, 25

HUTTER, K. J.; EIPEL, H. E. Flow cytometric determinations of cellular substances in algae, bacteria, moulds and yeasts. Antonie van Leeuwenhoek, v. 44, n. 3-4, p. 269–282, 1978. ISSN 00036072. 9

(50)

JOCHEM, F. J.; LAVRENTYEV, P. J.; FIRST, M. R. Growth and grazing rates of bacteria groups with different apparent dna content in the gulf of mexico. Marine Biology, v. 145, n. 6, p. 1213–1225, 2004. 25

JOST, L. Partitioning diversity into independent alpha and beta components. Ecology, Wiley Online Library, v. 88, n. 10, p. 2427–2439, 2007. 12

JUNGER, P. C. et al. Effects of seasonality, trophic state and landscape properties on co2 saturation in low-latitude lakes and reservoirs. Science of The Total Environment, v. 664, p. 283 – 295, 2019. ISSN 0048-9697. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0048969719302657>. 24 KAMIYAMA, T.; ITAKURA, S.; NAGASAKI, K. Changes in microbial loop

components: effects of a harmful algal bloom formation and its decay. Aquatic Microbial Ecology, v. 21, n. 1, p. 21–30, 2000. 9

KOCH, C. et al. Chic—an automated approach for the detection of dynamic variations in complex microbial communities. Cytometry Part A, Wiley Subscription Services, Inc., A Wiley Company, v. 83A, n. 6, p. 561–567, 2013. ISSN 1552-4930. Disponível em: <http://dx.doi.org/10.1002/cyto.a.22286>. 11, 25

KOCH, C. et al. Cytometric fingerprints: Evaluation of new tools for analyzing microbial community dynamics. Frontiers in Microbiology, v. 5, n. JUN, p. 1–12, 2014. ISSN 1664302X. 11, 14

KOLEFF, P.; GASTON, K. J.; LENNON, J. J. Measuring beta diversity for presence – absence data. Journal of Animal Ecology, v. 72, p. 367–382, 2003. ISSN 00218790. 12 KOT, M. Elements of mathematical ecology. [S.l.]: Cambridge University Press, 2001. 11

KOTSIANTIS, S. B. Supervised Machine Learning : A Review of Classification Techniques. Informatica, v. 31, p. 249–268, 2007. ISSN 09226389. 11

LEE, S. J.; SIAU, K. A review of data mining techniques. Industrial Management & Data Systems, MCB UP Ltd, v. 101, n. 1, p. 41–46, 2001. 10

LEGENDRE, P.; ANDERSON, M. J. Distance-based redundancy analysis: testing multispecies responses in multifactorial ecological experiments. Ecological monographs, Wiley Online Library, v. 69, n. 1, p. 1–24, 1999. 25

LEGENDRE, P.; GALLAGHER, E. D. Ecologically meaningful transformations for ordination of species data. Oecologia, v. 129, n. 2, p. 271–280, 2001. ISSN 00298549. 12 LEGENDRE, P.; LEGENDRE, L. Chapter 7 - ecological resemblance. In:

LEGENDRE, P.; LEGENDRE, L. (Ed.). Numerical Ecology. Elsevier, 2012, (Developments in Environmental Modelling, v. 24). p. 265 – 335. Disponível em: <http://www.sciencedirect.com/science/article/pii/B9780444538680500071>. 11

Referências

Documentos relacionados

À semelhança das etapas propostas por Shingo (1985), a etapa correspondente à melhoria sistemática das atividades internas e externas foi decomposta em duas

Stem cell therapy was initially based on the theoretical rationale that stem cells can di- fferentiate into a range of cell types such as endothelial, smooth muscle, Schwann cells, and

Abstract: Aim: We experimentally investigated the effects of nutrients (Nitrogen and Phosphorus) enrichment on the density, biomass, and cell size of pigmented and

Considering that the number of round spermatids is inversely related to the degree of failures occurring during spermatogenesis and that the Sertoli cell index is

Surpri- singly, we found that Fas expression positively correlates to spontaneous lymphoproliferation in  vitro ( Figure  6A ), which might imply that the observed defect

Analysis and discrimination of necrosis and apoptosis (programmed cell death) by multiparameter flow cytometry.. Novel approach for simultaneous evaluation of cell phenotype,

Based on the knowledge that the current literature is still sparse in the characterization of the postural alignment of adolescents in a large sample size and that there is

Escolhemos o tema, “A Música tradicional Portuguesa na disciplina de Classes de Conjunto / Coro no Ensino Vocacional da Música - 1º e 2º graus” com o intuito de enriquecer a