Fragmenta¸c˜ao - Aspectos de Replica¸c˜ao de Dados XML

2.2 Aspectos de Replica¸c˜ao de Dados XML

2.2.3 Fragmenta¸c˜ao

A fragmenta¸cão de dados consiste em determinar alternativas para divisão dos dados em unidades menores chamadas fragmentos, de tal forma que estas partes possam ser replica- das e distribu´ıdas. De acordo com Ozsu et al. [13], para que a uma fragmenta¸cão garanta a integridade dos dados, é necessário que sejam verificados os critérios de completude, disjun¸cão e reconstru¸cão. A completudo consiste em mostrar que todas as informa¸cões da base original estão contidas em algum fragmento. A disjun¸cão visa garantir que, para quaisquer dois fragmentos, não existem informa¸cões comuns entre eles. Por fim, a reconstru¸cão consiste em mostrar que qualquer informa¸cão obtida a partir da base original pode ser recuperada a partir de opera¸cões em dois ou mais fragmentos.

No modelo relacional, temos duas maneiras de fragmentar os dados: a fragmenta¸cão horizontal, que divide uma tabela em fun¸cão das suas tuplas, e a fragmenta¸cão vertical, que divide uma tabela com base em conjuntos de atributos. Outro tipo de fragmenta¸cão, conhecida como h´ıbrida ou mista, é obtida pela combina¸cão das duas es- tratégias descritas anteriormente.

2.2. Aspectos de Replica¸c˜ao de Dados XML 17

A maioria dos trabalhos de fragmenta¸cão de dados no contexto XML tenta adap- tar as técnicas tradicionais para solucionar esse problema, sendo inicialmente abordados por Ma et al. [39] e Bremer e Gertz [40]. Estes trabalhos adaptam as ideias de fragmenta¸cão em bases de dados relacionais e orientadas a objetos para o modelo de dados XML, considerando suas caracter´ısticas espec´ıficas.

Ma e Schewe [41] elaboraram técnicas de fragmenta¸cão de dados XML como adapta¸cão das estratégias do modelo de objetos. Nesse trabalho, os autores propuseram as fragmenta¸cões: horizontal, que agrupa os elementos de um documento XML aplicando um critério de sele¸cão; vertical, que divide a estrutura do esquema DTD; e tipo h´ıbrido chamado split, que combina as estratégias de fragmenta¸cão horizontal e vertical para dividir um documento em um conjunto de documentos com esquema diferente do documento original. Esta estratégia não apresenta um modelo forma para provar os critérios de completude e corretude (disjun¸cão e reconstru¸cão). Além do mais, sua abordagem não é apropriada para repositórios MD, necessitando que os documentos sejam integrados em uma visão SD.

Bremer e Gertz [40] apresentam princ´ıpios de fragmenta¸cão adotados por bancos de dados relacional e orientado a objetos adaptados ao modelo XML. Esse trabalho utiliza um esquema de sumário Repository Guide para auxiliar na divisão dos dados e verifica¸cão dos critérios de completude e disjun¸cão. São apresentadas a fragmenta¸cão vertical, que consiste no particionamento do sumário Repository Guide, e fragmenta¸cão horizontal, que realiza a divisão do documento aplicando condi¸cões aos seus atributos. Apesar de contemplar os critérios de fragmenta¸cão, o formalismo apresentado não define as técnicas desenvolvidas. Além do mais, a proposta limita-se a linguagem XPath e não apresenta resultados que validem diretamente a proposta de fragmenta¸cão.

Buneman et al. [42] adaptaram a técnica de vetoriza¸cão, que consiste na divisão dos dados em colunas, a documentos XML. Sua estratégia consiste em decompor um documento em um conjunto de vetores e armazená-los em tabelas relacionais. Cada vetor contém um caminho desde a raiz até uma folha da árvore XML. Assim, para permitir a execu¸cão de consultas, a solu¸cão suporta um subconjunto da linguagem XQuery, que pode ser decomposta e executada distribuidamente. Resultados experimentais demonstraram melhorias no processamento das consultas, mas o subconjunto limitado da XQuery e a verifica¸cão apenas do critério de reconstru¸cão nesse trabalho não viabilizam sua utiliza¸cão em bases de XML.

2.2. Aspectos de Replica¸c˜ao de Dados XML 18

Andrade et al. [43] criaram o PartiX, que consiste em uma arquitetura para o processamento de consultas XQuery sobre bases de dados XML fragmentadas. Diferen- temente dos demais trabalhos, as opera¸cões de fragmenta¸cão não são aplicadas sobre um ´

unico documento XML (Single Document), mas sim a uma cole¸cão deles (Multiple Do- cuments). A fragmenta¸cão horizontal consiste em uma opera¸cão de sele¸cão que satisfaz um determinado predicado, a vertical consiste em uma opera¸cão de proje¸cão, e a h´ıbrida, uma combina¸cão das duas anteriores. Os experimentos realizados demonstraram melhorias no desempenho das consultas frente ao modelo centralizado. Nesses experimentos, os fragmentos são disjuntos, e as subconsultas foram executadas em paralelo. Apesar dos resultados satisfatórios apresentados, a fragmenta¸cão do PartiX é aplicada a uma cole¸cão de documentos XML, gerando fragmentos que são subconjuntos da base original. Assim, os elementos XML não são fragmentados, inviabilizando a utiliza¸cão do PartiX a documento XML único. Por fim, a decomposi¸cão de consultas XQuery considera um subconjunto bastante limitado desta linguagem.

Kurita et al. [44] propôs uma estratégia eficiente para processamento de consultas para grandes bases de dados XML, em ambientes distribu´ıdos. A ideia principal desse trabalho é balancear os custos de armazenamento e processamento de consultas dentre os nós do sistema. Para isso, é utilizada a fragmenta¸cão vertical como estratégia de particionamento da base de dados, que se baseia na razão entre o tamanho da base e o número de nós para os quais os fragmentos serão distribu´ıdos. Além disso, é proposta uma estratégia de realoca¸cão dinâmica dos dados para manter o balanceamento do sistema, que consiste em modificar a estrutura dos fragmentos e mover dados XML entre os nós. Seus experimentos consideram apenas consultas que não necessitassem de opera¸cões de jun¸cão entre as estruturas. Os resultados demonstraram melhorias no desempenho das consultas utilizando sua estratégia de fragmenta¸cão associada à realoca¸cão dinâmica dos dados. Porém, é citado que o sistema pode se tornar ineficiente caso as consultas sejam aplicadas a s´ıtios espec´ıficos.

Embora existam várias estratégias de fragmenta¸cão de dados, elas podem ou não ser estratégias vantajosas. Em bases de dados com um grande volume de informa¸cões, a fragmenta¸cão pode ser uma alternativa para a execu¸cão de consultas de forma eficiente. Esse ganho no desempenho é poss´ıvel devido ao fato das consultas poderem ser decom- postas em subconsultas, sendo executadas paralelamente em diferentes nós do sistema, o que aumenta sua vazão. Além do mais, estas subconsultas são executadas em um subconjunto (fragmento) da base de dados original, podendo aumentar o desempenho dado

2.3. Trabalhos Relacionados 19

que a opera¸c˜ao ´e aplicada em sob um volume menor de dados.

Porém, existem situa¸cões em que a fragmenta¸cão pode se comportar de forma insatisfatória, degradando assim o desempenho do sistema. Existem cenários em que a recupera¸cão dos dados pode implicar em opera¸cões de jun¸cão e união sob os fragmentos, gerando um custo adicional. De forma similar, a análise semântica das opera¸cões pode sofrer de um custo adicional caso seja necessário acessar bases de fragmentos em dois ou mais s´ıtios [13].

No documento Uma estratégia para o gerenciamento da replicação parcial de dados XML (páginas 30-33)