Keli Cristina Manini Susane Schmidt. Uma Ferramenta para Geração de Esquemas XML a partir de Documentos XML

(1)

Uma Ferramenta para Gera¸

c˜

ao de

Esquemas XML a partir de Documentos

XML

Florian´opolis - SC 2006

(2)

Susane Schmidt

Uma Ferramenta para Gera¸

c˜

ao de

Esquemas XML a partir de Documentos

XML

Trabalho apresentado como requisito para gradua¸cão em Bacharelado em Ciências da Computa¸cão

Orientador:

Ronaldo S. Mello

Universidade Federal de Santa Catarina - UFSC Departamento de Inform´atica e Estat´ıstica - INE

Florian´opolis - SC 2006

(3)

Lista de Figuras

1 Introdu¸c˜ao p. 4

2 XML - eXtensible Markup Language p. 6

3 Esquemas p. 9

3.1 DTD - Document Type Description . . . p. 9 3.2 XML Schema . . . p. 11

4 Trabalhos Relacionados p. 13 4.1 XTRACT: Um sistema para extra¸c˜ao de DTDs a partir de documentos

XML . . . p. 13 4.2 DataGuides: Enabling Query Formulation and Optimization in

Semis-tructed Databases . . . p. 14 4.3 Extra¸c˜ao de esquemas de dados XML: Uma Abordagem de Gram´atica

de Inferˆencia . . . p. 15

5 Conclus˜ao p. 19

Anexo A -- Codigos p. 20

(4)

1 Estrutura XML . . . p. 8 2 Exemplo do documento XML com DTD . . . p. 8 3 Estrutura XML . . . p. 8 4 Sintaxe e exemplo de uma declara¸c˜ao de atributo . . . p. 10 5 Sintaxe e exemplo de uma declara¸c˜ao de entidade . . . p. 11 6 Elemento Simples de XML Schema . . . p. 11 7 Exemplo Elemento Complexo de XML Schema . . . p. 12 8 Exemplo Elemento Complexo de XML Schema . . . p. 12 9 Exemplo documento XML Campeonato Europel de Futebol . . . p. 16 10 Exemplo XML Schema Campeonato Europel de Futebol . . . p. 17

(5)

1 Introdu¸

c˜

ao

XML (Extensible Markup Language) emergiu como um novo padrão para troca e ma-nipula¸cão de documentos estruturados. (1) Este fato ocorreu devido a grande quantidade de vantagens que este padrão de linguagem representa. O formato XML é alto-descritivo; documentos XML formam cole¸cões de elementos aninhados hierarquicamente; a estrutura interna destes documentos pode ser padronizada em esquemas que auxiliam na orga-niza¸cão, clareza e utiliza¸cão destes. Por estes e demais motivos a sociedade de bancos de dados tem investido cada vez mais no estudo de XML e novas técnicas e ferramentas vem sendo desenvolvidas.

A especifica¸cão de um esquema torna-se importante pois permite a integra¸cão e va-lida¸cão de dados XML baseados no seu esquema. A partir desta especifica¸cão é poss´ıvel verificar a equivalência dos dados, e então unir documentos com o mesmo conteúdo ge-rando arquivos mais completos e corretos. Outra vantagem é que a existência de um esquema facilitará o mapeamento de dados XML para um esquema relacional e também tornará eficiente a formula¸cão, otimiza¸cão e o planejamento de queries.

Apesar de ser muito importante, a maioria dos documentos XML ainda não possui um esquema acompanhando, e mesmo que o possu´ırem, é provável que os esquemas não sejam idênticos.Este fator levou-nos a pensar numa ferramenta que pudesse solucionar, mesmo que parcialmente, este problema, já que a integra¸cão de dados tornou-se fundamental devido a grande quantidade de dados que circulam na Web atualmente.

Algumas ferramentas já foram desenvolvidas no sentido de tentar sanar o problema anteriormente mencionado. Porém, elas geram o esquema a partir de um único documento XML. O nosso objetivo é implementar um software que possibilite ao usuário entrar com vários documentos de mesma autoria e a partir disto gerar um esquema único e completo. No entanto, um dos maiores problemas na forma¸cão de um esquema está relacionado a alcan¸car um esquema que consiga ser completo e compacto, já que estas são caracter´ısticas indiretamente proporcionais: tendem a ser ou muito volumosas ou não são intuitivas. (2)

(6)

Encontrar um esquema que consiga balancear estas duas caracter´ısticas ´e mais um dos problemas que tentaremos solucionar.

(7)

2 XML - eXtensible Markup

Language

XML, padrão popular do consórcio W3C, surgiu como o novo padrão para troca, re-presenta¸cão e manipula¸cão de documentos estruturados (1). Como o próprio nome diz, é uma linguagem de marca¸cão, com formato aberto, isto é, o próprio desenvolvedor cria os elementos que serão utilizados para construir o documento (3). Pela sua versatilidade e capacidade de extensão, XML é, na verdade, uma meta-linguagem que serve de defini¸cão de novas linguagens de marca¸cão. (4) Um documento XML é onde são definidos os dados XML (5). Estes documentos XML formam uma cole¸cão de elementos aninhados hierar-quicamente (1) com instru¸cões especiais, chamadas tags que servem de delimitadores de informa¸cão. (5). O conceito de tags é também utilizado na linguagem HTML.Apesar das semelhan¸cas apresentadas nessas duas linguagens, existem diferen¸cas fundamentais. Uma delas é em rela¸cão ao uso das tags, que apresentam-se pré-definidas em um documento HTML, enquanto possui valor semântico na linguagem XML. Outra diferen¸ca importante está relacionada com a fun¸cão espec´ıfica de cada linguagem. Enquanto a fun¸cão da lingua-gem HTML está dividida entre estruturar o documento e disponibilizá-lo no navegador, XML preocupa-se com a estrutura¸cão da informa¸cão.(3)

Cada documento XML possui uma estrutura lógica e f´ısica. A estrutura f´ısica per-mite componentes de documentos chamados entidades, que podem ser nomeadas ou ar-mazenadas separadamente. (4) A estrutura lógica é composta de declara¸cões, elementos, comentários, enfim, tudo o que estiver indicado no documento através de marca¸cão.(6)

A figura 1 mostra um pouco da estrutura de um documento XML. A caracter´ıstica que determina o esqueleto de documento XML está ligada à no¸cão de esquema, que pode opcionalmente acompanhar um documento XML. (2) Um esquema tem como fun¸cão descrever a estrutura interna de um documento XML.Existem dois tipos de esquemas: DTD (representado na figura 2) e XML Schema(figura 3.

(8)

<note>

<date>2006-08-01</date> <to>Professor</to>

<from>Keli e Susane</from> <heading>Note</heading>

<body>N~ao esque¸ca de dar uma boa nota!</body> </note>

Figura 1: Estrutura XML

<?xml version-’’1.0’’?> <!DOCTYPE note [

<!ELEMENT note (to, from, heading, body)> <!ELEMENT to (#PCDATA)>

<!ELEMENT from (#PCDATA)> <!ELEMENT heading (#PCDATA)> <!ELEMENT body (#PCDATA)> ]>

<note>

<to>Professor</to>

<from>Keli e Susane</from> <heading>Lembrete</heading>

Figura 2: Exemplo do documento XML com DTD

COLOCAR EXEMPLO DE XML SCHEMA <to>Professor</to>

<from>Keli e Susane</from> <heading>Lembrete</heading>

(9)

3 Esquemas

Esquemas são a forma como um documento XML pode ser estruturado. Através do uso destas estruturas diferentes desenvolvedores podem interagir integrando duas ou mais cole¸cões heterogenias de dados no formato XML, isso devido ao fato de diferentes documentos poderem possuir o mesmo esquema. Ferramentas que unam dois ou mais arquivos XML vem sendo estudadas por pesquisadores e desenvolvedores a declara¸cão de esquemas torna-se uma maneira organizada e eficiente para que possa haver a fusão de tais documentos.

Atualmente existem alguns tipos diferentes de esquemas para XML: DSD, Schema-tron, DTD e XML Schema. Os dois ´ultimos s˜ao os esquemas mais utilizados pela comu-nidade, por isso esses possu´ıram prioridade em nossos estudos.

3.1 DTD - Document Type Description

A ferramenta DTD é um conjunto de regras que define as instru¸cões que serão enviadas ao analisador sintático para o documento que está para ser analisado.(3)Essas regras definem o tipo dos elementos que podem ser usados e definem a hierarquia e granularidade do texto. (4)

Um DTD possui a capacidade de definir o conteúdo de um elemento no formato de expressões regulares (1). Projetado inicialmente para gerenciamento de aplica¸cões (2), DTD permite a valida¸cão de documentos XML, torna eficiente o armazenamento de dados XML, já que facilita a integra¸cão de dados através do esquema, a formula¸cão, otimiza¸cão e processamento de consultas sobre documentos XML. (2)

Um DTD é composto por declara¸cões. Cada declara¸cão está de acordo com o formato de marca¸cão0 <! . . . >0 e é classificado pelos tipos: ELEMENT (defini¸cão de elementos), ATTLIST (defini¸cão de atributos), ENTITY (defini¸cão de entidades) e NOTATION (defini¸cão de tipos de dados). Essas declara¸cões são agrupadas juntas dentro de um

(10)

DTD.(4)

Os elementos constroem os blocos principais. Eles podem conter texto, outros ele-mentos, ou estarem vazios.(7) Na declara¸cão do elemento é poss´ıvel também declarar a quantidade de ocorrências do mesmo elemento:

Uma ´unica ocorrˆencia: <!ELEMENT element-name (child-name)>

M´ınimo de uma ocorrência: : <!ELEMENT element-name (child-name+)> Zero ou mais ocorrências: <!ELEMENT element-name (child-name*)> Zero ou nenhuma ocorrência: <!ELEMENT element-name (child-name?)>

Um ou outro contexto: <! ELEMENT element-name(child−name1|child−name2) >

Já os atributos contêm informa¸cões extras sobre os elementos. Estão sempre locali-zados dentro de uma tag de um elemento e vem sempre aos pares (nome/valor), como pode ser observado na figura 4. (7) O primeiro parâmetro na declara¸cão será o nome seguido do tipo do atributo que pode variar dentro das seguintes possibilidades: CDATA, NMTOKEN, NMTOKENS, ENTITY, ENTITIES, ID, IDREF, IDREFS, notatione name group. (4) O parâmetro final é o valor que especifica o valor que será atribu´ıdo ao texto quando o autor do documento não entra com o valor. (4) Os valores que podem ser usados são: #REQUIRED(o valor do atributo deve estar incluso no elemento), #IMPLIED (O atributo não precisa estar incluso) e #FIXED (O valor do atributo é fixo).(7) <!ATTLIST element-name attribute-name attribute-type defaul-value> Exemplo:

DTD: <!ATTLIST pagamento type (cheque|dinheiro)’’dinheiro’’> XML: <pagamento type=’’cheque’’> ou

Figura 4: Sintaxe e exemplo de uma declara¸c˜ao de atributo

As entidades, 5 são variáveis usadas para definir textos comuns. Uma entidade é utilizada para evitar a repeti¸cão de textos similares. Isto reduzirá a carga de trabalho, fará com que apare¸cam menos erros e facilitará o entendimento da estrutura DTD. (4) A nota¸cão identifica tipos binários externos espec´ıficos e passa a informa¸cão para a aplica¸cão.

(11)

XML: <livro>&livro-name;&autor;</livro>

Figura 5: Sintaxe e exemplo de uma declara¸c˜ao de entidade

3.2 XML Schema

O esquema XML SCHEMA foi aprovado pela W3C em 16 de mar¸co de 2001. Surgiu para ser o sucessor de esquemas DTDs por isso possu´ı todas as funcionalidades deste e ainda caracter´ısticas espec´ıficas que o fazem superior. A inten¸cão (proposta) de um XML SCHEMA é definir a constru¸cão de blocos de um documento XML(6). Diferente de DTDs, este tipo de esquema é estruturado seguindo o mesmo formato sintático de XML esse fato possibilita a utiliza¸cão de processadores XML para fazer a valida¸cão dos esquemas escritos em XML SCHEMA (3), bem como a manipula¸cão de um SCHEMA com XML DOM (6).

Duas outras importantes caracter´ısticas ausentes nos DTDs e presentes neste esquema são a possibilidade de estender documentos para futuras adi¸cões e a capacidade de suportar namespaces. Para que tais caracter´ısticas fossem poss´ıveis os componentes sintáticos de SCHEMA apresentam algumas peculiaridades que o fazem mais complexo e ao mesmo tempo mais poderoso do que os demais esquemas existentes.

Os elementos declarados em XML SCHEMA podem ser do tipo simples ou complexo. Os primeiros s˜ao os elementos formados somente por texto como podemos observar na figura 6. O segundo tipo s˜ao aqueles que possuem outros elementos aninhados dentro de sua estrutura e/ou atributos que determinam o comportamento dos dados inseridos no documento, exemplo na figura 7.

<xs:element name=´firstname´ type=´xs:string´>

Figura 6: Elemento Simples de XML Schema

Algumas das principais vantagens de XML SCHEMA ocorrem por causa da declara¸cão de atributos. Devido à existência destes é poss´ıvel defini¸cão de diferentes classes de dados (String, Decimal, Integer, Boolean, Date e Time). Outra contribui¸cão importante é a possibilidade de criar restri¸cões semelhantes as utilizadas em modelos relacionais tais como: conteúdo, tamanho, valor, etc.

(12)

<xs: element name = ´employee´> <xs:complexType>

<xs:sequence>

<xs:element name=´firstname´ type=´xs:string´/> < xs:element name=´lastname´ type=´xs:string´> </xs:sequence >

</xs:complexType> </xs:element>

Figura 7: Exemplo Elemento Complexo de XML Schema

A figura 8 ´e um exemplo de um XML Schema com todas as caracter´ısticas presentes nestes esquemas: elementos complexos, restri¸c˜oes, atributos, namespace, dentre outras. <?xml version=’1.0’ encoding=’ISO-8859-1’>

<xs:schema xmlns:xs=’http://www.w3.org/2001/XMLSchema elementFormDefault=’qualified’’> <xs: element name = ’persons’>

<xs:complexType> <xs:sequence>

<xs:element name=´person´ maxOccurs=’unbounded’> <xs:complextype>

<xs:sequence>

< xs:element name=’full_name’ type=´xs:string´/> < xs:element name=’child_name’ type=´xs:string´ minOccurs=’0’ maxOccurs=’5’/> </xs:sequence> </xs:complexType> </xs:element> </xs:sequence > </xs:complexType> </xs:element> </xs:schema>

(13)

4 Trabalhos Relacionados

A partir dos estudos realizados com base nos trabalhos relacionados a seguir, será escolhido as melhores e mais eficientes técnicas, e estas poderão ser adaptadas para o desenvolvimento da ferramenta desejada.

4.1 XTRACT: Um sistema para extra¸

c˜

ao de DTDs

a partir de documentos XML

Este trabalho busca encontrar o DTD perfeito, combinando precisão e intui¸cão, através de uma seqüência de passos que envolvem a procura de padrões nas seqüências de entrada (2), seguindo de uma fatora¸cão dos poss´ıveis candidatos gerados no passo anterior e con-cluindo com a aplica¸cão do princ´ıpio da Descri¸cão do Tamanho M´ınimo.

No primeiro passo, chamado de generaliza¸cão, será empregado algoritmos heur´ısticos para encontrar padrões em cada seqüência de entrada e então substitu´ı-las por expressões regulares apropriadas para produzir candidatos mais gerais. O principal objetivo deste passo é introduzir metacaracteres (∗, +, ?, ...) para produzir sub-expressões que gerem os padrões observados nas seqüências de entrada.(2) Isto é realizado através da descoberta de freqüências e de ocorrências próximas de subseqüências e s´ımbolos em cada seqüência de entrada.(2) Por exemplo, se tivermos como entrada a seqüência abababcababc, este passo vai verificar que o a seqüência ab utilizado dois campos e substituirá por expressão A1. Como resultado teremos A1cA1c, e finalmente será substitu´ıdo pelo termo ((ab) ∗ c)

O segundo passo, conhecido como Fatora¸cão, herda os candidatos a DTD obtidos no passo anterior e tenta torná-los mais concisos através da aplica¸cão de técnicas adap-tadas apropriadamente da literatura de otimiza¸cão lógica.(2) A fatora¸cão é usada para tentar obter DTD de menor tamanho e conseqüentemente, melhor qualidade. Supondo que temos como entrada a seqüência I = ab, abab, ac, ad, bc, bd.bbd, bbbbe e o módulo da generaliza¸cão gerou o seguinte resultado: G = I ∪ (ab)∗, (a|b)∗, b ∗ d, b ∗ e. Através da

(14)

fatora¸cão teremos F = G ∪ (a|b)(c|d), b ∗ (d|e) e então, isto será passado para o próximo passo que é responsável por definir qual, entre todas as op¸cões geradas, será o DTD ótimo. No terceiro e mais importante passo será aplicado o princ´ıpio da Descri¸cão do tama-nho M´ınimo. Este mecanismo irá classificar cada candidato a DTD com base no custo atribu´ıdo a cada DTD. Este custo dependerá do tamanho da teoria, em bits, que será o responsável para encontrar um DTD conciso, e do tamanho dos dados, em bits, que defi-nirá a precisão do candidato.(2) Por exemplo, considerando a entrada I = ab, abab, ababab e considerando que entre os resultados encontrados estejam (1) ab|abab|ababab e (2) (ab)∗. No cálculo do custo do resultado (1) teremos 17, sendo 14 para codificar o DTD (quanti-dade de caracteres) +3 para codificar a seqüência de entrada (1 caracter para cada posi¸cão de entrada). Já no cálculo do resultado (2) foi obtido 8, sendo 5 para a codifica¸cão do DTD e 3 para codifica¸cão da seqüência de entrada (necessário para especificar o número de repeti¸cões do termo ab para cada seqüência). (2) Neste caso, o DTD escolhido seria o número 2, pois ele conseguiu captar um DTD que consegue abranger toda a seqüência de entrada e, ao mesmo tempo, é compacto.

Segundo o artigo, os resultados obtidos na utiliza¸cão deste sistema são satisfatórios, já que sempre consegue encontrar um DTD ótimo ou muito próximo disto. Porém, ainda não foram feitos estudos para ampliar o sistema para capta¸cão de um XML Schema, que é, atualmente, o esquema recomendado pela W3C.

4.2 DataGuides: Enabling Query Formulation and

Optimization in Semistructed Databases

O DataGuide foi introduzido para aproveitar os benef´ıcios de um esquema. Os Data-Guides são um sumário estrutural de banco de dados semi-estruturados concisos e exatos, que agem como esquemas dinâmicos. Gerados a partir de um banco de dados, são utili-zados para formula¸cão de queries, armazenamento de informa¸cão e também possilitam a otimiza¸cão das queries.(8)

Este artigo baseia-se no Object Exchange Model (OEM). Em OEM, cada objeto contém um objeto identificador e um valor, que pode ser atômico ou complexo. Também baseia-se na Linguagem de Lore, criada na Universidade de Stanford, e na conversão de autômatos finitos não-determin´ısticos (AFND) para autômatos finitos determin´ısticos(AFD).

DataGuides descrevem um caminho ´unico rotulado com exatamente uma fonte, sem levar em conta o n´umero de vezes que o DataGuides aparecesse na fonte. Para garantir

(15)

OEM. (8)

4.3 Extra¸

c˜

ao de esquemas de dados XML: Uma

Abor-dagem de Gram´

atica de Inferˆ

encia

O artigo de Boris Chidlovskii enfatiza a importância de se possuir uma defini¸cão de esquema para documentos XML e propõe uma alternativa para a extra¸cão deste esquema através do relacionamento sintático de documentos XML com linguagens Livre de Con-texto, ou melhor, uma extensão dessas linguagens.

Através de métodos desenvolvidos para este tipo de gramática e também para as regulares foi poss´ıvel criar um algoritmo baseado em Gramáticas Livre de Contexto de Inferência para realizar a extra¸cão do XML SCHEMA de documentos XML. O autor defende seu ponto de vista alegando que dados XML são equivalentes a um exemplo estruturado na teoria da Inferência Gramatical.

No algoritmo sugerido por este trabalho primeiramente o documento XML é mapeado para um formato de uma linguagem livre de contexto. Posteriormente métodos de com-para¸cão seguidos de métodos de fatora¸cão e consecutivos merges de elementos mapeados possibilitam a obten¸cão de uma estrutura ainda no formato de gramática que finalmente será uma aproxima¸cão do esquema do documento XML. O algoritmo pode ser descrito através dos seguintes passos:

1) Representar documentos XML como um conjunto estruturado de dados;

2) Induzir uma gram´atica livre de contexto estendida (G) para o documento XML em quest˜ao (I);

2.1) Criar o conjunto inicial de n˜ao terminais N;

2.2) Fundir os elementos n˜ao-terminais de N que possuem conte´udo e contexto simi-lares;

2.3) Determinar tipos de dados para os terminais em G;

3) Transformar o resultado da Gram´atica Livre de Contexto Estendida G em uma defini¸c˜ao XML SCHEMA S.

(16)

Para melhor entendimento do algoritmo será demonstrado, através de um exemplo, os resultados obtidos a cada passo, possibilitando assim uma melhor visualiza¸cão da idéia do autor do artigo. A figura 9 possu´ı um documento XML que contem informa¸cões sobre clubes do futebol europeu e sua situa¸cão dentro dos campeonatos que já disputaram. <teams>

<team><name>Juventus</name> <ChLeague>

<year>1999</year><result>semi-final</result>

<year>1997</year><result>final</result> ...//5 success in total </ChLeague>

<UEFA>

<year>1995</year><result>final</result> ... // 7 success in total </UEFA>

</team>

<team><name>Manchester United</name> <ChLeague>

<year>1999</year><result>winner</result> ... // 4 success in total </ChLeague>

</team>

... // 46 teams in total </teams>

Figura 9: Exemplo documento XML Campeonato Europel de Futebol

A figura 10 mostra como seria o correto XML Schema correspondente ao arquivo dos clubes de futebol europeus.

A figura 9 representa o primeiro passo do algoritmo. A seguir é necessário que se fa¸ca o mapeamento dos elementos presentes no documento XML para a GLCE G. A correspondente GLCE é dada por G = (T,N,D,&,Start) onde T={teams, team, name, ...}, N = {Start, TeamType, ListType}, D = {String, PositiveInteger}, and & contem a seguinte regra de produ¸cão:

Start -> teams:TeamsType

TeamsType -> (team:TeamType) [0:500]

TeamType -> name:String (ChLeague:ListType) [0:1] (UEPA: ListType) [0:1] ListType -> (year:PositiveInteger result:String) [1:100]

O próximo passo do algoritmo é a gera¸cão do conjunto inicial de não terminais. Para melhor visualiza¸cão o autor associou o tipo genérico Any para os elementos simples e um rótulo para cada elemento complexo do documento XML. Logo o resultado do passo 2.1 do algoritmo é:

(17)

</element>

Figura 10: Exemplo XML Schema Campeonato Europel de Futebol

Start -> team:A1 team: A2 team: A3 ... (46 teams in total) A1 -> name: Any ChLeague: A47 UEFA: A48

A2 -> name: Any ChLeague: A49 A3 -> name: Any

...

A47 -> year: Any result: Any ... // (7 year-result pairs in total) A48 -> year: Any result: Any ... // (5 pairs)

A49 -> year: Any result: Any ... // (4 pairs) ...

Após obtidos os não terminais é necessário fazer a fusão entre os elementos similares. O primeiro não terminal a receber a sofrer a fusão é o Start, pois suas produ¸cões possuem ambigüidade com o terminal team. O resultado da fusão continha termos amb´ıguos com terminais ChLeague, portanto foram fundidos os não-terminais A47 e A49. Estas fusões geraram o seguinte conjunto de produ¸cões:

Start -> team:A1 team:A1 team:A1 ... (46 teams in total) A1 -> name: Any ChLeague: A47 UEFA: A48

A1 -> name: Any ChLeague: A47 A1 -> name: Any

A47 -> year: Any result: Any ... // (7 pairs) A48 -> year: Any result: Any ... // (5 pairs)

(18)

A47 -> year: Any result: Any ... // (4 pairs) ...

Observa-se neste resultado que os não-terminais A47 e A48 estão repetindo os pares de elementos year e result, por isso serão fundidos. O resultado obtido após as fusões é uma Gramática Livre de Contexto com os não-terminais que geram diferentes produ¸cões.

Start -> (team:A1) [46]

A1 -> name: Any ChLeague: A47 UEFA: A47 | name: Any ChLeague: A47 | ... A47 -> (year: Any result: Any) [7] | year: Any result: Any)[5] |...

Como último passo do algoritmo referente a produ¸cão da gramática que servirá de base para a obten¸cão do XML Schema são analisadas as produ¸cões e através de métodos ( ainda não estudados a fundo) é obtido a seguinte gramática:

Start -> (team: A1) [46]

A1 -> name: String (ChLeague: A4) [0:1] (UEFA:A4) [0:1] A4 -> (year: UnsignedShort result: String) [0:8]

(19)

(20)

(21)

Referˆ

encias

1 CHILDLOVSKII, B. Schema extraction from xml data: A grammatical inference approach.

2 GAROFALAKIS, M. et al. Xtract: A system for extracting document type descriptors from xml documents.

3 JR., J. R. T. XML Schema. [S.l.]: Visual Books Ltda, 2002. 4 BRADLEY, N. The xml schema companion. 2003.

5 FRANTZ, A. P. Um processo de convers˜ao de xml schemas para um conceito conceitual.

6 W3C. World Wide Web Consortium. Acesso em 10/2006. Dispon´ıvel em: <www.w3c.org>.

7 W3SCHOOL. w3cschool.com. Acesso em 10/2006. Dispon´ıvel em: <www.w3cschool-.com>.

8 GOLDMAN, R.; WIDOM, J. Dataguides: Enabling query formulation and optimization in semistructed databases.