• Nenhum resultado encontrado

Redes de Cita¸c˜oes de Patentes

3.8

Redes de Cita¸c˜oes de Patentes

Devido `as patentes proverem informa¸c˜oes sobre os n´ıveis de tecnologia em um determinado setor e a inten¸c˜ao comercial de um competidor em potencial, as redes de cita¸c˜oes de patentes servem como um estanque inicial para o desenvolvimento do plano estrat´egico de uma corpora¸c˜ao. Al´em disso, permitem medir o ac´umulo de tecnologia e comprovar fatos econˆomicos de desenvolvimento de determinados pa´ıses [18].

Em uma pesquisa realizada sobre a tecnologia TFT-LCD para a an´alise do fenˆomeno Small World [18], resultados mostraram que por meio da an´alise dessa rede de cita¸c˜oes, podem-se comprovar certos acontecimentos hist´oricos de mercado atrav´es da observa¸c˜ao de certos padr˜oes do fluxo de cita¸c˜oes. No caso da tecnologia TFT-LCD, os resultados do exame da rede de cita¸c˜oes mostraram claras evidˆencias de como pa´ıses de primeiro mundo como Jap˜ao e EUA proporcionaram um papel importante no desenvolvimento econˆomico de pa´ıses considerados Tigres Asi´aticos como a Cor´eia do Sul e Taiwan.

Tamb´em se observa que em uma rede de cita¸c˜oes poucos documentos patent´arios pos- suem um alto grau de cita¸c˜oes e a maioria apresenta um n´ıvel baixo de cita¸c˜oes. Esse fato indica que os documentos que recebem muitas cita¸c˜oes apresentam uma informa¸c˜ao considerada como essencial para a continuidade do processo de inova¸c˜ao tecnol´ogica, po- dendo tamb´em significar a existˆencia de muitos esfor¸cos de pesquisa investidos em rela¸c˜ao a essa tecnologia em quest˜ao [48] [6].

Cap´ıtulo 4

Similaridade

Similaridade ´e um conceito bastante complexo que tem sido estudado entre as v´arias ´areas do conhecimento. Para a psicologia, similaridade ´e uma esp´ecie de relacionamento entre dois objetos perceptuais, sendo determinados por uma rea¸c˜ao psicol´ogica do indiv´ıduo. Dessa forma, pode-se dizer que o grau de semelhan¸ca entre dois objetos depende exclusi- vamente de suas caracter´ısticas comuns e de suas diferen¸cas [51].

4.1

Similaridade de Texto

Desde muito tempo, t´ecnicas para determinar a similaridade de texto tˆem sido estudadas e utilizadas em diversas aplica¸c˜oes computacionais, tais como a recupera¸c˜ao de informa¸c˜ao e o processamento de linguagem natural. Basicamente, os m´etodos para se calcular a similaridade entre documentos textuais podem ser classificados em quatro categorias: si- milaridade textual l´exica (Text-based lexical similarity), similaridade textual semˆantica (Text-based semantical similarity), m´etodos h´ıbridos (Hybrid methods) e m´etodos basea- dos em caracter´ısticas (Feature-based methods) [21].

• M´etodos de similaridade textual l´exica: s˜ao m´etodos que resultam em um valor num´erico indicando o grau de semelhan¸ca entre os textos analisados. Para a rea- liza¸c˜ao do c´alculo de similaridade, utiliza-se do n´umero de unidades l´exicas que os textos avaliados possuem em comum [19]. Al´em disso, com o intuito de se obter me- lhorias para esses m´etodos, v´arias adapta¸c˜oes algor´ıtmicas foram realizadas como, por exemplo, o Stemming, a remo¸c˜ao de palavras irrelevantes (Stop words), o Lon- gest subsequence matching e o uso de v´arios fatores de normaliza¸c˜ao e peso [38]. Os m´etodos de similaridade textual l´exica podem ser subdivididos em duas categorias: m´etodos de coocorrˆencia de palavras e m´etodos baseados em corpus. Os m´etodos de coocorrˆencia de palavras (Word co-occurrence method), tamb´em conhecidos como

m´etodos de modelo de documento baseados em vetor (Vector-based document mo- del method), s˜ao os m´etodos mais comuns aplicados no campo de similaridade de textos e baseiam-se na proposi¸c˜ao de que documentos semelhantes possuem muitas palavras em comum em seus corpora. Para a representa¸c˜ao dos textos ou de seus segmentos, os m´etodos dessa categoria utilizam uma estrutura vetorial de palavras, determinando-se o grau de semelhan¸ca entre os documentos por meio da utiliza¸c˜ao de uma m´etrica de similaridade. Por ´ultimo, diferentemente dos m´etodos de co- ocorrˆencia de palavras, os m´etodos baseados em corpus (Corpus-based similarity methods) levam em conta o grau de similaridade entre palavras necessariamente usando informa¸c˜oes derivadas de grandes corpora textuais, para isso, empregam-se m´etricas espec´ıficas para avalia¸c˜ao de tais estruturas textuais.

• M´etodos de similaridade textual semˆantica: tomando-se uma vertente diferente- mente dos m´etodos de similaridade textual l´exica, os algoritmos dessa classe pos- suem a vantagem de procurar identificar a similaridade semˆantica entre os textos. Um exemplo de aplica¸c˜ao seria a identifica¸c˜ao do conte´udo semˆantico para as fra- ses que buscam expressar ideias semelhantes como, por exemplo, as senten¸cas Eu estudo na universidade e Eu sou um aluno de uma institui¸c˜ao de ensino superior. Ambas possuem o mesmo contexto de informa¸c˜ao, demonstrando um alto grau de semelhan¸ca. Por´em, para a maioria dos m´etodos de similaridade textual l´exica essa semelhan¸ca conceitual n˜ao se torna detect´avel, considerando ambas as frases com- pletamente distintas e n˜ao semelhantes. Dessa forma, os m´etodos de similaridade textual semˆantica procuram contornar essa deficiˆencia de an´alise, utilizando t´ecnicas para encontrar a similaridade entre as duas senten¸cas. Ent˜ao, para a realiza¸c˜ao da an´alise textual, os m´etodos de similaridade textual semˆantica devem principalmente levar em conta a estrutura dos textos a serem utilizados [38].

• M´etodos h´ıbridos: s˜ao m´etodos de similaridade que utilizam a jun¸c˜ao de v´arios algoritmos para verificar a semelhan¸ca entre textos, mesclando tanto t´ecnicas de an´alise semˆantica como m´etodos baseados em corpus [21] [36].

• M´etodos baseados em caracter´ısticas: buscam determinar o n´ıvel de similaridade textual empregando um conjunto de caracter´ısticas pr´e-definidas para a representa¸c˜ao dos textos. Para isso, necessita-se de um classificador inicialmente treinado [21].

Documentos relacionados