• Nenhum resultado encontrado

ATAS DAS CONFERÊNCIAS IADIS IBERO-AMERICANAS. WWW/INTERNET 2017 e COMPUTAÇÃO APLICADA 2017 VILAMOURA, ALGARVE, PORTUGAL OUTUBRO, 2017

N/A
N/A
Protected

Academic year: 2021

Share "ATAS DAS CONFERÊNCIAS IADIS IBERO-AMERICANAS. WWW/INTERNET 2017 e COMPUTAÇÃO APLICADA 2017 VILAMOURA, ALGARVE, PORTUGAL OUTUBRO, 2017"

Copied!
19
0
0

Texto

(1)
(2)

iii

ATAS DAS CONFERÊNCIAS IADIS IBERO-AMERICANAS

WWW/INTERNET 2017

e

COMPUTAÇÃO APLICADA

2017

VILAMOURA, ALGARVE, PORTUGAL

19 – 20 OUTUBRO, 2017

Organizada por

IADIS

(3)

iv

Copyright 2017

IADIS Press

Todos os direitos reservados

Este trabalho está sujeito a direitos de autor. Todos os direitos são reservados, no todo ou em parte, mais especificamente os direitos de tradução, reimpressão, reutilização de ilustrações, re-citação,

emissão, reprodução em microfilme ou de qualquer outra forma, e armazenamento em bases de dados. A permissão para utilização deverá ser sempre obtida da IADIS Press. Por favor contactar

secretariat@iadis.org.

Editado por Flávia Maria Santoro, Paula Miranda, Mário Dantas, Cristiano Costa

e Pedro Isaías

Editor Associado: Luís Rodrigues

ISBN: 978-989-8533-70-8

(4)

v

ÍNDICE

PREFÁCIO

ix

COMITÉ DO PROGRAMA

xi

PALESTRA CONVIDADA

xv

ARTIGOS LONGOS

ANÁLISE DO PROCESSO DE LEVANTAMENTO DE REQUISITOS – ESTUDO REALIZADO NUMA ORGANIZAÇÃO DA ADMINISTRAÇÃO PÚBLICA PORTUGUESA

Cristina Marques e Luísa Domingues

3

FORMAÇÃO DE REDES DE COMPETÊNCIAS A PARTIR DOS PERFIS EM REDES SOCIAIS: UM EXPERIMENTO COM DATASETS DO LINKEDIN

Danilo Hasse, Fernando A. Ostuni Gauthier e Carlos Roberto De Rolt

12

DIGITAL ADVOCACY: CONVERGÊNCIA DE COMUNICAÇÃO PÚBLICA E MARKETING DIGITAL NAS PLATAFORMAS WEB 2.0

Gisiela Hasse Klein, Danilo Hasse e Carlos Roberto De Rolt

21

ESTRATÉGIAS DE GAMIFICAÇÃO PARA O MARE

Iuri Ellwanger, Daniela Duarte da Silva Bagatini e Maria Cristina Villanova Biasuz

29

MÉTODO E DIAGNÓSTICO INICIAL PARA UMA INTERVENÇÃO DE DESIGN NA REDE PARANÁ

Christianne Steil e Stephania Padovani

37

PROPOSTA DE UM AMBIENTE PARA AVALIAÇÃO DO SISTEMA DE

COMUNICAÇÃO DE CURSOS EAD BASEADO EM TÉCNICAS DE BUSINESS INTELLIGENCE E EM REFERENCIAS DE QUALIDADE DO MEC/SEED

Ana Travassos Ichihara e Nizam Omar

45

ONTODRC: PREVENINDO A DOENÇA RENAL CRÔNICA

Cecília Neta Alves Pegado Gomes, João Agnaldo do Nascimento, Sérgio Ribeiro dos Santos, Natasha C. Q. Lino, Carlos Alberto de Souza, Ana Patrícia de Sousa e Renan Gomes Barreto

56

PROPOSTA DE ADOÇÃO DE MICROSSERVIÇOS EM IOT

Lucas M. C. e Martins, Francisco L. de Caldas Filho, Rafael T. de Sousa Júnior, William F. Giozza e João Paulo C. L. da Costa

(5)

vi

PLAYGO! O DESENVOLVIMENTO DE UMA PLATAFORMA

PARA PROGRAMAÇÃO EM ROBÓTICA EDUCACIONAL UTILIZANDO OBJETOS INTERATIVOS

Agnaldo Lopes Martins, Leila Jane Brum Lage Sena Guimarães, Ana Paula Diniz Arruda e André Luiz Moura Júnior

71

AVALIAÇÃO DE INTERFACE: ANÁLISE COMPARATIVA E PROPOSTA DE REDESIGN PARA O MARE

Luiza Daiane Rabuski, Daniela Duarte da Silva Bagatini e Maria Cristina Villanova Biasuz

79

UM FRAMEWORK PARA GERAÇÃO DE TEXTO A PARTIR DE MODELOS DE PROCESSO DE NEGÓCIO

Raphael de Almeida Rodrigues, Leonardo Guerreiro Azevedo, Kate Revoredo e Henrik Leopold

87

EXTENSÃO DO WEB-REFLEX PARA ADAPTAÇÃO DE PROCESSOS DE NEGÓCIOS DECLARATIVOS

Denise Souza, Fernanda Alencar e Rafael Coêlho

95

PROPOSTA DE MODELO BASEADO EM ONTOLOGIAS LINKED DATA PARA CATOLOGAÇÃO DE SENSORES

Tamiris de Sousa Rangel e Mark Douglas de Azevedo Jacyntho

103

PROPOSTA DE ABORDAGEM QUADRIDIMENSIONAL E INTEGRADA PARA INTERNET DAS COISAS EMBASADA NA REVISÃO DOS CONCEITOS DE SMART OBJECT

Ingrid Palma Araújo e Rafael T. de Sousa Jr.

111

GESTÃO LINKED DATA DE EVENTOS

Geovana da Silva Batista e Mark Douglas de Azevedo Jacyntho

119

ALINHAMENTO DE ONTOLOGIAS, UMA ABORDAGEM PARA O ESTABELECIMENTO DE REDES SOCIAIS

Leandro Pupo Natale, Israel Florentino e Nizam Omar

127

ANÁLISE DO GITHUB COMO REDE SOCIAL E REDE DE COLABORAÇÃO

Leila Weitzel, João Henrique Lopes Spies e Maycon Medeiros de F. Santos

135

EVALUACIÓN DEL SESGO DE DATOS DE UNA ASIGNATURA DE GRADO PARA ENTRENAR ALGORITMOS DE APRENDIZAJE AUTOMÁTICO

Cinthia Vegega, Pablo Pytel y María Florencia Pollo-Cattaneo

143

ESTUDO COMPARATIVO DE CLASSIFICADORES MULTICLASSE E MULTIRÓTULO EM UMA BASE DE DADOS DE ACIDENTES MARÍTMOS

Marcus Vinicius Silva A. Reis e Leila Weitzel

151

O QUE LEVA OS ALUNOS DOS CURSOS SUPERIORES DE COMPUTAÇÃO A EVADIREM? UM ESTUDO DE CASO FEITO NA UNIVERSIDADE DE BRASÍLIA

Raphael Magalhães Hoed, Marcelo Ladeira e Letícia Lopes Leite

159

SOLUÇÃO DE MINERAÇÃO DE DADOS PARA AVALIAÇÃO DO ENSINO MÉDIO DOS INSTITUTOS FEDERAIS A PARTIR DO CENSO ESCOLAR E DO ENEM

Rogério Luiz Cardoso Silva Filho e Paulo Jorge Leitão Adeodato

167

MINERAÇÃO DE TEXTO APLICADA PARA IDENTIFICAR RELAÇÕES DE SIMILARIDADE: UM ESTUDO DE CASO

Douglas Ferreira de Borba, Angelita Maria de Ré e Sandro Rautenberg

(6)

vii

COMPARAÇÃO ENTRE DOIS BANCOS DE DADOS ORIENTADOS A GRAFOS DE CÓDIGO ABERTO PARA O USO EM APLICAÇÕES DE REDE SOCIAL, DE ANÁLISE DE DADOS E DE VISUALIZAÇÃO

Luis Filipe Campos Cardoso, Georges Daniel Amvame Nze, Robson de Oliveira Albuquerque e Rafael Timóteo de Sousa Jr

183

DESENVOLVIMENTO DE MÓDULO DE HARDWARE E BOOTLOADER PARA O MICROCONTROLADOR C8051F320

Arthur Lemos Nogueira Filho e Fábio Iaione

191

GERENCIAMENTO DE SERVIÇOS IOT COM GATEWAY SEMÂNTICO

Francisco L. de Caldas Filho, Lucas M. C. e Martins, Ingrid P. Araújo, Fábio L. L. de Mendonça, João Paulo C. L. da Costa e Rafael T. de Sousa Júnior

199

PROCESO DE IMPLANTACIÓN DE SISTEMAS INFORMÁTICOS - IDENTIFICACIÓN DE VACANCIAS EN METODOLOGÍAS USUALES

Marisa Daniela Panizzi, Rodolofo Bertone y Alejandro Hossian

207

215

ARTIGOS CURTOS

CARTÃO PROGRAMA WEB: SOFTWARE PARA PLANEJAMENTO DO POLICIAMENTO OSTENSIVO

Aílson Rocha Freire, Diogo Adriel Ferreira, Felipe Benigno, Carla Alessandra Lima Reis e Rodrigo Quites Reis

219

PROPOSTA DE PROCESSAMENTO DE SINAIS BIOFÍSICOS POR LÓGICA FUZZY EM SISTEMAS DE INTERAÇÃO HUMANO-COMPUTADOR

Ricardo Marciano dos Santos, Maria Monteiro Fróes e Alfredo Nazareno Pereira Boente

225

REVISIÓN DE RECURSOS PARA ENSEÑANZA DE ALUMNOS CON SÍNDROME DE DOWN

Jorge Morato y Sonia Sánchez Cuadrado

230

MECANISMOS DE INCENTIVO EM MOBILE CROWDSOURCING

Wilnei Aldir Schneider, Matteo Mura, Carlos Roberto De Rolt e Rafael Tezza

235

ANÁLISIS DE SOFTWARE DE ARCHIVOS Y BIBLIOTECAS PARA LOS FONDOS DE LA FUNDACIÓN PABLO IGLESIAS

Aurelio Martín López, Sonia Sánchez Cuadrado y Jorge Morato

240

MELANOMA APP: ANÁLISE DE IMAGENS DERMATOSCÓPICAS PARA AUXÍLIO AO DIAGNÓSTICO DO MELANOMA

Felipe V. de Sá Oliveira, Jéssica B. Diniz, Felipe F. de Lima Melo e Gersica A. Alencar

245

EVALUACIÓN DE CURSOS ABIERTOS ONLINE DESDE UNA PERSPECTIVA DE USABILIDAD

Mabel Sosa y Isabel Velazquez

250

AUTOMATIZAÇÃO NA EXTRAÇÃO DE DADOS PARA OPEN SMART CITY VIEW

Fernanda Rigo e Roberto dos Santos Rabello

(7)

viii

ANÁLISE DE FERRAMENTAS PARA MONITORAMENTO DE REDES: ASPECTOS DE SEGURANÇA E VISUALIZAÇÃO DA INFORMAÇÃO

Luiz Felipe de Camargo, Kelton Augusto Pontara da Costa e José Remo Ferreira Brega

259

ASSOCIANDO SCRUM E PROJETO CENTRADO NO USUÁRIO: UM ESTUDO DE CASO NO DESENVOLVIMENTO DA APLICAÇÃO MÓVEL ANTS

André Constantino da Silva, Davi Ribeiro Soares Silva, Daniela Marques, Gustavo Bartz Guedes, Felipe de Oliveira Vianna Pinto e Valdrei Salomão da Silva

263

266

ARTIGOS DE REFLEXÃO

ANALÍTICA DE DATOS COMO VALOR ECONÓMICO. POSICIONAMIENTO DE FUTURO

Alfonso J. López Rivero y María Blanco Hernández

269

BIG DATA E BIBLIOTECAS

Thayse Natália Cantanhede Santos

273

USABILIDAD DE INTERFAZ EDUCATIVA ORIENTADA A PROMOVER LA CREATIVIDAD Y CRITICIDAD MEDIANTE NEUROCIENCIAS

Isabel Velázquez y Mabel Sosa

276

DESCOBERTA DE RELAÇÕES SEMÂNTICAS NO IDIOMA PORTUGUÊS-BR

Caio Guilherme Alvino Cruz e Leila Weitzel

279

EXPERIENCIA EN UN AMBIENTE VIRTUAL INTERACTIVO

Iris Sattolo, Liliana Lipera, Dario Minutella y Alejandro Altube

283

TECNOLOGÍAS DE APRENDIZAJE PARA SISTEMAS B-LEARNING

Andrés Ricardo Kabusch, Roberto Muñoz y María Alejandra Odetti

287

(8)

xi

COMITÉ DO PROGRAMA

CONFERÊNCIA IADIS IBERO-AMERICANA WWW/INTERNET

CO-CHAIRS

Flávia Maria Santoro, Universidade Federal do Estado do Rio de Janeiro, Brasil

Paula Miranda, Escola Superior de Tecnologia, IPS, Portugal

Mário Dantas, Universidade Federal de Santa Catarina (UFSC), Brasil

PROGRAM CO-CHAIRS

Pedro Isaías, The University of Queensland, Australia

Cristiano Costa, Universidade do Vale do Rio dos Sinos (UNISINOS), Brasil

MEMBROS DO COMITÉ

Alberto Cano Rojas, Virginia Commonwealth University, USA

Alejandro Gonzalez, National University of la Plata, Argentina

Alejandro Zunino, Tandil University, Argentina

Alessandro La Neve, Centro Universitário da FEI, Brasil

Álvaro Suárez Sarmiento, Las Palmas de Gran Canaria University, España

Amelia Zafra Gomez, Universidad de Córdoba, España

Ana Guimarães, Isla Gaia, Portugal

Angélica Caro, Universidad del Bio-Bio, Chile

Angélica de Antonio, Universidad Politécnica de Madrid, España

Anibal Zaldivar Colado, Universidad Autónoma de Sinaloa, México

Antonio Munoz Canavate, Universidad de Extremadura, España

Antonio Lencastre Godinho, ISLA-IPGT, Portugal

Armando Mendes, Universidade dos Açores, Portugal

Arnaldo Martins, Universidade de Aveiro, Portugal

Bráulio Alturas, ISCTE-IUL, Portugal

Carlos Serrão, ISCTE-IUL, Portugal

Carlos Rabadao, Instituto Politécnico de Leiria, Portugal

Cesar Guerra, Universidad Politecnica de San Luis Potosi, México

Claudia Marcos, Unicen University, Argentina

David Lizcano, Open University of Madrid, UDIMA, España

Dominique Decouchant, Universidad Autónoma Metropolitana, México

Elsa Mª Macías-López, Las Palmas de Gran Canaria University, España

Emanuel Peres, Universidade de Trás-os-Montes e Alto Douro, Portugal

Erick Lopez Ornelas, Universidad Autónoma Metropolitana (UAM), México

Eva Lorenzo Iglesias, Universidad de Vigo, España

Fábio Ferrentini Sampaio, NCE - UFRJ, Brasil

(9)

xii

Fátima Armas, Universidade de Coimbra, Portugal

Federico Botella, Miguel Hernandez University of Elche, España

Felipe Gustsack, Universidade de Santa Cruz do Sul, Brasil

Fernanda Alencar, Universidade Federal De Pernambuco, Brasil

Fernanda Campos, UFJF, Brasil

Fernando Ribeiro, Instituto Politécnico de Castelo Branco, Portugal

Fernando Moreira, Universidade Portucalense, Portugal

Francisco J. Garcia Penalvo, Universidad de Salamanca, España

Georgia Gomes, Universidade Federal Fluminense - UFF - INFES, Brasil

Guillermo Feierherd, Universidad Nacional de Tierra del Fuego, Argentina

Helia Guerra, Universidade dos Açores, Portugal

Henrique Teixeira Gil, Escola Superior de Educação - Instituto Politécnico, Portugal

Inmaculada Medina Bulo, Universidad de Cadiz, España

Iolanda Cláudia Sanches Catarino, Universidade Norte do Paraná - UNOPAR, Brasil

Isidro Ramos, Universidad Politécnica de Valencia, España

João Ferreira, ISCTE-IUL, Portugal

João Varajão, Universidade do Minho, Portugal

Joaquim Sousa Pinto, Universidade de Aveiro, Portugal

Jorge Barbosa, UNISINOS, Brasil

José Farinha, Universidade de Coimbra, Portugal

José Metrolho, Instituto Politécnico de Castelo Branco, Portugal

Juan Carlos Guerri, Universidad Politécnica de Valencia, España

Juan Jose Pardo, University of Castilla-la Mancha, España

Juan M. Vara, Universidad Rey Juan Carlos, España

Juan Boubeta-Puig, University of Cádiz, España

Katja Gilly, Universidad Miguel Hernandez, España

Leonor Teixeira, Universidade de Aveiro, Portugal

Lidia Oliveira Silva, Universidade de Aveiro, Portugal

Lucia Giraffa, PUCRS, Brasil

Luis Martinez, Universidad de Jaen, España

Luís Gomes, Universidade dos Açores, Portugal

Luis Marcelino, Instituto Politécnico de Leiria, Portugal

Luisa Domingues, ISTAR-IUL, Portugal

Marcelo Lobosco, UFJF, Brasil

Marco Painho, Universidade Nova de Lisboa, Portugal

Maria Ángeles Moraga, Universidad de Castilla-la Mancha, España

Maria Clicia Stelling de Castro, Universidade do Estado do Rio de Janeiro, Brasil

Maria Luque Rodriguez, Universidad de Cordoba, España

Miguel Ángel Marzal, Universidad Carlos III De Madrid, España

Monica Costa, Instituto Politécnico de Castelo Branco, Portugal

Nuno Fortes, Instituto Politécnico de Coimbra, ESTGOH, Portugal

P. Pablo Garrido Abenza, Universidad Miguel Hernandez, España

Pablo Muñoz Martínez, Universidad de Alcalá, España

Patricia Scherer Bassani, Universidade Feevale, Brasil

Paula Oliveira, Universidade de Trás-os-Montes e Alto Douro, Portugal

Paulo Trigo, Instituto Superior de Engenharia de Lisboa, Portugal

(10)

xiii

Pedro Pina, Instituto Politécnico de Coimbra - ESTGOH, Portugal

Ramiro Gonçalves, INESC TEC e Universidade Trás os Montes e Alto Douro, Portugal

Salvador Alcaraz, Universidad Miguel Hernandez, España

Silvia B. Gonzalez Brambila, Universidad Autónoma Metropolitana, México

Susana Torrado Morales, Universidad de Murcia, España

Vinicius Bezerra, Universidade Presbiteriana Mackenzie, Brasil

Vitor Gonçalves, Instituto Politécnico de Bragança, Portugal

Yolanda Escudero Martin, Universidad Carlos III de Madrid, España

YuskaAguiar, Universidade Federal da Paraiba, Brasil

Zita Sampaio, Instituto Superior Técnico, Portugal

CONFERÊNCIA IADIS IBERO-AMERICANA

COMPUTAÇÃO APLICADA

CO-CHAIRS

Cristiano Costa, Universidade do Vale do Rio dos Sinos (UNISINOS), Brasil

Paula Miranda, Escola Superior de Tecnologia, IPS, Portugal

PROGRAM CO-CHAIRS

Pedro Isaías, The University of Queensland, Australia

Mário Dantas, Universidade Federal de Santa Catarina (UFSC), Brasil

MEMBROS DO COMITÉ

Alejandra Garrido, Universidad Nacional de la Plata, Argentina

Anderson Luiz Fernandes Perez, Universidade Federal de Santa Catarina, Brasil

Andrea Teresa Riccio Barbosa, Universidade Federal de Mato Grosso do Sul, Brasil

Angel Perles Ivars, Universitat Politécnica de Valencia, España

Anibal Zaldivar Colado, Universidad Autónoma de Sinaloa, México

Antonio Marti Campoy, Universitat Politècnica de València, Spain

Antonio Rito-Silva, Universidade Técnica de Lisboa, Portugal

Carla Osthoff, Laboratorio Nacional de Computação Científica, Brasil

Carlos Holbig, Universidade de Passo Fundo, Brasil

Carlos Montez, Universidade Federal de Santa Catarina, Brasil

Carolina Tripp-Barba, Universidad Autónoma de Sinaloa, México

Celso Costa, Universidade Estadual do Rio Grande do Sul, Brasil

César Arturo Guerra García, Universidad Politécnica De San Luis Potosi, México

Claudio Toledo, Universidade de São Paulo, Brasil

(11)

xiv

Cristian Garcia Bauza, UNCPBA-PLADEMA-CONICET, Argentina

Eduardo Alchieri, Universidade de Brasilia, Brasil

Elisangela Silva Da Cunha Rodrigues, Universidade Federal de Mato Grosso do Sul, Brasil

Esteban Robles Luna, Lifia - UNLP, Argentina

Fabio Iaione, Universidade Federal de Mato Grosso do Sul, Brasil

Fabricio Augusto Rodrigues, Universidade Federal de Mato Grosso do Sul, Brasil

Fernando Osorio, Universidade de São Paulo - ICMC, Brasil

Francisco Rodríguez Ballester, Universitat Politècnica de València, España

Geraldo Francisco Donega Zafalon, UNESP/SJRP, Brasil

Giovanni Cordeiro Barroso, Universidade Federal do Ceará, Brasil

Henrique Freitas, Pontifícia Universidade Católica de Minas Gerais, Brasil

Javier Muguerza, Universidad del Pais Vasco, España

Joice Seleme Mota, Instituto Federal Catarinense, Brasil

Jorge Jesus Gomez Sanz, Universidad Complutense de Madrid, España

Jose L. Sanchez, Universidad de Castilla-la Mancha, España

Jose Luis Castillo Sequera, Universidad de Alcala, España

Jose Luis Vazquez-Poletti, Universidad Complutense de Madrid, España

Juan Pablo D Amato, Univ. Nacional del Centro de la Provincia de Bueno, Argentina

Juan Vicente Capella Hernandez, Universitat Politècnica de València, España

Karina Dos Santos Machado, Universidade Federal do Rio Grande, Brasil

Kelton Augusto Pontara da Costa, Fatec-Campus Bauru, Brasil

Kleinner Farias, Universidade do Vale do Rio dos Sinos, Brasil

Leandro Alves Neves, São Paulo State University (UNESP), Brasil

Luciano Gonda, Universidade Federal de Mato Grosso do Sul, Brasil

Manuel E. Acacio Sanchez, Universidad de Murcia, España

Marcelo Da Silva Hounsell, Universidade do Estado de Santa Catarina, Brasil

Márcio Castro, Federal University of Santa Catarina (UFSC), Brasil

Marco Antonio Sandini Trentin, Universidade de Passo Fundo, Brasil

Marco Aurélio Spohn, UFFS, Brasil

Marcos Fagundes Caetano, Univerisidade de Brasilia, Brasil

Margrit Krug, UNISINOS, Brasil

Maria Lencastre, Escola Politécnica de Pernambuco, Brasil

Maria Eugenia Cabello Espinosa, Universidad de Colima, México

Maria Jose Gil, Universidad de Deusto, España

Merisandra Côrtes de Mattos Garcia, Universidade do Extremo Sul Catarinense, Brasil

Olatz Arbelaitz, Universidad del Pais Vasco, España

Pablo Rabanal, Universidad Complutense de Madrid, España

Rafael Mayo-Garcia, Ciemat, España

Rafael Pasquini, Universidade Federal de Uberlândia, Brasil

Rafael Sachetto, Universidade Federal de São João de Rei, Brasil

Raimundo Correa de Oliveira, UEA, Brasil

Remo Suppi, Universitad Autónoma de Barcelona, España

Rogéria C. G.Souza, UNESP/SJRP, Brasil

Rogerio AntonioCasagrande, UNESC - Universidade do Extremo Sul Catarinense, Brasil

Roseclea Duarte Medina, Universidade Federal de Santa Maria, Brasil

Valeria Quadros, Universidade Federal de Mato Grosso do Sul, Brasil

Vicente González A., Universidad Católica, Paraguay

(12)

EVALUACIÓN DEL SESGO DE DATOS DE UNA

ASIGNATURA DE GRADO PARA ENTRENAR

ALGORITMOS DE APRENDIZAJE AUTOMÁTICO

Cinthia Vegega1,2, Pablo Pytel1,2 y María Florencia Pollo-Cattaneo1,2 1

Grupo de Estudio en Metodologías de Ingeniería en Software (GEMIS,. Universidad Tecnológica Nacional, Facultad Regional Buenos Aires, Argentina

2

Programa de Maestría en Ingeniería en Sistemas de Información, Facultad Regional Buenos Aires, Universidad Tecnológica Nacional, Argentina

RESUMEN

A pesar de sus amplias ventajas, para poder aplicar el Aprendizaje Automático en la implementación de un Sistema Inteligente es imprescindible primero recolectar datos representativos del problema que se quiere resolver, lo cual no es una tarea trivial. Además de ponerle algún límite práctico a la cantidad de datos a utilizar, es preciso estudiarlos cuidadosamente para conocer sus características. En caso contrario, los resultados del sistema podrán estar influenciados por sesgos ocultos pudiendo provocar que se esté resolviendo un problema diferente del que se quiere solucionar. En este contexto, este trabajo de investigación tiene como objetivo proponer y demostrar un método que permita a los desarrolladores de un Sistema Inteligente a identificar fuentes de sesgos en los datos y reducir así su impacto. Para ello, se evalúan dos versiones de datos sobre las evaluaciones de alumnos de una asignatura de grado comparando dichos resultados con el comportamiento de Sistemas Inteligentes entrenados a partir de los mismos.

PALABRAS CLAVE

Sistemas Inteligentes, Aprendizaje Automático, Datos de Entrenamiento, Sesgo. Redes Bayesianas, Redes Neuronales Artificiales

1. INTRODUCCIÓN

Los algoritmos de Aprendizaje Automático (o ‘Machine Learning’ en inglés) poseen amplias ventajas y gran potencial para resolver problemas complejos en diferentes dominios [Obama White House, 2016; Shah et al., 2016]. De hecho, según Ethem Alpaydin [2016], se los puede equiparar al comportamiento de los seres vivos por su capacidad para auto-adaptarse a partir de los datos recopilados. Sin embargo, el “Aprendizaje Automático no es magia, no puede conseguir algo de la nada” [Domingos, 2012]. Esto significa que también tienen limitaciones donde, a diferencia de la programación tradicional, la dificultad no se encuentra en cómo programar la lógica que deberá seguir el sistema software, sino en disponer de datos representativos del dominio para poder entrenarlos [Domingos, 2015]. Sólo de esta manera se podrán generan modelos válidos para ser empleados en la implementación de un Sistema Inteligente que resuelva el problema requerido [Cohen & Feigenbaum, 2014]. Por lo tanto, en las primeras etapas de un proyecto se debe tratar de identificar los datos disponibles, recolectarlos, integrarlos, limpiarlos y pre-procesarlos [Trujillano et al., 2004].

No obstante, conseguir los datos necesarios para ser suministrados al algoritmo no es una tarea trivial [Domingos, 2012]. Por ejemplo, tómese la cuestión de determinar la cantidad de información histórica que se necesita para producir los mejores resultados [Walczak, 2001]. Según [Hyndman & Kostenko, 2007], la respuesta habitual a la pregunta “¿cuántos datos se necesitan?" es "lo más posible" dado que cuantos más datos se tenga, mejor se podrá identificar la estructura del modelo. Pero, al llevar a cabo un proyecto real, es imprescindible ponerle algún límite a la cantidad de datos que se vayan a aplicar [Domingos, 2012]. Aunque existen publicaciones [Hyndman & Kostenko, 2007; Raudys. & Jain, 1991; Stockwell & Peterson, 2002; Walczak, 2001] donde se indican requerimientos mínimos para la cantidad de datos a ser aplicados, éstas se consideran excesivamente simplificadas debido a que ignoran aspectos como: la variabilidad aleatoria subyacente de los mismos o, las características del dominio del problema [Hyndman & Kostenko, 2007].

Conferências Ibero-Americanas WWW/Internet e Computação Aplicada 2017

(13)

Entonces, para definir la cantidad de datos a utilizar es necesario primero identificar las fuentes disponibles y comprender sus características [Trujillano et al., 2004]. Sólo así será posible recolectar datos suficientemente representativos del problema que se quiere resolver [Alpaydin, 2016].

En caso contrario, la eficacia del Sistema Inteligente será gravemente afectada. Esto se debe a que cuando los datos recolectados no son suficientemente representativos se dice que los mismos presentan un sesgo (o ‘bias’ en inglés). Este término es empleado en Psicología para referirse a la tendencia o prejuicio de una persona para percibir e interpretar la realidad generando así una distorsión de la misma [Pérez Porto & Gardey, 2010]. En Estadística, sesgo se usa para referirse a la diferencia entre el valor generado por el modelo y el valor esperado [Vivanco, 2005]. En el caso de Aprendizaje Automático sucede algo similar a ambas disciplinas. Si los datos presentan un sesgo, entonces se corre el riesgo de generar un Sistema Inteligente que no se basa en la realidad y produzca resultados erróneos [Domingos, 2012]. En otras palabras, se podría estar entrenando a los algoritmos para resolver un problema diferente del que se quiere resolver.

Sin embargo, a pesar de que los algoritmos de Aprendizaje Automático son intrínsecamente prejuiciosos [Collins, 2016], no es verdad que esto sea siempre algo malo. De acuerdo al principio de "la futilidad del aprendizaje libre de prejuicios" de Tom Mitchell [1980], los prejuicios son necesarios para que los algoritmos funcionen. Al eliminarlos puede parecer que se logra un objetivo deseable, pero en verdad el resultado se vuelve virtualmente inútil ya que un Sistema Inteligente ‘imparcial’ pierde la capacidad de generalización para procesar nuevos ejemplos. Entonces, aunque en la vida ordinaria el prejuicio es una palabra peyorativa, dado que las nociones preconcebidas son malas, en Aprendizaje Automático las nociones preconcebidas son indispensables para que el algoritmo pueda aprender [Domingos, 2015].

De todas maneras, es imprescindible conocer de antemano los sesgos asociados a los datos y al Sistema Inteligente, de forma que puedan ser entendidos por sus futuros usuarios para evitar malos entendidos y situaciones de discriminación [Collins, 2016; Crawford, 2016]. No es raro que desarrolladores con las mejores intenciones puedan producir inadvertidamente Sistemas Inteligentes con resultados prejuiciosos, porque incluso ellos pueden no entender en forma suficiente el problema, su contexto y los datos como para prevenir resultados no intencionados [Obama White House, 2016]. Lo peor de este escenario es que el sesgo puede ser tan sutil que no se detecte durante las pruebas [Datta et al., 2016]. Si luego ese sistema se pone en operación y los usuarios llegan a confiar ciegamente en los resultados, a largo plazo podrían provocar situaciones de sexismo, racismo y otras formas de discriminación [Crawford, 2016]. La relevancia de los prejuicios involuntarios en los Sistemas Inteligentes, es mejor entendida si se considera cómo estas situaciones están minando la confianza de los usuarios sobre los Sistemas Inteligentes [Dujmovic, 2017]. Aproximadamente el 42% de los ciudadanos de EE.UU. no utilizan Sistemas Inteligentes porque no confían en ellos. Se debe recalcar que esto no se debe a un rechazo a la tecnología, ya que en la misma encuesta se ha detectado que la mayoría de los estadounidenses creen que los Sistemas Inteligentes van a evolucionar hasta tener la capacidad de realizar tareas más complejas, descubrir nuevas soluciones y mejorar las condiciones de vida. El problema es que todavía no se tenga la seguridad de que sea suficientemente madura.

En este contexto, este trabajo de investigación tiene como objetivo proponer un método que permita a los desarrolladores de un Sistema Inteligente a identificar fuentes de sesgos en los datos y reducir así su impacto. Para ello, primero, se describe dicho método propuesto (sección 2) y, luego, se presenta el caso de estudio considerado dentro del ámbito académico junto con sus resultados (sección 3). Finalmente, se indican las conclusiones obtenidas (sección 4).

2. MÉTODO PROPUESTO BASADO EN EL EMPARRILLADO

Debido a la problemática identificada en la sección anterior, se propone un método para evaluar los datos recolectados para llevar a cabo el entrenamiento del Sistema Inteligente. Con este fin, se genera una representación de las particularidades que poseen los datos disponibles que es luego evaluada por los expertos del dominio para determinar si son suficientemente representativos para cumplir el objetivo propuesto. Para ello, el método se encuentra basado en la técnica de Emparrillado (o ‘Repertory Grid’), la cual ha sido definida originalmente por el psicólogo George Kelly en [1955] como un medio para ayudar a los enfermos mentales a tomar conciencia de las inconsistencias en sus propias escalas de valores. Sin embargo, en el presente trabajo, se utiliza el Emparrillado con una diferencia importante con respecto a su aplicación tradicional: la fuente de la información de las parrillas. En lugar de utilizar los valores

ISBN: 978-989-8533-70-8 © 2017

(14)

suministrados por personas sobre “cómo una característica dada se considera para un elemento particular” [Carrizo Moreno, 2012], estos valores se determinan directamente a partir de los mismos datos recolectados.

Concretamente, el método propuesto se encuentra dividido en dos fases como se puede observar en la Tabla 1 (por limitaciones de espacio no ha sido posible incluir en este documento la descripción completa del método, por lo que se ha preparado el reporte técnico [Vegega et al., 2017] donde se puede encontrar el procedimiento detallado) que se describe a continuación. En la Fase A se procesan los datos en forma semi-automática para confeccionar tres matrices bidimensionales, las cuales son denominadas ‘Parrillas’. Primero, se aplica la Red Neuronal de Kohonen SOM [Kohonen, 1998] como algoritmo de segmentación (o clustering) para generar clústeres de datos similares que son utilizados, junto a los valores del atributo clase, para generar la Parrilla de Elementos. Luego, se aplica un algoritmo de clasificación Näive Bayes [Zhang, 2004], que permite calcular la ponderación de la interdependencia entre los clústeres generados y los valores de los atributos de entrada para generar las Parrillas de Características (donde cada una se corresponde con uno de los polos de los valores de esos atributos de entrada). Una vez que se cuenta con dichas Parrillas, en la Fase B se aplican los pasos tradicionales del Emparrillado (es decir, el cálculo de distancias y las agrupaciones sucesivas por el criterio de mínima distancia) para generar los árboles de agrupaciones de Elementos y Características junto con su correspondiente interpretación. Finalmente, toda esta información generada es evaluada por los expertos de la organización en la última actividad.

De esta manera, a partir de las actividades realizadas se ha construido un modelo que les permitirá a los expertos determinar si los datos cumplen, o no, con la “imagen mental” que ellos tenían sobre los mismos. Si los datos cumplen la imagen, significará que son suficientemente representativos para resolver el problema; pero, en caso contrario, se deberán realizar acciones para solucionarlo (como por ejemplo, recolectar más datos) y así evitar posibles tendencias ocultas que tuvieran.

Tabla 1. Fases y Actividades del Método Propuesto

Fase Actividad Entradas Técnicas Salidas

A . C on fe cc ión d e las P ar ri ll as A.1- Preparación de los Datos - Tuplas de datos recolectados. Formateo, limpieza e

integración de datos - Tuplas de datos preparados. A.2- Segmentación

de los Datos

- Tuplas de datos preparados (sólo los atributos de entrada

sin el atributo clase).

RNA Kohonen SOM

- Tuplas de datos preparados con ID de clústeres asignados.

A.3- Diseño de la Parrilla de Elementos

- Tuplas de datos preparados (sólo el atributo clase) con ID de clústeres asignados.

Formateo de proporción de tuplas para cada clase conocida

e ID de clúster

- Parrilla de Elementos.

A.4- Ponderación de Atributos

- Tuplas de datos preparados (sólo los atributos de entrada) con ID de clústeres asignados.

Discretización de atributos de entrada y Näive Bayes

- Ponderación de ID de clústeres asignados y rangos de atributos de entrada.

A.5- Diseño de las Parrillas de Características

- Ponderación de ID de clústeres asignados y rangos de atributos de entrada. Extracción y formateo de ponderaciones - Parrillas de Características (Directa y Opuesta). B . F or m a li zac ión y A n á li si s d e las P a rr il las B.1- Clasificación

de los Elementos - Parrilla de Elementos.

Fórmula de distancia Manhattan y agrupación por

mínima distancia

- Matriz de Distancias entre Elementos unificada. B.2- Clasificación de las Características - Parrillas de Características (Directa y Opuesta). Fórmula de distancia Manhattan y agrupación por

mínima distancia

- Matriz de Distancias entre Características unificada.

B.3- Interpretación de los Resultados

- Matriz de Distancias entre Elementos unificada. - Matriz de Distancias entre Características unificada. Interpretación de las agrupaciones con su cardinalidad, conformación y similitudes - Árboles Ordenados de Elementos y Características. - Agrupaciones de Elementos y de Características. B.4- Discusión de los Resultados - Árboles Ordenados de Elementos y Características. - Agrupaciones de Elementos y de Características.

Sesión con los Expertos del dominio

- Análisis de las agrupaciones identificadas.

- Conclusiones sobre los datos recolectados.

Conferências Ibero-Americanas WWW/Internet e Computação Aplicada 2017

(15)

3. ANÁLISIS DE LOS DATOS DE LA ASIGNATURA DE GRADO

Con el objetivo de demostrar el funcionamiento del método propuesto, se utiliza como caso de estudio dos conjuntos de datos recolectados sobre las evaluaciones de alumnos de una asignatura de primer año de la carrera de ‘Ingeniería en Sistemas de Información’ dictada en la Facultad Regional Buenos Aires de la Universidad Tecnológica Nacional (Argentina). La asignatura considerada es ‘Sistemas y Organizaciones’ [UTN FRBA, 2008], la cual es de cursado obligatorio para los alumnos que hayan aprobado el curso de ingreso a la carrera (con aproximadamente 800 inscriptos) y se corresponde al tronco integrador del Plan de Estudios. La asignatura es anual, por lo cual, los temas teóricos y prácticos desarrollados durante la cursada se evalúan en dos exámenes parciales. La teoría incluye conceptos orientados a las incumbencias y el rol del Ingeniero en Sistemas de Información, así como la resolución de problemas mediante el empleado de Metodologías de Sistemas y, el Pensamiento Lineal y Sistémico (PLS). Por otro parte, la ejercitación práctica incluye, en el primer cuatrimestre, el desarrollo de diagramas de Organigramas y Cursogramas, mientras que, en el segundo cuatrimestre, se desarrollan Circuitos Administrativos. En caso de no aprobar algún tema en los exámenes parciales, los alumnos tienen la posibilidad de volver a rendir esos temas (hasta dos veces), en los exámenes recuperatorios correspondientes. Entonces, para aprobar la cursada el alumno deberá tener aprobado todos los temas (en el examen parcial o alguno de los dos recuperatorios) y, en caso de no hacerlo, el alumno deberá recursar la asignatura. Además, hay alumnos que abandonan la cursada, los cuales se distinguen por no aparecer en las actas de cursada (o TPA) al quedar libres por inasistencias.

En este contexto, los datos recolectados se corresponden a los resultados de las evaluaciones de alumnos que han cursado durante el año 2016. Como se ha mencionado anteriormente, estos datos se pueden clasificar en dos versiones. La versión inicial incluye sólo 14 atributos correspondientes a 75 registros con el desempeño de los alumnos en teoría y práctica de los exámenes (parciales y recuperatorios) de la asignatura así como el día del curso y el resultado de la cursada (es decir, si aprueba, no aprueba o directamente no figura en la TPA por cantidad de inasistencias), el cual es utilizado como atributo clase. Por otro lado, la segunda versión de los datos se denomina ‘extendida’ debido a que se han detallado los resultados de cada tema en cada examen (así, por ejemplo, la práctica del primer parcial se divide en dos atributos, uno para el ejercicio de Organigrama y otro para Cursograma) generando un total de 23 atributos. También se han agregado 51 registros de alumnos por lo que estos datos tienen un total de 126 filas.

A partir de estos datos recolectados, se busca implementar un Sistema Inteligente que permita predecir el desempeño de los alumnos a lo largo de toda la cursada. Debido a que cualquier error en las predicciones puede llevar a que los docentes, o alumnos, tomen decisiones equivocadas, se considera de gran importancia que el sistema presente resultados consistentes con el comportamiento normal de los alumnos de la asignatura. Por consiguiente, primero se evalúa si los datos son suficientemente representativos aplicando el método propuesto y discutiendo los resultados obtenidos con el jefe de cátedra que toma el rol de experto. Los resultados de dicha evaluación se presentan en la sección 3.1, donde se puede observar que una versión de datos no se considera representativa y que la otra sí lo es. Luego, se procede a implementar dos tipos de Sistemas Inteligentes, cuya conducta es comparada con dichos resultados en la sección 3.2.

3.1 Resultados de la Evaluación del Sesgo en los Datos

Primero, se procede a la aplicación del método propuesto sobre la versión inicial de los datos (cuyo detalle se encuentra disponible en la sección 3.2 del reporte técnico [Vegega et al., 2017]). Para ello, en su preparación (actividad A.1) se deben convertir los valores de los atributos de entrada en valores numéricos usando una tabla de conversión ad-hoc. Estos datos preparados son introducidos en la RNA Kohonen SOM generando así 6 clústeres cuyo ID es asignado a cada tupla (actividad A.2). A partir de estos valores, en la actividad A.3 se define la Parrilla de Elementos de 6x3 considerando la proporción de tuplas por cada valor del atributo clase (APRUEBA, NO_APRUEBA y NO_TPA) y cada ID de clúster. Luego, se convierten los valores de los 13 atributos de entrada en discretos (con dos rangos de igual ancho para cada uno) los cuales son utilizados junto con el ID de clúster en el operador Näive Bayes para determinar su ponderación (actividad A.4), y así definir las dos Parrillas de Características de 6x13 (actividad A.5). Con todas las Parrillas ya generadas, se procede a generar las matrices de distancias entre elementos y entre características que son luego unificadas por el criterio de mínima distancia (actividades B.1 y B.2 respectivamente). Teniendo en cuenta las agrupaciones obtenidas en la actividad anterior, se procede a generar los árboles ordenados correspondientes junto con su

ISBN: 978-989-8533-70-8 © 2017

(16)

interpretación (actividad B.3), la cual se describe a continuación:

Agrupaciones de los Elementos: En el análisis del atributo clase (es decir, el resultado de la

cursada), se han generado 2 grupos: los alumnos que no aprueban la cursada (valor NO_APRUEBA) tienen un comportamiento más similar a los que dejan la asignatura (valor NO_TPA), frente a los alumnos que aprueban la cursada por tener aprobados todos los temas (valor APRUEBA).

Agrupaciones de las Características: Para el resto de los atributos se han generado 8 grupos, 4

principales y 4 de características individuales. El primer grupo principal incluye las características idénticas entre sí, las cuales son los resultados de la teoría del primer cuatrimestre en el segundo recuperatorio (atributo

C1_2R_TEORIA) con los resultados de la práctica del segundo cuatrimestre en ambos recuperatorios (atributos C2_1R_PRACTICA y C2_2R_PRACTICA). Por otro lado, el segundo grupo principal incluye a los resultados de teoría del segundo cuatrimestre en ambos recuperatorios (atributos C2_1R_TEORIA y

C2_2R_TEORIA), mientras que el tercero incluye las características de teoría del primer cuatrimestre en el primer recuperatorio y teoría del parcial del segundo cuatrimestre (C1_1R_TEORIA y C2_P_TEORIA). Por último, con el mismo grado de similitud que el anterior, el cuarto grupo principal tiene a la teoría del parcial del primer cuatrimestre con la práctica del parcial del segundo cuatrimestre (de C1_P_TEORIA y

C2_P_PRACTICA). A estos grupos principales, se le agrega con una mayor distancia los resultados de la práctica del primer cuatrimestre tomada en ambos recuperatorios (C1_1R_PRACTICA y C1_2R_PRACTICA), y, con todavía mayor distancia, el día de cursada (CURSO), el cual no debería tener una influencia en los resultados de los exámenes. Por último, aparecen los resultados de la práctica tomada en el parcial del primer cuatrimestre (C1_P_PRACTICA).

Finalmente, en la actividad B.4, se le presenta al jefe de cátedra estas agrupaciones, las cuales son analizadas para detectar que muchos de los grupos obtenidos no concuerdan con la “imagen mental” que el experto tenía preconcebida. Por ejemplo, el grupo entre C1_P_TEORIA y C2_P_PRACTICA no tiene sentido para el experto, ya que dicha práctica debería estar asociada a C2_P_TEORIA o, tal vez, a C1_P_PRACTICA.

Por consiguiente, se procede a aplicar nuevamente el método para evaluar ahora la versión extendida de

los datos (tal como se puede ver en la sección 3.3 del reporte técnico), cuyas agrupaciones resultantes son:

Agrupaciones de los Elementos: En este caso, se obtienen los mismos grupos que se obtuvieron en

la versión inicial de los datos, sólo con una pequeña diferencia en las distancias en que se unen.

Agrupaciones de las Características: En este caso se han detectado 2 agrupaciones principales que

concentran los resultados de los temas que tienen el mayor parecido entre sí: la primera incluye 4 subgrupos

(C2_2R_PLS, C2_2R_CIRCUITOS y C2_2R_TEORIA en uno; C1_1R_TEORIA, C1_2R_TEORIA y

C1_2R_ORGANIGRAMA en otro; C1_2R_CURSOGRAMA y C1_2R_METODOLOGIA en el tercero; y

C2_1R_CIRCUITOS en el último) mientras que la segunda sólo 2 subgrupos (C2_P_CIRCUITOS con

C2_P_TEORIA; y C1_1R_METODOLOGIA con C2_P_PLS). En cambio, los 9 atributos restantes (C1_P_METODOLOGIA, C1_1R_ORGANIGRAMA, C1_1R_CURSOGRAMA, C2_1R_TEORIA, C2_1R_PLS,

C1_P_CURSOGRAMA, C1_P_ORGANIGRAMA, C1_P_PRACTICA y CURSO) se incorporan luego con diferentes niveles de similitud por lo que no generan ningún tipo de agrupación.

Al volver a discutir estos resultados con el experto se llega a la conclusión de que esta versión es representativa dado que ahora las similitudes entre los atributos de los grupos tienen sentido con la relación de los temas dictados en la asignatura. Es importante resaltar que esto no significa que los datos no sean sesgados, sino que el sesgo de los datos es consistente con el comportamiento de los alumnos de esta asignatura en particular. Esto significa que, si se quisiera usar estos datos para predecir el comportamiento de alumnos de otra asignatura, obviamente no servirían.

3.2 Influencia del Sesgo sobre la Conducta de Sistemas Inteligentes

Dado que los resultados presentados en la sección anterior podrían ser considerados como subjetivos (al depender de la opinión de un experto humano), se ha decidido llevar a cabo la implementación de una Red Bayesiana [Barber, 2012] y una Red Neuronal Artificial (RNA) [Yegnanarayana, 2009] con cada versión de los datos (los pasos realizados en estas implementaciones se encuentran en la sección 4 del reporte técnico). De esta manera, se busca probar que el sesgo detectado por el método propuesto está presente en la conducta de cada Sistema Inteligente. En el caso de las Redes Bayesianas, se analizan las distribuciones de probabilidades de los principales nodos teniendo en cuenta 4 escenarios (dependiendo si no se asigna ninguna evidencia en la red, asignando como evidencia que el alumno aprueba la cursada, que el alumno no aprueba

Conferências Ibero-Americanas WWW/Internet e Computação Aplicada 2017

(17)

la cursada y que la abandona no figurando en la TPA). Mientras que, en el caso de la RNA, se estudia la contribución e importancia relativa de las neuronas de entrada sobre las de salida usando los valores obtenidos por aplicar el algoritmo de Garson [Olden & Jackson, 2002] sobre los pesos de las conexiones.

En los gráficos de la Tabla 2 se resumen todos estos resultados para cada versión de los datos y tipo de Sistema Inteligente (en la sección 5 del reporte técnico se encuentran dichos gráficos con mayor calidad).

Tabla 2. Comparativo de la conducta de los Sistemas Inteligentes implementados

Gráficos de versión inicial de los datos Gráficos de versión extendida de los datos

Como se puede notar en la Tabla 2, para cada versión de los datos, se han colocado los atributos en el orden correspondiente a las principales agrupaciones generadas por el método, tal como se explica a continuación:

Para las características de la versión inicial de los datos se puede notar en los gráficos a la izquierda de la Tabla 2 que hay grupos de atributos que se diferencian del resto, distinguiéndose así 6 de las 8 agrupaciones generadas por el método (los dos grupos restantes corresponden a CURSO y C1_P_PRACTICA que no son

ISBN: 978-989-8533-70-8 © 2017

(18)

incluidos por ser los más distintos). Por un lado, los tres primeros atributos (C2_1R_PRACTICA,

C2_2R_PRACTICA y C1_2R_TEORIA) presentan un leve parecido con los dos últimos (C2_1R_TEORIA y

C2_2R_TEORIA), pero con distintas proporciones cuando el alumno no aprueba la cursada. Por otro lado, está el atributo C1_2R_PRACTICA que posee una distribución muy diferente al resto, por lo que queda sólo. Al mismo tiempo, a los atributos C1_1R_TEORIA y C2_P_TEORIA se los puede considerar similares al grupo de

C1_P_TEORIA y C2_P_PRACTICA, pero con diferencias en las tasas de aprobación. Por último, a

C1_1R_PRACTICA se lo puede considerar como un caso intermedio entre el grupo anterior y los dos últimos atributos (C2_1R_TEORIA y C2_2R_TEORIA), dado que comparte características de ambos.

Para las características de la versión extendida, cuyos gráficos se encuentran a la derecha de la Tabla 2, se incluyen sólo los 13 atributos de las principales agrupaciones entre los cuales se puede distinguir 6 subgrupos. Por un lado, los tres primeros atributos (C2_2R_PLS, C2_2R_CIRCUITOS y C2_2R_TEORIA), tienen un mayor parecido con los atributos C1_2R_CURSOGRAMA y C1_2R_METODOLOGIA, aunque hay diferencias en la proporción de ausentes y desaprobados. A su vez, a todos estos atributos se les puede notar cierto parecido con el grupo de C1_1R_TEORIA, C1_2R_TEORIA y C1_2R_ORGANIGRAMA, aunque tienen menos desaprobados en todas las situaciones. En cambio, C2_1R_CIRCUITOS presenta una conducta diferente con el resto. Por último, con los cuatro atributos restantes se pueden detectar dos subgrupos (C1_1R_METODOLOGIA con C2_P_PLS, y P_CIRCUITOS con C2_P_TEORIA) que tienen gran similitud entre sí.

Finalmente, con respecto a los valores del atributo clase en ambas versiones es posible advertir en los tres escenarios de la Red Bayesiana a los cuales se le ha designado evidencia, que los alumnos que no aprueban son un caso intermedio entre los otros dos: mientras que los alumnos que aprueban la cursada casi no tienen ausentes, los que no aprueban la cursada tienen cierta cantidad de ausentes, aunque no tan grande como los alumnos que no figuran en TPA.

De todo el análisis comparativo se puede concluir entonces, que las agrupaciones generadas (tanto para los atributos de entrada como clase) por el método permiten detectar conductas similares entre los nodos de la Red Bayesiana y la contribución relativa de la RNA. Es decir, que el sesgo detectado por el método para cada conjunto de datos, existe y se encuentra plasmado en la conducta del sistema al generar las predicciones.

4. CONCLUSIONES

Los algoritmos de Aprendizaje Automático pueden generar grandes beneficios a la sociedad mediante la automatización de tareas complejas. Sin embargo, también puede generar serios daños si los Sistemas Inteligentes resultantes no son correctamente validados para asegurarse de que no presenten prejuicios o tendencias que puedan perjudicar a algunos sectores de la sociedad. Esto se considera una situación adversa importante en la que ya se debe comenzar a trabajar dado que, en caso contrario, puede marcar un punto de quiebre que impida la proliferación de dichos sistemas. Al mismo tiempo, la solución de esta situación escapa a los aspectos tecnológicos del uso de Aprendizaje Automático, al tener que ver más con aspectos éticos y sociológicos, por lo que deberían ser abordados dentro de los procesos ingenieriles asociados a la implementación del sistema.

Por consiguiente, este trabajo busca asistir a los desarrolladores proponiendo un método semi-automático que permita evaluar los datos que serán utilizados para la implementación del Sistema Inteligente y detectar si tienen sesgos o tendencias ocultas. Para ello, el método se basa en la técnica de Emparrillado para construir un modelo que representa la “visión del mundo” a partir de los mismos datos. Dicho modelo es muy simple por lo que permite fácilmente a los expertos del dominio, detectar si los datos cumplen, o no, con la “imagen mental” que ellos tenían sobre los mismos.

Con el objetivo de demostrar y validar el funcionamiento del método propuesto se ha utilizado un caso de estudio en el ámbito académico considerando dos versiones de datos. Dado que el método propuesto ha permitido detectar que la primera versión de los datos presenta un sesgo contradictorio al comportamiento de los alumnos, los mismos han sido extendidos obteniendo un nuevo conjunto de datos con un sesgo consistente con dicho comportamiento, por lo cual, se considera como confiable para predecir el desempeño de los alumnos. Finalmente, se procede a la construcción de dos tipos de Sistemas Inteligentes con ambos conjuntos de datos, los cuales son analizados a partir de las agrupaciones generadas por el método. De este análisis, se puede concluir que el sesgo detectado por el método existe y afecta la conducta que exhibe cada sistema al realizar las predicciones solicitadas.

Conferências Ibero-Americanas WWW/Internet e Computação Aplicada 2017

(19)

REFERENCIAS

Alpaydin, E. (2016). Machine Learning: The New AI. MIT Press, USA. Barber, D. (2012) Bayesian Reasoning and Machine Learning. The MIT Press.

Carrizo Moreno, D. (2012). Comparación de efectividad de las técnicas de educción de requisitos software: visión novel

y experta. Ingeniare. Revista chilena de ingeniería, 20(3), 386-397.

Cohen, P. R. & Feigenbaum, E. A (2014). The handbook of Artificial Intelligence. Vol. 3. Butterworth-Heinemann. Collins, N. (2016, Septiembre 1). Artificial Intelligence Will Be as Biased and Prejudiced as Its Human Creators. Pacific

Standard. Disponible en https://goo.gl/2FWZ6r

Crawford, K. (2016, Junio 25). Artificial Intelligence’s White Guy Problem. The New York Times. Disponible en http://nyti.ms/28YaKg7

Datta, A., Sen, S. & Zick, Y. (2016) Algorithmic Transparency via Quantitative Input Influence: Theory and Experiments

with Learning Systems. Proceedings of 37th IEEE Symposium on Security and Privacy.

Domingos, P. (2012). A few useful things to know about Machine Learning. Communications of the ACM, 55(10), 78-87. Domingos, P. (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake our World.

Basic Books, USA.

Dujmovic, J. (2017, Marzo 30). Opinion: What’s holding back artificial intelligence? Americans don’t trust it. MarketWatch. Disponible en https://goo.gl/NHoC2s

Hyndman, R. J. & Kostenko, A. V. (2007). Minimum sample size requirements for seasonal forecasting models. Foresight, 6(Spring), 12-15.

Kelly, G.A. (1955). The Psychology of Personal Constructs. New York: Norton, USA. Kohonen, T. (1998). The self-organizing map. Neurocomputing, 21(1), 1-6.

Mitchell, T. M. (1980). The need for biases in learning generalizations. New Jersey: Department of Computer Science, Laboratory for Computer Science Research, Rutgers Univ. pp. 184-191.

Obama White House (2016). Preparing for the Future of Artificial Intelligence. Executive Office of the President, National Science and Technology Council (NSTC) & Office of Science and Technology Policy (OSTP). Obama White House Archives. Disponible en https://goo.gl/MwvpQY

Olden, J. D. & Jackson, D. A. (2002). Illuminating the “black box”: a randomization approach for understanding

variable contributions in artificial neural networks. Ecological modelling, 154(1), 135-150.

Pérez Porto, J. & Gardey, A. (2010). Definición de sesgo. Definicion.de. Disponible en http://definicion.de/sesgo/ Raudys, S. J. & Jain, A. K. (1991). Small sample size effects in statistical pattern recognition: Recommendations

for practitioners. IEEE Transactions on pattern analysis and machine intelligence, 13(3), 252-264.

Shah, J., Tambe, M. & Teller, A. (2g016). Artificial Intelligence and Life in 2030. One Hundred Year Study on Artificial Intelligence: Report of the 2015-2016 Study Panel. Stanford University. Disponible en https://goo.gl/AbzQdL Stockwell, D. R. & Peterson, A. T. (2002). Effects of sample size on accuracy of species distribution models. Ecological

modelling, 148(1), 1-13.

Trujillano, J., March, J. & Sorribas, A. (2004). Aproximación metodológica al uso de redes neuronales artificiales para

la predicción de resultados en medicina. Med Clin (Barc), 122(s1).

UTN FRBA (2008) Programa de la asignatura ‘Sistemas y Organizaciones’. Departamento de Sistemas, Universidad Tecnológica Nacional – Facultad Regional Buenos Aires. Disponible en https://goo.gl/z1jB6u

Vegega, C., Bazet, A., Pytel, P. & Pollo-Cattaneo M. F. (2017). Aplicación del Método Emparrillado Clusterizado sobre

los datos de Alumnos de una Asignatura de Grado. Reporte Técnico GEMIS-TD-2017-03-TR-2017-06. Disponible

en https://goo.gl/bQ6g1o

Vivanco, M. (2005). Muestreo estadístico. Diseño y aplicaciones. Editorial Universitaria, Argentina.

Walczak, S. (2001). An empirical analysis of data requirements for financial forecasting with neural networks. Journal of management information systems, 17(4), 203-222.

Yegnanarayana, B. (2009). Artificial neural networks. PHI Learning Pvt. Ltd.. Zhang, H. (2004). The optimality of naive Bayes. AA, 1(2), 3.

ISBN: 978-989-8533-70-8 © 2017

Referências

Documentos relacionados

A distinção entre obrigação e responsabilidade começou a ser feita na Alemanha, discriminando-se na relação obrigacional, dois momentos distintos: o do débito

Assim, não existe razão para uma criança ou um adolescente serem privados da possibilidade de ter uma família única e exclusivamente pela orientação sexual de

Mediante ao estudo realizado podemos verificar a importância da licitação no Brasil, sendo assim, entende-se licitação como sendo o procedimento através do qual

bullying, que é mais amplo que o termo mobbing, pois refere-se mais às ofensas individuais do que à violência organizacional, enquanto que o assédio moral diz

O estupro, em equidade ao crime de homicídio é um dos delitos mais intoleráveis pela sociedade, e isso, pelo fato de violação e agressão à dignidade..

A dispensa por justa causa é em poucas palavras o término do contrato, possuindo como causa a irregularidade cometida pelo empregado. Nos casos em que ocorra

Trata-se de um juízo de reprovação social, incidente sobre o fato e seu autor, devendo o agente ser imputável, atuar com consciência potencial de.. ilicitude, bem como

O presente artigo visa apresentar o cyberbullying, atual problema que as sociedades têm enfrentado nos últimos vinte anos, tendo como grande aliado os meios