Demonstração e avaliação de artefatos em DSR

2. METODOLOGIA

2.6. Demonstração e avaliação de artefatos em DSR

Um cuidado fundamental para o método DSR é a forma de demonstração e avaliação dos resultados da pesquisa, pois “a utilidade, qualidade e eficácia de um artefato devem ser

rigorosamente demonstradas por meio de métodos de avaliação bem executados” (Hevner et

al., 2004, p. 83). Como destacam Tremblay, Hevner e Berndt (2010), uma pesquisa apoiada na DSR não pode estar voltada unicamente para o desenvolvimento do artefato em si, mas também deve expor evidências de que ele poderá ser usado para resolver problemas reais. Há um consenso na literatura de que a avaliação é uma atividade central essencial para condução de pesquisa rigorosa em DSR (Venable, Pries-Heje, & Baskerville, 2012), para se examinar os resultados da pesquisa, incluindo os artefatos e as teorias de design. De acordo com Hevner et

al. (2004), os métodos de avaliação dos artefatos podem ser classificados em cinco tipos: observacionais, analíticos, experimentais, testes e descritivos. No Quadro 2-6 pode-se ver os métodos e técnicas propostos por estes autores para avaliar artefatos criados por DSR.

Quadro 2-6: Métodos para avaliação de design science research.

Tipo Métodos

Observacional

- Estudo de caso: estudar em profundidade o artefato existente ou criado, no ambiente de negócios.

- Estudo de campo: monitorar o uso do artefato em múltiplos projetos.

Analítico

- Análise estática: examinar a estrutura do artefato para qualidades estáticas (por exemplo, complexidade).

- Análise da arquitetura: estudar o encaixe do artefato na arquitetura técnica.

- Otimização: demonstrar as propriedades otimizadas inerentes ao artefato ou apresentar os limites de otimização associados ao comportamento do artefato.

- Análise dinâmica: estudar o artefato durante o uso para avaliar suas qualidades dinâmicas (por exemplo, desempenho).

Experimental

- Experimento controlado: estudar o artefato em um ambiente controlado para avaliar suas qualidades (por exemplo, usabilidade).

- Simulação: executar o artefato com dados artificiais.

Teste

- Teste funcional (black box): executar as interfaces do artefato para descobrir eventuais falhas e identificar defeitos.

- Teste estrutural (white box): realizar testes de cobertura de algumas métricas na implantação do artefato (por exemplo, passos para execução).

Descritivo

- Argumento informado: utilizar informação de bases de conhecimento (por exemplo, pesquisas relevantes) para construir um argumento convincente sobre a utilidade do artefato. - Cenários: construir cenários detalhados em torno do artefato para demonstrar sua utilidade. Fonte: Hevner et al. (2004, p. 86).

2.6.1. Outros métodos de avaliação: Focus Group e Thinking Aloud

Além dos métodos propostos por Hevner et al. (2004), presentes no Quadro 2-6, de acordo com Dresch et al. (2015) os artefatos também podem ser avaliados por meio da técnica de focus

group (grupo focal). Grupos focais permitem uma discussão mais profunda e colaborativa sobre

os artefatos construídos na pesquisa, podendo ser combinados com outras técnicas para apoiar discussões com grupos interessados, facilitar a triangulação dos dados e incentivar o surgimento de novas ideias sobre um problema particular. Esta técnica pode ser usada para apoiar tanto o desenvolvimento quanto a avaliação do artefato (Bruseberg & McDonagh-Philp, 2002).

Com grupos focais é possível fazer uma análise crítica dos resultados obtidos, permitindo o aperfeiçoamento das soluções para os problemas da pesquisa. Tremblay et al. (2010) propõem

dois tipos de grupos focais para avaliação de artefatos produzidos por DSR: (i) exploratório; e (ii) confirmatório. O grupo focal exploratório é mais indicado para avaliação do artefato – não apenas sua avaliação final, mas também as intermediárias, durante seu desenvolvimento, pois com seus resultados o pesquisador é capaz de aprimorar o artefato. Já o grupo focal confirmatório é recomendado para avaliar o teste de campo do artefato, caso seja realizado, podendo confirmar a utilidade do mesmo em seu campo de aplicação.

Outra alternativa bem interessante para se avaliar os artefatos de uma DSR é o chamado “thinking aloud” (em tradução literal, pensando em voz alta), um método empírico de avaliação para design (Siau & Rossi, 2011). Em geral, o método thinking aloud (TA) analisa a aplicação de uma ferramenta ou de um método por um usuário (Ericsson & Simon, 1993). Ele se baseia em estudos na área de psicologia cognitiva, e tem sido largamente empregado em pesquisas para análise do comportamento humano. Segundo Boren e Ramey (2000), na área de Sistemas de Informação (SI), o método TA tem sido usado com frequência em testes de usabilidade.

No entanto, este método também tem sido aplicado em outras áreas de pesquisa, com diferentes finalidades – no exemplo mencionado, consideram-se nos testes de usabilidade as deficiências do sistema sendo desenvolvido, ao contrário do uso do TA em psicologia cognitiva, com enfoque no processo cognitivo humano. Cumpre notar que, no caso dos testes de usabilidade de SI, de acordo com Hwang e Salvendy (Hwang & Salvendy, 2010), o thinking aloud é usado normalmente em uma fase avançada do processo de desenvolvimento dos sistemas.

O método TA utiliza um relatório verbal, intimamente ligado ao processo cognitivo de um entrevistado, sem influenciá-lo. Para atingir um protocolo de thinking aloud de alta qualidade e confiável, o entrevistador precisa seguir algumas regras: (i) deve-se coletar apenas dados verbais “brutos”, englobando todas as atividades que o participante deve realizar; não se deve incluir dados sobre introspecção, inferência ou opinião dos usuários; (ii) o entrevistador deve dar instruções detalhadas antes do início do experimento, pois o participante precisa falar fluentemente, sem interrupção; (iii) durante o experimento, o entrevistador deve relembrar o participante para continuar falando; e (iv) o entrevistador não deve intervir no discurso do participante – ou seja, além de relembrar o participante para continuar falando, nenhuma outra interação é permitida (Boren & Ramey, 2000; Ericsson & Simon, 1993).

Em relação ao tamanho da amostra, segundo a “regra 10±2” de Hwang e Salvendy (Hwang & Salvendy, 2010), deve-se ter de oito a dez participantes em um experimento de thinking aloud. Segundo estes autores, este número de participantes é necessário e suficiente para se descobrir 80% de todos os problemas de usabilidade. Com este arranjo, os testes podem ser aplicados aos participantes com um treinamento básico, e com um tempo de avaliação limitado.

2.6.2. Objetivos da avaliação em DSR

De acordo com Venable et al. (2012), a avaliação oferece evidências de que os artefatos desenvolvidos em DSR “funcionam”, ou atingem o propósito para o qual foram desenhados. Sem a avaliação, os resultados da pesquisa em DSR são afirmações não substanciadas de que os artefatos desenhados, se forem implementados e disponibilizados na prática, atingirão os seus objetivos. No entanto, a pesquisa científica requer evidência, assim, como ressaltam estes autores, para manter o rótulo de “ciência” na Design Science Research, é necessária uma avaliação suficientemente rigorosa.

Estes autores identificam na literatura de DSR cinco objetivos diferentes para fazer a avaliação: (i) avaliar a demonstração (instanciação) de um artefato projetado, visando determinar sua utilidade e eficácia para atingir o objetivo estabelecido; (ii) avaliar o conhecimento formalizado sobre a utilidade de um artefato em atingir o seu objetivo; (iii) avaliar um artefato projetado ou o conhecimento formalizado sobre ele, em comparação com a habilidade de outros artefatos projetados em atingir um objetivo similar; (iv) avaliar um artefato projetado ou o conhecimento formalizado sobre ele, em relação aos efeitos colaterais ou às consequências indesejadas de sua utilização; (v) avaliação formativa de um artefato projetado, para identificar fraquezas e áreas de aprimoramento para o artefato durante seu desenvolvimento. Na presente pesquisa, a avaliação se concentra nos objetivos (i) e (v) identificados por Venable et al. (2012).

Estes autores destacam ainda que, no design da avaliação da pesquisa DSR, há três objetivos principais que devem ser considerados: (i) rigor – em DSR o rigor tem dois significados, um deles é estabelecer que é o artefato que causa uma melhoria observada em sua demonstração, ou seja, a sua eficácia, o outro é estabelecer que o artefato funciona em uma situação real, ou seja, a sua efetividade; (ii) eficiência – uma avaliação da DSR deve trabalhar com restrições de recurso, como dinheiro, equipamentos ou tempo das pessoas, ou até minimizar o seu consumo; (iii) ética – qualquer tipo de pesquisa não deve colocar pessoas, animais, empresas ou o público

em risco, durante ou após sua avaliação. Embora esses objetivos possam ser conflitantes, deve- se balancear tais objetivos ao projetar a avaliação da pesquisa em DSR.

No documento Análise, design e inovação de modelos de negócios para servitização (páginas 60-64)