• Nenhum resultado encontrado

│ No nosso estudo calculámos o IDI para determinar a melhoria média na sensibilidade preditiva do modelo

ADAMTS7 Mortalidade C

V.2 ESTUDO GENÉTICO e DOENÇA CORONÁRIA

V. 2.1 E STUDO GENÉTICO GENE A GENE E MULTIVARIADO

Pour pouvoir analyser l’ensemble des tâches sur les différents sites Web, il a été

nécessaire de développer un nouvel outil permettant d’automatiser le calcul des

indicateurs. Nos besoins bien précis, et le format de fichiers logs de Tobii Studio étant

bien spécifiques, il n’existait rien pouvant répondre à nos attentes. L’outil Web

« Application Analyzer » pour le traitement de données comportementales sur Internet

a été développé.

Le fonctionnement de l’outil était simple. Une fois les fichiers des participants

sélectionnés, il ne restait plus qu’à choisir les indicateurs que l’on souhaitait analyser.

Deux exports étaient possibles : par page (permettant de recueillir des données pour

une page précise, la page d’accueil par exemple) et par tâche (afin d’obtenir des

données générale sur la tâche).

Au-delà de la rapidité d’analyse de l’outil, l’intérêt résidait également dans sa

précision et sa fiabilité pour l’analyse des métriques. Il a été possible, par exemple, de

consolider l’analyse du scroll en incluant la notion de distance et ainsi rendre

l’indicateur plus fin. En effet, les principales différences concernant les patterns

identifiés pour l’analyse exploratoire s’expliquaient par leurs façons d’explorer la page

d’accueil. Il était donc important de poursuivre notre recherche en incluant des

analyses plus fines et complètes sur le comportement ayant lieu sur cette page.

Au total, 16 indicateurs ont été étudiés. Les métriques associées à un astérisque (*)

correspondent à ceux ayant été rajoutés ou modifiés par rapport à l’analyse

exploratoire.

Pour évaluer les performances de navigation, les mêmes métriques d’efficience à la

tâche que pour les analyses exploratoires ont été sélectionnées :

 Temps total pour accomplir la tâche (en millisecondes) ; Catledge et Pitkow

(1995) ; Obendorf et Weireinch (2007) ; Cockburn et Mackenzie (2002)

 Nombre total de pages visitées pour réaliser la tâche ;

Combinées à deux indicateurs de désorientation (Gwizdka & Spence, 2007) :

 Nombre de retours en arrière ; Gwizdka et Spence (2007), Danielson (2002)

L’analyse des comportements sur la page d’accueil au moment de la première

visite a été affinée :

 Le temps passé sur la page d’accueil (PA) lors de la première visite ; Herder et

Juvina, (2004)

 Le nombre de clics gauche réalisés sur la page d’accueil lors de la première

visite ;

 * Le temps de latence avant la première action. Cet indicateur définit le temps

pris par l’individu avant toute action sur la page (clic sur un menu déroulant,

clic sur un lien hypertexte afin de quitter la page ou scroll).

 * La distance moyenne de scroll montant (en pixel). Il s’agit ici de pondérer la

distance de scroll montant par le nombre de scroll montant.

 * La distance moyenne de scroll descendant (en pixel). Comme pour

l’indicateur de scroll montant, il s’agit de pondérer la distance de scroll

descendant par le nombre de scroll descendant.

o Comme pour l’étude de Buscher, White et Dumais (2012), les

coordonnées relatives au scroll sont vérifiées plusieurs fois par

seconde. Le scroll est comptabilisé dès que son défilement s’arrête plus

de 500 millisecondes minimum ou qu’il change de sens.

o Ces deux indicateurs permettent d’obtenir une moyenne de la distance

de scroll plus précise que l’indicateur nombre de scroll. En effet,

prenons l’exemple de 2 participants

S1

et

S2

ayant réalisés chacun une

distance de scroll descendant de 200 pixels.

S1

a utilisé la barre

d’ascenseur 2 fois tandis que

S2

4 fois.

S1

aura donc une distance

moyenne de scroll descendant de 100 pixels tandis que

S2

50 pixels.

Par rapport à

S1, S2

réalise donc de plus petits scrolls par « à coups »

.

o Ainsi, tout en tenant compte de la distance de scroll, cette nouvelle

métrique permet de mieux préciser et différencier les comportements

sur la page d’accueil.

La plupart des participants ayant visité plusieurs fois la page d’accueil, nous avons

également calculé des indicateurs permettant d’étudier la répartition des

comportements en tenant compte du nombre de visites sur cette page :

 * Le nombre de visites sur la PA pendant la tâche ;

 Temps moyen passé sur la PA en fonction du nombre de visites sur cette page ;

 Le nombre moyen de clics gauche sur la PA en fonction du nombre de visites

sur cette page.

À ceux-ci ont été rajoutés les indicateurs relatifs au scrolling (Buscher, White &

Dumais, 2012) :

 * Distance totale de scroll descendant en fonction du nombre total de scroll

descendant sur la PA ;

 * Distance totale de scroll montant en fonction du nombre total de scroll

montant sur la PA.

o Ces deux indicateurs indiquent si les participants en revenant sur cette

page, l’ont davantage exploré ou non.

Afin d’avoir des données sur le comportement de navigation des participants sur

les autres pages visitées, nous avons calculé deux indicateurs :

 * Temps moyen passé sur toutes les pages en fonction du nombre de pages

visitées ;

 * Nombre moyen de clics gauche effectués pendant la tâche en fonction du

nombre de pages vues.

o Il nous semblait surtout pertinent d’étudier cette métrique car de

nombreuses pages sur les sites comportaient des menus déroulant et

cela pouvait nous renseigner sur l’exploration du site.

Enfin, pour chaque participant nous avons observé son parcours de navigation :

 * Enchainement des URLs visitées.

o Afin de compléter les analyses et d’étayer les éventuels patterns qui

pourraient être trouvés, il était pertinent de différencier et d’estimer la

variabilité des parcours de navigation entre tous les participants. Tout

comme White et Drucker (2007), nous avons utilisé la Distance de

Levensthein (LD) (Levensthein, 1966). Cette méthode permet de

comparer les sessions de navigation deux à deux pour calculer une

distance qui prend en compte les coûts d’insertion, de remplacement et

de suppression nécessaires à la transformation d’une chaine en une

autre. L’indice varie de 0 (similarité parfaite) à 1 (dissimilarité

parfaite). Précisons qu’une chaine représente une session de

navigation. Chaque lettre de la chaine représente une URL.

Par exemple pour les parcours des sujets S1 et S2 :

S1 = ABCDE

S2 = ABBCE

La distance d’édition sera ici de 2 et l’indice de similarité (ou LD normalisée)

de 0,4. La chaine comportant 5 caractères, on divise par ce nombre.

Trois autres indicateurs ont été considérés ; scroll horizontal droit, scroll horizontal

gauche et clic droit, mais ces comportements n’ont jamais été observés dans

l’échantillon.

Comme pour l’analyse exploratoire nous avons souhaité faire une classification.

Toutefois, comme nous l’avons dit précédemment, les classes étant définies par les

branches du dendrogramme, l’une des principales difficultés peut concerner

l’interprétation et la qualité des classes obtenues afin d’extraire des inférences pour

comprendre la navigation des utilisateurs (Bittner, Meltzer & Trent, 1999 ; Chen &

Liu, 2003). Palis, Angelis, et Vakali (2007) recommandent donc d’opter pour une

approche qui sélectionne automatiquement le nombre de classes « optimales ».

Opérations à effectuer : remplacement de « C »

et « D »

La méthode du Dynamic Hybrid Cut (Langfelder, Zhang & Horvath, 2007) a été

utilisée avec le logiciel R. Elle distingue les classes très proches qui peuvent parfois

paraître imbriquées, détecte les « outsiders », découpe automatiquement les classes et

elle combine les avantages de la classification hiérarchique et du partitionnement

autour des médoïdes (PAM) (Kaufman & Rousseeuw, 2005). Un médoïde est le

représentant le plus central d’une classe. Le PAM réduit la distance entre les points

d’une classe et le médoïde désigné pour être le meilleur représentant de ce groupe.

Comme le PAM, la méthode du Dynamic Hybrid Cut s’applique sur les matrices de

dissimilarités, puis sur les informations du dendrogramme.

Le Dynamic Hybrid Cut procède en deux étapes :

 1

ère

étape : les branches considérées comme des classes sont détectées

 2

ème

étape : tous les objets précédemment non affectés à un groupe sont testés

afin de voir s’ils ont une proximité suffisante avec les classes détectées dans la

première étape, ou s’ils sont considérés comme des « outsiders ».

Au final, les classes détectées par l’algorithme se voient chacune attribuer une couleur

et les objets non affectés (« outsiders ») sont assignés à la couleur grise (Figure 10).