│ No nosso estudo calculámos o IDI para determinar a melhoria média na sensibilidade preditiva do modelo
ADAMTS7 Mortalidade C
V.2 ESTUDO GENÉTICO e DOENÇA CORONÁRIA
V. 2.1 E STUDO GENÉTICO GENE A GENE E MULTIVARIADO
Pour pouvoir analyser l’ensemble des tâches sur les différents sites Web, il a été
nécessaire de développer un nouvel outil permettant d’automatiser le calcul des
indicateurs. Nos besoins bien précis, et le format de fichiers logs de Tobii Studio étant
bien spécifiques, il n’existait rien pouvant répondre à nos attentes. L’outil Web
« Application Analyzer » pour le traitement de données comportementales sur Internet
a été développé.
Le fonctionnement de l’outil était simple. Une fois les fichiers des participants
sélectionnés, il ne restait plus qu’à choisir les indicateurs que l’on souhaitait analyser.
Deux exports étaient possibles : par page (permettant de recueillir des données pour
une page précise, la page d’accueil par exemple) et par tâche (afin d’obtenir des
données générale sur la tâche).
Au-delà de la rapidité d’analyse de l’outil, l’intérêt résidait également dans sa
précision et sa fiabilité pour l’analyse des métriques. Il a été possible, par exemple, de
consolider l’analyse du scroll en incluant la notion de distance et ainsi rendre
l’indicateur plus fin. En effet, les principales différences concernant les patterns
identifiés pour l’analyse exploratoire s’expliquaient par leurs façons d’explorer la page
d’accueil. Il était donc important de poursuivre notre recherche en incluant des
analyses plus fines et complètes sur le comportement ayant lieu sur cette page.
Au total, 16 indicateurs ont été étudiés. Les métriques associées à un astérisque (*)
correspondent à ceux ayant été rajoutés ou modifiés par rapport à l’analyse
exploratoire.
Pour évaluer les performances de navigation, les mêmes métriques d’efficience à la
tâche que pour les analyses exploratoires ont été sélectionnées :
Temps total pour accomplir la tâche (en millisecondes) ; Catledge et Pitkow
(1995) ; Obendorf et Weireinch (2007) ; Cockburn et Mackenzie (2002)
Nombre total de pages visitées pour réaliser la tâche ;
Combinées à deux indicateurs de désorientation (Gwizdka & Spence, 2007) :
Nombre de retours en arrière ; Gwizdka et Spence (2007), Danielson (2002)
L’analyse des comportements sur la page d’accueil au moment de la première
visite a été affinée :
Le temps passé sur la page d’accueil (PA) lors de la première visite ; Herder et
Juvina, (2004)
Le nombre de clics gauche réalisés sur la page d’accueil lors de la première
visite ;
* Le temps de latence avant la première action. Cet indicateur définit le temps
pris par l’individu avant toute action sur la page (clic sur un menu déroulant,
clic sur un lien hypertexte afin de quitter la page ou scroll).
* La distance moyenne de scroll montant (en pixel). Il s’agit ici de pondérer la
distance de scroll montant par le nombre de scroll montant.
* La distance moyenne de scroll descendant (en pixel). Comme pour
l’indicateur de scroll montant, il s’agit de pondérer la distance de scroll
descendant par le nombre de scroll descendant.
o Comme pour l’étude de Buscher, White et Dumais (2012), les
coordonnées relatives au scroll sont vérifiées plusieurs fois par
seconde. Le scroll est comptabilisé dès que son défilement s’arrête plus
de 500 millisecondes minimum ou qu’il change de sens.
o Ces deux indicateurs permettent d’obtenir une moyenne de la distance
de scroll plus précise que l’indicateur nombre de scroll. En effet,
prenons l’exemple de 2 participants
S1et
S2ayant réalisés chacun une
distance de scroll descendant de 200 pixels.
S1a utilisé la barre
d’ascenseur 2 fois tandis que
S24 fois.
S1aura donc une distance
moyenne de scroll descendant de 100 pixels tandis que
S250 pixels.
Par rapport à
S1, S2réalise donc de plus petits scrolls par « à coups »
.o Ainsi, tout en tenant compte de la distance de scroll, cette nouvelle
métrique permet de mieux préciser et différencier les comportements
sur la page d’accueil.
La plupart des participants ayant visité plusieurs fois la page d’accueil, nous avons
également calculé des indicateurs permettant d’étudier la répartition des
comportements en tenant compte du nombre de visites sur cette page :
* Le nombre de visites sur la PA pendant la tâche ;
Temps moyen passé sur la PA en fonction du nombre de visites sur cette page ;
Le nombre moyen de clics gauche sur la PA en fonction du nombre de visites
sur cette page.
À ceux-ci ont été rajoutés les indicateurs relatifs au scrolling (Buscher, White &
Dumais, 2012) :
* Distance totale de scroll descendant en fonction du nombre total de scroll
descendant sur la PA ;
* Distance totale de scroll montant en fonction du nombre total de scroll
montant sur la PA.
o Ces deux indicateurs indiquent si les participants en revenant sur cette
page, l’ont davantage exploré ou non.
Afin d’avoir des données sur le comportement de navigation des participants sur
les autres pages visitées, nous avons calculé deux indicateurs :
* Temps moyen passé sur toutes les pages en fonction du nombre de pages
visitées ;
* Nombre moyen de clics gauche effectués pendant la tâche en fonction du
nombre de pages vues.
o Il nous semblait surtout pertinent d’étudier cette métrique car de
nombreuses pages sur les sites comportaient des menus déroulant et
cela pouvait nous renseigner sur l’exploration du site.
Enfin, pour chaque participant nous avons observé son parcours de navigation :
* Enchainement des URLs visitées.
o Afin de compléter les analyses et d’étayer les éventuels patterns qui
pourraient être trouvés, il était pertinent de différencier et d’estimer la
variabilité des parcours de navigation entre tous les participants. Tout
comme White et Drucker (2007), nous avons utilisé la Distance de
Levensthein (LD) (Levensthein, 1966). Cette méthode permet de
comparer les sessions de navigation deux à deux pour calculer une
distance qui prend en compte les coûts d’insertion, de remplacement et
de suppression nécessaires à la transformation d’une chaine en une
autre. L’indice varie de 0 (similarité parfaite) à 1 (dissimilarité
parfaite). Précisons qu’une chaine représente une session de
navigation. Chaque lettre de la chaine représente une URL.
Par exemple pour les parcours des sujets S1 et S2 :
S1 = ABCDE
S2 = ABBCE
La distance d’édition sera ici de 2 et l’indice de similarité (ou LD normalisée)
de 0,4. La chaine comportant 5 caractères, on divise par ce nombre.
Trois autres indicateurs ont été considérés ; scroll horizontal droit, scroll horizontal
gauche et clic droit, mais ces comportements n’ont jamais été observés dans
l’échantillon.
Comme pour l’analyse exploratoire nous avons souhaité faire une classification.
Toutefois, comme nous l’avons dit précédemment, les classes étant définies par les
branches du dendrogramme, l’une des principales difficultés peut concerner
l’interprétation et la qualité des classes obtenues afin d’extraire des inférences pour
comprendre la navigation des utilisateurs (Bittner, Meltzer & Trent, 1999 ; Chen &
Liu, 2003). Palis, Angelis, et Vakali (2007) recommandent donc d’opter pour une
approche qui sélectionne automatiquement le nombre de classes « optimales ».
Opérations à effectuer : remplacement de « C »
et « D »
La méthode du Dynamic Hybrid Cut (Langfelder, Zhang & Horvath, 2007) a été
utilisée avec le logiciel R. Elle distingue les classes très proches qui peuvent parfois
paraître imbriquées, détecte les « outsiders », découpe automatiquement les classes et
elle combine les avantages de la classification hiérarchique et du partitionnement
autour des médoïdes (PAM) (Kaufman & Rousseeuw, 2005). Un médoïde est le
représentant le plus central d’une classe. Le PAM réduit la distance entre les points
d’une classe et le médoïde désigné pour être le meilleur représentant de ce groupe.
Comme le PAM, la méthode du Dynamic Hybrid Cut s’applique sur les matrices de
dissimilarités, puis sur les informations du dendrogramme.
Le Dynamic Hybrid Cut procède en deux étapes :
1
èreétape : les branches considérées comme des classes sont détectées
2
èmeétape : tous les objets précédemment non affectés à un groupe sont testés
afin de voir s’ils ont une proximité suffisante avec les classes détectées dans la
première étape, ou s’ils sont considérés comme des « outsiders ».
Au final, les classes détectées par l’algorithme se voient chacune attribuer une couleur
et les objets non affectés (« outsiders ») sont assignés à la couleur grise (Figure 10).
No documento
Componente genético da doença coronária e interação com os fatores de risco tradicionais
(páginas 188-194)