• Nenhum resultado encontrado

PARTIE I Méthodologies statistiques pour l'analyse de la performance

CHAPITRE 5 META-ANALYSE DE LA PERFORMANCE

3.2 Variables inter-études

3.2.5 Type de produit

Tableau 5-14 : Effet du type de produit sur les niveaux de performance des panels

Une fois encore, seul le niveau de répétabilité est influencé par la variable étudié. Le type de produit ne modifierait donc pas le niveau d’accord ou de discrimination. Les écarts de répétabilité observés selon les catégories de produits doivent être considérés avec précaution car les effectifs sont très variables et certaines catégories reflètent les résultats de très peu de fournisseurs. Il nous semble donc plus raisonnable de laisser la question de l’effet du type de produit en suspens pour le moment. Elle pourra être envisagée à nouveau lorsque le nombre de fournisseurs représentés dans chaque catégorie de produit aura augmenté. Il serait également souhaitable d’affiner les catégories de produits car celles-ci regroupent des situations très différentes en l’état actuel.

4 Discussion - Conclusion

Le programme SensoBase a permis de rassembler des profils sensoriels d’origines très diverses.

Dans ce chapitre, ces données ont été utilisées afin de mesurer les niveaux moyens de trois indices de performance puis l’effet de cinq variables intra-étude et cinq variables inter-études sur les niveaux de performance des panélistes et des panels.

Concernant les variables intra-étude, les résultats montrent que le niveau d’accord et de discrimination augmentent avec le niveau d’expérience en analyse sensorielle. Le niveau de discrimination s’élève également avec le niveau scolaire, mais ce dernier ne modifie pas les niveaux d’accord et de répétabilité. L’âge agit significativement sur l’indice de discrimination uniquement, mettant en avant des performances plus élevées pour les personnes entre 30 et 45 ans. L’effet du type de descripteur est significatif pour tous les indices de performance. La répétabilité observée est meilleure pour les descripteurs de saveurs, d’arômes et d’odeurs, mais ce résultat pourrait être lié à l’utilisation d’une portion plus restreinte de l’échelle de notation pour ces descripteurs. Les niveaux d’accord et de discrimination sont beaucoup plus élevés pour les descripteurs visuels. Le niveau d’accord est également meilleur pour les descripteurs de texture que pour les termes d’arôme, de saveur et d’odeur, mais la discrimination de la texture est relativement faible. L’effet sexe n’est jamais significatif parmi les panélistes sélectionnés pour participer à des profils sensoriels, mais les hommes auraient tendance à utiliser une portion de l’échelle plus importante que les femmes, lors de la notation de descripteurs visuels uniquement.

L’analyse des variables inter-études montre que la source majeure de variabilité entre les profils sensoriels réunis dans la SensoBase provient de l’effet "fournisseur", hautement significatif (p<0,001) quel que soit l’indice de performance considéré. Cette variabilité de la performance est en outre plus importante au regard de l’indice de répétabilité. Pour les quatre autres variables étudiées (type d’échelle, laboratoire privé ou public, pays et type de produit), seul le niveau de répétabilité est significativement modifié selon les catégories de chaque facteur. L’effet est plus marqué concernant le facteur pays et montre un niveau de répétabilité plus faible des fournisseurs français. Puisque cet écart de performance n’est pas significatif concernant le niveau de discrimination, cela semble indiquer que l’utilisation de l’échelle est différente entre les fournisseurs français et étrangers. Une approche différente de l’entraînement des panélistes pourrait alors être en cause. Les différences observées sur le niveau de répétabilité pour les

variables "type d’échelle" et "laboratoire privé ou public“ sont moins flagrantes. Elles pourraient en outre être liées à la corrélation entre ces facteurs et les variables "fournisseurs" et "pays". Les niveaux d’accord et de discrimination ne sont pas modifiés en fonction des variables inter-études.

Ce chapitre présente les premiers résultats exploratoires obtenus à l’aide de l’ensemble des profils de la SensoBase. Il serait maintenant intéressant de vérifier la validité de ces résultats par des analyses de corrélation entre les différents effets étudiés. En fonction de l’enclin des fournisseurs à envoyer des données toujours plus complètes, nous espérons à l’avenir pouvoir étudier l’effet d’autres variables, comme la fréquence de consommation du produit de l’étude, la motivation des panélistes (curiosité, occupation du temps libre ou rémunération), le fait qu’ils soient fumeurs ou non… Afin d’améliorer la qualité des résultats présentés dans ce chapitre, en particulier concernant les variables inter-études, nous devons à présent diversifier l’origine des données et créer des partenariats avec un grand nombre de fournisseurs différents. Il serait en effet intéressant de pouvoir considérer le fournisseur en tant qu’unité expérimentale de nos analyses.

Chapitre 6 : Etude de l’Assessor Model à l’aide des données de la SensoBase

1 Introduction

Dans le domaine de l’analyse sensorielle, la communication entre les sensométriciens et les praticiens a parfois la réputation de ne pas être très efficace. Les premiers développent en effet des méthodes statistiques toujours plus sophistiquées, mais ont assez peu accès à des études sensorielles réelles pour tester leurs modèles. Les seconds produisent énormément de données sensorielles mais utilisent une palette d’outils statistiques restreinte et parfois inadaptée. Les causes de ce manque de communication sont multiples. Tout d’abord, la complexité des méthodes proposées par les statisticiens peut être un frein à leur utilisation. Les acteurs de l’analyse sensorielle ont besoin de comprendre le fonctionnement des outils statistiques qu’ils utilisent pour interpréter de manière exacte leurs résultats. La vulgarisation des méthodes statistiques est donc une étape indispensable qui n’est pas systématiquement réalisée. De plus, les méthodes développées ne sont pas toujours facilement accessibles. La plupart sont programmées dans des langages comme SAS®, MATLAB® ou R® et leur utilisation requiert un minimum de connaissances en informatique et en programmation. Les méthodes statistiques ne sont véritablement utilisées en analyse sensorielle que lorsqu’un logiciel qui les intègre existe.

Enfin, le faible intérêt porté aux nouvelles méthodes statistiques est dû au manque d’information sur le gain réel que constituerait l’utilisation de ces méthodes. En effet, les publications mettent en général en avant l’intérêt théorique des méthodes par rapport aux techniques précédentes, puis illustrent leur propos à l’aide d’un ensemble de données restreint. Cependant, les méthodes ne sont jamais testées sur un grand nombre d’études sensorielles. Cela permettrait de vérifier que les améliorations théoriques proposées se traduisent par une amélioration de la finesse des interprétations, voire une modification des conclusions.

L’Assessor Model, développé par Brockhoff en 1994, fait, à notre avis, partie de ces méthodes statistiques sous-exploitées en analyse sensorielle. Celle-ci permet de prendre en compte l’hétérogénéité entre panélistes de la dispersion des notes, ce que très peu de méthodes réalisent à notre connaissance. Un programme SAS® automatisé est disponible en ligne sur le site de

l’auteur (http://www.dina.kvl.dk/~per/). Les publications sur ce sujet (Brockhoff et Skovgaard, 1994; Brockhoff, 1994; Brockhoff, 1998) détaillent l’intégralité des calculs et mettent en évidence le gain d’information apporté par ce modèle. Cette méthode reste cependant très peu utilisée par les praticiens de l’analyse sensorielle.

L’objectif du travail présenté dans ce chapitre est d’utiliser l’Assessor Model sur un grand nombre de profils sensoriels afin de vérifier que le modèle théorique défini dans cette méthode s’ajuste bien à la réalité des données sensorielles. Ce modèle d’analyse de la performance d’un jury est ensuite comparé à l’approche traditionnelle, faisant intervenir l’analyse de la variance. La réflexion menée avec Brockhoff autour de ces premiers résultats a permis de proposer un nouveau modèle, qui sera présenté dans un deuxième temps.

2 Etude de l’Assessor Model et comparaison avec l’approche classique

2.1 Matériel et Méthodes

2.1.1 Le modèle classique

Par modèle "classique", nous entendons le modèle d’analyse de la variance le plus couramment utilisé pour l’analyse des données de profil sensoriel. Ce modèle a déjà été présenté au chapitre 1 (paragraphe 3.1.2). Les notations ont cependant été modifiées afin de correspondre à celles utilisées avec l’Assessor Model. La signification des indices i (produit), j (sujet) et k (répétition) reste cohérente avec les notations de l’ensemble de ce manuscrit.

eux entre ts indépendan Y

ijk ij

j ijk ij i j ijk

) N(0,

~

) N(0,

~

) N(0,

~

2 e 2

prod

* suj

2 suj

σ ε

σ γ

σ α

ε γ υ α

µ

+ + + +

=

(6-1)

Rappelons que ce modèle suppose l’homogénéité des variances des notes de chaque sujet (hypothèse d’homoscédasticité). La dispersion des notes est donc supposée identique à tous les panélistes. Rappelons également que le terme d’interaction est souvent considéré comme l’expression du désaccord entre les panélistes. Cette définition est exacte uniquement si les dispersions des notes sont effectivement homogènes entre les panélistes. Lorsque cette hypothèse est infirmée, le terme d’interaction reflète le désaccord entre les juges ainsi que la variabilité des dispersions. En pratique, cette distinction est très rarement prise en considération.

2.1.2 L’Assessor Model

Outre le fait que le niveau moyen de notation peut varier entre les panélistes (effet sujet), Brockhoff part du principe que la source majeure de variabilité entre les panélistes vient des différences de dispersion des notes et non d’un désaccord réel concernant les différences entre produit. L’Assessor Model se présente alors sous la forme suivante Brockhoff et Skovgaard, 1994 :

eux entre ts indépendan Y

j ijk

ijk i j j ijk

) N(0,

~ .

σ

2

ε ε υ β

α

+ +

= (6-2)

Le paramètre

α

j représente l’effet du facteur sujet (comme dans le modèle classique). Le paramètre

υ

i représente l’effet moyen de chaque produit d’après l’ensemble du panel (équivalent à l’effet produit du modèle classique). Le paramètre

β

j est un coefficient de dispersion des notes de chaque sujet par rapport aux autres panélistes. Ce coefficient multiplie l’effet produit. Un panéliste dont la valeur de

β

j est supérieure à la moyenne du groupe reflète un sujet dont la dispersion des notes est élevée. D’un point de vue géométrique, ce coefficient peut être perçu comme la pente de la régression des moyennes des produits du juge j sur les moyennes des produits du panel*. La figure 6-1 présente un exemple pour lequel le juge A disperse peu ses notes. Le paramètre

β

de ce panéliste est donc faible. Au contraire, la dispersion des notes du sujet B est importante, donc

β

est élevé.

* En pratique, lors de la régression, les notes du panel (en abscisse sur la figure 6-1) sont centrées et réduites alors que les notes de chaque sujet (en ordonnées) sont uniquement centrées. La moyenne des

β

j n’est donc pas égale à 1. Elle reflète la dispersion moyenne des notes des sujets. Sa valeur dépend également de l’unité de l’échelle de mesure.

Figure 6-1 : Représentation géométrique du paramètre β de l’Assessor Model

Par rapport au modèle classique, l’Assessor Model spécifie en outre une variance résiduelle pour chaque sujet (

σ

2j). Cette particularité va permettre de tester l’homogénéité de la répétabilité individuelle des panélistes. En revanche, ce modèle ne fait pas apparaître de terme lié au désaccord entre les panélistes. Cette source de variabilité est donc incluse dans l’erreur

ε

ij. Afin de comparer graphiquement les deux approches, le schéma de la figure 6-2 représente la décomposition de la variance totale en fonction de l’expression de chaque modèle.

Figure 6-2 : Décomposition de la variance selon le modèle classique ou l’Assessor Model La situation 1 met en évidence que le terme d’interaction du modèle classique renferme à la fois le désaccord et l’hétérogénéité de la dispersion des notes entre les panélistes (également appelée "scaling" dans ce chapitre). La partie haute de cette figure (situations 1 et 2) montre que l’Assessor Model explique une part de variabilité totale (zone bleue et grise) plus faible que le modèle classique. L’Assessor Model est en outre imbriqué dans le modèle classique. En effet, l’estimation des effets des facteurs sujet et produit sont identiques dans les deux modèles, mais l’estimation du scaling (paramètre

β

) n’utilise que J-1 degrés de libertés (un coefficient de dispersion

β

j par juge) alors que l’interaction en utilise (I-1)(J-1). Les situations 1 et 2 mettent également en évidence que la différence entre l’erreur du modèle classique* (estimée à l’aide des variances résiduelles individuelles

σ

2j0) et l’erreur du modèle de Brockhoff estimée à l’aide des variances résiduelles individuelles

σ

2j) correspond au désaccord "pur".

* en spécifiant cependant une variance par sujet pour être homogène avec l’Assessor Model

Si le modèle classique est bien ajusté aux données (figure 6-2, situation 3), cela sous-entend que la part de variance expliquée par le scaling est faible et que l’approximation de l’interaction par le désaccord est justifiée. Si l’Assessor Model est bien ajusté aux données (figure 6-2, situation 4) la part de désaccord est faible et l’erreur de ce modèle est comparable à celle du modèle classique.

Afin de valider son modèle et de tester la performance des panélistes, Brockhoff propose quatre tests, présentés dans les paragraphes suivants.

2.1.2.1 Test d’homogénéité des variances résiduelles

Ce test n’utilise pas l’Assessor Model mais le modèle classique dans lequel une variance résiduelle,

σ

2j0, est calculée pour chaque sujet. L’estimation de cette variance résiduelle peut être obtenue en réalisant un modèle d’ANOVA à un facteur (produit) pour chaque sujet. Le test d’hypothèse d’homogénéité des variances résiduelles individuelles est :

2 0 2

10

0: ... J

H

σ

= =

σ

La statistique de test utilisée est un khi-deux corrigé de Bartlett (Bartlett, 1937), dont le détail est présenté en annexe 8. Si le test est significatif, alors les variances résiduelles individuelles ne sont pas égales entre elles. Cela signifie que le niveau de répétabilité est différent d’un panéliste à l’autre. Dans ce cas, l’hypothèse d’homoscédasticité stipulée dans le modèle classique n’est pas respectée.

2.1.2.2 Test de la présence de désaccord

Ce test utilise le fait que l’Assessor Model est imbriqué dans le modèle classique (figure 6-2) et que la différence entre les variances résiduelles de ces deux modèles donne accès à la variance liée au désaccord "pur". Le test d’hypothèse est donc :

0 .

. . .

: 12 102 2 20

0 − = = JJ =

H

σ σ σ σ

Si l’hypothèse nulle est rejetée, l’écart entre les deux variances résiduelles est significatif. Il existe donc du désaccord "pur" entre les sujets. Ce résultat indique également que l’Assessor Model, emboîté dans le modèle classique, n’est pas aussi bien ajusté aux données que le modèle classique. Le modèle de Brockhoff ne devrait donc pas être utilisé. Au contraire, si l’hypothèse nulle est acceptée, l’Assessor Model est valide puisqu’il n’est pas significativement moins bien ajusté aux données que le modèle classique. Il pourrait donc être utilisé à la place du modèle classique. En outre, le désaccord entre les sujets est négligeable. Dans ces conditions, les paramètres estimés dans l’Assessor Model sont pertinents. Les deux derniers tests peuvent alors être conduits.

Le fait que les deux modèles soient emboîtés permet de tester leur égalité en calculant le logarithme du rapport de vraisemblance :

= 



=

J

j j

IK j

nce Vraisembla

1

2 0 2

log log

2

σ

σ

(6-3)

Si l’hypothèse d’égalité des deux modèles est vraie, la distribution de cet indice suit asymptotiquement une distribution du khi-deux avec IJ-(I+2J-2) degrés de libertés.

2.1.2.3 Test d’homogénéité de la dispersion des notes

Le coefficient de dispersion des notes de chaque panéliste est évalué par le paramètre

β

j. Le test d’hypothèse d’homogénéité des dispersions est donc :

H0:

β

1 =...=

β

J

Lorsque l’hypothèse nulle est rejetée, les paramètres individuels de dispersion des notes ne sont pas égaux. Certains sujets utilisent donc une portion de l’échelle de notation plus importante que d’autres. La stratégie de test utilise également le logarithme du rapport de vraisemblance.

L’Assessor Model est testé par rapport au modèle (emboîté) qui suppose l’égalité des coefficients

β

j, soit :

) N(0,

~ 2j

ijk ijk i j

Yijk

σ ε

ε υ α

+ +

= (6-4)

Le calcul de la vraisemblance associée permet de déterminer si le modèle (6-4) est équivalent à l’Assessor Model (équation 6-2). Lorsque la statistique de test du khi-deux indique que les modèles sont équivalents, l’ajout du paramètre

β

n’est pas justifié et la dispersion des notes est relativement homogène entre les sujets. Dans le cas contraire, l’Assessor Model apporte significativement plus d’information grâce au paramètre

β

: la dispersion des notes change d’un panéliste à l’autre.

2.1.2.4 Test d’homogénéité de la sensibilité

Brockhoff définit la sensibilité de chaque panéliste par le rapport (Brockhoff et Skovgaard, 1994) :

2 2

j j

éj

sensibilit

σ

=

β

(6-5)

Pour le panéliste j, une sensibilité élevée indique que la dispersion des moyennes des produits (

β

j) est forte par rapport à la dispersion moyenne des répétions de chaque produit (

σ

j). La

signification de cet indice est similaire à celle de la statistique de Fisher de l’effet produit. Les auteurs démontrent d’ailleurs la relation suivante (Brockhoff et Skovgaard, 1994) :

) 1 .(

1

2 .

2

=



 −

produit

erreur produit j

j a F

CM a CM

σ

β

(6-6)

Où "a" désigne une constante.

Le test d’hypothèse d’homogénéité de la sensibilité est donc :

2 2 2

1 2 1

0: ...

J

H J

σ β σ

β

= =

Lorsque l’hypothèse nulle est rejetée, la sensibilité des sujets est hétérogène. En d’autres termes, le pouvoir discriminant varie entre les panélistes. L’évaluation de l’homogénéité de la sensibilité utilise également le logarithme du rapport de vraisemblance. L’Assessor Model est alors testé par rapport au modèle qui impose l’égalité des rapports

β

j2/

σ

2j. Brockhoff démontre que la définition d’un tel modèle revient à ajouter une contrainte lors du calcul du coefficient

β

(l’explication détaillée est disponible dans Brockhoff, 2003). Lorsque l’égalité des modèles est vérifiée, les sensibilités entre panélistes sont homogènes.

Les quatre tests proposés permettent de caractériser la performance des panélistes. En revanche, aucun test de l’effet produit n’est proposé. Ceci est lié au fait que, dans l’Assessor Model, l’effet produit

υ

i, est multiplié au coefficient de dispersion de chaque sujet

β

j. Cette structure particulière ne permet pas de calculer directement la part de variabilité totale due à l’effet produit, donc l’effet produit ne peut pas être évalué avec ce modèle.

2.1.3 Comparaison des résultats des deux modèles

L’objectif de la comparaison des résultats entre le modèle classique et l’Assessor Model est d’évaluer si les différences théoriques entre ces deux approches ont une répercussion sur la détection du désaccord entre les panélistes et sur la significativité de l’effet produit. Afin d’obtenir une réponse fiable à cette question, 264 profils sensoriels de la SensoBase (parmi les 329 études utilisées dans le chapitre 5) ont été analysés en utilisant les deux modèles. Les études non sélectionnées sont celles sans répétitions, ou dans lesquelles le plan d’expérience était très déséquilibré.

La comparaison des modèles porte d‘abord sur la conclusion quant à l’existence du désaccord entre les panélistes. L’interaction produit*sujet du modèle classique est souvent interprétée comme un terme de désaccord entre les panélistes. L’Assessor Model utilise le test du logarithme du rapport de vraisemblance entre les deux modèles (paragraphe 2.1.2.2) pour détecter la présence de désaccord. Pour chaque descripteur de chaque profil, la comparaison peut aboutir à l’un des quatre diagnostics présentés dans le tableau 6-1.

Tableau 6-1 : comparaison de la significativité du désaccord entre le modèle classique et l’Assessor Model. Diagnostics possibles.

Lorsque les deux tests sont significatifs ou non significatifs simultanément (cases vertes), les conclusions sur la présence de désaccord sont identiques. Les résultats ne sont pas modifiés lors de l’utilisation du modèle de Brockhoff. Il est donc possible de conserver le modèle classique, plus simple à utiliser. En revanche, lorsque l’interaction du modèle classique est significative mais que le test du désaccord utilisé avec l’Assessor Model n’est pas significatif (case rouge), cela implique que l’interaction détecte en réalité des différences de dispersion des notes entre les panélistes (scaling). La conclusion du modèle classique sur la présence de désaccord est donc erronée. La dernière situation (case orange) correspond à la situation inverse : le test du désaccord est significatif, contrairement à l’interaction du modèle classique. L’explication d’un tel résultat est liée à la nature des deux tests. Ceux-ci ne mesurent pas la significativité du désaccord de la même manière, ce qui provoque parfois des différences de résultats. Ce type de conclusion devrait cependant rester marginale. Dans les deux situations problématiques (cases rouge et orange), nous chercherons à déterminer si le choix du modèle a un impact sur la significativité de l’effet produit. Cette question est primordiale pour l’animateur de panel, dont l’objectif final est de mesurer ces différences avec précision.

2.1.3.1 Détection du désaccord à tort par le modèle classique (case rouge)

Lorsque le modèle classique détecte du désaccord à tort (case rouge), le problème vient de l’hétérogénéité des dispersions des notes entre les panélistes. Celle-ci n’est pas prise en compte dans le modèle classique. Afin de palier ce problème, nous proposons de standardiser les données, de manière à homogénéiser la dispersion des notes entre les panélistes à l’aide de la transformation suivante :