ainsi que d’évaluer les performances obtenues. De même, il serait aussi opportun de vérifier si Halley supporte des opérations de repartitionnement sur de telles structures de données afin d’évaluer l’extensibilité de l’approche.

Bien que ces expériences montrent la faisabilité de l’approche sur un cas d’utili- sation réel tel que l’advection 2D à la granularité du plan, une étude approfondie de versions Cometopérant à la même granularité que Gysela est requise pour confir- mer les résultats obtenus jusque-là sur ce cas d’utilisation. À plus long terme, il semble pertinent d’analyser les limites de l’approche sur le cas de l’advection à grain fin. En effet, ce cas d’utilisation est suffisamment complexe pour être représentatif d’une gamme non négligeable d’applications HPC.

Seuls quelques cas de langages de relations simples ou spécialisés ont été mis au point. La conception de nouveaux langages de relations, permettant de supporter de nouveaux patrons de relations tels que des cas de réduction ou stencils plus com- plexes, reste à étudier. Étant donné que la version actuelle du modèle Cometpeut receler des limitations qui empêchent de supporter une gamme plus large de patrons de relations, ces limitations doivent être analysées et le modèle étendu si besoin. Afin de supporter des cas de relations spécifiques à une application et/ou peu fréquents, il est possible d’étendre Halley en permettant aux concepteurs d’applications de fournir un composant spécifiant les relations dans un langage de bas niveau tel que C++. De tels composants ont été mis au point dans des versions préliminaires de Cometet ont montré l’applicabilité de cette méthode [37]. Cependant, ces compo- sants sont dépendants d’autres greffons (p. ex. greffons de données partitionnées).

Il serait donc pertinent d’étudier comment les intégrer plus simplement. L’existence d’un modèle de relation généraliste, de plus haut niveau, est un problème ouvert.

Gestion avancée des données temporaires Lorsque les buffers de données tem- poraires sont volumineux, il est opportun de les allouer et de les libérer morceau par morceau afin de limiter la consommation mémoire et d’améliorer la localité des opérations (données continuellement contenues dans les caches). Cependant, une allocation par morceaux ajoute de nouveaux problèmes : le découpage des données n’est pas transparent aux yeux des concepteurs d’application, car il impacte la conti- guïté des données et donc la mise en œuvre des tâches et leur efficacité. Cela a donc un impact sur Comet et sa mise en œuvre Halley. De plus, la granularité des morceaux doit être contrôlée tout en respectant l’atomicité des fragments : si les morceaux sont trop grands, cela risque d’avoir un impact négatif sur les perfor- mances et la mémoire ; si les morceaux sont trop petits, l’allocateur mémoire risque de dégrader les performances globales et devenir un goulot d’étranglement. Enfin, les supports exécutifs doivent avoir connaissance de ces informations sans quoi ils risquent d’employer des stratégies d’ordonnancement inadéquates (p. ex. ordonnan- cement du graphe de tâches en largeur imposant l’allocation de la majeure partie des données temporaires). Idéalement, les supports exécutifs devraient même contrôler le cycle de vie des morceaux de données temporaires et adapter l’ordonnancement en conséquence, de manière à maximiser les performances tout en limitant l’occupation mémoire. Cependant, les approches HPC existantes ne supportent que partiellement

7.2. PERSPECTIVES 149 ces fonctionnalités.

Support des accélérateurs de calcul L’utilisation d’approches à base de tâches se révèle particulièrement prometteuse lorsqu’il s’agit d’exploiter efficacement des architectures matérielles hétérogènes, telles que celles disposant de GPU. Or, depuis quelques années, ces architectures peuvent être utilisées pour effectuer des calculs généralistes (GPGPU) afin d’accélérer certains types de codes HPC. Pour supporter ce type de matériel, une extension possible est de remplacer le port compute des métatâches par plusieurs interfaces : chaque interface est associée à un type d’unités de calcul spécifique (p. ex. CPU, GPU, FPGA, etc.) et peut être connectée à un composant responsable de la mise en œuvre d’une des variantes. L’ensemble des va- riantes peut être fourni à un support exécutif tel que StarPU capable de sélectionner automatiquement celles qui sont les plus adaptées à l’exécution afin d’exploiter le plus efficacement les ressources à disposition.

Support des architectures NUMA Bien que les supports exécutifs soient capables de supporter les architectures NUMA [115] contrairement à OpenMP1,Halley ne supporte pas efficacement ces architectures, car il ne prend pas en compte l’affi- nité entre les données et les nœuds NUMA. Le support de l’affinité dans Halley peut être ajouté en spécifiant, pour chaque tâche, sur quel nœud NUMA l’exécuter (directement ou indirectement en précisant que la tâche doit s’exécuter au même endroit qu’un fragment). Néanmoins, la faisabilité et le passage à l’échelle de cette approche restent à évaluer. De plus, l’affinité des tâches n’est pas le seul aspect à considérer pour supporter pleinement ce matériel : les données temporaires doivent être efficacement distribuées sur les nœuds NUMA, idéalement en considérant les métatâches qui opèrent sur ces données temporaires ainsi que la distribution de données des buffers sur lesquelles les métatâches travaillent (optimisation réalisable à l’échelle de l’assemblage uniquement). L’élaboration d’une méthode permettant d’exploiter pleinement des architectures NUMA est un problème ouvert qui peut impacter Cometainsi que sa mise en œuvre.

Support étendu des architectures distribuées Comet supporte les architec- tures distribuées grâce aux communicateurs MPI hérités directement de L2C et permet d’exploiter les architectures à mémoire partagée par le biais des sections dataflow. Cependant, l’utilisation d’une section entrecoupée de communications col- lectives MPI engendre des synchronisations inutiles et donc une sous-utilisation des ressources de calcul. Une solution pour résoudre ce problème consiste à adapter les sections dataflow afin qu’elles intègrent des métatâches de communications MPI.

Certains supports exécutifs tels que StarPU ou OmpSs sont ensuite capables de calculer un ordonnancement efficace en prenant en compte ces tâches de commu- nications de manière à recouvrir les communications MPI par l’exécution d’autres tâches soumises. Une alternative serait que la section soit distribuée sur plusieurs

1. La version 5.0 d’OpenMP ne supporte pas les spécificités des architectures NUMA

ressources permettant ainsi un ordonnancement global sur l’ensemble d’une plate- forme de calcul et une répartition du travail entre les nœuds.

Sélection automatique de paramètres Dans un assemblage Comet, certaines propriétés telles que le type des buffers de données, le type de partitionnement, les paramètres de partitionnement, l’expression des dépendances ou la présence et la réutilisation de données temporaires doivent être choisies explicitement et manuelle- ment. Déterminer les valeurs optimales peut être difficile et fastidieux, car l’optima- lité des propriétés dépend généralement de l’ensemble de l’assemblage ainsi que de l’architecture matérielle sous-jacente. Ces choix pourraient donc être automatisés.

Conception d’un modèle de plus haut niveau Afin d’offrir un niveau d’abstrac- tion plus élevé propice à la conception des applications HPC, un modèle de plus haut niveau est à construire au-dessus de Comet. Un tel modèle pourrait être hiérar- chique, générique et reconfigurable. De plus, ce modèle de plus haut niveau devrait idéalement être capable d’exprimer des traitements cycliques ou facultatifs dans les assemblages de Comettout en palliant les problèmes de synchronisation issus des sections dataflow. Les modèles à base de flux de travaux offrent des mécanismes de composition qui semblent adaptés à la résolution de ce problème.

