Cargando…
Étude, définition et modèlisation d'un Système Distribué à Grande Échelle: DIRAC - Distributed Infrastructure with Remote Agent Control
La physique des particules traite un grand nombre de données qui nécessitent des ressources de calculs particulièrement importantes. C'est pourquoi, les applications de simulation et d'analyse d'une expérience de physique des particules se retrouvent dans un environnement de calculs d...
Autor principal: | |
---|---|
Lenguaje: | fre |
Publicado: |
CPPM Aix-Marseille
2005
|
Materias: | |
Acceso en línea: | http://cds.cern.ch/record/926192 |
Sumario: | La physique des particules traite un grand nombre de données qui nécessitent des ressources de calculs particulièrement importantes. C'est pourquoi, les applications de simulation et d'analyse d'une expérience de physique des particules se retrouvent dans un environnement de calculs distribués à grande échelle. Souvent dénommés grilles, ces environnements se différencient des machines parallèles les ayant précédés par leurs natures intrinsèquement hétérogènes, partagées et fortement dynamiques. Ils se déclinent en deux types de système : les grilles institutionnelles qui mutualisent les ressources d'organismes par accord mutuel et les systèmes communautaires de calcul global dont le pair-à-pair est un exemple. Dans cette thèse, nous étudions ces systèmes et soulignons l'intérêt d'un système hybride conjuguant les deux approches. Nous proposons une implémentation d'un système unifié DIRAC (Distributed Infrastructure With Remote Agent Control). Cette solution est un système léger, extensible et robuste, qui offre une plate-forme transparente et uniforme pour une seule communauté ou organisation virtuelle. Le but est d'agréger le plus grand nombre de ressources de tout type avec une simplicité de déploiement, de maintenance et d'administration. Nous détaillons les technologies et mécanismes mis en oeuvre pour un tel environnement. DIRAC repose sur une architecture orientée service Agents/services régulant notamment la charge et les accès aux données dans le contexte de régime permanent et saturé (« High Throughput Computing ») générés par des simulations de Monte-carlo et des analyses de données. Ainsi, DIRAC a connecté plus de 6.000 processeurs répartis sur une soixantaine de sites dans le monde, a supporté plus de 5.500 tâches simultanées et a stocké, transféré et dupliqué plus de 100 téra-octets de données. Pour l'évaluation de l'ordonnancement de DIRAC dans un tel contexte, nous avons proposé une modélisation et développé un simulateur autorisant la comparaison de stratégies et d'architectures pour l'ordonnancement et le méta-ordonnancement. Avec cet outil, dont nous soulignons la validité, nous avons justifié l'approche de DIRAC « pull » face à d'autres approches centralisées et architectures de types « push ». |
---|