Rockport Networks lance 300 Gbps Switchless Fabric, révèle 396
MaisonMaison > Nouvelles > Rockport Networks lance 300 Gbps Switchless Fabric, révèle 396

Rockport Networks lance 300 Gbps Switchless Fabric, révèle 396

Sep 01, 2023

Par Tiffany Trader

27 octobre 2021

Rockport Networks est sorti furtif cette semaine avec le lancement de son architecture de réseau sans commutateur de 300 Gbit/s axée sur les besoins du calcul haute performance et du marché de l'IA à grande échelle. Les premiers clients incluent le Texas Advanced Computing Center (TACC), qui a installé la technologie de mise en réseau sur une partie de son système Frontera, ainsi que DiRAC/Durham University, qui utilise également l'équipement de mise en réseau. Le groupe de mise en réseau hautes performances de l'État de l'Ohio est également engagé avec Rockport, apportant son expertise en matière de prise en charge des normes.

La capacité de commutation distribuée de Rockport est mise en œuvre par son logiciel breveté rNOS, le système d'exploitation réseau qui s'exécute sur les cartes réseau. Le logiciel ne prend aucune ressource du serveur et est invisible pour le serveur, à part le fait qu'il voit une carte réseau Ethernet haute performance. Les fonctions réseau sont distribuées jusqu'à chaque nœud qui sont directement connectés les uns aux autres via un câblage passif. Il existe un plan de contrôle distribué et un plan de routage distribué, mais les nœuds s'auto-découvrent, s'auto-configurent et s'auto-rétablissent, selon Rockport. Le logiciel détermine le meilleur chemin à travers le réseau pour minimiser la congestion et la latence, tout en décomposant les paquets en plus petits morceaux (Rockport appelle ces FLIT) pour s'assurer que les messages hautement prioritaires ne sont pas bloqués par des données en masse.

En plus de rNOS, la solution Rockport Networks se compose de trois parties :

Le produit actuellement disponible est basé sur une version avancée du tore 6D, avec une grande diversité de trajets, selon le directeur de la technologie de Rockport, Matt Williams. Il prend en charge jusqu'à 1 500 nœuds à l'heure actuelle, mais l'architecture est conçue pour évoluer jusqu'à 100 000 nœuds et plus, en tirant parti de topologies comme Dragonfly, a déclaré le CTO.

Pour tester et valider sa solution, Rockport Networks travaille avec le Texas Advanced Computing Center (TACC) à Austin depuis environ un an. Sous les auspices de son nouveau centre d'excellence Rockport, TACC a récemment installé le réseau Rockport sur 396 nœuds de son supercalculateur Frontera. (Le système Dell à environ 8 000 nœuds, classé numéro dix sur la liste Top500, utilise Nvidia-Mellanox HDR InfiniBand comme interconnexion principale.) Les nœuds connectés à Rockport sont exploités pour la science de la production à l'appui de la recherche sur l'informatique quantique, liée à la pandémie la recherche et l'informatique d'intervention d'urgence, la gestion des événements météorologiques perturbateurs et d'autres catastrophes à grande échelle.

« Le TACC est très heureux d'être un centre d'excellence de Rockport. Nous exécutons diverses charges de travail informatiques avancées qui s'appuient sur une communication à large bande passante et à faible latence pour maintenir les performances à grande échelle », a déclaré Dan Stanzione, directeur du TACC et vice-président associé pour la recherche. à UT-Austin. "Nous sommes ravis de travailler avec une nouvelle technologie innovante comme la conception de réseau sans commutateur de Rockport.

"Notre équipe constate des premiers résultats prometteurs en termes de contrôle de la congestion et de la latence. Nous avons été impressionnés par la simplicité d'installation et de gestion. Nous sommes impatients de continuer à tester de nouvelles charges de travail plus importantes et d'étendre davantage le réseau Rockport Switchless dans notre centre de données », a-t-il ajouté.

Williams a rapporté que l'installation de Rockport au TACC n'a pris qu'une semaine et demie. "C'est littéralement un processus en deux étapes", a-t-il déclaré. "Branchez la carte et branchez le câble."

Williams a déclaré à HPCwire que les clients constatent une amélioration moyenne de 28 % par rapport à InfiniBand et une diminution de 3 fois la latence de bout en bout à grande échelle, exécutant leurs applications sous charge. "Sous charge, nous avons les meilleures performances globales et livrons un temps d'exécution de charge de travail toujours meilleur. Chaque charge de travail est différente, vous n'allez pas toujours voir 28 %. Parfois, nous serons supérieurs ou inférieurs, selon la sensibilité de cette charge de travail. aux conditions du réseau. Mais en moyenne, nous constatons environ 28 %."

Il a précisé que ces quatre tests (ci-dessus) comparaient la solution Rockport à la mise en réseau InfiniBand à 100 Gbps, mais a déclaré qu'ils voyaient des "résultats très similaires" dans les tests internes par rapport à InfiniBand à 200 Gbps. La charge de travail HPC la plus citée utilise un code d'hydrodynamique à maillage mobile.

Insistant sur la méthodologie et les comparaisons, Williams a déclaré : "l'important dans la définition des performances est qu'elles sont en production, qu'elles sont sous charge. De nombreux fournisseurs de réseaux traditionnels aiment se concentrer sur les performances ou l'infrastructure de base brutes non chargées. Mais lorsque vous les déployez en production, et que plusieurs charges de travail s'exécutent sur ce mélange de charges de travail sensibles à la bande passante et à la latence, vous commencez à constater une énorme dégradation des performances par rapport à ce que vous avez vu dans les tests de base. environnement chargé, comme vous le verrez dans un environnement de production multi-charges de travail."

La technologie de réseau Rockport a été testée avec des clients et est maintenant prête pour la production à grande échelle, selon Williams. Le HPC, l'IA et l'apprentissage automatique sont des marchés phares, la société ciblant des applications hautes performances très sensibles aux performances du réseau, principalement la latence, mais qui ont également besoin de performances de bande passante constantes.

"C'est une solution sans perte, mais nous utilisons toujours des interfaces hôtes standard. Ainsi, pour tester ou déployer notre solution, nos clients retirent simplement la carte IB existante, ou une carte réseau Ethernet dans certains cas, et la remplacent par notre carte", a déclaré Williams. . "Aucun des logiciels ne change ; aucun des pilotes ne change même. Nous semblons être une interface NIC Ethernet standard avec tous les déchargements avancés qu'elle fournit."

La solution livrée aux clients est la même que celle installée au TACC. Contrairement à une infrastructure de réseau HPC traditionnelle, qui donne la priorité à la connectivité des nœuds dans un rack, avec la configuration Rockport, les nœuds de différents racks sont directement connectés ensemble. Le plat à emporter est qu'il est moins sensible à l'emplacement physique. Williams a noté que le déploiement du TACC s'étend sur 11 racks d'équipements à travers le centre de données, fournissant des connexions directes sur cette distance.

L'annonce a reçu le soutien de la société d'analyse HPC Hyperion Research.

"Il existe des preuves significatives suggérant que les architectures sans commutateur ont la capacité d'augmenter considérablement les performances des applications, ce qui a traditionnellement coûté très cher", a déclaré Earl C. Joseph, PDG d'Hyperion Research, dans le cadre du lancement de l'actualité. "Rendre ces avancées plus accessibles sur le plan économique devrait grandement profiter à la communauté mondiale de la recherche et, espérons-le, améliorer les attentes par rapport à ce que nous pouvons attendre du réseau en matière de retour sur la recherche et de délai d'obtention des résultats."

Des déclarations de soutien ont également été émises par le DiRAC de l'Université de Durham et le Network-based Computing Lab de l'Ohio State University.

« L'équipe de Durham continue de repousser les limites lorsqu'il s'agit de découvrir les technologies de réseau HPC de nouvelle génération », a déclaré Alastair Basden, DiRAC/Durham University, directeur technique de COSMA HPC Cluster. "Sur la base d'un tore 6D, nous avons trouvé que le réseau Rockport Switchless était remarquablement facile à configurer et à installer. Nous avons examiné les codes qui reposent sur des communications point à point entre tous les nœuds avec des tailles de paquets variables où - généralement - la congestion peut réduire les performances sur les réseaux traditionnels. Nous avons pu obtenir une faible latence constante sous charge et nous sommes impatients de voir l'impact que cela aura sur des simulations de cosmologie à plus grande échelle. »

"Notre mission est de fournir à la communauté informatique avancée des bibliothèques standard telles que MVAPICH2 qui prennent en charge les meilleures performances possibles disponibles sur le marché. Nous nous faisons une priorité absolue de maintenir nos bibliothèques à jour avec des approches innovantes, comme la nouvelle architecture sans commutateur de Rockport Networks. ", a déclaré DK Panda, professeur et chercheur distingué en informatique à l'Ohio State University, et responsable du Network-Based Computing Research Group. "Nous attendons avec impatience notre partenariat continu avec Rockport pour définir de nouvelles normes pour nos prochaines versions."