Jul 14, 2023
Meta, MIT e outros testam braço robótico em infraestrutura óptica de IA
Por Agam Shah 19 de abril de 2023 Pesquisadores da Meta, MIT e outras instituições conectaram servidores com uma dúzia de GPUs Nvidia com interruptores ópticos e um braço robótico, desenvolvendo uma nova interconexão que poderia
Por Agam Shah
19 de abril de 2023
Pesquisadores da Meta, do MIT e de outras instituições conectaram servidores com uma dúzia de GPUs Nvidia com interruptores ópticos e um braço robótico, desenvolvendo uma nova interconexão que poderia ser usada para aprendizado de máquina. A estrutura, chamada “TopoOpt”, pode criar topologias de rede dinamicamente, dependendo das necessidades de computação. A tecnologia surge num momento em que os computadores de alto desempenho estão sendo pressionados pela adoção mais ampla de tecnologias de IA como o ChatGPT, que está testando os limites da supercomputação de IA da Microsoft.
Um artigo sobre a tecnologia foi apresentado no Simpósio USENIX sobre Design e Implementação de Sistemas em Rede, realizado esta semana.
TopoOpt usa algoritmos para encontrar as técnicas de computação paralela mais rápidas com base em informações como requisitos de processamento, recursos de computação disponíveis, técnicas de roteamento de dados e topologia de rede. Os pesquisadores também aprimoraram o recurso AllReduce da Nvidia, que minimiza o tempo de comunicação entre GPUs e outros componentes.
“O TopoOpt cria partições dedicadas para cada trabalho de treinamento usando switches ópticos reconfiguráveis e painéis de conexão, e otimiza conjuntamente a topologia e a estratégia de paralelização dentro de cada partição”, escreveram os pesquisadores.
Os pesquisadores testaram o TopoOpt dentro da infraestrutura Meta, usando uma dúzia de servidores Asus ESC4000A-E10, cada um equipado com uma GPU A100, NICs HPE e uma NIC Mellanox ConnectX5 de 100 Gbps. As NICs possuíam transceptores ópticos com fibras breakout.
“TopoOpt é o primeiro sistema que cootimiza a topologia e a estratégia de paralelização para cargas de trabalho de ML e está atualmente sendo avaliado para implantação na Meta”, disseram os pesquisadores.
A configuração também usa um patch panel da Telescent que reconfigura uma rede usando “um braço robótico que pega uma fibra no lado de transmissão e a conecta a uma fibra no lado de recepção”, disse o jornal. O braço robótico – que é controlado por software – move-se para cima e para baixo para conectar a fibra de transmissão com uma fibra receptora em qualquer lugar do sistema. Isso proporciona a flexibilidade e a elasticidade necessárias para reconfigurar rapidamente uma rede. Os painéis de patch já são amplamente utilizados em aplicações comerciais, mas agora estão sendo propostos para uso em datacenters.
O Google apresentou recentemente um artigo detalhando como usou um supercomputador de IA com interruptores de circuito óptico para melhorar a velocidade de treinamento em seus chips TPU v4, mantendo baixo o consumo de energia. A comutação de circuito óptico (OCS) na configuração do Google não é tão móvel quanto um braço robótico, mas usa espelhos para alternar entre fibras de entrada e saída. A configuração do Google também foi uma plataforma de testes maior, com implantação em escala em 4.096 TPUs.
Os pesquisadores optaram pelo patch panel porque descobriram que os switches ópticos estilo Google eram “cinco vezes mais caros” e também suportavam menos portas. Ao mesmo tempo, os pesquisadores disseram que a tecnologia OCS, como a usada no Google, destina-se a implantações em grande escala. “A principal vantagem dos OCSs é que sua latência de reconfiguração é quatro ordens de magnitude mais rápida do que os painéis de conexão”, escreveram os pesquisadores.
O TopoOpt pré-provisiona os requisitos de computação e rede e está pronto para funcionar assim que os servidores estiverem prontos e a tarefa estiver pronta para implantação. “Já sabemos a sequência de chegada dos trabalhos e o número de servidores exigidos por cada trabalho”, escreveram os investigadores, acrescentando que “este design permite que cada servidor participe em duas topologias independentes”.
Os pesquisadores concluíram que o TopoOpt forneceu um tempo de iteração de treinamento 3,4 vezes mais rápido do que outra técnica chamada “fat-tree”, na qual o backbone da rede é a peça central da infraestrutura, que então distribui dados para múltiplas camadas de switches estáticos conectando o back-end da rede central. hardware para servidores front-end. Essa técnica é amplamente utilizada hoje.
A utilização de redes ópticas num datacenter é um conceito novo, e os investigadores estão a introduzir o braço robótico e um novo protocolo de comunicação como uma forma mais barata de construir infra-estruturas de redes de IA. A viabilidade da tecnologia está sendo testada pela Meta.