A TNG Technology Consulting introduziu a DeepSeek-TNG R1T2 Chimera, um modelo avançado de Assembleia de Especialistas (AoE) que combina velocidade e inteligência através de técnicas inovadoras de integração de modelos. Este novo lançamento incorpora elementos de três modelos parentais eficientes: R1-0528, R1, e V3-0324, para melhorar o desempenho dos grandes modelos de linguagem (LLM). A DeepSeek R1T2 se mostra altamente eficiente, superando seus antecessores com um aumento de 200% na velocidade em relação ao R1-0528 e um notável incremento de 20% no desempenho comparado ao R1 original. Os processos tradicionais de LLM, conhecidos por suas demandas de recursos durante o treinamento e ajuste fino, foram reimaginados pela abordagem AoE da TNG. Ao fundir tensores de peso na base dos grandes modelos de Mistura de Especialistas (MoE), a TNG economiza recursos computacionais, criando modelos escaláveis e de alto desempenho sem necessidade de re-treinamento. A arquitetura do R1T2 destaca uma combinação estratégica de diferentes tensores de especialistas, otimizando o desempenho enquanto mantém a qualidade de raciocínio e tokenização de saída eficiente—características críticas para aplicações modernas de IA. Testes de benchmark revelam que o R1T2 não só acelera o desempenho, mas também mantém alta qualidade de raciocínio, apesar de ficar ligeiramente atrás em inteligência bruta comparado ao R1-0528. No entanto, destaca-se em benchmarks detalhados como GPQA Diamond e AIME-2024/2025, superando grandemente o R1. O design inteligente do modelo inclui consistências comportamentais cruciais para aplicações que exigem sequências de raciocínio metódicas. A disponibilidade pública do R1T2 sob a licença MIT no Hugging Face o posiciona como uma ferramenta acessível para desenvolvedores, apoiando esforços comunitários de ajuste fino e adaptação. O impacto real significa uma eficiência significativa em ambientes que exigem funcionalidades rápidas de IA, e a TNG já relata o processamento de quase 5 bilhões de tokens diariamente através deste modelo, por meio de sua plataforma Chutes sem servidor. Olhando para o futuro, o desenvolvimento do R1T2 abre caminho para futuras experimentações na interpolação do espaço de parâmetros e construção modular de LLMs, potencialmente transformando a escalabilidade e adaptabilidade dos modelos de IA. Seu lançamento sob uma licença de código aberto garante adaptabilidade ampla, incentivando inovação e desenvolvimento contínuo em tecnologias de IA. Com o crescente interesse em modelos de IA mais eficientes, abertos e personalizáveis, a arquitetura e desempenho do R1T2 provavelmente inspirarão avanços adicionais na área.
A Revolução da Quimera: Estão os Modelos de IA Tradicionais em Extinção?
