O provedor LLM de código aberto MosaicML anunciou o lançamento de seus modelos mais avançados até o momento, o MPT-30B Base, Instruct e Chat.
Esses modelos de última geração foram treinados na plataforma MosaicML usando os aceleradores H100 de última geração da NVIDIA e afirmam oferecer qualidade superior em comparação com o modelo GPT-3 original.
Com o MPT-30B, as empresas podem aproveitar o poder da IA generativa, mantendo a privacidade e a segurança dos dados.
Desde o seu lançamento em maio de 2023, os modelos MPT-7B ganharam popularidade significativa, com mais de 3,3 milhões de downloads. Os recém-lançados modelos MPT-30B oferecem qualidade ainda maior e abrem novas possibilidades para diversas aplicações.
Os modelos MPT do MosaicML são otimizados para treinamento e inferência eficientes, permitindo que os desenvolvedores criem e implantem modelos de nível empresarial com facilidade.
Uma conquista notável do MPT-30B é sua capacidade de superar a qualidade do GPT-3 usando apenas 30 bilhões de parâmetros em comparação com os 175 bilhões do GPT-3. Isso torna o MPT-30B mais acessível para execução em hardware local e significativamente mais barato para implantação para inferência.
O custo de treinar modelos personalizados baseados no MPT-30B também é consideravelmente menor do que as estimativas para treinar o GPT-3 original, tornando-o uma opção atraente para as empresas.
Além disso, o MPT-30B foi treinado em sequências mais longas de até 8.000 tokens, permitindo lidar com aplicativos corporativos com muitos dados. Seu desempenho é apoiado pelo uso de GPUs H100 da NVIDIA, que fornecem maior rendimento e tempos de treinamento mais rápidos.
Várias empresas já adotaram os modelos MPT do MosaicML para seus aplicativos de IA.
Replit , um IDE baseado na web, construiu com sucesso um modelo de geração de código usando seus dados proprietários e a plataforma de treinamento MosaicML, resultando em melhor qualidade de código, velocidade e economia.
O Scatter Lab , uma startup de IA especializada no desenvolvimento de chatbots, treinou seu próprio modelo MPT para criar um modelo de IA generativo multilíngue capaz de entender inglês e coreano, aprimorando as experiências de bate-papo para sua base de usuários.
A Navan , uma empresa global de software de gerenciamento de viagens e despesas, está aproveitando a base do MPT para desenvolver LLMs personalizados para aplicativos como agentes de viagens virtuais e agentes de inteligência de negócios conversacionais.
Ilan Twig, cofundador e CTO da Navan, disse:
“Na Navan, usamos IA generativa em nossos produtos e serviços, potencializando experiências como nosso agente de viagens virtual e nosso agente de inteligência de negócios conversacional.
Os modelos de base do MosaicML oferecem recursos de linguagem de última geração, ao mesmo tempo em que são extremamente eficientes para ajustar e servir inferência em escala.”
Os desenvolvedores podem acessar o MPT-30B por meio do HuggingFace Hub como um modelo de código aberto. Eles têm a flexibilidade de ajustar o modelo em seus dados e implantá-lo para inferência em sua infraestrutura.
Como alternativa, os desenvolvedores podem utilizar o endpoint gerenciado do MosaicML, MPT-30B-Instruct, que oferece inferência de modelo sem complicações por uma fração do custo em comparação com endpoints semelhantes. Por US$ 0,005 por 1.000 tokens, o MPT-30B-Instruct oferece uma solução econômica para desenvolvedores.
O lançamento dos modelos MPT-30B da MosaicML marca um avanço significativo no campo de grandes modelos de linguagem, capacitando as empresas a aproveitar os recursos da IA generativa, otimizando custos e mantendo o controle sobre seus dados.