Inteligência ArtificialSoftware

Os modelos mais recentes do MosaicML superam o GPT-3 com apenas 30B de parâmetros

O provedor LLM de código aberto MosaicML anunciou o lançamento de seus modelos mais avançados até o momento, o MPT-30B Base, Instruct e Chat.

Esses modelos de última geração foram treinados na plataforma MosaicML usando os aceleradores H100 de última geração da NVIDIA e afirmam oferecer qualidade superior em comparação com o modelo GPT-3 original.

Com o MPT-30B, as empresas podem aproveitar o poder da IA ​​generativa, mantendo a privacidade e a segurança dos dados.

Desde o seu lançamento em maio de 2023, os modelos MPT-7B ganharam popularidade significativa, com mais de 3,3 milhões de downloads. Os recém-lançados modelos MPT-30B oferecem qualidade ainda maior e abrem novas possibilidades para diversas aplicações.

Os modelos MPT do MosaicML são otimizados para treinamento e inferência eficientes, permitindo que os desenvolvedores criem e implantem modelos de nível empresarial com facilidade.

Uma conquista notável do MPT-30B é sua capacidade de superar a qualidade do GPT-3 usando apenas 30 bilhões de parâmetros em comparação com os 175 bilhões do GPT-3. Isso torna o MPT-30B mais acessível para execução em hardware local e significativamente mais barato para implantação para inferência.

O custo de treinar modelos personalizados baseados no MPT-30B também é consideravelmente menor do que as estimativas para treinar o GPT-3 original, tornando-o uma opção atraente para as empresas.

Além disso, o MPT-30B foi treinado em sequências mais longas de até 8.000 tokens, permitindo lidar com aplicativos corporativos com muitos dados. Seu desempenho é apoiado pelo uso de GPUs H100 da NVIDIA, que fornecem maior rendimento e tempos de treinamento mais rápidos.

Várias empresas já adotaram os modelos MPT do MosaicML para seus aplicativos de IA. 

Replit , um IDE baseado na web, construiu com sucesso um modelo de geração de código usando seus dados proprietários e a plataforma de treinamento MosaicML, resultando em melhor qualidade de código, velocidade e economia.

Leia:   Anunciados os vencedores do AI Accelerator Hub, AI Summit London

O Scatter Lab , uma startup de IA especializada no desenvolvimento de chatbots, treinou seu próprio modelo MPT para criar um modelo de IA generativo multilíngue capaz de entender inglês e coreano, aprimorando as experiências de bate-papo para sua base de usuários.

A Navan , uma empresa global de software de gerenciamento de viagens e despesas, está aproveitando a base do MPT para desenvolver LLMs personalizados para aplicativos como agentes de viagens virtuais e agentes de inteligência de negócios conversacionais.

Ilan Twig, cofundador e CTO da Navan, disse:

“Na Navan, usamos IA generativa em nossos produtos e serviços, potencializando experiências como nosso agente de viagens virtual e nosso agente de inteligência de negócios conversacional.

Os modelos de base do MosaicML oferecem recursos de linguagem de última geração, ao mesmo tempo em que são extremamente eficientes para ajustar e servir inferência em escala.” 

Fazendo a IA escrever sobre Data Centers - DCD

Os desenvolvedores podem acessar o MPT-30B por meio do HuggingFace Hub como um modelo de código aberto. Eles têm a flexibilidade de ajustar o modelo em seus dados e implantá-lo para inferência em sua infraestrutura.

Como alternativa, os desenvolvedores podem utilizar o endpoint gerenciado do MosaicML, MPT-30B-Instruct, que oferece inferência de modelo sem complicações por uma fração do custo em comparação com endpoints semelhantes. Por US$ 0,005 por 1.000 tokens, o MPT-30B-Instruct oferece uma solução econômica para desenvolvedores.

O lançamento dos modelos MPT-30B da MosaicML marca um avanço significativo no campo de grandes modelos de linguagem, capacitando as empresas a aproveitar os recursos da IA ​​generativa, otimizando custos e mantendo o controle sobre seus dados.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button