Os modelos mais recentes do MosaicML superam o GPT-3 com apenas 30B de parâmetros

O provedor LLM de código aberto MosaicML anunciou o lançamento de seus modelos mais avançados até o momento, o MPT-30B Base, Instruct e Chat.

Esses modelos de última geração foram treinados na plataforma MosaicML usando os aceleradores H100 de última geração da NVIDIA e afirmam oferecer qualidade superior em comparação com o modelo GPT-3 original.

Com o MPT-30B, as empresas podem aproveitar o poder da IA generativa, mantendo a privacidade e a segurança dos dados.

Desde o seu lançamento em maio de 2023, os modelos MPT-7B ganharam popularidade significativa, com mais de 3,3 milhões de downloads. Os recém-lançados modelos MPT-30B oferecem qualidade ainda maior e abrem novas possibilidades para diversas aplicações.

Os modelos MPT do MosaicML são otimizados para treinamento e inferência eficientes, permitindo que os desenvolvedores criem e implantem modelos de nível empresarial com facilidade.

Uma conquista notável do MPT-30B é sua capacidade de superar a qualidade do GPT-3 usando apenas 30 bilhões de parâmetros em comparação com os 175 bilhões do GPT-3. Isso torna o MPT-30B mais acessível para execução em hardware local e significativamente mais barato para implantação para inferência.

O custo de treinar modelos personalizados baseados no MPT-30B também é consideravelmente menor do que as estimativas para treinar o GPT-3 original, tornando-o uma opção atraente para as empresas.

Além disso, o MPT-30B foi treinado em sequências mais longas de até 8.000 tokens, permitindo lidar com aplicativos corporativos com muitos dados. Seu desempenho é apoiado pelo uso de GPUs H100 da NVIDIA, que fornecem maior rendimento e tempos de treinamento mais rápidos.

Várias empresas já adotaram os modelos MPT do MosaicML para seus aplicativos de IA.

Replit , um IDE baseado na web, construiu com sucesso um modelo de geração de código usando seus dados proprietários e a plataforma de treinamento MosaicML, resultando em melhor qualidade de código, velocidade e economia.

Leia: Crie e-mails que comuniquem com eficácia sua mensagem comercial

O Scatter Lab , uma startup de IA especializada no desenvolvimento de chatbots, treinou seu próprio modelo MPT para criar um modelo de IA generativo multilíngue capaz de entender inglês e coreano, aprimorando as experiências de bate-papo para sua base de usuários.

A Navan , uma empresa global de software de gerenciamento de viagens e despesas, está aproveitando a base do MPT para desenvolver LLMs personalizados para aplicativos como agentes de viagens virtuais e agentes de inteligência de negócios conversacionais.

Ilan Twig, cofundador e CTO da Navan, disse:

“Na Navan, usamos IA generativa em nossos produtos e serviços, potencializando experiências como nosso agente de viagens virtual e nosso agente de inteligência de negócios conversacional.

Os modelos de base do MosaicML oferecem recursos de linguagem de última geração, ao mesmo tempo em que são extremamente eficientes para ajustar e servir inferência em escala.”

Os desenvolvedores podem acessar o MPT-30B por meio do HuggingFace Hub como um modelo de código aberto. Eles têm a flexibilidade de ajustar o modelo em seus dados e implantá-lo para inferência em sua infraestrutura.

Como alternativa, os desenvolvedores podem utilizar o endpoint gerenciado do MosaicML, MPT-30B-Instruct, que oferece inferência de modelo sem complicações por uma fração do custo em comparação com endpoints semelhantes. Por US$ 0,005 por 1.000 tokens, o MPT-30B-Instruct oferece uma solução econômica para desenvolvedores.

O lançamento dos modelos MPT-30B da MosaicML marca um avanço significativo no campo de grandes modelos de linguagem, capacitando as empresas a aproveitar os recursos da IA generativa, otimizando custos e mantendo o controle sobre seus dados.

Os modelos mais recentes do MosaicML superam o GPT-3 com apenas 30B de parâmetros

Tecnologia Smart

Leave a Reply Cancel reply

Os conceitos tecnológicos mais interessantes que gostaríamos que fossem reais

SpaceX lança oitava missão dedicada de compartilhamento de satélite smallsat

Os chatbots AI estão omitindo informações sobre Israel e Palestina, de acordo com o Google Bard e o ChatGPT.

Rivada busca financiamento Ex-Im para constelação de satélites

Musk ficou menos ativo no Twitter nos últimos 12 meses. Pense nisso.

Comentários de Ai Pin sobre as principais reclamações relacionadas aos smartphones assassinos.

Telescópio Webb tira foto de um objeto muito poderoso e único

Google anuncia novas atualizações de acessibilidade e recursos de ensino para salas de aula K-12

Grécia torna praias mais acessíveis para cadeirantes

Casa Branca de Biden gastará quase US $ 1 bilhão em acesso rural à Internet de alta velocidade

Os planetas são incríveis em junho, e você deve procurar

Tecnologia Smart

Telescópio Webb tira foto de um objeto muito poderoso e único

Related Articles

O projeto de lei proposto consideraria as plataformas sociais consideradas legalmente responsáveis ​​pela distribuição de conteúdo gerado por IA

SXSW 2024: Três produtos de tecnologia surpreendentes, como um AI inspirado em Marilyn Monroe.

Por que tornar a IA segura não é tão fácil quanto você pensa

Anunciados os vencedores do AI Accelerator Hub, AI Summit London

Leave a Reply Cancel reply

Comentários de Ai Pin sobre as principais reclamações relacionadas aos smartphones assassinos.

Telescópio Webb tira foto de um objeto muito poderoso e único

Google anuncia novas atualizações de acessibilidade e recursos de ensino para salas de aula K-12

Grécia torna praias mais acessíveis para cadeirantes

Casa Branca de Biden gastará quase US $ 1 bilhão em acesso rural à Internet de alta velocidade

Os planetas são incríveis em junho, e você deve procurar

O projeto de lei proposto consideraria as plataformas sociais consideradas legalmente responsáveis pela distribuição de conteúdo gerado por IA