O mini LLM Phi-2 da Microsoft agora é de código aberto e supostamente melhor que o Google Gemini Nano

Início / Inteligência Artificial / O mini LLM Phi-2 da Microsoft agora é de código aberto e supostamente melhor que o Google Gemini Nano

Microsoft está liberando o Phi-2 com a Licença de código aberto do MIT. A licença MIT é uma licença permissiva que permite o uso comercial, distribuição, modificação e uso privado do software licenciado. A única condição é que você retenha os avisos de direitos autorais e licença.

O mini LLM Phi-2 da Microsoft agora é de código aberto e supostamente melhor que o Google Gemini Nano

A licença também concede permissão para usar, copiar, modificar, mesclar, publicar, distribuir, sublicenciar e/ou vender cópias do software. No entanto, o software, neste caso o modelo de IA, é fornecido “como está”, sem qualquer garantia ou responsabilidade por parte dos autores ou detentores dos direitos autorais.

Phi-2 é o menor modelo de linguagem da Microsoft. Novos benchmarks da empresa mostram que ela superou o Gemini Nano do Google.

A Microsoft divulgou mais detalhes sobre o Phi-2, incluindo benchmarks detalhados comparando o modelo de 2,7 bilhões de parâmetros com o Llama-2, Mistral 7B e Gemini Nano do Google.

Em comparação com o menor modelo de linguagem da família Gemini do Google, o Phi-2 apresenta melhor desempenho em todos os benchmarks apresentados pela Microsoft.

A Microsoft também realizou testes extensivos com prompts usados ​​com frequência. A conclusão: “Observamos um comportamento de acordo com a expectativa que tínhamos dado aos resultados do benchmark”.

Gemini Nano será usado em dispositivos finais como o Pixel 8.

Em junho, pesquisadores da Microsoft apresentaram Phi-1, um modelo de linguagem baseado em transformador otimizado para código com apenas 1,3 bilhão de parâmetros. O modelo foi treinado exclusivamente em dados de alta qualidade e superou modelos até dez vezes maiores em benchmarks.

Phi-1,5 seguido alguns meses depois, também com 1,3 bilhão de parâmetros e treinado em dados adicionais que consistem em vários textos gerados por IA. Phi-1.5 pode compor poemas, escrever e-mails e histórias e resumir textos. Uma variante também pode analisar imagens. Em benchmarks de bom senso, compreensão linguística e raciocínio, o modelo foi, em algumas áreas, capaz de acompanhar modelos com até 10 mil milhões de parâmetros.

A Microsoft anunciou agora o Phi-2, que com 2,7 bilhões de parâmetros é duas vezes maior, mas ainda minúsculo em comparação com outros modelos de linguagem. Comparado ao Phi-1.5, o modelo apresenta melhorias drásticas no raciocínio lógico e na segurança, segundo a empresa. Com o ajuste fino e a personalização certos, o modelo de linguagem pequena é uma ferramenta poderosa para aplicativos de nuvem e de ponta, disse a empresa.

Phi-2 da Microsoft mostra melhorias em matemáTIca e codificação

A empresa ainda não publicou mais detalhes sobre o modelo, porém, Sebastien Bubeck, chefe do Machine Learning Foundations Group da Microsoft Research, publicou no Twitter uma captura de tela do benchmark “MT-Bench”, que tenta testar as capacidades reais. de modelos de linguagem grande e pequena com modelos de linguagem poderosos, como GPT-4.

De acordo com os resultados, o Phi-2 supera o modelo Llama-2-7B da Meta em algumas áreas. Uma versão chat do Phi-2 também está em desenvolvimento e pode resolver alguns dos pontos fracos existentes do modelo nessas áreas.

Microsoft anuncia “Modelos como Serviço”

Phi-2 e Phi-1.5 agora estão disponíveis no catálogo de modelos Azure AI, juntamente com Stable Diffusion Estável, Falcon, Clip, V3, BLIP e SAM. A Microsoft também está adicionando Código Lhama e Nemotron da Meta e Nvidia.

A Microsoft também anunciou “Modelos como Serviço”: “Os desenvolvedores profissionais irão breve ser capaz de integrar facilmente os modelos de IA mais recentes, como Llama 2 da MetaComando de Cohere, Jais do G42 e modelos premium do Mistral como um endpoint de API para seus aplicativos. Eles também podem ajustar esses modelos com seus próprios dados sem precisar se preocupar com a configuração e o gerenciamento da infraestrutura de GPU, ajudando a eliminar a complexidade do provisionamento de recursos e do gerenciamento de hospedagem.

Leitura relacionada:

Roberto Magalhães

O cérebro editor por trás do Tecnologico.online, é um entusiasta apaixonado por tecnologia. Canaliza sua fascinação para criar conteúdo envolvente e informativo. Sua dedicação à inovação reflete-se nos artigos que produz, abrangendo uma ampla gama de tópicos tecnológicos. Com um olhar atento para as últimas tendências e desenvolvimentos, busca tornar...

Voltar para o blog

Deixe um comentário

Os comentários precisam ser aprovados antes da publicação.