Com o Segment Anything, a Meta lança um poderoso modelo de IA para segmentação de imagens que pode servir como um bloco de construção central para futuras aplicações de IA.
O Segment Anything Model (SAM) da Meta foi treinado em quase 11 milhões de imagens de todo o mundo e um bilhão de segmentações semiautomáticas. O objetivo era desenvolver um “modelo de base” para a segmentação de imagens, e a Meta diz que conseguiu. Esses modelos básicos são treinados em grandes quantidades de dados, alcançando recursos generalizados que permitem que sejam usados em muitos casos de uso especializados com pouco ou nenhum treinamento. O sucesso de grandes modelos de linguagem pré-treinados, como GPT-3 provocou a tendência para tais modelos.
Vídeo: meta
Uma vez treinado, o SAM pode segmentar objetos anteriormente desconhecidos em qualquer imagem e pode ser controlado por várias entradas: o SAM pode digitalizar automaticamente toda a imagem, os usuários podem marcar áreas a serem segmentadas ou clicar em objetos específicos. O SAM também deve ser capaz de lidar com texto, pois o Meta integra um modelo CLIP em sua arquitetura, além do Transformador de visão que inicialmente processa a imagem.
O pesquisador da Nvidia, Jim Fan, chama o SAM de “momento GPT-3” na visão computacional.
Leitura @MetaAI‘s Segment-Anything, e acredito que hoje seja um dos “momentos GPT-3” na visão computacional. Ele aprendeu o conceito *geral* do que é um “objeto”, mesmo para objetos desconhecidos, cenas não familiares (por exemplo, microscopia subaquática e celular) e casos ambíguos.
Eu ainda… pic.twitter.com/lFWoYAxDmw
– Jim Fan (@DrJimFan) 5 de abril de 2023
O SAM da Meta para tudo e o futuro XR
A Meta vê muitas aplicações para o SAM, como fazer parte de sistemas multimodais de IA que podem entender conteúdo visual e de texto em páginas da web ou segmentar pequenas estruturas orgânicas em microscopia.
Vídeo: meta
No domínio XR, o SAM pode segmentar objetos automaticamente, visualizar um humano usando um fone de ouvido XR e os objetos selecionados podem ser convertidos em objetos 3D por modelos como o da Meta. MCC.
Vídeo: meta
O SAM também pode ser usado para auxiliar no estudo científico de ocorrências naturais na Terra ou mesmo no espaço, por exemplo, localizando animais ou objetos para estudar e rastrear em vídeo. Acreditamos que as possibilidades são amplas e estamos entusiasmados com os muitos casos de uso em potencial que ainda nem imaginamos.
meta
No documento que acompanha, os autores comparam o SAM ao CLIP: como o modelo multimodal da OpenAI, eles dizem que o SAM foi explicitamente projetado para servir como um bloco de construção em modelos de IA maiores, permitindo inúmeras aplicações.
Conjunto de dados Segment Anything e demonstração disponíveis
A certa altura, a comparação GPT-3 de Fan fica travada: ao contrário do modelo de linguagem da OpenAI, o SAM da Meta é de código aberto. Além do modelo, a Meta também divulga o conjunto de dados de treinamento SA-1B utilizado.
Ele contém seis vezes mais imagens do que os conjuntos de dados disponíveis anteriormente e 400 vezes mais máscaras de segmentação. Os dados foram coletados em uma colaboração homem-máquina na qual o SAM gerou iterativamente segmentações cada vez melhores a partir de dados de treinamento gerados por humanos, que foram repetidamente corrigidos por humanos.
SAM está disponível em GitHub e pode ser experimentado através de um demonstração.