Meta “Segment Anything” é o momento do GPT-3 para visão computacional

Com o Segment Anything, a Meta lança um poderoso modelo de IA para segmentação de imagens que pode servir como um bloco de construção central para futuras aplicações de IA.

O Segment Anything Model (SAM) da Meta foi treinado em quase 11 milhões de imagens de todo o mundo e um bilhão de segmentações semiautomáticas. O objetivo era desenvolver um “modelo de base” para a segmentação de imagens, e a Meta diz que conseguiu. Esses modelos básicos são treinados em grandes quantidades de dados, alcançando recursos generalizados que permitem que sejam usados ​​em muitos casos de uso especializados com pouco ou nenhum treinamento. O sucesso de grandes modelos de linguagem pré-treinados, como GPT-3 provocou a tendência para tais modelos.

Vídeo: meta

Uma vez treinado, o SAM pode segmentar objetos anteriormente desconhecidos em qualquer imagem e pode ser controlado por várias entradas: o SAM pode digitalizar automaticamente toda a imagem, os usuários podem marcar áreas a serem segmentadas ou clicar em objetos específicos. O SAM também deve ser capaz de lidar com texto, pois o Meta integra um modelo CLIP em sua arquitetura, além do Transformador de visão que inicialmente processa a imagem.

O pesquisador da Nvidia, Jim Fan, chama o SAM de “momento GPT-3” na visão computacional.

O SAM da Meta para tudo e o futuro XR

A Meta vê muitas aplicações para o SAM, como fazer parte de sistemas multimodais de IA que podem entender conteúdo visual e de texto em páginas da web ou segmentar pequenas estruturas orgânicas em microscopia.

Vídeo: meta

No domínio XR, o SAM pode segmentar objetos automaticamente, visualizar um humano usando um fone de ouvido XR e os objetos selecionados podem ser convertidos em objetos 3D por modelos como o da Meta. MCC.

Vídeo: meta

O SAM também pode ser usado para auxiliar no estudo científico de ocorrências naturais na Terra ou mesmo no espaço, por exemplo, localizando animais ou objetos para estudar e rastrear em vídeo. Acreditamos que as possibilidades são amplas e estamos entusiasmados com os muitos casos de uso em potencial que ainda nem imaginamos.

meta

No documento que acompanha, os autores comparam o SAM ao CLIP: como o modelo multimodal da OpenAI, eles dizem que o SAM foi explicitamente projetado para servir como um bloco de construção em modelos de IA maiores, permitindo inúmeras aplicações.

Conjunto de dados Segment Anything e demonstração disponíveis

A certa altura, a comparação GPT-3 de Fan fica travada: ao contrário do modelo de linguagem da OpenAI, o SAM da Meta é de código aberto. Além do modelo, a Meta também divulga o conjunto de dados de treinamento SA-1B utilizado.

Ele contém seis vezes mais imagens do que os conjuntos de dados disponíveis anteriormente e 400 vezes mais máscaras de segmentação. Os dados foram coletados em uma colaboração homem-máquina na qual o SAM gerou iterativamente segmentações cada vez melhores a partir de dados de treinamento gerados por humanos, que foram repetidamente corrigidos por humanos.

SAM está disponível em GitHub e pode ser experimentado através de um demonstração.

Artigos relacionados