Deepmind Ada traz modelos básicos para aprendizado por reforço

O AdA da Deepmind mostra que os modelos básicos também permitem sistemas generalistas em aprendizado por reforço que aprendem novas tarefas rapidamente.

Na pesquisa de IA, o termo modelo de fundação é usado por alguns cientistas para se referir a grandes modelos de IA pré-treinados, geralmente baseados em arquiteturas de transformadores. Um exemplo é Grande modelo de linguagem do OpenAI GPT-3 que é treinado para prever tokens de texto e pode executar várias tarefas por meio de engenharia de prompt em uma configuração de poucos disparos.

Em suma, um modelo de fundação é um grande modelo de IA que, devido ao seu treinamento generalista com grandes conjuntos de dados, pode executar posteriormente muitas tarefas para as quais não foi explicitamente treinado.

AdA da Deepmind aprende em contexto

Os modelos de fundação anteriores dependem principalmente de treinamento auto-supervisionado. A Deepmind agora apresenta um “Adaptive Agent” (AdA), um agente de aprendizado por reforço que possui as características de um modelo de fundação.

A equipe Deepmind treinou AdA em inúmeras execuções no ambiente XL e 3D, contando com a seleção inteligente de cada tarefa: em vez de selecionar desafios aleatoriamente, AdA sempre treina em tarefas que estão logo acima do nível de habilidade atual do agente. As tarefas requerem habilidades como experimentação, navegação, coordenação ou divisão de trabalho com outros agentes.

O AdA conta com uma arquitetura Transformer personalizada que permite ao agente armazenar significativamente mais informações, permitindo um treinamento eficiente, de acordo com a Deepmind.

Além disso, a equipe está usando destilação com uma abordagem professor-aluno para acelerar o processo de aprendizagem e treinar modelos maiores. No paper, a empresa treinou um modelo com 265 milhões de parâmetros e mostrou que 500 milhões de parâmetros são possíveis com o método.

Deepmind AdA aprende em XLand 2.0

Treinar o modelo Transfomer com milhões de execuções no ambiente XLand produz um modelo RL básico, escreve Deepmind. AdA exibe “comportamento de exploração orientado por hipóteses” ao explorar novas tarefas, usando as informações obtidas para refinar estratégias e alcançar um desempenho quase ideal.

O processo leva apenas alguns minutos, mesmo para tarefas difíceis, tornando-o de nível humano, de acordo com a Deepmind. Além disso, todo o processo é possível sem atualizar os pesos na rede. Como o GPT-3, o AdA possui recursos de poucos disparos e o processo de aprendizado ocorre na janela de contexto do modelo.

Neste artigo, demonstramos, pela primeira vez que sabemos, um agente treinado com RL que é capaz de rápida adaptação ao contexto em um vasto espaço de tarefas aberto, em uma escala de tempo semelhante à de jogadores humanos . Este Adaptive Agent (AdA) explora as tarefas realizadas de forma estruturada, refinando sua política para um comportamento ótimo, dadas apenas algumas interações com a tarefa.

do papel

AdA é baseado em aprendizado de meta-reforço caixa-preta e mostra, ao contrário das suposições anteriores, que o método é escalável, diz Deepmind. Considerando o leis de escala de modelos de linguagem ou outros modelos de fundação, Modelos de RL como o AdA podem se tornar a base para modelos de RL úteis para problemas do mundo real no futuro.

Mais informações e exemplos podem ser encontrados no página do projeto AdA .

Artigos relacionados