Apple apresenta Ferret-UI Lite, IA compacta que navega em apps no próprio dispositivo

Apple apresenta Ferret-UI Lite, IA compacta que navega em apps no próprio dispositivo

A Apple deu um passo estratégico rumo à IA verdadeiramente embarcada ao apresentar o Ferret-UI Lite, um modelo compacto de 3 bilhões de parâmetros projetado para compreender e interagir autonomamente com interfaces de aplicativos em dispositivos móveis, web e desktop — tudo rodando localmente, sem depender da nuvem.

A pesquisa indica uma mudança clara de direção: enquanto concorrentes escalam modelos gigantescos em data centers, a Apple está investindo em eficiência e processamento no próprio dispositivo.

O que é o Ferret-UI Lite?

O Ferret-UI Lite é um modelo multimodal de ponta a ponta, treinado para:

  • Ler interfaces gráficas (GUI)
  • Identificar elementos relevantes na tela
  • Executar ações como toques e navegação
  • Recuperar-se de erros durante a interação

Apesar de ter apenas 3 bilhões de parâmetros, o modelo iguala ou supera agentes concorrentes até 24 vezes maiores em benchmarks de interface gráfica.

Isso representa um avanço relevante para assistentes que precisam operar aplicativos em nome do usuário.

O desafio técnico: interpretar telas densas

Interfaces modernas são complexas:

  • Ícones pequenos
  • Texto compacto
  • Elementos sobrepostos
  • Pop-ups dinâmicos

Modelos menores tradicionalmente têm dificuldade para identificar com precisão esses detalhes visuais.

A solução da Apple foi o chamado “recorte em tempo de inferência”.

Como funciona o “recorte em tempo de inferência”?

O processo ocorre em duas etapas:

O modelo escaneia a tela inteira e faz uma previsão inicial.
Em seguida, ele amplia (recorta) a região identificada como relevante, aplicando uma análise mais detalhada.

Esse mecanismo simula o foco visual humano — primeiro uma visão geral, depois um zoom direcionado.

O resultado:

  • Maior precisão na leitura de ícones e textos pequenos
  • Melhor desempenho com menor custo computacional

Treinamento com dados sintéticos

Outro diferencial foi o pipeline de geração de dados sintéticos.

A equipe criou um sistema com quatro funções de IA:

  • Gerador de tarefas
  • Planejador
  • Executor
  • Crítico

Esses componentes simulam interações reais, incluindo:

  • Toques que não respondem
  • Interrupções por pop-ups
  • Fluxos quebrados

Isso ensinou o modelo a lidar com erros — tornando-o mais robusto do que sistemas treinados apenas com dados “limpos”.

Resultados em benchmarks

O desempenho do Ferret-UI Lite chama atenção:

  • 91,6% no ScreenSpot-V2
  • 53,3% no ScreenSpot-Pro
  • 61,2% no OSWorld-G

Em navegação:

  • 28,0% no AndroidWorld
  • 19,8% no OSWorld

No ScreenSpot-Pro, superou agentes equivalentes de 3B parâmetros por mais de 15 pontos percentuais.

Para um modelo on-device, isso é significativo.

Implicações diretas para a Siri

A pesquisa surge enquanto a Apple prepara uma reformulação da Siri, prevista para o iOS 26.4.

A nova versão da assistente deve:

  • Entender melhor o conteúdo na tela
  • Executar tarefas contextuais entre aplicativos
  • Realizar ações de múltiplas etapas

Um modelo como o Ferret-UI Lite poderia ser a base técnica dessa evolução.

Privacidade como diferencial competitivo

A Apple há anos enfatiza processamento local como vantagem estratégica.

Rodar um agente de interface gráfica no dispositivo significa que:

  • Mensagens privadas
  • Dados financeiros
  • Informações de saúde
  • Conteúdo confidencial

Não precisam ser enviados para servidores externos.

Em um cenário onde IA baseada em nuvem domina, essa abordagem reforça a narrativa de privacidade da empresa.

Limitações ainda existentes

Apesar dos avanços, o modelo ainda enfrenta desafios:

  • Operações complexas de múltiplas etapas
  • Fluxos longos e condicionais
  • Ambientes altamente dinâmicos

Segundo os pesquisadores, o foco foi “reduzir escala”, não aumentá-la.

A aposta é que eficiência pode ser mais estratégica do que tamanho bruto.

Uma mudança de paradigma na corrida da IA

Enquanto outras empresas competem por modelos com centenas de bilhões de parâmetros, a Apple investe em:

  • Compactação inteligente
  • Eficiência energética
  • Processamento local
  • Privacidade integrada

Isso pode redefinir o debate:

O futuro da IA pessoal pode não estar apenas na nuvem — mas no bolso do usuário.

O que isso significa para o mercado?

Se integrado ao iOS:

  • O iPhone pode ganhar capacidades de automação contextual avançada
  • A Siri pode evoluir para agente real de execução
  • A Apple pode reduzir dependência de servidores externos

Para desenvolvedores, isso pode abrir caminho para:

  • Apps mais integrados a agentes locais
  • Automação nativa de interface
  • Novas experiências de produtividade

O Ferret-UI Lite sinaliza uma direção estratégica clara:

IA eficiente, local e privada.

Em vez de apostar apenas em escala massiva, a Apple está explorando como fazer mais com menos — mantendo controle sobre dados e experiência do usuário.

Se a tecnologia chegar ao consumidor, pode marcar a transição da Siri de assistente reativa para agente operacional contextual.

E isso muda o jogo.

Cadastre-se na nossa newsletter

Inscreva-se na newsletter para ver novas fotos, dicas e postagens no blog.​

Subscribe to My Newsletter

Subscribe to my weekly newsletter. I don’t send any spam email ever!