Con un post sul blog ufficiale, i ricercatori di Google DeepMind Robotics hanno annunciato una serie di progressi nella ricerca robotica che secondo il team avvicinano a un futuro in cui basta una semplice richiesta al robot assistente personale – come ad esempio “metti in ordine la casa” o “cucina un pasto delizioso e salutare” – per portare a termine i lavori.
AutoRT, SARA-RT e RT-Trajectory si basano sul lavoro storico Robotics Transformers del team di Google DeepMind, per aiutare i robot a prendere decisioni più velocemente e a comprendere e navigare meglio nei loro ambienti.
AutoRT, spiega Google DeepMind, è un sistema che sfrutta il potenziale dei modelli foundation di grandi dimensioni, fondamentali per creare robot in grado di comprendere gli obiettivi umani pratici. Raccogliendo un maggior numero di dati di addestramento esperienziale – e dati più diversificati – AutoRT può aiutare a scalare l’apprendimento robotico per addestrare meglio i robot per il mondo reale.
AutoRT combina large foundation model, come un Large Language Model (LLM) o un Visual Language Model (VLM), e un modello di controllo del robot (RT-1 o RT-2) per creare un sistema in grado di implementare i robot per raccogliere dati di addestramento in ambienti nuovi. AutoRT può dirigere simultaneamente più robot, ciascuno dotato di una videocamera e di un effettore finale, per svolgere compiti diversi in una serie di ambienti. Per ogni robot, il sistema utilizza un VLM per comprendere l’ambiente e gli oggetti visibili. Successivamente, un LLM suggerisce un elenco di compiti creativi che il robot potrebbe svolgere, come ad esempio “Posizionare lo snack sul piano di lavoro” e svolge il ruolo di decisore per selezionare un compito appropriato per il robot.
Il team di Google DeepMind spiega che, nel corso di approfondite valutazioni nel mondo reale, durate sette mesi, il sistema ha orchestrato in modo sicuro fino a 20 robot simultaneamente e fino a 52 robot unici in totale, in una varietà di edifici adibiti a uffici, raccogliendo un insieme di dati diversificati che comprende 77.000 prove robotiche su 6.650 compiti unici.
Il nuovo sistema Self-Adaptive Robust Attention for Robotics Transformers (SARA-RT) di Google DeepMind converte i modelli Robotics Transformer (RT) in versioni più efficienti.
L’architettura della rete neurale RT sviluppata dal team è utilizzata nei più recenti sistemi di controllo robotico, compreso il modello RT-2 di Google. I migliori modelli SARA-RT-2 – affermano i ricercatori – sono risultati più precisi del 10,6% e più veloci del 14% rispetto ai modelli RT-2 dopo aver ricevuto una breve cronologia di immagini. Il team ritiene che questo sia il primo meccanismo di attenzione scalabile a fornire miglioramenti computazionali senza perdita di qualità.
SARA-RT rende i modelli più efficienti utilizzando un nuovo metodo di fine-tuning del modello che il team chiama “up-training“. L’up-training converte la complessità quadratica in semplice complessità lineare, riducendo drasticamente i requisiti computazionali. Questa conversione non solo aumenta la velocità del modello originale, ma ne preserva anche la qualità.
Quando i ricercatori di Google DeepMind hanno applicato SARA-RT a un modello RT-2 all’avanguardia con miliardi di parametri, hanno ottenuto un processo decisionale più rapido e prestazioni migliori su un’ampia gamma di task robotici.
Per gli esseri umani può essere intuitivo capire come pulire un tavolo, ma ci sono molti modi possibili in cui un robot potrebbe tradurre un’istruzione in movimenti fisici reali.
I ricercatori di GoogleDeepMind hanno sviluppato un modello chiamato RT-Trajectory che aggiunge automaticamente contorni visivi che descrivono i movimenti del robot nei video di addestramento. RT-Trajectory prende ogni video di un set di dati di addestramento e lo sovrappone a uno schizzo di traiettoria 2D della pinza del braccio del robot mentre esegue il compito. Queste traiettorie, sotto forma di immagini RGB, forniscono al modello suggerimenti visivi pratici e di basso livello per l’apprendimento delle policy di controllo del robot.
Quando è stato testato su 41 compiti non visti nei dati di addestramento, spiega Google DeepMind, un braccio controllato da RT-Trajectory ha più che raddoppiato le prestazioni dei modelli RT esistenti allo stato dell’arte: ha raggiunto un tasso di successo del 63%, rispetto al 29% di RT-2.
Ulteriori informazioni sono disponibili sul blog di GoogleDeepMind.