Entender cuándo y dónde verter una cerveza o saber cuándo ofrecer asistencia para abrir la puerta del refrigerador puede ser difícil para un robot, ya que al evaluar la situación encuentra demasiadas variables. Ahora, un equipo de ingenieros de la Universidad de Cornell ha encontrado una solución.
Por medio de la cámara 3D de Kinect de Microsoft y una base de datos de videos en 3D, el robot de Cornell identifica las actividades que observa, considera los posibles usos de los objetos en la escena, y determina cómo se ajustan a las actividades. A continuación, genera un conjunto de posibles acciones futuras, tales como comer, beber, limpiar y guardar, y luego elige la más probable. A medida que la acción continúa, el robot se actualiza constantemente y refina sus predicciones.
“Extraemos los principios generales del comportamiento de la gente”, dice Ashutosh Saxena, profesor de informática y coautor de un nuevo estudio vinculado a la investigación. “El consumo de café es una actividad extensa, pero se compone de varias partes”. El robot construye un “vocabulario” de partes pequeñas que se pueden juntar en diversas formas para reconocer una variedad de actividades extensas, explica.En las pruebas, el robot hizo predicciones correctas el 82% de las veces cuando anticipó el futuro un segundo antes, 71% cuando lo anticipó tres segundos antes, y 57% cuando lo anticipó 10 segundos antes.