Su trabajo ha hecho posibles tecnologías tan relevantes como la conducción autónoma, la cirugía robótica o el reconocimiento facial y ha revolucionado las retransmisiones deportivas.
El jurado del premio que concede anualmente la Fundación BBVA ha destacado que el trabajo de este catedrático de la Universidad Carnegie Mellon (EE UU) “ha transformado significativamente el mundo tecnológico en el que vivimos”. Si hoy existen vehículos capaces de conducir de forma autónoma, robots que asisten a los cirujanos en toda clase de operaciones, sistemas de reconocimiento facial con los que accedemos a nuestros teléfonos móviles y retransmisiones deportivas que nos permiten disfrutar de la repetición de las mejores jugadas desde múltiples ángulos es, en buena medida, gracias a las contribuciones de Kanade.
“Como demuestra el hecho de que el córtex visual ocupe el área dominante del cerebro humano, la visión o el procesamiento de la información visual proporciona al ser humano el canal de información más rico e importante para la comprensión y la comunicación. La inteligencia artificial y los robots con capacidades de visión por ordenador similares o incluso mejores contribuyen a mejorar nuestras vidas”, ha declarado el profesor Kanade, en una entrevista realizada poco después de conocer la concesión del premio.
Al igual que las personas y los animales necesitamos dos ojos para tener información de profundidad, la visión artificial en tres dimensiones solo es posible si se integran las imágenes procedentes de al menos dos cámaras. Sin embargo, los primeros algoritmos de visión artificial estaban pensados para procesar una sola imagen, y aplicarlos para integrar varias imágenes era un proceso demasiado lento como para utilizarse en la práctica.
Estos algoritmos, que ofrecían una visión artificial en 2D, analizaban fotograma a fotograma un vídeo para reconstruir los objetos que contenía para después deducir cómo se movían estos objetos. Sin embargo, este método es inviable si los fotogramas proceden de las imágenes grabadas por dos o más cámaras, ya que requiere una capacidad de computación excesiva.
Kanade se dio cuenta de que, en lugar de integrar cada fotograma y después rastrear el movimiento de los objetos, sería mucho más rápido aprovechar la información del movimiento de los objetos que graba cada cámara para comprender cómo se mueve la imagen incluso antes de realizar la integración entre los vídeos de todas las cámaras. “Una vez que entendemos esto, ya no necesitamos enviar toda la información del color ni del vídeo, sino que basta con enviar simplemente el movimiento”, ha explicado. Esta idea está en la base del método desarrollado por Kanade, en colaboración con su doctorando Bruce Lucas, para captar la forma de los objetos y deducir la velocidad y dirección de su movimiento.
Aun así, las imágenes tridimensionales requieren una capacidad de computación mucho mayor que las de dos dimensiones. Para resolver este problema, Kanade desarrolló, en colaboración con Carlo Tomasi, una manera de simplificar drásticamente los cálculos que debe realizar el ordenador para procesarlas.
Takeo Kanade, Universidad Carnegie Mellon (EE UU).
Coches, helicópteros y drones capaces de orientarse por sí mismos
Gracias a las técnicas desarrolladas por Kanade y sus colaboradores, en 1995 dos investigadores de la Universidad de Carnegie Mellon recorrieron Estados Unidos de costa a costa por autopista en uno de los primeros vehículos autónomos jamás construidos, accionando manualmente el acelerador y el freno, pero sin apenas tocar el volante. El programa, al que llamaron ‘No Hands Across America’, demostró que aquella furgoneta podía guiarse sola, empleando solo la información de sus cámaras.
El trabajo de Kanade también se ha utilizado para guiar a los robots que operan en restaurantes, aeropuertos o museos. Además, las técnicas propuestas por el galardonado están presentes hoy en los drones y en todos los robots que incorporan capacidad de visión. En los últimos años, Kanade ha trabajado en el desarrollo de helicópteros autónomos capaces de rastrear un objetivo.
La visión artificial también se ha convertido en una tecnología clave en la cirugía robótica, un campo que se ha expandido en buena medida gracias a las técnicas desarrolladas por Kanade.
De hecho, el propio Kanade desarrolló con su equipo el primer sistema robotizado para la cirugía de prótesis de cadera, llamado HipNav, que logró una precisión mucho mayor en la colocación de la prótesis, disminuyendo el riesgo de efectos secundarios como la dislocación, mediante un procedimiento menos invasivo que el tradicional. La capacidad de seguir en tiempo real la posición exacta de la pelvis durante la cirugía fue clave para conseguir estos avances.
Además, gracias en buena medida a las contribuciones de Kanade, hoy ya es posible diseñar robots capaces de realizar algunas pruebas médicas sencillas, como ciertas ecografías, y detectar zonas sospechosas de presentar patologías. “En muchos pueblos no hay hospitales”, explica Oussama Khatib, catedrático de Ciencias de la Computación y director del Laboratorio de Robótica en la Universidad de Stanford (Estados Unidos) y miembro del jurado.
“Así que estamos intentando crear clínicas pequeñas con un robot que pueda efectuar un análisis muy sencillo, y que a través de un algoritmo entienda si existen sospechas que hagan necesarias más pruebas”. El mismo robot, añade el investigador, se podría conectar a un hospital, por lejano que sea, para que un radiólogo lo controle de manera remota y sea posible realizar análisis más exhaustivos sin necesidad de que el paciente viaje.
En 2001 la emisión televisiva de mayor audiencia en Estados Unidos, la final de la Super Bowl de fútbol americano, presentó un avance técnico en el campo de la visión artificial que cambió para siempre la forma de retransmitir el deporte, y fue el propio profesor Kanade quien explicó a los espectadores en qué consistía este hito.
La nueva técnica permitía la recreación en 360 grados de una escena. Para obtener esta vista panorámica es necesario grabar la misma escena con varias cámaras, pero los métodos de Kanade permiten obtener imágenes de la escena desde un punto de vista en el que no se ha colocado ninguna de ellas, o bien reconstruir cualquier perspectiva a partir de un vídeo grabado por una cámara en movimiento. Esta es la base de la “realidad virtualizada”, que ha transformado las competiciones deportivas al permitir, por ejemplo, ver un partido de fútbol desde el punto de vista del balón o emplear el ojo de halcón en un partido de tenis.
Kanade recuerda cómo, cuando se acuñó el término de realidad virtual en los años 1990, “la gente trabajaba sobre todo en crear mundos artificiales con gráficos por ordenador. Pero yo pensé que sería más interesante empezar con la realidad, es decir, introducir la realidad dentro del ordenador para volverla virtual”. Para resaltar este aspecto y distinguir su propuesta de los mundos artificiales que comenzaban a emerger, el investigador acuñó el concepto de “realidad virtualizada”. El sistema estrenado en la Super Bowl de 2001, denominado EyeVision, permitió por primera vez retransmitir por televisión una recreación panorámica de las jugadas más llamativas del partido. “El estadio tenía 33 cámaras en la grada superior, mirando al terreno de juego, y cuando se producía una jugada bonita el realizador podía generar una secuencia que diera la vuelta completa al jugador. Era igual que en la escena principal de la película Matrix, en la que la cámara parece rodear al personaje”, compara Kanade: “Y ahora esta repetición con vista de 360 grados se utiliza en casi cualquier deporte”.
Mirando al futuro, Kanade confía en que su trabajo pueda contribuir en los próximos años al desarrollo de “tecnologías para mejorar la calidad de vida”, en particular a través de robots y dispositivos que “ayuden a las personas mayores o con discapacidad a vivir de manera independiente”. Además, la realidad virtualizada “no solo tiene aplicaciones en el ámbito del ocio y el entretenimiento, sino que puede ser de utilidad, por ejemplo, a la hora de coordinar la respuesta a desastres naturales, a través de recreaciones virtuales de las zonas afectadas por una catástrofe”.
Al mismo tiempo, Kanade admite que le preocupa el posible uso perverso que pueda hacerse de algunas tecnologías desarrolladas gracias a sus contribuciones. “Odio ver cómo se está aplicando la inteligencia artificial y la visión artificial a fenómenos como los vídeos falsos (deepfakes)”, lamenta.
En 2010, el propio Kanade y sus colaboradores crearon un vídeo en el que se veía al presidente Obama hablando en japonés, en unas imágenes generadas a partir de una grabación del propio investigador. “Fue un experimento divertido, pero nuestra intención era seria y las aplicaciones que teníamos en mente eran importantes”, explica. “Por ejemplo, queríamos comprender mejor la expresividad del rostro humano y los efectos de ciertos gestos, como movimientos de la cabeza o de los ojos, para ayudar a las personas que tienen dificultades a la hora de comunicarse, o también nos planteábamos la creación de avatares para participar virtualmente en videoconferencias”.
En todo caso, Kanade confía en que la tecnología permita detectar los vídeos generados artificialmente, para evitar su uso malintencionado: “Debería ser fácil poder certificar si una imagen es auténtica o falsa, y colocar una marca de agua para identificar los fraudes. En cualquier caso, me entristece que esta tecnología pueda tener un potencial para hacer daño, debido al mal uso que algunos quieran hacer de ella”.