Resumen: Con el avance y la proliferación de algoritmos de aprendizaje por refuerzo (RL), la etapa de exploración se identifica como una gran limitación, en gran medida debido al desconocimiento previo del espacio de estados u otras particularidades del proceso (de Markov) subyacente.
En este contexto, un agente inicia el recorrido del espacio de estados, posiblemente de forma aleatoria al principio, y gradualmente construye un modelo del paisaje de recompensas (o castigos) que se va encontrando en el camino. En entornos con recompensas frecuentes, existen múltiples métodos de estimación que permiten evaluar la política utilizada y así ponderar las trayectorias según su costo energético de manera eficiente. Sin embargo, en escenarios con recompensas escasas o esparzas, las regiones visitadas con frecuencia a menudo no aportan información, lo que dificulta significativamente la exploración eficiente y a la postre el aprendizaje.
En esta charla voy a introducir muy brevemente los ingredientes básicos de un algoritmo de RL (los conceptos en itálica) y pensando en recompensas esparzas, algunas estrategias para sacar a un proceso de Markov de su zona de confort: exploración con un sistema de agentes (o partículas) independientes y una aproximación de la dinámica de Fleming-Viot.
Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.
Esta charla se basa en un trabajo aún en curso con Paola Bermolen, Matthieu Jonckheere y Seva Shneer en el marco de mi doctorado.
Viernes 29/11 a las 10:30
Facultad de Ingeniería, salón 703.
Contacto: Alejandro Cholaquidis - acholaquidis@hotmail.com
https://salavirtual-udelar.