Number of documents

18

Matthieu Geist


"Bruno Scherrer"   

Journal articles3 documents

  • Bruno Scherrer, Matthieu Geist. Recherche locale de politique dans un espace convexe. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 2015, 29 (6), pp.685-704. ⟨10.3166/RIA.29.685-706⟩. ⟨hal-01275247⟩
  • Bruno Scherrer, Mohammad Ghavamzadeh, Victor Gabillon, Boris Lesner, Matthieu Geist. Approximate modified policy iteration and its application to the game of Tetris. Journal of Machine Learning Research, Microtome Publishing, 2015, 16, pp.1629−1676. ⟨hal-01091341⟩
  • Matthieu Geist, Bruno Scherrer. Off-policy Learning with Eligibility Traces: A Survey. Journal of Machine Learning Research, Microtome Publishing, 2014, 15 (1), pp.289-333. ⟨hal-00921275⟩

Conference papers12 documents

  • Matthieu Geist, Bruno Scherrer. Anderson acceleration for reinforcement learning. EWRL 2018 - 4th European workshop on Reinforcement Learning, Oct 2018, Lille, France. ⟨hal-01928142⟩
  • Julien Pérolat, Bilal Piot, Matthieu Geist, Bruno Scherrer, Olivier Pietquin. Softened approximate policy iteration for Markov games. ICML 2016 - 33rd International Conference on Machine Learning, Jun 2016, New York City, United States. ⟨hal-01393328⟩
  • Bruno Scherrer, Matthieu Geist. Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient fonctionnel. 9èmes Journées Francophones de Planification, Décision et Apprentissage (JFPDA'14), May 2014, Liège, Belgique. ⟨hal-01104776⟩
  • Bruno Scherrer, Matthieu Geist. Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy Search. ECML, Sep 2014, Nancy, France. pp.35 - 50, ⟨10.1007/978-3-662-44845-8_3⟩. ⟨hal-01091079⟩
  • Bruno Scherrer, Matthieu Geist. Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy Search. ECMLPKDD 2014, Sep 2014, Nancy, France. pp.35 - 50, ⟨10.1007/978-3-662-44845-8_3⟩. ⟨hal-01086345⟩
  • Bruno Scherrer, Mohammad Ghavamzadeh, Victor Gabillon, Matthieu Geist. Approximate Modified Policy Iteration. 29th International Conference on Machine Learning - ICML 2012, Jun 2012, Edinburgh, United Kingdom. ⟨hal-00758882⟩
  • Bruno Scherrer, Victor Gabillon, Mohammad Ghavamzadeh, Matthieu Geist. Approximations de l'Algorithme Itérations sur les Politiques Modifié. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 1 p. ⟨hal-00736226⟩
  • Matthieu Geist, Bruno Scherrer, Alessandro Lazaric, Mohammad Ghavamzadeh. A Dantzig Selector Approach to Temporal Difference Learning. ICML-12, Jun 2012, Edinburgh, United Kingdom. pp.1399-1406. ⟨hal-00749480⟩
  • Matthieu Geist, Bruno Scherrer, Alessandro Lazaric, Mohammad Ghavamzadeh. Un sélecteur de Dantzig pour l'apprentissage par différences temporelles. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p. ⟨hal-00736229⟩
  • Bruno Scherrer, Matthieu Geist. Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité. 6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France. ⟨hal-00644874⟩
  • Bruno Scherrer, Matthieu Geist. Recursive Least-Squares Learning with Eligibility Traces. European Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece. ⟨hal-00644511⟩
  • Matthieu Geist, Bruno Scherrer. l1-penalized projected Bellman residual. European Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece. ⟨hal-00644507⟩

Preprints, Working Papers, ...1 document

  • Bruno Scherrer, Matthieu Geist. Policy Search: Any Local Optimum Enjoys a Global Performance Guarantee. 2013. ⟨hal-00829548⟩

Reports2 documents

  • Matthieu Geist, Bruno Scherrer. Off-policy Learning with Eligibility Traces: A Survey. [Research Report] 2013, pp.43. ⟨hal-00644516v2⟩
  • Bruno Scherrer, Victor Gabillon, Mohammad Ghavamzadeh, Matthieu Geist. Approximate Modified Policy Iteration. [Research Report] 2012. ⟨hal-00697169v2⟩