Matthieu GEIST
19
Documents
Publications
- 1
- 1
- 1
- 1
- 2
- 3
- 2
- 5
- 3
- 19
- 6
- 4
- 3
- 2
- 1
- 1
- 1
- 1
|
Recherche locale de politique dans un espace convexeRevue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2015, 29 (6), pp.685-704. ⟨10.3166/RIA.29.685-706⟩
Article dans une revue
hal-01275247v1
|
|
Approximate modified policy iteration and its application to the game of TetrisJournal of Machine Learning Research, 2015, 16, pp.1629−1676
Article dans une revue
hal-01091341v1
|
|
Off-policy Learning with Eligibility Traces: A SurveyJournal of Machine Learning Research, 2014, 15 (1), pp.289-333
Article dans une revue
hal-00921275v1
|
|
Momentum in Reinforcement LearningAISTATS 2020 - 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Communication dans un congrès
hal-03137343v1
|
A Theory of Regularized Markov Decision ProcessesICML 2019 - Thirty-sixth International Conference on Machine Learning, Jun 2019, Long Island, United States
Communication dans un congrès
hal-02273741v1
|
|
|
Anderson acceleration for reinforcement learningEWRL 2018 - 4th European workshop on Reinforcement Learning, Oct 2018, Lille, France
Communication dans un congrès
hal-01928142v1
|
|
Softened approximate policy iteration for Markov gamesICML 2016 - 33rd International Conference on Machine Learning, Jun 2016, New York City, United States
Communication dans un congrès
hal-01393328v1
|
|
Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy SearchECMLPKDD 2014, Sep 2014, Nancy, France. pp.35 - 50, ⟨10.1007/978-3-662-44845-8_3⟩
Communication dans un congrès
hal-01086345v1
|
Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient fonctionnel9èmes Journées Francophones de Planification, Décision et Apprentissage (JFPDA'14), May 2014, Liège, Belgique
Communication dans un congrès
hal-01104776v1
|
|
Approximations de l'Algorithme Itérations sur les Politiques ModifiéJournées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 1 p
Communication dans un congrès
hal-00736226v1
|
|
A Dantzig Selector Approach to Temporal Difference LearningICML-12, Jun 2012, Edinburgh, United Kingdom. pp.1399-1406
Communication dans un congrès
hal-00749480v1
|
|
|
Approximate Modified Policy Iteration29th International Conference on Machine Learning - ICML 2012, Jun 2012, Edinburgh, United Kingdom
Communication dans un congrès
hal-00758882v1
|
|
Un sélecteur de Dantzig pour l'apprentissage par différences temporellesJournées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p
Communication dans un congrès
hal-00736229v1
|
Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France
Communication dans un congrès
hal-00644874v1
|
|
|
l1-penalized projected Bellman residualEuropean Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece
Communication dans un congrès
hal-00644507v1
|
|
Recursive Least-Squares Learning with Eligibility TracesEuropean Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece
Communication dans un congrès
hal-00644511v1
|
|
Policy Search: Any Local Optimum Enjoys a Global Performance Guarantee2013
Pré-publication, Document de travail
hal-00829548v1
|
|
Off-policy Learning with Eligibility Traces: A Survey[Research Report] 2013, pp.43
Rapport
hal-00644516v2
|
|
Approximate Modified Policy Iteration[Research Report] 2012
Rapport
hal-00697169v2
|