Recherche - Archive ouverte HAL Accéder directement au contenu

Filtrer vos résultats

88 résultats

Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infini

Bruno Scherrer , Boris Lesner
JFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France
Communication dans un congrès hal-00921291v1
Image document

Building Controllers for Tetris

Christophe Thiery , Bruno Scherrer
International Computer Games Association Journal, 2009, 32, pp.3-11
Article dans une revue inria-00418954v1
Image document

Classification-based Policy Iteration with a Critic

Victor Gabillon , Alessandro Lazaric , Mohammad Ghavamzadeh , Bruno Scherrer
2011
Rapport hal-00590972v1

Guide pratique pour la conception de systèmes de culture légumiers économes en produits phytopharmaceutiques

Marine Launais , Ludovic Bzdrenga , Vianney Estorgues , Vincent V. Faloya , Benoit B. Jeannequin , et al.
178 p., 2014
Ouvrages hal-02800645v1
Image document

Simulations de carrières et retraites à points dans 3 cadres macro-économiques: modèle du gouvernement Philippe (âge-pivot bloqué), modèle du gouvernement Philippe corrigé (âge-pivot glissant), modèle Destinie2 (avec revalorisation de la fonction publique)

Bruno Scherrer
[Rapport de recherche] INRIA. 2020
Rapport hal-03137362v1
Image document

Abstraction Pathologies In Markov Decision Processes

Manel Tagorti , Bruno Scherrer , Olivier Buffet , Joerg Hoffmann
ICAPS'13 workshop on Heuristics and Search for Domain-independent Planning (HSDIP), Jun 2013, Rome, Italy
Communication dans un congrès hal-00907315v1
Image document

Approximate dynamic programming for two-player zero-sum Markov games

Julien Perolat , Bruno Scherrer , Bilal Piot , Olivier Pietquin
International Conference on Machine Learning (ICML 2015), Jul 2015, Lille, France
Communication dans un congrès hal-01153270v3
Image document

Abstraction Pathologies In Markov Decision Processes

Manel Tagorti , Bruno Scherrer , Olivier Buffet , Joerg Hoffmann
8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2013, Lille, France
Communication dans un congrès hal-00907295v1
Image document

Optimal control subsumes harmonic control

Amine Boumaza , Bruno Scherrer
[Research Report] 2006, pp.8
Rapport inria-00119243v1

On the Use of Non-Stationary Strategies for Solving Two-Player Zero-Sum Markov Games

Julien Pérolat , Bilal Piot , Bruno Scherrer , Olivier Pietquin
19th International Conference on Artificial Intelligence and Statistics (AISTATS 2016), May 2016, Cadiz, Spain
Communication dans un congrès hal-01291495v1

A Theory of Regularized Markov Decision Processes

Matthieu Geist , Bruno Scherrer , Olivier Pietquin
ICML 2019 - Thirty-sixth International Conference on Machine Learning, Jun 2019, Long Island, United States
Communication dans un congrès hal-02273741v1
Image document

Contributions algorithmiques au contrôle optimal stochastique à temps discret et horizon infini

Bruno Scherrer
Optimisation et contrôle [math.OC]. Université de Lorraine (Nancy), 2016
HDR tel-01400208v1
Image document

Performance Bounds for Lambda Policy Iteration and Application to the Game of Tetris

Bruno Scherrer
Journal of Machine Learning Research, 2013, 14, pp.1175-1221
Article dans une revue hal-00759102v2
Image document

Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning

Nino Vieillard , Tadashi Kozuno , Bruno Scherrer , Olivier Pietquin , Rémi Munos , et al.
NeurIPS - 34th Conference on Neural Information Processing Systems, Dec 2020, Vancouver / Online, Canada
Communication dans un congrès hal-03137351v1

A Dantzig Selector Approach to Temporal Difference Learning

Matthieu Geist , Bruno Scherrer , Alessandro Lazaric , Mohammad Ghavamzadeh
ICML-12, Jun 2012, Edinburgh, United Kingdom. pp.1399-1406
Communication dans un congrès hal-00749480v1
Image document

Auto-organisation modulaire d'une architecture intelligente

Bruno Scherrer
Valgo numéro 01-02, La revue en ligne de l'Association des Connexionnistes en THèse, Association des Connexionnistes en THèse, Oct 2001, Montélimar, France, 8 p
Communication dans un congrès inria-00099399v1
Image document

Approximate Modified Policy Iteration

Bruno Scherrer , Mohammad Ghavamzadeh , Victor Gabillon , Matthieu Geist
29th International Conference on Machine Learning - ICML 2012, Jun 2012, Edinburgh, United Kingdom
Communication dans un congrès hal-00758882v1
Image document

Momentum in Reinforcement Learning

Nino Vieillard , Bruno Scherrer , Olivier Pietquin , Matthieu Geist
AISTATS 2020 - 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Communication dans un congrès hal-03137343v1
Image document

Navigation, fonctions harmoniques et contrôle optimal stochastique

Amine Boumaza , Bruno Scherrer
Cinquièmes Journées Nationales sur Processus Décisionnel de Markov et Intelligence Artificielle - PDMIA 2005, Jun 2005, Lille/France
Communication dans un congrès inria-00000644v1
Image document

Tight Performance Bounds for Approximate Modified Policy Iteration with Non-Stationary Policies

Boris Lesner , Bruno Scherrer
2013
Pré-publication, Document de travail hal-00815996v1
Image document

Convergence of Online and Approximate Multiple-Step Lookahead Policy Iteration

Yonathan Efroni , Gal Dalal , Bruno Scherrer , Shie Mannor
EWRL 2018 - 14th European workshop on Reinforcement Learning, Oct 2018, Lille, France
Communication dans un congrès hal-01927977v1
Image document

On the rate of convergence and error bounds for LSTD(λ)

Manel Tagorti , Bruno Scherrer
ICML 2015, Jul 2015, Lille, France
Communication dans un congrès hal-01186667v1
Image document

Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques

Bruno Scherrer
[Rapport de recherche] 2014
Rapport hal-00989991v1
Image document

Modular self-organization for a long-living autonomous agent

Bruno Scherrer
[Intern report] A03-R-053 || scherrer03b, 2003, 7 p
Rapport inria-00107753v1

Modular self-organization for a long-living autonomous agent

Bruno Scherrer
Eighteenth International Joint Conference on Artificial Intelligence - IJCAI'03, Aug 2003, Acapulco, Mexico
Communication dans un congrès inria-00099717v1
Image document

Embedded harmonic control for trajectory planning in large environments

Cesar Torres-Huitzil , Bernard Girau , Amine Boumaza , Bruno Scherrer
International Conference on ReConFigurable Computing and FPGAs - ReConFig 08, Dec 2008, Cancun, Mexico
Communication dans un congrès inria-00337628v1
Image document

Error Reducing Sampling in Reinforcement Learning

Bruno Scherrer , Shie Mannor
NIPS-08 Workshop on Model Uncertainty and Risk in Reinforcement Learning, Dec 2008, Whistler, Canada
Communication dans un congrès inria-00337659v1
Image document

Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

Manel Tagorti , Bruno Scherrer
JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique
Communication dans un congrès hal-00990508v1

Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité

Bruno Scherrer , Matthieu Geist
6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France
Communication dans un congrès hal-00644874v1
Image document

On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Markov Decision Processes

Bruno Scherrer , Boris Lesner
NIPS 2012 - Neural Information Processing Systems, Dec 2012, South Lake Tahoe, United States
Communication dans un congrès hal-00758809v1