Filtrer vos résultats
- 69
- 19
- 51
- 15
- 12
- 4
- 3
- 1
- 1
- 1
- 12
- 1
- 82
- 24
- 4
- 2
- 1
- 1
- 1
- 1
- 3
- 2
- 4
- 4
- 5
- 8
- 12
- 7
- 6
- 5
- 4
- 6
- 5
- 3
- 2
- 2
- 5
- 3
- 1
- 1
- 65
- 23
- 71
- 43
- 43
- 18
- 14
- 12
- 8
- 8
- 5
- 4
- 4
- 3
- 2
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 88
- 19
- 11
- 9
- 8
- 5
- 5
- 4
- 4
- 4
- 3
- 3
- 3
- 3
- 3
- 3
- 3
- 2
- 2
- 2
- 2
- 2
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
88 résultats
Sur l'utilisation de politiques non-stationnaires pour les processus de décision Markoviens à horizon infiniJFPDA - 8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes - 2013, Jul 2013, Lille, France
Communication dans un congrès
hal-00921291v1
|
|||
|
Building Controllers for TetrisInternational Computer Games Association Journal, 2009, 32, pp.3-11
Article dans une revue
inria-00418954v1
|
||
|
Classification-based Policy Iteration with a Critic2011
Rapport
hal-00590972v1
|
||
Guide pratique pour la conception de systèmes de culture légumiers économes en produits phytopharmaceutiques178 p., 2014
Ouvrages
hal-02800645v1
|
|||
|
Simulations de carrières et retraites à points dans 3 cadres macro-économiques: modèle du gouvernement Philippe (âge-pivot bloqué), modèle du gouvernement Philippe corrigé (âge-pivot glissant), modèle Destinie2 (avec revalorisation de la fonction publique)[Rapport de recherche] INRIA. 2020
Rapport
hal-03137362v1
|
||
|
Abstraction Pathologies In Markov Decision ProcessesICAPS'13 workshop on Heuristics and Search for Domain-independent Planning (HSDIP), Jun 2013, Rome, Italy
Communication dans un congrès
hal-00907315v1
|
||
|
Approximate dynamic programming for two-player zero-sum Markov gamesInternational Conference on Machine Learning (ICML 2015), Jul 2015, Lille, France
Communication dans un congrès
hal-01153270v3
|
||
|
Abstraction Pathologies In Markov Decision Processes8èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2013, Lille, France
Communication dans un congrès
hal-00907295v1
|
||
|
Optimal control subsumes harmonic control[Research Report] 2006, pp.8
Rapport
inria-00119243v1
|
||
On the Use of Non-Stationary Strategies for Solving Two-Player Zero-Sum Markov Games19th International Conference on Artificial Intelligence and Statistics (AISTATS 2016), May 2016, Cadiz, Spain
Communication dans un congrès
hal-01291495v1
|
|||
|
A Theory of Regularized Markov Decision ProcessesICML 2019 - Thirty-sixth International Conference on Machine Learning, Jun 2019, Long Island, United States
Communication dans un congrès
hal-02273741v1
|
||
|
Contributions algorithmiques au contrôle optimal stochastique à temps discret et horizon infiniOptimisation et contrôle [math.OC]. Université de Lorraine (Nancy), 2016
HDR
tel-01400208v1
|
||
|
Performance Bounds for Lambda Policy Iteration and Application to the Game of TetrisJournal of Machine Learning Research, 2013, 14, pp.1175-1221
Article dans une revue
hal-00759102v2
|
||
|
Leverage the Average: an Analysis of KL Regularization in Reinforcement LearningNeurIPS - 34th Conference on Neural Information Processing Systems, Dec 2020, Vancouver / Online, Canada
Communication dans un congrès
hal-03137351v1
|
||
A Dantzig Selector Approach to Temporal Difference LearningICML-12, Jun 2012, Edinburgh, United Kingdom. pp.1399-1406
Communication dans un congrès
hal-00749480v1
|
|||
|
Auto-organisation modulaire d'une architecture intelligenteValgo numéro 01-02, La revue en ligne de l'Association des Connexionnistes en THèse, Association des Connexionnistes en THèse, Oct 2001, Montélimar, France, 8 p
Communication dans un congrès
inria-00099399v1
|
||
|
Approximate Modified Policy Iteration29th International Conference on Machine Learning - ICML 2012, Jun 2012, Edinburgh, United Kingdom
Communication dans un congrès
hal-00758882v1
|
||
|
Momentum in Reinforcement LearningAISTATS 2020 - 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Communication dans un congrès
hal-03137343v1
|
||
|
Navigation, fonctions harmoniques et contrôle optimal stochastiqueCinquièmes Journées Nationales sur Processus Décisionnel de Markov et Intelligence Artificielle - PDMIA 2005, Jun 2005, Lille/France
Communication dans un congrès
inria-00000644v1
|
||
|
Tight Performance Bounds for Approximate Modified Policy Iteration with Non-Stationary Policies2013
Pré-publication, Document de travail
hal-00815996v1
|
||
|
Convergence of Online and Approximate Multiple-Step Lookahead Policy IterationEWRL 2018 - 14th European workshop on Reinforcement Learning, Oct 2018, Lille, France
Communication dans un congrès
hal-01927977v1
|
||
|
On the rate of convergence and error bounds for LSTD(λ)ICML 2015, Jul 2015, Lille, France
Communication dans un congrès
hal-01186667v1
|
||
|
Une étude comparative de quelques schémas d'approximation de type iterations sur les politiques[Rapport de recherche] 2014
Rapport
hal-00989991v1
|
||
|
Modular self-organization for a long-living autonomous agent[Intern report] A03-R-053 || scherrer03b, 2003, 7 p
Rapport
inria-00107753v1
|
||
Modular self-organization for a long-living autonomous agentEighteenth International Joint Conference on Artificial Intelligence - IJCAI'03, Aug 2003, Acapulco, Mexico
Communication dans un congrès
inria-00099717v1
|
|||
|
Embedded harmonic control for trajectory planning in large environmentsInternational Conference on ReConFigurable Computing and FPGAs - ReConFig 08, Dec 2008, Cancun, Mexico
Communication dans un congrès
inria-00337628v1
|
||
|
Error Reducing Sampling in Reinforcement LearningNIPS-08 Workshop on Model Uncertainty and Risk in Reinforcement Learning, Dec 2008, Whistler, Canada
Communication dans un congrès
inria-00337659v1
|
||
|
Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique
Communication dans un congrès
hal-00990508v1
|
||
Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France
Communication dans un congrès
hal-00644874v1
|
|||
|
On the Use of Non-Stationary Policies for Stationary Infinite-Horizon Markov Decision ProcessesNIPS 2012 - Neural Information Processing Systems, Dec 2012, South Lake Tahoe, United States
Communication dans un congrès
hal-00758809v1
|