Matthieu GEIST
138
Documents
Publications
- 1
- 5
- 9
- 4
- 3
- 9
- 4
- 6
- 9
- 18
- 20
- 21
- 16
- 7
- 6
- 92
- 21
- 19
- 13
- 12
- 12
- 11
- 8
- 7
- 6
- 6
- 5
- 4
- 4
- 4
- 4
- 3
- 3
- 3
- 3
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 2
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
- 1
|
A FastSLAM Approach Integrating Beamforming Maps for Ultrasound-based Robotic Inspection of Metal StructuresIEEE Robotics and Automation Letters, 2021
Article dans une revue
hal-03017841v3
|
Human Annotated Dialogues Dataset for Natural Conversational AgentsApplied Sciences, 2020, 10 (3), pp.762. ⟨10.3390/app10030762⟩
Article dans une revue
hal-03081727v1
|
|
|
Bridging the Gap Between Imitation Learning and Inverse Reinforcement LearningIEEE Transactions on Neural Networks and Learning Systems, 2017, 28 (8), pp.1814 - 1826. ⟨10.1109/TNNLS.2016.2543000⟩
Article dans une revue
hal-01629654v1
|
|
Soft-max boostingMachine Learning, 2015, 100 (2), pp.305-332. ⟨10.1007/s10994-015-5491-2⟩
Article dans une revue
hal-01258816v1
|
|
Recherche locale de politique dans un espace convexeRevue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2015, 29 (6), pp.685-704. ⟨10.3166/RIA.29.685-706⟩
Article dans une revue
hal-01275247v1
|
|
Approximate modified policy iteration and its application to the game of TetrisJournal of Machine Learning Research, 2015, 16, pp.1629−1676
Article dans une revue
hal-01091341v1
|
|
Off-policy Learning with Eligibility Traces: A SurveyJournal of Machine Learning Research, 2014, 15 (1), pp.289-333
Article dans une revue
hal-00921275v1
|
|
A C++ Template-Based Reinforcement Learning Library: Fitting the Code to the MathematicsJournal of Machine Learning Research, 2013, 14 (1), pp.625-628
Article dans une revue
hal-00914768v1
|
|
An algorithmic Survey of Parametric Value Function ApproximationIEEE Transactions on Neural Networks and Learning Systems, 2013, 24 (6), pp.845-867. ⟨10.1109/TNNLS.2013.2247418⟩
Article dans une revue
hal-00869725v1
|
Classification structurée pour l'apprentissage par renforcement inverseRevue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2013, 27 (2), pp.155-169. ⟨10.3166/ria.27.155-169⟩
Article dans une revue
hal-00869723v1
|
|
A Comprehensive Reinforcement Learning Framework for Dialogue Management OptimisationIEEE Journal of Selected Topics in Signal Processing, 2012, 6 (8), pp.891-902. ⟨10.1109/JSTSP.2012.2229257⟩
Article dans une revue
hal-00771646v1
|
|
Sample-Efficient Batch Reinforcement Learning for Dialogue Management OptimizationACM - Transactions on Speech and Language Processing, 2011, 7 (3), pp.art. 7 (1-21). ⟨10.1145/1966407.1966412⟩
Article dans une revue
hal-00617517v1
|
|
Différences temporelles de Kalman: Cas déterministeRevue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2010, 24 (4), pp.423-443. ⟨10.3166/ria.24.423-443⟩
Article dans une revue
hal-00512093v1
|
|
Kalman Temporal DifferencesJournal of Artificial Intelligence Research, 2010, 39, pp.483-532
Article dans une revue
hal-00858687v1
|
|
|
From Supervised to Reinforcement Learning: a Kernel-based Bayesian Filtering FrameworkInternational Journal On Advances in Software, 2009, 2 (1), pp.101-116
Article dans une revue
hal-00429891v1
|
Localisation, Cartographie et Calibration de la Dispersion pour l'Inspection Robotique de Structures en Métal par Ondes Guidées16ème Congrès Français d'Acoustique, CFA2022, Société Française d'Acoustique; Laboratoire de Mécanique et d'Acoustique, Apr 2022, Marseille, France
Communication dans un congrès
hal-03848450v1
|
|
|
Show me the Way: Intrinsic Motivation from DemonstrationsAAMAS 2021 - 20th International Conference on Autonomous Agents and Multiagent Systems, May 2021, Virtual, United Kingdom
Communication dans un congrès
hal-03162139v1
|
|
Primal Wasserstein Imitation LearningICLR 2021 - Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Communication dans un congrès
hal-03162526v1
|
|
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical StudyICLR 2021 - Ninth International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Communication dans un congrès
hal-03162554v1
|
|
Adversarially Guided Actor-CriticICLR 2021 - International Conference on Learning Representations, May 2021, Vienna / Virtual, Austria
Communication dans un congrès
hal-03167169v1
|
|
Self-Attentional Credit Assignment for Transfer in Reinforcement LearningIJCAI 2020 - 29th International Joint Conference on Artificial Intelligence, Jul 2020, Yokohama / Virtual, Japan
Communication dans un congrès
hal-03159832v1
|
|
Monte-Carlo Localization on Metal Plates Based on Ultrasonic Guided WavesInternational Symposium on Experimental Robotics, Nov 2020, Malte, Malta
Communication dans un congrès
hal-03120508v1
|
Image-Based Place Recognition on Bucolic Environment Across Seasons From Semantic Edge Description2020 IEEE International Conference on Robotics and Automation (ICRA), May 2020, Paris, France. pp.3032-3038, ⟨10.1109/ICRA40945.2020.9197529⟩
Communication dans un congrès
hal-03157977v1
|
|
|
Momentum in Reinforcement LearningAISTATS 2020 - 23rd International Conference on Artificial Intelligence and Statistics, Aug 2020, Palermo / Virtual, Italy
Communication dans un congrès
hal-03137343v1
|
Modified Actor-CriticsAAMAS2020 - International Conference on Autonomous Agents and MultiAgent Systems, May 2020, virtual, New Zealand
Communication dans un congrès
hal-03081704v1
|
|
|
CopyCAT: Taking Control of Neural Policies with Constant AttacksAAMAS 2020 - 19th International Conference on Autonomous Agents and Multi-Agent Systems, May 2020, Virtual, New Zealand
Communication dans un congrès
hal-03162124v1
|
A Theory of Regularized Markov Decision ProcessesICML 2019 - Thirty-sixth International Conference on Machine Learning, Jun 2019, Long Island, United States
Communication dans un congrès
hal-02273741v1
|
|
|
Importance Sampling for Deep System Identification19th International Conference on Advanced Robotics (ICAR), 2019, Belo Horizonte, Brazil. ⟨10.1109/ICAR46387.2019.8981590⟩
Communication dans un congrès
hal-02278171v1
|
Image-Based Text Classification using 2D Convolutional Neural Networks2019 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI), Aug 2019, Leicester, United Kingdom. pp.144-149, ⟨10.1109/SmartWorld-UIC-ATC-SCALCOM-IOP-SCI.2019.00066⟩
Communication dans un congrès
hal-03081713v1
|
|
|
Anderson acceleration for reinforcement learningEWRL 2018 - 4th European workshop on Reinforcement Learning, Oct 2018, Lille, France
Communication dans un congrès
hal-01928142v1
|
|
Trajectory-control using deep system identification and model predictive control for drone control under uncertain load2018 22nd International Conference on System Theory, Control and Computing (ICSTCC), Oct 2018, Sinaia, Romania. ⟨10.1109/ICSTCC.2018.8540719⟩
Communication dans un congrès
hal-01927035v1
|
A Deep Learning Approach for Privacy Preservation in Assisted Living2018 IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom Workshops), Mar 2018, Athens, Greece. pp.710-715, ⟨10.1109/PERCOMW.2018.8480247⟩
Communication dans un congrès
hal-03081669v1
|
|
|
Reconstruct & Crush NetworkAdvances in Neural Information Processing Systems, 2017, Long Beach, United States
Communication dans un congrès
hal-01629742v1
|
|
Real time degradation identification of UAV using machine learning techniquesInternational Conference on Unmanned Aircraft Systems (ICUAS), 2017, Miami, United States
Communication dans un congrès
hal-01629680v1
|
Faut-il minimiser le résidu de Bellman ou maximiser la valeur moyenne ?Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes (JFPDA 2017), Jul 2017, Caen, France
Communication dans un congrès
hal-01576347v1
|
|
|
Human activity recognition using recurrent neural networks1st International Cross-Domain Conference for Machine Learning and Knowledge Extraction (CD-MAKE), Aug 2017, Reggio, Italy. pp.267-274, ⟨10.1007/978-3-319-66808-6_18⟩
Communication dans un congrès
hal-01629704v1
|
|
Is the Bellman residual a bad proxy?NIPS 2017 - Advances in Neural Information Processing Systems, Dec 2017, Long Beach, United States. pp.1-13
Communication dans un congrès
hal-01629739v1
|
|
Score-based Inverse Reinforcement LearningInternational Conference on Autonomous Agents and Multiagent Systems (AAMAS 2016), May 2016, Singapore, Singapore
Communication dans un congrès
hal-01406886v1
|
|
Batch Policy Iteration Algorithms for Continuous DomainsEuropean Workshop on Reinforcement Learning (EWRL), 2016, Barcelone, Spain
Communication dans un congrès
hal-01629651v1
|
|
Softened approximate policy iteration for Markov gamesICML 2016 - 33rd International Conference on Machine Learning, Jun 2016, New York City, United States
Communication dans un congrès
hal-01393328v1
|
|
Inverse Reinforcement Learning in Relational DomainsInternational Joint Conferences on Artificial Intelligence, Jul 2015, Buenos Aires, Argentina
Communication dans un congrès
hal-01154650v1
|
|
A multiplicative UCB strategy for Gamma rewardsEuropean Workshop on Reinforcement Learning, 2015, Lille, France
Communication dans un congrès
hal-01258820v1
|
|
Imitation Learning Applied to Embodied Conversational Agents4th Workshop on Machine Learning for Interactive Systems (MLIS 2015), Jul 2015, Lille, France
Communication dans un congrès
hal-01225816v1
|
Boosted and Reward-regularized Classification for Apprenticeship LearningAAMAS 2014 : 13th International Conference on Autonomous Agents and Multiagent Systems, May 2014, Paris, France. pp.1249-1256
Communication dans un congrès
hal-01107837v1
|
|
|
Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy SearchECML, Sep 2014, Nancy, France. pp.35 - 50, ⟨10.1007/978-3-662-44845-8_3⟩
Communication dans un congrès
hal-01091079v1
|
Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient fonctionnel9èmes Journées Francophones de Planification, Décision et Apprentissage (JFPDA'14), May 2014, Liège, Belgique
Communication dans un congrès
hal-01104776v1
|
|
|
Boosted Bellman Residual Minimization Handling Expert DemonstrationsEuropean Conference, ECML PKDD 2014, Sep 2014, Nancy, France. pp.549-564, ⟨10.1007/978-3-662-44851-9_35⟩
Communication dans un congrès
hal-01060953v1
|
|
Difference of Convex Functions Programming for Reinforcement LearningAdvances in Neural Information Processing Systems (NIPS 2014), Dec 2014, Montreal, Canada
Communication dans un congrès
hal-01104419v1
|
|
Local Policy Search in a Convex Space and Conservative Policy Iteration as Boosted Policy SearchECMLPKDD 2014, Sep 2014, Nancy, France. pp.35 - 50, ⟨10.1007/978-3-662-44845-8_3⟩
Communication dans un congrès
hal-01086345v1
|
Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes.9èmes Journées Francophones de Planification, Décision et Apprentissage (JFPDA'14), May 2014, Liège, Belgique
Communication dans un congrès
hal-01104789v1
|
|
|
Predicting when to laugh with structured classificationInterSpeech 2014, Sep 2014, Singapore, Singapore. pp.1786-1790
Communication dans un congrès
hal-01104739v1
|
|
Learning from Demonstrations: Is It Worth Estimating a Reward Function?Joint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML/PKDD 2013), Sep 2013, Prague, Czech Republic. pp.17-32, ⟨10.1007/978-3-642-40988-2_2⟩
Communication dans un congrès
hal-00869801v1
|
|
Apprentissage par démonstrations : vaut-il la peine d'estimer une fonction de récompense?Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France
Communication dans un congrès
hal-00916941v1
|
Optimisation par essaims particulaires de stratégies de dialogueJournées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France
Communication dans un congrès
hal-00918425v1
|
|
|
A cascaded supervised learning approach to inverse reinforcement learningJoint European Conference on Machine Learning and Knowledge Discovery in Databases (ECML/PKDD 2013), Sep 2013, Prague, Czech Republic. pp.1-16, ⟨10.1007/978-3-642-40988-2_1⟩
Communication dans un congrès
hal-00869804v1
|
|
Random Projections: a Remedy for Overfitting Issues in Time Series Prediction with Echo State NetworksICASSP 2013, May 2013, Vancouver, Canada. pp.3253-3257, ⟨10.1109/ICASSP.2013.6638259⟩
Communication dans un congrès
hal-00869814v1
|
|
Particle Swarm Optimisation of Spoken Dialogue System StrategiesInterspeech 2013, Aug 2013, Lyon, France. pp.1-5
Communication dans un congrès
hal-00916935v1
|
Model-free POMDP optimisation of tutoring systems with echo-state networksSIGDial 2013, Aug 2013, Metz, France. pp.102-106
Communication dans un congrès
hal-00869773v1
|
|
Laugh-aware virtual agent and its impact on user amusementAAMAS '13, May 2013, Saint Paul, Minnesota, United States. pp.619-626
Communication dans un congrès
hal-00869751v1
|
|
Learning from demonstrations: Is it worth estimating a reward function?1st Multidisciplinary Conference on Reinforcement Learning and Decision Making (RLDM 2013), Oct 2013, Princeton, New Jersey, United States
Communication dans un congrès
hal-00916938v1
|
|
|
Classification régularisée par la récompense pour l'Apprentissage par ImitationJournées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France
Communication dans un congrès
hal-00916940v1
|
Apprentissage par renforcement inverse en cascadant classification et régressionJournées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France
Communication dans un congrès
hal-00916942v1
|
|
Around Inverse Reinforcement Learning and Score-based Classification1st Multidisciplinary Conference on Reinforcement Learning and Decision Making (RLDM 2013), Oct 2013, Princeton, New Jersey, United States
Communication dans un congrès
hal-00916936v1
|
|
|
Un sélecteur de Dantzig pour l'apprentissage par différences temporellesJournées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 13 p
Communication dans un congrès
hal-00736229v1
|
Structured Classification for Inverse Reinforcement LearningEWRL 2012, Jun 2012, Edinburgh, United Kingdom. pp.1-14
Communication dans un congrès
hal-00749524v1
|
|
|
Clustering Behaviors Of Spoken Dialogue Systems UsersICASSP 2012, Mar 2012, Kyoto, Japan. pp.4981-4984
Communication dans un congrès
hal-00685009v1
|
|
Monte-Carlo Swarm Policy SearchSymposium on Swarm Intelligence and Differential Evolution, Apr 2012, Zakopane, Poland. pp.75-83, ⟨10.1007/978-3-642-29353-5_9⟩
Communication dans un congrès
hal-00695540v1
|
Co-adaptation in Spoken Dialogue SystemsIWSDS 2012, Nov 2012, Paris, France. pp.1
Communication dans un congrès
hal-00778752v1
|
|
A Dantzig Selector Approach to Temporal Difference LearningICML-12, Jun 2012, Edinburgh, United Kingdom. pp.1399-1406
Communication dans un congrès
hal-00749480v1
|
|
|
Regroupement non-supervisé d'utilisateurs par leur comportement pour les systèmes de dialogue parléJournées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 16 p
Communication dans un congrès
hal-00736205v1
|
Behavior Specific User Simulation in Spoken Dialogue Systems10th ITG Conference on Speech Communication, Sep 2012, Braunschweig, Germany. pp.1-4
Communication dans un congrès
hal-00749421v1
|
|
|
Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPORFIA 2012 (Reconnaissance des Formes et Intelligence Artificielle), Jan 2012, Lyon, France. pp.978-2-9539515-2-3
Communication dans un congrès
hal-00656496v1
|
|
Approximate Modified Policy Iteration29th International Conference on Machine Learning - ICML 2012, Jun 2012, Edinburgh, United Kingdom
Communication dans un congrès
hal-00758882v1
|
|
Inverse Reinforcement Learning through Structured ClassificationNIPS 2012, Dec 2012, Lake Tahoe, Nevada, United States. pp.1-9
Communication dans un congrès
hal-00778624v1
|
|
Optimisation de contrôleurs par essaim particulaireConférence Francophone sur l'Apprentissage Automatique - CAp 2012, May 2012, Nancy, France. pp.1-14
Communication dans un congrès
hal-00701945v1
|
Optimisation d'un tuteur intelligent à partir d'un jeu de données fixéJEP 2012, Jun 2012, Grenoble, France. pp.241-248
Communication dans un congrès
hal-00749498v1
|
|
|
Off-policy Learning in Large-scale POMDP-based Dialogue SystemsICASSP 2012, Mar 2012, Kyoto, Japan. pp.4989-4992
Communication dans un congrès
hal-00684819v1
|
Filtering of pathological ventricular rhythms during MRI scanningBSI2012, Jul 2012, Como, Italy. pp.97-100
Communication dans un congrès
hal-00749457v1
|
|
|
Classification structurée pour l'apprentissage par renforcement inverseConférence Francophone sur l'Apprentissage Automatique - CAp 2012, May 2012, Nancy, France. pp.1-16
Communication dans un congrès
hal-00701947v1
|
Approximations de l'Algorithme Itérations sur les Politiques ModifiéJournées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 1 p
Communication dans un congrès
hal-00736226v1
|
|
|
l1-penalized projected Bellman residualEuropean Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece
Communication dans un congrès
hal-00644507v1
|
|
Recursive Least-Squares Learning with Eligibility TracesEuropean Wrokshop on Reinforcement Learning (EWRL 11), Sep 2011, Athens, Greece
Communication dans un congrès
hal-00644511v1
|
|
Apprentissage par renforcement pour la personnalisation d'un logiciel d'enseignement des languesEIAH 2011, May 2011, Mons, Belgique. pp.1-5
Communication dans un congrès
hal-00652516v1
|
Batch, Off-policy and Model-free Apprenticeship LearningEWRL 2011, Sep 2011, Athens, Greece. pp.1-12
Communication dans un congrès
hal-00660623v1
|
|
Batch, Off-policy and Model-Free Apprenticeship LearningIJCAI Workshop on Agents Learning Interactively from Human Teachers (ALIHT 2011), Jun 2011, Barcelona, Spain. 6 p
Communication dans un congrès
hal-00596370v1
|
|
|
Sample Efficient On-line Learning of Optimal Dialogue Policies with Kalman Temporal DifferencesIJCAI 2011, Jul 2011, Barcelona, Spain. pp.1878-1883
Communication dans un congrès
hal-00618252v1
|
|
Uncertainty management for on-line optimisation of a POMDP-based large-scale spoken dialogue systemInterspeech 2011, Aug 2011, Florence, Italy. pp.1301-1304
Communication dans un congrès
hal-00652194v1
|
Reducing the dimentionality of the reward space in the Inverse Reinforcement Learning problemMLASA 2011, Dec 2011, Honolulu, United States. pp.1-4
Communication dans un congrès
hal-00660612v1
|
|
|
Apprentissage par imitation dans un cadre batch, off-policy et sans modèleJFPDA 2011, Jun 2011, Rouen, France. pp.1-9
Communication dans un congrès
hal-00652762v1
|
|
Apprentissage par Renforcement Inverse pour la Simulation d'Utilisateurs dans les Systèmes de DialogueJFPDA 2011, Jun 2011, Rouen, France. pp.1-7
Communication dans un congrès
hal-00652753v1
|
|
A Non-Parametric Approach to Approximate Dynamic ProgrammingICMLA 2011, Dec 2011, Honolulu, Hawaii, United States. pp.1-6
Communication dans un congrès
hal-00652438v1
|
|
User Simulation in Dialogue Systems using Inverse Reinforcement LearningInterspeech 2011, Aug 2011, Florence, Italy. pp.1025-1028
Communication dans un congrès
hal-00652446v1
|
|
Parametric value function approximation: A unified viewADPRL 2011, Apr 2011, Paris, France. pp.9-16, ⟨10.1109/ADPRL.2011.5967355⟩
Communication dans un congrès
hal-00618112v1
|
|
Optimization of a Tutoring System from a Fixed Set of DataSLaTE 2011, Aug 2011, Venice, Italy. pp.1-4
Communication dans un congrès
hal-00652324v1
|
Performance evaluation for particle filtersFUSION 2011, Jul 2011, Chicago, United States. pp.1-7
Communication dans un congrès
hal-00652168v1
|
|
|
Gestion de l'incertitude pour l'optimisation en ligne d'un gestionnaire de dialogues parlés à grande échelle basé sur les POMDPJFPDA 2011, Jun 2011, Rouen, France. pp.1-7
Communication dans un congrès
hal-00652511v1
|
Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité6ème Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes - JFPDA 2011, Jun 2011, Rouen, France
Communication dans un congrès
hal-00644874v1
|
|
Kalman filtering & colored noises: the (autoregressive) moving-average caseMLASA 2011, Dec 2011, Honolulu, United States. pp.1-4
Communication dans un congrès
hal-00660607v1
|
|
|
Dynamic Neural Field Optimization using the Unscented Kalman FilterCCMB 2011, Apr 2011, Paris, France. 7 p., ⟨10.1109/CCMB.2011.5952113⟩
Communication dans un congrès
hal-00618117v1
|
Statistically Linearized Least-Squares Temporal Differences5èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'10), Jun 2010, Besançon, France
Communication dans un congrès
hal-00554338v1
|
|
Astuce du Noyau & Quantification VectorielleRFIA'10, Jan 2010, Caen, France. 8 p
Communication dans un congrès
hal-00553114v1
|
|
Statistically Linearized Recursive Least SquaresMLSP 2010, Aug 2010, Kittilä, Finland. pp.272-276, ⟨10.1109/MLSP.2010.5589236⟩
Communication dans un congrès
hal-00553168v1
|
|
Statistical Linearization for Value Function Approximation in Reinforcement LearningNIPS Workshop on Learning and Planning from Batch Time Series Data (OPT 2010), Dec 2010, Vancouver, Canada. pp.1-6
Communication dans un congrès
hal-00554324v1
|
|
Revisiting Natural Actor-Critics with Value Function ApproximationMDAI 2010, Oct 2010, Perpignan, France. pp.207-218, ⟨10.1007/978-3-642-16292-3_21⟩
Communication dans un congrès
hal-00553870v1
|
|
Revisiting natural actor-critics with value function approximationBNAIC 2010, Oct 2010, Luxembourg, Luxembourg. 1 page
Communication dans un congrès
hal-00553175v1
|
|
Sparse Approximate Dynamic Programming for Dialog ManagementSIGDial 2010, Sep 2010, Tokyo, Japan. pp.107-115
Communication dans un congrès
hal-00553180v1
|
|
Statistically linearized least-squares temporal differencesICUMT 2010, Oct 2010, Moscow, Russia. pp.450-457, ⟨10.1109/ICUMT.2010.5676598⟩
Communication dans un congrès
hal-00553913v1
|
|
Managing Uncertainty within the KTD FrameworkActive Learning and Experimental Design workshop in conjunction with AISTATS 2010, May 2010, Sardinia, Italy. pp.157-168
Communication dans un congrès
hal-00599636v1
|
|
Eligibility Traces through Colored NoisesICUMT 2010, Oct 2010, Moscow, Russia. pp.458-465, ⟨10.1109/ICUMT.2010.5676597⟩
Communication dans un congrès
hal-00553910v1
|
|
Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcementCAP 2010, May 2010, Clermont-Ferrand, France. pp.101-112
Communication dans un congrès
hal-00553895v1
|
|
Optimizing Spoken Dialogue Management with Fitted Value IterationInterspeech 2010, Sep 2010, Makuhari, Japan. pp.86-89
Communication dans un congrès
hal-00553184v1
|
|
Revisiting natural actor-critics with value function approximation5èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA'10), Jun 2010, Besançon, France
Communication dans un congrès
hal-00554346v1
|
|
Managing Uncertainty within Value Function Approximation in Reinforcement LearningActive Learning and Experimental Design workshop (collocated with AISTATS 2010), May 2010, Sardinia, Italy
Communication dans un congrès
hal-00554398v1
|
|
|
Différences Temporelles de KalmanJFPDA 2009, Jun 2009, Paris, France. (20 p.)
Communication dans un congrès
hal-00437002v1
|
Tracking in Reinforcement Learning16th International Conference on Neural Information Processing - ICONIP 2009, Dec 2009, Bangkok, Thailand. pp.502-511, ⟨10.1007/978-3-642-10677-4_57⟩
Communication dans un congrès
hal-00439316v1
|
|
|
Kalman Temporal Differences: the deterministic caseADPRL 2009, Mar 2009, Nashville, TN, United States. pp.185-192, ⟨10.1109/ADPRL.2009.4927543⟩
Communication dans un congrès
hal-00380870v1
|
|
Kernelizing Vector Quantization AlgorithmsESANN'2009, Apr 2009, Bruges, Belgium. pp.541-546
Communication dans un congrès
hal-00429892v1
|
|
Différences Temporelles de Kalman : le cas stochastiqueJFPDA 2009, Jun 2009, Paris, France. (13 p.)
Communication dans un congrès
hal-00437006v1
|
Kalman Temporal Differences: Uncertainty and Value Function ApproximationNIPS Workshop on Model Uncertainty and Risk in Reinforcement Learning, Dec 2008, Vancouver, Canada
Communication dans un congrès
hal-00351298v1
|
|
Filtrage bayésien de la récompenseJFPDA 2008, Jun 2008, Metz, France. pp.113-122
Communication dans un congrès
hal-00351343v1
|
|
|
A Sparse Nonlinear Bayesian Online Kernel RegressionAdvComp 2008, Oct 2008, Valencia, Spain. pp.199-204, ⟨10.1109/ADVCOMP.2008.7⟩
Communication dans un congrès
hal-00327081v1
|
|
Online Bayesian Kernel Regression from Nonlinear Mapping of ObservationsMLSP 2008, Oct 2008, Cancun, Mexico. pp.309-314, ⟨10.1109/MLSP.2008.4685498⟩
Communication dans un congrès
hal-00335052v1
|
Kalman Temporal DifferencesCross-border workshop of PhD students in fundamental and applied mathematics (LMAM - UPVM), Dec 2008, Metz, France
Communication dans un congrès
hal-00351297v1
|
|
Bayesian Reward FilteringEWRL 2008, Jun 2008, Lille, France. pp.96-109, ⟨10.1007/978-3-540-89722-4_8⟩
Communication dans un congrès
hal-00351282v1
|
Convolutional and Recurrent Neural Networks for Activity Recognition in Smart EnvironmentA. Holzinger; R. Goebel; M. Ferri; V. Palade. Towards Integrative Machine Learning and Knowledge Extraction, 10344, springer, pp.194-205, 2017, Lecture Notes in Computer Science
Chapitre d'ouvrage
hal-01629732v1
|
PERIODIC ARTIFACT REDUCTION FROM BIOMEDICAL SIGNALSFrance, Patent n° : WO/2013/052944. 2013
Brevet
hal-00869739v1
|
|
Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPOActes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012), 2012, pp.1-8
Autre publication scientifique
hal-00656997v1
|
Fictitious Play for Mean Field Games: Continuous Time Analysis and Applications2020
Pré-publication, Document de travail
hal-02931977v1
|
|
|
Filling Gaps in Micro-Meteorological Data2020
Pré-publication, Document de travail
hal-03091151v1
|
|
A Comprehensive Benchmark of Neural Networks for System Identification2019
Pré-publication, Document de travail
hal-02278102v1
|
|
Difference of Convex Functions Programming Applied to Control with Expert Data2017
Pré-publication, Document de travail
hal-01629653v1
|
|
Policy Search: Any Local Optimum Enjoys a Global Performance Guarantee2013
Pré-publication, Document de travail
hal-00829548v1
|
|
Off-policy Learning with Eligibility Traces: A Survey[Research Report] 2013, pp.43
Rapport
hal-00644516v2
|
|
Approximate Modified Policy Iteration[Research Report] 2012
Rapport
hal-00697169v2
|
Online adaptation of dialogue systems2011
Rapport
hal-00652841v1
|
|
Optimisation des chaînes de production dans l'industrie sidérurgique : une approche statistique de l'apprentissage par renforcementMathématiques [math]. Université Paul Verlaine - Metz, 2009. Français. ⟨NNT : 2009METZ023S⟩
Thèse
tel-01752647v2
|
|
Contrôle optimal et apprentissage automatique, applications aux interactions homme-machineMachine Learning [stat.ML]. Université de Lille 1 - Sciences et Technologies, 2016
HDR
tel-01629638v1
|