Portrait de Hanqing Zhao

Hanqing Zhao

Membre affilié
Professeur adjoint, Université Laval, Département de génie électrique et de génie informatique
Sujets de recherche
Apprentissage multitâche
Apprentissage par renforcement
Intelligence en essaim
Robotique
Systèmes multi-agents

Biographie

Hanqing Zhao est professeur adjoint au Département de génie électrique et de génie informatique de l’Université Laval. Il est membre du Laboratoire de Vision et Systèmes Numériques (LVSN).

Hanqing a commencé son parcours académique à l’École Centrale de Pékin (Université Beihang). Il a obtenu un diplôme d’ingénieur civil en informatique à l’École Polytechnique de Bruxelles (Université libre de Bruxelles), sous la supervision de Marco Dorigo ; il a ensuite reçu son doctorat en informatique (robotique) à l’Université McGill, sous la direction de Gregory Dudek et Xue (Steve) Liu. Par la suite, il a été chercheur postdoctoral au MIST Lab de l’École Polytechnique de Montréal, encadré par Giovanni Beltrame.

Ses recherches portent sur le développement de robots capables d’accomplir des tâches complexes tout en demeurant résilients face aux pannes et aux perturbations extérieures. Il exploite l’apprentissage automatique, le contrôle adaptatif et des techniques avancées de consensus, telles que l’apprentissage par renforcement, l’apprentissage supervisé et les technologies Blockchain, pour concevoir des systèmes robotiques robustes, en particulier multi-robots.

Publications

Zero-Shot Fault Detection for Manipulators Through Bayesian Inverse Reinforcement Learning
We consider the detection of faults in robotic manipulators, with particular emphasis on faults that have not been observed or identified in… (voir plus) advance, which naturally includes those that occur very infrequently. Recent studies indicate that the reward function obtained through Inverse Reinforcement Learning (IRL) can help detect anomalies caused by faults in a control system (i.e. fault detection). Current IRL methods for fault detection, however, either use a linear reward representation or require extensive sampling from the environment to estimate the policy, rendering them inappropriate for safety-critical situations where sampling of failure observations via fault injection can be expensive and dangerous. To address this issue, this paper proposes a zero-shot and exogenous fault detector based on an approximate variational reward imitation learning (AVRIL) structure. The fault detector recovers a reward signal as a function of externally observable information to describe the normal operation, which can then be used to detect anomalies caused by faults. Our method incorporates expert knowledge through a customizable reward prior distribution, allowing the fault detector to learn the reward solely from normal operation samples, without the need for a simulator or costly interactions with the environment. We evaluate our approach for exogenous partial fault detection in multi-stage robotic manipulator tasks, comparing it with several baseline methods. The results demonstrate that our method more effectively identifies unseen faults even when they occur within just three controller time steps.