Jianxiong Li

Chat Image Generator Video Music Voice Chat Photo Editor

Featured Co-authors

Zhaoran Wang
121 publications
Zhuoran Yang
110 publications
Jingjing Liu
74 publications
Li Jiang
48 publications
Xiangyu Zhu
31 publications
Haoran Xu
29 publications
Xiao Hu
26 publications
Xianyuan Zhan
20 publications
Ya-Qin Zhang
8 publications
Qing-Shan Jia
6 publications
Honglei Yin
3 publications

research

∙ 05/27/2023

Query-Policy Misalignment in Preference-Based Reinforcement Learning

Preference-based reinforcement learning (PbRL) provides a natural way to...

0 Xiao Hu, et al. ∙

research

∙ 05/25/2023

PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement Learning

Offline-to-online reinforcement learning (RL), by combining the benefits...

0 Jianxiong Li, et al. ∙

research

∙ 03/28/2023

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Most offline reinforcement learning (RL) methods suffer from the trade-o...

0 Haoran Xu, et al. ∙

research

∙ 02/03/2023

Mind the Gap: Offline Policy Optimization for Imperfect Rewards

Reward function is essential in reinforcement learning (RL), serving as ...

0 Jianxiong Li, et al. ∙

research

∙ 10/15/2022

A Policy-Guided Imitation Approach for Offline Reinforcement Learning

Offline reinforcement learning (RL) methods can generally be categorized...

0 Haoran Xu, et al. ∙

research

∙ 05/23/2022

Distance-Sensitive Offline Reinforcement Learning

In offline reinforcement learning (RL), one detrimental issue to policy ...

0 Jianxiong Li, et al. ∙

research

∙ 10/14/2021

Offline Reinforcement Learning with Soft Behavior Regularization

Most prior approaches to offline reinforcement learning (RL) utilize beh...

0 Haoran Xu, et al. ∙

Success!

An error occurred

Jianxiong Li

Featured Co-authors

Query-Policy Misalignment in Preference-Based Reinforcement Learning

PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement Learning

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Mind the Gap: Offline Policy Optimization for Imperfect Rewards

A Policy-Guided Imitation Approach for Offline Reinforcement Learning

Distance-Sensitive Offline Reinforcement Learning

Offline Reinforcement Learning with Soft Behavior Regularization

Sign in with Google

Consider DeepAI Pro