Biography

Hexiang Hu is a Member of Technical Staff at xAI. Prior to that, He was a Research Scientist at Google DeepMind. He earned his Ph.D. degree in Computer Science from Viterbi School of Engineering at University of Southern California (USC). His long-term research goal is to build agents that understand human language in the perceptual and embodied environments. [ CV ]

Present

xAI

Member of Technical Staff

Nov 2024

Google Deepmind

Research Scientist

May 2021

University of Southern California

Ph.D. in Computer Science

News

June 2023

MagicLens accepted at ICML 2024 as an Oral.

May 2023

Imagen 3 released.

March 2023

Instruct-Imagen accepted at CVPR 2024 as an Oral.

Dec 2023

Gemini released.

Publications ( show selected / show all by date / show all by topic )

Topics: Language + Vision / Embodied Agent / Vision / Machine Learning

(*: Indicating equal contribution.)

Grok 3

by xAI team

Blog Post

[ article ] [ model ]

Gemini 1 & 2

by Gemini Team (Core Contributor on Multimodal Understanding & Image Generation)

Technical Report & Blog Post

[ blogpost 2024 ] [ blogpost 2023 ] [ arXiv ] [ demo ]

Imagen 3

by Imagen 3 Team (Core Contributor on Post-training)

Technical Report

[ arXiv ] [ website ] [ demo ]

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Kai Zhang , Yi Luan , Hexiang Hu , Kenton Lee , Siyuan Qiao , Wenhu Chen , Yu Su , and Ming-Wei Chang

ICML 2024 (Oral) , Vienna, Austria

[ arXiv ] [ website ] [ code ]

Instruct-Imagen: Image Generation with Multi-modal Instruction

Hexiang Hu* , Kelvin C.K. Chan* , Yu-Chuan Su* , Wenhu Chen* , Yandong Li , Kihyuk Sohn , Yang Zhao , Xue Ben , Boqing Gong , William W. Cohen , Ming-Wei Chang , and Xuhui Jia

CVPR 2024 (Oral) , Seattle, WA

[ arXiv ] [ website ] [ poster ]

Subject-driven Text-to-Image Generation via Apprenticeship Learning

Wenhu Chen* , Hexiang Hu* , Yandong Li , Nataniel Ruiz , Xuhui Jia , Ming-Wei Chang , and William W. Cohen

NeurIPS 2023 , New Orleans, LA

[ arXiv ] [ pdf ] [ website ] [ API (instant tuning) ] [ demo ]

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

Hexiang Hu , Yi Luan , Yang Chen , Urvashi Khandelwal , Mandar Joshi , Kenton Lee , Kristina Toutanova , and Ming-Wei Chang

ICCV 2023 (Oral) , Paris, France

[ arXiv ] [ website ] [ code ] [ poster ]

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

Yang Chen , Hexiang Hu , Yi Luan , Haitian Sun , Soravit Changpinyo , Alan Ritter , and Ming-Wei Chang

EMNLP 2023

[ arXiv ] [ website ] [ code ]

PaLI-X: On Scaling up a Multilingual Vision and Language Model

The PaLI-X Team

CVPR 2024 , Seattle, WA

[ arXiv ]

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

Kenton Lee* , Mandar Joshi* , Iulia Turc , Hexiang Hu , Fangyu Liu , Julian Eisenschlos , Urvashi Khandelwal , Peter Shaw , Ming-Wei Chang , and Kristina Toutanova

ICML 2023 (Oral) , Honolulu, HI

[ arXiv ] [ code ]

Re-Imagen: Retrieval-Augmented Text-to-Image Generator

Wenhu Chen , Hexiang Hu , Chitwan Saharia , and William W. Cohen

ICLR 2023 , Kigali, Rwanda

[ arXiv ]

Learning the Best Pooling Strategy for Visual Semantic Embedding

Jiacheng Chen* , Hexiang Hu* , Hao Wu , Yuning Jiang , and Changhu Wang

CVPR 2021 (Oral) , Virtual

[ arXiv ] [ project page ] [ code ]

Few-Shot Learning via Embedding Adaptation with Set-to-Set Functions

Han-Jia Ye , Hexiang Hu , De-Chuan Zhan , and Fei Sha

CVPR 2020 , Seattle, WA

[ arXiv ] [ code ]