Mostafa Dehghani

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Xi Chen

Josip Djolonga

Piotr Padlewski

Basil Mustafa

Beer Changpinyo

Jialin Wu

Carlos Riquelme

Sebastian Goodman

Xiao Wang

Yi Tay

Siamak Shakeri

Mostafa Dehghani

Daniel Salz

Mario Lučić

Michael Tschannen

Arsha Nagrani

Hexiang (Frank) Hu

Mandar Joshi

Bo Pang

Ceslee Montgomery

Paulina Pietrzyk

Marvin Ritter

AJ Piergiovanni

Matthias Minderer

Filip Pavetić

Austin Waters

Gang Li

Ibrahim Alabdulmohsin

Lucas Beyer

Julien Amelot

Kenton Lee

Andreas Steiner

Yang Li

Daniel Keysers

Anurag Arnab

Yuanzhong Xu

Keran Rong

Alexander Kolesnikov

Mojtaba Seyedhosseini

Anelia Angelova

Xiaohua Zhai

Neil Houlsby

Radu Soricut

Computer Vision and Pattern Recognition Conference (CVPR) (2024)

UL2: Unifying Language Learning Paradigms

Yi Tay

Mostafa Dehghani

Vinh Tran

Xavier Garcia

Jason Wei

Xuezhi Wang

Hyung Won Chung

Dara Bahri

Tal Schuster

Steven Zheng

Denny Zhou

Neil Houlsby

Don Metzler

ICLR (2023)

Scaling Vision Transformers to 22 Billion Parameters

Mostafa Dehghani

Josip Djolonga

Basil Mustafa

Piotr Padlewski

Jonathan Heek

Justin Gilmer

Andreas Steiner

Mathilde Caron

Robert Geirhos

Ibrahim Alabdulmohsin

Rodolphe Jenatton

Lucas Beyer

Michael Tschannen

Anurag Arnab

Xiao Wang

Carlos Riquelme

Matthias Minderer

Joan Puigcerver

Utku Evci

Manoj Kumar

Sjoerd van Steenkiste

Gamaleldin Elsayed

Aravindh Mahendran

Fisher Yu

Avital Oliver

Fantine Huot

Jasmijn Bastings

Mark Collier

Alexey Gritsenko

Vighnesh Birodkar

Cristina Vasconcelos

Yi Tay

Thomas Mensink

Alexander Kolesnikov

Filip Pavetić

Dustin Tran

Thomas Kipf

Mario Lučić

Xiaohua Zhai

Daniel Keysers

Jeremiah Harmsen

Neil Houlsby

Arxiv (2023)

DSI++: Updating Transformer Memory with New Documents

Sanket Vaibhav Mehta

Jai Gupta

Yi Tay

Mostafa Dehghani

Vinh Tran

Jinfeng Rao

Marc Najork

Emma Strubell

Don Metzler

Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing

Dual PatchNorm

Manoj Kumar

Mostafa Dehghani

Neil Houlsby

Transactions on Machine Learning Research (2023) (to appear)

Discrete Representations Strengthen Vision Transformer Robustness

Chengzhi Mao

Lu Jiang

Mostafa Dehghani

Carl Martin Vondrick

Rahul Sukthankar

Irfan Essa

ICLR (2022)

Exploring the Limits of Large Scale Pre-training

Samira Abnar

Mostafa Dehghani

Behnam Neyshabur

Hanie Sedghi

ICLR Spotlight (2022)

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

Ashish Teku Vaswani

Dani Yogatama

Don Metzler

Hyung Won Chung

Jinfeng Rao

Liam B. Fedus

Mostafa Dehghani

Samira Abnar

Sharan Narang

Yi Tay

ICLR (2022)

Retrieval Enhanced Machine Learning

Don Metzler

Fernando Diaz

Hamed Zamani

Mike Bendersky

Mostafa Dehghani

SIGIR 2022: Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (Perspectives Track)

Simple Open-Vocabulary Object Detection with Vision Transformers

Matthias Minderer

Alexey Alexeevich Gritsenko

Austin Stone

Maxim Neumann

Dirk Weissenborn

Alexey Dosovitskiy

Aravindh Mahendran

Anurag Arnab

Mostafa Dehghani

Zhuoran Shen

Xiao Wang

Xiaohua Zhai

Thomas Kipf

Neil Houlsby

ECCV (Poster) (2022)

Transformer Memory as a Differentiable Search Index

Yi Tay

Vinh Q. Tran

Mostafa Dehghani

Jianmo Ni

Dara Bahri

Harsh Mehta

Zhen Qin

Kai Hui

Zhe Zhao

Jai Gupta

Tal Schuster

William W. Cohen

Don Metzler

NeurIPS 2022

Confident Adaptive Language Modeling

Tal Schuster

Adam Fisch

Jai Prakash Gupta

Mostafa Dehghani

Dara Bahri

Vinh Quoc Tran

Yi Tay

Don Metzler

NeurIPS 2022

OmniNet: Omnidirectional Representations from Transformers

Yi Tay

Mostafa Dehghani

Vamsi Aribandi

Jai Prakash Gupta

Philip Pham

Zhen Qin

Dara Bahri

Da-Cheng Juan

Don Metzler

ICML 2021

IDF++: Analyzing and Improving Integer Discrete Flows for Lossless Compression

Rianne van den Berg

Alexey Alexeevich Gritsenko

Mostafa Dehghani

Casper Kaae Sønderby

Tim Salimans

ICLR 2021, ICLR 2021 (to appear)

Long Range Arena : A Benchmark for Efficient Transformers

Yi Tay

Mostafa Dehghani

Samira Abnar

Yikang Shen

Dara Bahri

Philip Pham

Jinfeng Rao

Liu Yang

Sebastian Ruder

Don Metzler

ICLR 2021 (to appear)

TokenLearner: Adaptive Space-Time Tokenization for Videos

Michael Ryoo

AJ Piergiovanni

Anurag Arnab

Mostafa Dehghani

Anelia Angelova

Conference on Neural Information Processing Systems (NeurIPS) (2021)

Are Pretrained Convolutions Better than Pretrained Transformers?

Yi Tay

Mostafa Dehghani

Jai Prakash Gupta

Vamsi Aribandi

Dara Bahri

Zhen Qin

Don Metzler

ACL 2021

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexander Kolesnikov

Alexey Dosovitskiy

Dirk Weissenborn

Georg Heigold

Jakob Uszkoreit

Lucas Beyer

Matthias Minderer

Mostafa Dehghani

Neil Houlsby

Sylvain Gelly

Thomas Unterthiner

Xiaohua Zhai

ICLR (2021)

MetNet: A Neural Weather Model for Precipitation Forecasting

Casper Kaae Sønderby

Lasse Espeholt

Jonathan Heek

Mostafa Dehghani

Avital Oliver

Tim Salimans

Jason Hickey

Shreya Agrawal

Nal Kalchbrenner

Submission to journal (2020)

Transferring Inductive Biases through Knowledge Distillation

Samira Abnar

Mostafa Dehghani

Willem Zuidema

Neurips (2020)

Universal Transformers

Mostafa Dehghani

Stephan Gouws

Oriol Vinyals

Jakob Uszkoreit

Lukasz Kaiser

ICLR (2019)

Fidelity-Weighted Learning

Mostafa Dehghani

Arash Mehrjou

Stephan Gouws

Jaap Kamps

Bernhard Scholkopf

ICLR (2018)

Avoiding Your Teacher's Mistakes: Training Neural Networks with Controlled Weak Supervision

Mostafa Dehghani

Aliaksei Severyn

Sascha Rothe

Jaap Kamps

arXiv (2017)

Learning to Learn from Weak Supervision by Full Supervision

Mostafa Dehghani

Aliaksei Severyn

Sascha Rothe

Jaap Kamps

NIPS workshop on Meta-Learning (MetaLearn 2017)

Neural Ranking Models with Weak Supervision

Mostafa Dehghani

Hamed Zamani

Aliaksei Severyn

Jaap Kamps

W. Bruce Croft

Proceedings of The 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM (2017)

Learning to Attend, Copy, and Generate for Session-Based Query Suggestion

Mostafa Dehghani

Sascha Rothe

Enrique Alfonseca

Pascal Fleury

CIKM 2017 (2017)

No Results Found

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations  & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Mostafa Dehghani

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Teams

AI/ML Foundations & Capabilities

Algorithms & Optimization

Computing Paradigms

Responsible Human-Centric Technology

Science & Societal Impact

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

Mostafa Dehghani

Research Areas

Filter by:

Year

Research Area

Team

Join us

AI/ML Foundations  & Capabilities