Wenqi Jiang

Conference Papers

Enabling the Robotic Revolution: Bridging Performance Gap between Present and Future
Qijing Huang, Wenqi Jiang, Christos Kozyrakis, and Jason Clemons
IEEE/JSAP Symposium on VLSI Technology and Circuits (VLSI’26)

HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL [Paper]
You Peng, Youhe Jiang, Wenqi Jiang, Chen Wang, and Binhang Yuan
IEEE International Conference on Data Engineering (ICDE’26)

[ISCA’25] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving [Paper] [Talk] [Code]
Wenqi Jiang, Suvinay Subramanian, Cat Graves, Gustavo Alonso, Amir Yazdanbakhsh, and Vidushi Dadu
Proceedings of 52nd Annual International Symposium on Computer Architecture

[VLDB’25] Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models [Paper] [Code]
Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, and Gustavo Alonso
Proceedings of the VLDB Endowment
🏆 Best Scalable Data Science Paper Award

[VLDB’25] Fast Graph Vector Search via Hardware Acceleration and Delayed-Synchronization Traversal [Paper] [Code]
Wenqi Jiang, Hang Hu, Torsten Hoefler, and Gustavo Alonso
Proceedings of the VLDB Endowment

[SIGMOD’25] SwiftSpatial: Spatial Joins on Modern Hardware [Paper] [Code]
Wenqi Jiang, Oleh-Yevhen Khavrona, Martin Parvanov, and Gustavo Alonso
International Conference on Management of Data

[KDD’25] PipeRAG: Fast Retrieval-Augmented Generation via Adaptive Pipeline Parallelism [Paper] [Talk] [Code]
Wenqi Jiang, Shuai Zhang, Boran Han, Jie Wang, Bernie Wang, and Tim Kraska
Proceedings of the 31st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

[WWW’24] MS MARCO Web Search: A Large-scale Information-rich Web Dataset with Millions of Real Click Labels [Paper]
Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, and Ce Zhang
International World Wide Web Conference

[NeurIPS’23] Data-Informed Geometric Space Selection [Paper]
Shuai Zhang and Wenqi Jiang
Thirty-seventh Conference on Neural Information Processing Systems

[SC’23] Co-design Hardware and Algorithm for Vector Search [Paper] [Code]
Wenqi Jiang, Shigang Li, Yu Zhu, Johannes de Fine Licht, Zhenhao He, Runbin Shi, Cedric Renggli, Shuai Zhang, Theodoros Rekatsinas, Torsten Hoefler, and Gustavo Alonso
The International Conference for High Performance Computing, Networking, Storage and Analysis

[KDD’21] FleetRec: Large-Scale Recommendation Inference on Hybrid GPU-FPGA Clusters [Paper] [Talk] [Code]
Wenqi Jiang*, Zhenhao He*, Shuai Zhang, Kai Zeng, Liang Feng, Jiansong Zhang, Tongxuan Liu, Yong Li, Jingren Zhou, Ce Zhang, and Gustavo Alonso
Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

Distributed Recommendation Inference on FPGA Clusters [Paper] [Code]
Yu Zhu, Zhenhao He, Wenqi Jiang, Kai Zeng, Jingren Zhou, and Gustavo Alonso
31st International Conference on Field-Programmable Logic and Applications (FPL’21)

[MLSys’21] MicroRec: Efficient Recommendation Inference by Hardware and Data Structure Solutions [Paper] [Talk] [Code]
Wenqi Jiang, Zhenhao He, Shuai Zhang, Thomas B. Preußer, Kai Zeng, Liang Feng, Jiansong Zhang, Tongxuan Liu, Yong Li, Jingren Zhou, Ce Zhang, and Gustavo Alonso
4th Conference on Machine Learning and Systems

Journal Papers

Dynamic Sampling and Selective Masking for Communication-Efficient Federated Learning [Paper]
Shaoxiong Ji, Wenqi Jiang, Anwar Walid, and Xue Li
IEEE Intelligent Systems

Tutorials

Data Processing with FPGAs on Modern Architectures [Paper] [Website]
Wenqi Jiang, Dario Korolija, and Gustavo Alonso
International Conference on Management of Data (SIGMOD’23 Tutorial)

Preprint

ROSA: A Robotics Foundation Model Serving System for Robot Factories [Paper]
Wenqi Jiang, Jason Clemons, Rowland O’Flaherty, Hugo Hadfield, Alperen Degirmenci, Shuran Song, Yashraj Narang, and Christos Kozyrakis
arXiv preprint (arXiv’26)

How Fast Can I Run My VLA? Demystifying VLA Inference Performance with VLA-Perf [Paper]
Wenqi Jiang, Jason Clemons, Karu Sankaralingam, and Christos Kozyrakis
arXiv preprint (arXiv’26)