About me

My research focuses on improving AI safety, adversarial robustness and multi-agent systems, with the broader goal of developing socially beneficial and reliable AI systems. Outside of research, I enjoy playing the piano and exploring nature.

Education

B.A.S.c in Computer Engineering
University of Toronto, 2024 - 2029 (Expected)

Publications

AI poses risks to democratic and social systems
David Guzman Piedrahita, Dave Banerjee, Kevin Blin, Pepijn Cobben, Giulio Corsi, Xuanqiang Angelo Huang, Changling Li, Suvajit Majumder, Punya Syon Pandey, Samuel Simko, Irene Strauss, Terry Jingchen Zhang, Ashton Anderson, Yoshua Bengio, Matthias Bethge, Roger Grosse, Karoline Helbig, David Lie, Richard Mallah, Rada Mihalcea, Susan Nesbitt, Susan Perry, Paul Resnick, Stuart Russell, Mrinmaya Sachan, Bernhard Schölkopf, Audrey Tang, Zhijing Jin
ICML 2026
PaperMentor: A Human-Centered Multi-Agent Writing Tutor for AI Research Papers on Overleaf
Jiarui Liu, Terry Jingchen Zhang, Ryan Faulkner, X Angelo Huang, Vilém Zouhar, Dominik Glandorf, Isabel Dahlgren, Van Q Truong, Rishit Dagli, Yuen Chen, Felix Leeb, Punya Syon Pandey, Yves Bicker, Suvajit Majumder, Wenyuan Jiang, Zeju Qiu, Sankalan Pal Chowdhury, Bernhard Schölkopf, Mona Diab, Zhijing Jin
ACL Demo 2026
Test of Time: Rethinking Temporal Signal of Benchmark Contamination
Terry Jingchen Zhang, Gopal Dev, Ning Wang, Max Obreiter, Wenyuan Jiang, Punya Syon Pandey, Keenan Samway, Yinya Huang, Bernhard Schölkopf, Mrinmaya Sachan, Zhijing Jin
ACL 2026
CLT-Forge: A Scalable Library for Cross-Layer Transcoders and Attribution Graphs
Florent Draye, Abir Harrasse, Vedant Palit, Tung-Yu Wu, Jiarui Liu, Punya Syon Pandey, Roderick Wu, Terry Jingchen Zhang, Zhijing Jin, Bernhard Schölkopf
Pre-print, 2026 (Under Review)
Training with Honeypots: Reshaping How LLMs Fail
Samuel Simko, Punya Syon Pandey, Zhijing Jin, Bernhard Schölkopf
ICML 2026
Causal AI Scientist: Facilitating Causal Data Science with Large Language Models
Vishal Verma, Sawal Acharya, Samuel Simko, Devansh Bhardwaj, Punya Syon Pandey, Anahita Haghighat, Dominik Janzing, Mrinmaya Sachan, Zhijing Jin, Yongjin Yang
AI4Science @ NeurIPS 2025
Preserving Historical Truth: Detecting Historical Revisionism in Large Language Models
Francesco Ortu, Joeun Yook, Punya Syon Pandey, Keenan Samway, Bernhard Schölkopf, Alberto Cazzaniga, Rada Mihalcea, Zhijing Jin
AI4Peace @ ICLR 2026
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
Saad Hossain, Tom Tseng, Punya Syon Pandey, Samanvay Vajpayee, Matthew Kowal, Nayeema Nonta, Samuel Simko, Stephen Casper, Zhijing Jin, Kellin Pelrine, Sirisha Rambhatla
KDD 2026 - Collaboration with FAR.AI
BinaryPPO: Efficient Policy Optimization for Binary Classification
Punya Syon Pandey, Zhijing Jin
Pre-print, 2026 (Under Review)
Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders
Abir Harrasse, Florent Draye, Punya Syon Pandey, Zhijing Jin, Bernhard Schölkopf
Pre-print, 2026 (Under Review)
Objective Matters: Fine-Tuning Objectives Shape Safety, Robustness, and Persona Drift
Daniel Vennemeyer, Punya Syon Pandey, Phan Anh Duong, Michael Umeokoli, Samuel Ratnam
Pre-print, 2026
Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries
Roberto Ceraolo, Dmitrii Kharlapenko, Ahmad Khan, Amélie Reymond, Punya Syon Pandey, Rada Mihalcea, Bernhard Schölkopf, Mrinmaya Sachan, Zhijing Jin
AACL-IJCNLP Findings 2025
CauSciBench: Evaluating LLM Causal Reasoning For Scientific Research
Sawal Acharya, Terry Jingchen Zhang, Andrew Kim, Anahita Haghighat, Xianlin Sun, Pepijn Cobben, Rahul Babu Shrestha, Maximilian Mordig, Jacob T Emmerson, Yahang Qi, Punya Syon Pandey, Mrinmaya Sachan, Yinya Huang, Bernhard Schölkopf, Zhijing Jin
ICML 2026
SocialHarmBench: Revealing LLM Vulnerabilities to Socially Harmful Requests
Punya Syon Pandey, Hai Son Le, Devansh Bhardwaj, Rada Mihalcea, Zhijing Jin
ICLR 2026
CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin
EACL 2026
Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards
Punya Syon Pandey, Samuel Simko, Kellin Pelrine, Zhijing Jin
IASEAI 2026

Academic Services

Reviewer
NeurIPS 2025 Workshop on Multi-Turn Interactions in Large Language Models (MTI-LLM)
Reviewer
ACL ARR 2025 (Feb, May, Oct)
Committees
Student Member - ACL Ethics Committee

Punya Syon Pandey

Education

Publications

Academic Services