Gemini: A Family of Highly Capable Multimodal Models

Aakanksha Chowdhery, Aakash Kaku, Aaron Cohen, Aaron Parisi, Aarush Selvan, Abe Ittycheriah, Abhanshu Sharma, Abhijit Karmarkar, Abhimanyu Goyal, Abhipso Ghosh, Abhi Rao, Abhishek Chakladar, Abhishek Jindal, Abhishek Sharma, Achintya Singhal, Ada Ma, Adam Bloniarz, Adam Kurzrok, Adam Paszke, Adam Sadovsky, Adam Stambler, Adams Yu, Aditya Barua, Aditya Siddhant, Adnan Ozturel, Adrian Goedeckemeyer, Adrian Hutter, Adri\`a Puigdom\`enech Badia, Adri\`a Recasens, Aedan Pope, Afroz Mohiuddin, \'Agoston Weisz, Aida Amini, Ajay Kannan, Akanksha Maurya, Akhil Udathu, Akshay Gupta, Alanna Walton, Alan Papir, Alban Rrustemi, Albert Cui, Alberto Magni, Albert Webson, Albin Cassirer, Ale Jakse Hartman, Alek Andreev, Alek Dimitriev, Aleksandr Chuklin, Alena Repina, Alessandro Agostini, Alexander Neitz, Alexander Pritzel, Alexandre Frechette, Alexandre Moufarek, Alex Bailey, Alex Castro-Ros, Alex Chinien, Alex Dyck, Alexei Robsky, Alexey Guseynov, Alex Fabrikant, Alex Goldin, Alex Kaskasoli, Alex Korchemniy, Alex Morris, Alex Pine, Alex Polozov, Alex Tomala, Alfonso Casta\~no, Aliaksei Severyn, Alice Talbert, Alicia Parrish, Ali Eichenbaum, Ali Elqursh, Ali Ghorbani, Ali Ibrahim, Alireza Ghaffarkhah, Alison Reid, Allan Dafoe, Amar Subramanya, Ambrose Slone, Amelia Glaese, Am\'elie H\'eliou, Amir Globerson, Amit Marathe, Amit Raul, Amol Mandhane, Amruta Muthal, Amy Shen, Ana\"is White, Anand Gokulchandran, Anand Iyer, Ananth Agarwal, Anastasia Petrushkina, Anca Stefanoiu, Anders Andreassen, Andras Orban, Andrea Hu, Andreas Fidjeland, Andrea Siciliano, Andreas Santucci, Andrea Tacchetti, Andrei Sozanschi, Andrew Brock, Andrew Goodman, Andrew Lee, Andrew M. Dai, Andrey Khorlin, Andy Crawford, Angeliki Lazaridou, Angelos Filos, Anhad Mohananey, Anirudh Baddepudi, Anirudh Goyal, Anita Gergely, Anitha Vijayakumar, Anja Hauth, Ankesh Anand, Ankur Bapna, Ankur Garg, Ankush Garg, Anmol Gulati, Anna Bortsova, Anna Bulanova, Annie Louis, Anoop Sinha, Anselm Levskaya, Ante K\"arrman, Anthony Chen, Anthony Urbanowicz, Anthony Yu, Antoine He, Antoine Miech, Anton \"Algmyr, Anton Briukhov, Antonio Sanchez, Antonio Stella, Anudhyan Boral, Anuj Khare, Ariel Stolovich, Aroma Mahendru, Arpi Vezer, Arthur Bra\v{z}inskas, Arthur Guez, Arthur Mensch, Arun Ahuja, Arun Kishore, Ashish Shenoy, Ashwin Sethi, Ashwin Sreevatsa, Asier Mujika, Assaf Israel, Atharva Parulekar, Attila Dankovics, Aurelien Boffy, Aurko Roy, Austin Waters, Aviel Atias, Avigail Dabush, Aviral Kumar, Axel Stjerngren, Ayal Hitron, Balaji Lakshminarayanan, Bart Chrzaszcz, Bartek Perz, Basil Mustafa, Becca Roelofs, Behnam Neyshabur, Ben Albrecht, Ben Bariach, Ben Brown, Ben Caine, Ben Horn, Benigno Uria, Benjamin Lee, Ben Limonchik, Ben Vargas, Beth Tsai, Betty Chan, Bhargava Urala, Bhavishya Mittal, Biao Zhang, Blake Hechtman, Bo Feng, Bogdan Damoc, Botu Sun, Boxi Wu, Boyi Liu, Brennan Saeta, Brian Albert, Brona Robenek, Carey Radebaugh, Carl Saroufim, Caroline Kaplan, Carrie Muir, Carrie Spadine, Cassidy Hardin, \c{C}a\u{g}lar \"Unl\"u, Ce Zheng, Chaitanya Krishna Lanka, Chalence Safranek-Shrader, Chang Lan, Chao Jia, Charles Chen, Charles Sutton, Charlie Chen, Charlie Deck, Charline Le Lan, Charlotte Smith, Chenel Elkind, Chen Elkind, Cheng-Chun Lee, Cheng Li, Chenjie Gu, Chenkai Kuang, Chen Liang, Chenmei Li, Chenxi Liu, Chenxi Pang, Chen Zhou, Chen Zhu, Chester Kwak, Chetan Ahuja, Chetan Tekur, Chih-Kuan Yeh, Chih-Wei "Louis" Chen, Chimezie Iwuanyanwu, Chintu Kumar, Chloe Thornton, Chris Alberti, Chrisantha Fernando, Chris Gorgolewski, Chris Hidey, Christina Butterfield, Christina Greer, Christina Sorokin, Christof Angermueller, Christopher A. Choquette-Choo, Christopher Yew, Christoph Hirnschall, Christy Koh, Chris Welty, Chu-Cheng Lin, Chung-Cheng Chiu, Chun-Sung Ferng, Cindy Wang, Cip Baetu, Clara Huiyi Hu, Clara Rivera, Claudia van der Salm, Clemens Lombriser, Clemens Meyer, Cl\'ement Crepy, Clement Farabet, Colin Evans, Colin Gaffney, Colin Ji, Colton Bishop, Connie Tao, Cosmin Paduraru, Cosmo Du, Craig Swanson, Da-Cheng Juan, Daiyi Peng, Dalia El Badawy, Dan Banica, Dan Dooley, Dan Garrette, Dan Holtmann-Rice, Dan Horgan, Dan Hurt, Daniel Andor, Daniel Balle, Daniel Finchelstein, Daniel J. Mankowitz, Daniel Sohn, Daniel Toyama, Daniel von Dincklage, Daniil Mirylenka, Danila Sinopalnikov, Dan McKinnon, Dario de Cesare, Dasha Valter, David Bridson, David Gaddy, David Greene, David Madras, David Miller, David Reid, David Reitter, David Silver, David Soergel, David Steiner, Dawei Jia, Dawn Bloxwich, Da-Woon Chung, Dayou Du, Deeni Fatiha, Deepak Sharma, Demis Hassabis, Denese Owusu-Afriyie, Denis Teplyashin, Denis Vnukov, Dennis Duan, Dennis Tu, Denny Zhou, Derik Clive, Dessie Petrova, Devendra Sachan, Diana Avram, Diana Gage Wright, Diana Mincu, Diane Wu, Dian Yu, Diego de las Casas, Dinghua Li, Dipanjan Das, Disha Shrivastava, Divya Pitta, Dmitry Lepikhin, Dominika Rogozi\'nska, Dominik Grewe, Dominik Paulus, Dominik Rabiej, Dong Li, Doug Fritz, Drew Garmon, Duc Dung Nguyen, Dustin Tran, Dylan Banarse, Dylan Scandinaro, Ed Chi, Edouard Leurent, Edward Li, Edward Loper, Egor Filonov, Ehsan Amid, Eileen O'Neill, Elahe Rahimtoroghi, Elena Allica Abellan, Elena Buchatskaya, Elena Gribovskaya, Eli Collins, Elico Teixeira, Elizabeth Cole, Eliza Rutherford, Elliot Catt, Elnaz Davoodi, Elspeth White, Emanuel Taropa, Emilio Parisotto, Emily Caveness, Emily Pitler, Emily Xue, Emmanouil Koukoumidis, Emma Wang, Enrique Piqueras, Eran Globen, Eran Ofek, Erdem Guven, Eren Sezener, Erica Moreira, Eric Chu, Eric Johnston, Eric Malmi, Eric Ni, Eric Noland, Eric Zhu, Eri Latorre-Chimoto, Ethan Dyer, Evan Palmer, Evan Rosen, Evan Senter, Evgenii Eltyshev, Evgeny Gladchenko, Ewa Andrejczuk, Eyal Ben-David, Fabian G\"ura, Fabio Pardo, Fabio Viola, Faizan Muhammad, Fangxiaoyu Feng, Fangyu Liu, Fantine Huot, Fan Yang, Federico Lebron, Fedor Moiseev, Fei Liu, Feiran Wang, Felix Fischer, Feng Yang, Filip Pavetic, Fiona Macintosh, Flavien Prost, Florian Luisier, Fran\c{c}ois-Xavier Aubet, Francesco Bertolini, Francesco Piccinno, Francesco Pongetti, Fred Alcober, Frederick Liu, Gabriela Surita, Gabriel Barth-Maron, Gamaleldin Elsayed, Garima Pruthi, Gaurav Mishra, Gaurav Singh Tomar, Gautam Vasudevan, Gemini Team Google: Rohan Anil, Geoff Bacon, Geoff Brown, Geoffrey Cideron, Geoffrey Irving, George Papamakarios, George Polovets, George Tucker, George van den Driessche, Ginger Perng, Golnaz Ghiasi, Gregory Thornton, Guillaume Desjardins, Guillermo Garrido, Guodong Zhang, Guolong Su, Hafeezul Rahman Mohammad, Hagai Taitelbaum, Hamid Moghaddam, Han Lu, Hannah Forbes, Hannah Sheahan, Hanna Klimczak-Pluci\'nska, Hansa Srinivasan, Han Zhang, Hanzhao Lin, Hao Wu, Hao Zhou, Hardie Cate, Harish Ganapathy, Haroon Qureshi, Harry Askham, Harshal Godhia, Harsha Vashisht, Harsh Mehta, H\'ector Fern\'andez Alcalde, Heidi Howard, Heinrich Jiang, Helen Miller, Heng-Tze Cheng, Henrik Jacobsson, Henryk Michalewski, Hexiang Hu, Hila Noga, Himadri Choudhury, Himanshu Gupta, Hongkun Yu, Honglong Cai, Hongzhi Shi, Huanjie Zhou, Hui Li, Hung Nguyen, Hyeontaek Lim, Hyo Lee, HyunJeong Choe, Iain Barr, Ianna Li, Ian Tenney, Ice Pasupat, Idan Heimlich Shtacher, Igor Petrovski, Ilya Kornakov, I\~naki Iturrate, Ioannis Antonoglou, Ionut Georgescu, Irene Giannoumis, Isha Arkatkar, Ishita Dasgupta, Itay Karo, Ivan Petrychenko, Ivo Danihelka, Ivo Penchev, Ivy Zheng, Izhak Shafran, Jackie Kay, Jackie Xiang, Jack Krawczyk, Jackson Tolins, Jack W. Rae, Jacob Austin, Jacob Devlin, Jaime Alonso Lorenzo, Jakob Bauer, Jakub Adamek, Jakub Sygnowski, James Besley, James Bradbury, James Cobon-Kerr, James Keeling, James Lee-Thorp, James Lottes, James Manyika, James Molloy, James Qin, James Svensson, James Wang, Jamie Hall, Janara Christensen, Jan Balaguer, Jane Labanowski, Jane Park, Jan van de Kerkhof, Jarrod Kahn, Jasjot Singh, Jasmine Lee, Jasmine Liu, Jason Baldridge, Jason Gelman, Jason Riesa, Jason Sanders, Jason Sanmiya, Jasper Snoek, Jaume Sanchez Elias, Javier Snaider, Jay Hoover, Jay Pavagadhi, Jean-Baptiste Alayrac, Jean-Baptiste Lespiau, Jean Michel Sarr, Jeff Piper, Jeff Pitman, Jeffrey Dean, Jeffrey Hui, Jeffrey Zhao, Jeff Stanway, Jennifer Beattie, Jennifer Prendki, Jennimaria Palomaki, Jenny Brennan, Jenny Hamer, Jeremiah Liu, Jeremy Chen, Jeremy Cole, Jeremy Greer, Jeremy Wiesner, Jerry Chang, Jessica Landon, Jessica Mallet, Jiageng Zhang, Jiahui Yu, Jian Li, Jiaqi Mu, Jiawei Xia, Jiawern Lim, Jiayu Ye, Jiepu Jiang, Jie Ren, Jigar Gupta, Ji Ho Park, Jilin Chen, Ji Liu, Jing Li, Jing Zhao, Jinhyuk Lee, Jinjing Zhou, Jinliang Wei, Jin Miao, Jinwei Xing, Jiri Simsa, Jitesh Punjabi, Joe Kelley, Joe Stanton, Johan Ferret, Johan Schalkwyk, John Aslanides, John Carpenter, John Eric Hoffmann, John Mellor, Johnson Jia, John Wieting, John Zhang, Jonah Joughin, Jonas Adler, Jonas Bragagnolo, Jonathan Evens, Jonathan Lai, Jonathan Mallinson, Jonathan Uesato, Jong Lee, Jon Simon, Joost van Amersfoort, Jordan Grimstad, Jordi Pont-Tuset, Joseph Kim, Josh Newlan, Joshua Ainslie, Joshua Howland, Joshua Kessinger, Joshua Maynez, Josie Li, Josip Djolonga, Josip Matak, Jules Walter, Juliana Franco, Julian Eisenschlos, Julian Schrittwieser, Julia Wiesinger, Juliette Love, Junhyuk Oh, Junwhan Ahn, Jun Xu, Justin Chiu, Justin Chung, Justin Frye, Justin Gilmer, Kai Kang, Kaisheng Yao, Kai Yang, Kai Zhao, Kalind Thakkar, Kalpesh Krishna, Kane Jang, Kareem Ayoub, Kareem Mohamed, Karel Lenc, Karthik Kappaganthu, Kartikeya Badola, Kate Baumli, Kate Olszewska, Katerina Tsihlas, Katherine Lee, Kathie Wang, Kathy Wu, Katie Millican, Kaushik Shivakumar, Kedar Soparkar, Kefan Xiao, Kehang Han, Keith Pallo, Kelvin Guu, Kelvin Xu, Ken Durden, Ken Franko, Keran Rong, Keren Gu-Lemberg, Keshav Dhandhania, Kevin Brooks, Kevin Hongtongsak, Kevin Hui, Kevin Ling, Kevin Ramirez, Kevin Robinson, Kevin Villela, Ke Ye, Keyvan Amiri, Khalid Salama, Khyatti Gupta, Kiam Choo, Kieran Milan, Kiran Vodrahalli, Komal Jalan, Konstantinos Aisopos, Konstantin Shagin, Koray Kavukcuoglu, Kris Cao, Krishna Haridasan, Krishnan Vaidyanathan, Kristie Seymore, Krunoslav Zaher, Krzysztof Styrc, Kshitij Bansal, Kuanysh Omarov, Kushal Majmundar, Kyle He, Kyle Levin, Lakshman Yagati, Lakshmi Ramachandruni, Lam Nguyen Thiet, Lara Tumeh, Larissa Rinaldi, Lars Lowe Sj\"osund, Laura Culp, Laura Knight, Laura Weidinger, Laurent El Shafey, Laurent Sifre, Legg Yeung, Le Hou, Leif Schelin, Lei Wang, L\'eonard Hussenot, Leslie Baker, Lev Proleev, Lexi Walker, Liana-Eleonora Marinescu, Libin Bai, Lijuan Liu, Lili Janzer, Lily Wang, Linda Friso, Linting Xue, Lisa Anne Hendricks, Lisa Lee, Liselotte Snijders, Livio Baldini Soares, Lora Aroyo, Loren Maggiore, Lorenzo Blanco, Lucas Dixon, Lucas Gonzalez, Lucia Loher, Lucian Ionita, Luheng He, Luis C. Cobo, Lukas Zilka, Lu Li, Lu Liu, Luowei Zhou, Luyan Chi, Luyao Xu, Luyu Wang, Lynette Webb, Machel Reid, Maciej Kula, Madeleine Elish, Madhavi Yenugula, Madhu Gurumurthy, Mahdis Mahdieh, Mahmoud Alnahlawi, Mai Gim\'enez, Maigo Le, Mainak Chain, Maja Trebacz, Majd Al Merey, Maksim Mukha, Maksim Zabelin, Malcolm Reynolds, Malcolm Rose Harriott, Manaal Faruqui, Mandy Guo, Manish Katyal, Manish Reddy Vuyyuru, Mani Varadarajan, Mantas Pajarskas, Marcello Maggioni, Marcin Pikus, Marco Cornero, Marco Selvatici, Marco Selvi, Marcus Wu, Maria Abi Raad, Maria Georgaki, Marianne Monteiro, Maribeth Rauh, Marie Pellat, Mariko Iinuma, Marin Georgiev, Mario Lu\v{c}i\'c, Marissa Bredesen, Mark Geller, Mark Goldenson, Mark Omernick, Martin Baeuml, Martin B\"olle, Martin Chadwick, Martin Polacek, Martin Wicke, Mary Phuong, Matan Eyal, Mateo Wirth, Mathias Carlen, Matthew Aitchison, Matthew Fritze, Matthew Hayes, Matthew Johnson, Matthew Lamm, Matthew Mauger, Matthew Rahtz, Matthew Tung, Matthieu Geist, Matt Thomas, Maulik Shah, Max Bileschi, Max Chang, Maxim Krikun, Meenu Gaba, Megan Barnes, Megha Goel, Meghana Thotakuri, Mehran Kazemi, Mehrdad Khatir, Melanie Moranski Preston, Melvin Johnson, Mia Chen, Mianna Chen, Michael Alverson, Michael Azzam, Michael B. Chang, Michael Fink, Michael Isard, Michael Kucharski, Michael Kwong, Michael Laskin, Michael Mandl, Michael Sharman, Michela Paganini, Mihir Sanjay Kale, Mike Dusenberry, Mikel Rodriguez, Mikhail Dektiarev, Miko{\l}aj Rybi\'nski, Milad Gholami, Milad Nasr, Milan Someswar, Milos Besta, Miltiadis Allamanis, Mimi Jasarevic, Mina Khan, Mingqiu Wang, Ming-Wei Chang, Mingyang Zhang, Minh Giang, Minjie Lu, Minnie Lui, Misha Khalman, Mitch Rudominer, Miteyan Patel, MK Blake, Mohak Patel, Mohamed Elhawaty, MohammadHossein Bateni, Mohammad Saleh, Mohsen Jafari, Mojtaba Seyedhosseini, Morgane Rivi\`ere, Morgan Redshaw, Mostafa Dehghani, Motoki Sano, Mudit Bansal, Mudit Jain, Mukarram Tariq, Mukund Sridhar, Mukund Sundararajan, Music Li, Nam Nguyen, Nan Hua, Nan-Jiang Jiang, Nan Wei, Nanxin Chen, Natalie Clay, Natasha Antropova, Nate Hurley, Nate Kushman, Nathan Byrd, Nathan Ie, Nathan Lintz, Nathan Schucher, Neil Houlsby, Nejc Trdin, Nemanja Raki\'cevi\'c, Nenad Tomasev, Niccol\`o Dal Santo, Nicholas FitzGerald, Nick Fernando, Nicola De Cao, Nicolas Sonnerat, Nidhi Vyas, Nihal Balani, Niharika Ahuja, Nikhil Sethi, Nikola Momchev, Nikolay Savinov, Nilesh Tripuraneni, Nimesh Ghelani, Nina Martin, Ning Niu, Nino Vieillard, Nir Levine, Nithya Attaluri, Nivedita Melinkeri, Noah \'O Donnaile, Nora Kassner, Norbert Kalb, Norman Casagrande, Oana David, Obaid Sarvana, Ofir Roval, Olcan Sercinoglu, Oleksii Duzhyi, Oliver Wang, Oliver Woodman, Olivier Bachem, Olivier Dousse, Omar Ajmeri, Omar Alhadlaq, Oran Lang, Oren Litvin, Orgad Keller, Orhan Firat, Oriol Vinyals, Oscar Akerlund, Oscar Chang, Oskar Bunyan, Pablo Sprechmann, Paige Bailey, Pallavi LV, Pam G Rabinovitch, Pandu Nayak, Paolo Pelagatti, Pararth Shah, Parashar Shah, Parker Schuh, Patrick Kane, Patrick Siegler, Paula Kurylowicz, Paulina Lee, Paul Kishan Rubenstein, Paul Komarek, Paul Medina, Paul Michel, Paul M\"uller, Paul Natsev, Paul R. Barham, Paul Suganthan, Pavan Kumar Reddy M, Pawel Janus, Pawe{\l} Nowak, Pedram Pejman, Pedro Silva, Pedro Valenzuela, Pei Sun, Pengcheng Yin, Peter Danenberg, Peter Grabowski, Peter Hawkins, Peter Humphreys, Peter Makarov, Petko Georgiev, Petru Gurita, Phil Crone, Phoebe Thacker, Phuong Dao, Pidong Wang, Piermaria Mendolicchio, Pierre-Louis Cedoz, Piotr Stanczyk, Piyush Patil, Polina Zablotskaia, Pouya Tafti, Pradyumna Narayana, Prakash Shroff, Pranab Saxena, Pranav Shyam, Praseem Banzal, Prateek Kolhar, Pratik Joshi, Praveen Srinivasan, Preethi Lahoti, Premal Shah, Priya Jhakra, Priyanka Agrawal, Priya Ponnapalli, Pulkit Mehta, Purvi Shah, Qiao Zhang, Qijun Tan, Qi Li, Qingze Wang, Quan Yuan, Quoc Le, Rachel Saputro, Rachel Sterneck, Radu Soricut, Ragha Kotikalapudi, Raghavender R, Rahma Chaabouni, Rahul Goel, Rahul Rishi, Rajkumar Samuel, Rakesh Ghiya, Rakesh Shivanna, Rama Pasumarthi, Ramona Comanescu, Raoul de Liedekerke, Raphael Hoffmann, Rapha\"el Lopez Kaufman, Ravi Addanki, Raynald Chung, Rebeca Santamaria-Fernandez, Reiko Tojo, Reinald Kim Amplayo, Remi Crocker, R\'emi Leblond, Rhys May, Ricardo Aguilar, Ricardo Figueira, Richard Ives, Richard Powell, Richard Stefanec, Richard Tanburn, Richie Feng, Riham Mansour, Rishabh Joshi, Rishika Sinha, Rishub Jain, Robby Neale, Robert Dadashi, Robin Strudel, Rob Willoughby, Roey Yogev, Rohan Jain, Rohan Kohli, Roman Ring, Romina Datta, Romina Stella, Roopali Vij, Roopa Wilson, Rory Blevins, Rory Greig, Ross Hemsley, Ross Mcilroy, Ruibo Liu, Ruizhe Zhao, Rui Zhu, Ruoxin Sang, Rupert Kemp, Rushin Shah, Ryan Doherty, Ryan Foley, Ryan Pham, Saaber Fatehi, Sabela Ramos, Sabine Lehmann, Sahil Dua, Sahitya Potluri, Sai Krishnakumaran, Salem Haykal, Salvatore Scellato, Samer Hassan, Samira Daruki, Sam Sobell, Samuel Andermatt, Sanaz Bahargam, Sanil Jain, Sanjay Ganapathy, Sanjay Ghemawat, Sarah Cogan, Sarah Hodkinson, Sarah York, Sarmishta Velury, Sarthak Jauhari, Sasan Tavakkol, Sasha Brown, Sasha Zykova, Saurabh Kumar, Sayed Hadi Hashemi, Sebastian Borgeaud, Sebastian Krause, Sebastian Riedel, Sebastian Ruder, S\'ebastien Cevey, S\'ebastien M. R. Arnold, S\'ebastien Pereira, Seb Noury, Senaka Buthpitiya, Sergey Brin, Sergey Zubkov, Sergi Caelles, Ser tan Girgin, Seth Benjamin, Seth Odoom, Shachi Paul, Shahar Drath, Shalini Pal, Shane Gu, Shantanu Thakoor, Shaobo Hou, Sharad Vikram, Sharat Chikkerur, Shariq Iqbal, Shashi Narayan, Sheleem Kashem, Shereen Ashraf, Sherjil Ozair, Shibo Wang, Shimu Wu, Shipra Banga, Shirin Badiezadegan, Shirley Chung, Shivani Agrawal, Shiyuan Chen, Sho Arora, Sholto Douglas, Shreya Singh, Shreyas Rammohan Belle, Shruti Rijhwani, Shuangfeng Li, Shubham Agrawal, Shuntong Lei, Shuo-yiin Chang, Shuyuan Zhang, Shyam Upadhyay, Siamak Shakeri, Siddhartha Brahma, Siddharth Gopal, Siddharth Goyal, Siddhinita Wandekar, Sidharth Mudgal, Sid Lall, Sid Mittal, Siim P\~oder, Simon Tokumine, Sina Samangooei, Sissie Hsiao, Siyuan Qiao, Slav Petrov, Smit Sanghavi, Soheil Hassas Yeganeh, Solomon Kim, Somer Greene, Sonam Goenka, Soo Kwak, Sophia Austin, Sophie Bridgers, Soravit Changpinyo, Sri Gayatri Sundara Padmanabhan, Srivatsan Srinivasan, Srividya Pranavi Potharaju, Stephanie Winkler, Stephan Lee, Stephen Cagle, Steve Li, Steven Hand, Steven Hansen, Steven Zheng, Steve Yadlowsky, Subhabrata Das, Subhajit Naskar, Subha Puttagunta, Subhrajit Roy, Sujeevan Rajayogam, Sumit Bagri, Summer Yue, Surya Bhupatiraju, Sushant Kafle, Sushil Mittal, Swaroop Mishra, Swetha Sankar, Tamara von Glehn, Tanya Grunina, Tao Wang, Tao Zhu, Tara Sainath, Taylan Bilal, Taylor Bos, Taylor Tobin, Ted Klimenko, Tejasi Latkar, Tej Toor, Tejvi M., Terry Huang, Thais Kagohara, Thang Luong, Thanumalayan Sankaranarayana Pillai, Thi Avrahami, Thibault Sellam, Thibault Sottiaux, Thomas Brovelli, Thomas Jurdi, Tianhe Yu, Tian Huey Teh, Tian LIN, Tianqi Liu, Tianrun Li, Tim Green, Timoth\'ee Lottaz, Timothy Chung, Timothy Dozat, Timothy Lillicrap, Tina Chen, Ting Zhou, TJ Lu, Toby Shevlane, Tolga Bolukbasi, Tomas Kocisky, Tomasz K\k{e}pa, Tom Duerig, Tomer Shani, Tom Hennigan, Tom Hudson, Tom Kwiatkowski, Tom Le Paine, Tom Natan, Tom van der Weide, Tomy Tsai, Travis Choma, Travis Wolfe, Trevor Strohman, Tulsee Doshi, Tu Vu, Tyler Liechty, Tyler Mercado, Uli Sachs, Urvashi Khandelwal, Valentin Anklin, Vamsi Bedapudi, Varun Godbole, Vedant Misra, Venus Wang, Vera Filippova, Vered Cohen, Victor \"Ahdel, V\'ictor Campos Campos, Victor Cotruta, Victoria Krakovna, Vijay Bolina, Vijay Vasudevan, Vikas Peswani, Vikas Yadav, Vikram Rao, Vinay Ramasesh, Vincent Hellendoorn, Vineet Shah, Vinod Koverkathu, Vinu Rajashekhar, Vipul Ranjan, Vishal Verma, Vitaliy Nikolaev, Vitaly Gatsko, V\'it List\'ik, Vittorio Selo, Vivaan Bhatia, Vlad Firoiu, Vladimir Feinberg, Vladimir Mikulik, Wael Farhan, Wanming Chen, Warren Chen, Wei Fan, Weiren Wang, Weize Kong, Wenhao Jia, Wenny Yustalim, Will Chen, Will Hawkins, William Isaac, William Wong, Willi Gierke, Wojciech Fica, Wojciech Rzadkowski, Wojciech Stokowiec, Wooyeol Kim, Xavier Garcia, Xiance Si, XiangHai Sheng, Xiangkai Zeng, Xiang Zhou, Xiaochen Cai, Xiaolin Li, Xiao Ma, Xiaowei Li, Xi Chen, Xihui Wu, Xingyu Federico Xu, Xingyu Wang, Xinying Song, Xinyi Wu, Xinyun Chen, Xinyu Ye, Xi Xiong, Xuanyi Dong, Xuehan Xiong, Xuewei Wu, Xuezhi Wang, Yadi Qian, Yaguang Li, Yamini Bansal, Yana Hasson, Yana Kulizhskaya, Yang Song, Yang Xu, Yanhua Sun, Yanping Huang, Yan Romanikhin, Yao Zhao, Yash Katariya, Yashodha Bhavnani, Yawen Wei, Yelin Kim, Yenai Ma, Yeongil Ko, Yeqing Li, Ye Zhang, Yicheng Fan, Yifan He, Yifeng Lu, Yi Luan, Yiming Gu, Yingjie Miao, Yingying Bi, Yi Sun, Yi-Xuan Tan, Yomna Eldawy, Yong Cheng, Yonghui Wu, Yuan Cao, Yuan Liu, Yuan Tian, Yuanzhong Xu, Yujia Li, Yujing Zhang, Yu Mao, Yunhan Xu, Yunhao Tang, Yunjie Li, Yunxuan Li, Yuting Sun, Zachary Nado, Zach Gleicher, Zach Irving, Zack Ontiveros, Zafarali Ahmed, Zaheer Abbas, Zeynep Cankara, Zeyu Zheng, Zhe Chen, Zhe Dong, Zhenkai Zhu, Zhen Yang, Zhichun Wu, Zhifeng Chen, Zhishuai Zhang, Zhitao Gong, Zhiyu Liu, Zhuyun Dai, Zifan Lin, Zihang Dai, Ziqiang Feng, Zizhao Zhang, ZJ Yan, Zoe Ashwood, Zonglin Li, Zongwei Zhou, Zora Tung

Authors on Pith no claims yet

classification 💻 cs.CL cs.AIcs.CV

keywords geminifamilybenchmarksmodelsmultimodalcapabilitiesmodelreasoning

0 comments

read the original abstract

This report introduces a new family of multimodal models, Gemini, that exhibit remarkable capabilities across image, audio, video, and text understanding. The Gemini family consists of Ultra, Pro, and Nano sizes, suitable for applications ranging from complex reasoning tasks to on-device memory-constrained use-cases. Evaluation on a broad range of benchmarks shows that our most-capable Gemini Ultra model advances the state of the art in 30 of 32 of these benchmarks - notably being the first model to achieve human-expert performance on the well-studied exam benchmark MMLU, and improving the state of the art in every one of the 20 multimodal benchmarks we examined. We believe that the new capabilities of the Gemini family in cross-modal reasoning and language understanding will enable a wide variety of use cases. We discuss our approach toward post-training and deploying Gemini models responsibly to users through services including Gemini, Gemini Advanced, Google AI Studio, and Cloud Vertex AI.

This paper has not been read by Pith yet.

discussion (0)

Forward citations

Cited by 60 Pith papers

Reviewed papers in the Pith corpus that reference this work. Sorted by Pith novelty score.

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
cs.CL 2026-05 accept novelty 8.0

CiteVQA requires models to cite specific document regions with bounding boxes alongside answers and finds that even the strongest MLLMs frequently cite the wrong region, with top SAA scores of only 76.0 for closed mod...
Cross-Modal Backdoors in Multimodal Large Language Models
cs.CR 2026-05 unverdicted novelty 8.0

Poisoning a single connector in MLLMs establishes a reusable latent backdoor pathway that transfers across modalities with over 95% attack success rate under bounded perturbations.
Approximation Error Upper and Lower Bounds for H\"{o}lder Class with Transformers
cs.LG 2026-05 unverdicted novelty 8.0

A standard Transformer with O(ε^{-d0/α}) blocks can approximate any bounded d0-dimensional Hölder function of smoothness α to accuracy ε, but at least Ω(ε^{-d0/(4α)}) blocks are required.
When and Why SignSGD Outperforms SGD: A Theoretical Study Based on $\ell_1$-norm Lower Bounds
cs.LG 2026-05 unverdicted novelty 8.0

SignSGD provably beats SGD by a factor of d under sparse noise via matched ℓ1-norm upper and lower bounds, with an equivalent result for Muon on matrices, and this predicts faster GPT-2 pretraining.
Efficient Preference Poisoning Attack on Offline RLHF
cs.LG 2026-05 unverdicted novelty 8.0

Label-flip attacks on log-linear DPO reduce to binary sparse approximation problems that can be solved efficiently by lattice-based and binary matching pursuit methods with recovery guarantees.
From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation
cs.SE 2026-04 unverdicted novelty 8.0

MLLMs exhibit a Mirage effect by bypassing circuit diagrams in favor of header semantics for Verilog generation; VeriGround with identifier anonymization and D-ORPO training reaches 46% Functional Pass@1 while refusin...
S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images
cs.CV 2026-04 unverdicted novelty 8.0

S1-VL combines structured scientific reasoning with iterative image manipulation via code execution to reach state-of-the-art results on visual and scientific reasoning benchmarks.
When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models
cs.CV 2026-04 unverdicted novelty 8.0

VLMs hallucinate by prioritizing contradictory on-screen text over visual content, addressed via the VisualTextTrap benchmark with 6,057 human-validated samples and the VTHM-MoE dual-encoder framework using dimension-...
Diffusion-CAM: Faithful Visual Explanations for dMLLMs
cs.AI 2026-04 unverdicted novelty 8.0

Diffusion-CAM is the first method for visual explanations in dMLLMs, using differentiable probing of intermediates plus four refinement modules to produce activation maps that outperform prior CAM approaches in locali...
PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos
cs.CV 2026-04 unverdicted novelty 8.0

PinpointQA is the first benchmark dataset for small object-centric spatial understanding in indoor videos, with four tasks showing MLLM capability gaps that improve via supervised fine-tuning.
HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing
cs.CV 2026-04 accept novelty 8.0

HM-Bench is the first benchmark for MLLMs on hyperspectral images, showing models struggle with complex spatial-spectral reasoning and perform better with visual PCA images than textual reports.
TRUSTDESC: Preventing Tool Poisoning in LLM Applications via Trusted Description Generation
cs.CR 2026-04 unverdicted novelty 8.0

TRUSTDESC prevents tool poisoning in LLM applications by automatically generating accurate tool descriptions from code via a three-stage pipeline of reachability analysis, description synthesis, and dynamic verification.
Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems
cs.CR 2026-04 unverdicted novelty 8.0

DDIPE poisons LLM agent skills by embedding malicious logic in documentation examples, achieving 11.6-33.5% bypass rates across frameworks while explicit attacks are blocked, with 2.5% evading detection.
AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks
cs.AI 2026-04 unverdicted novelty 8.0

AgentSocialBench demonstrates that privacy preservation is fundamentally harder in human-centered agentic social networks than in single-agent cases due to cross-domain coordination pressures and an abstraction parado...
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
cs.CL 2024-09 accept novelty 8.0

MMMU-Pro is a stricter multimodal benchmark that removes text-only solvable questions, augments options, and requires reading text from images, yielding substantially lower model scores of 16.8-26.9%.
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents
cs.CR 2024-06 unverdicted novelty 8.0

AgentDojo introduces an extensible evaluation framework populated with realistic agent tasks and security test cases to measure prompt injection robustness in tool-using LLM agents.
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
cs.AI 2024-04 accept novelty 8.0

OSWorld provides the first unified real-computer benchmark for open-ended multimodal agent tasks, exposing large performance gaps between humans and state-of-the-art LLM/VLM agents.
Knowledge Beyond Language: Bridging the Gap in Multilingual Machine Unlearning Evaluation
cs.CL 2026-05 unverdicted novelty 7.0

New metrics KSS and KPS are introduced to evaluate multilingual machine unlearning quality and cross-language consistency in LLMs, addressing limitations of single-language evaluation protocols.
Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment
cs.LG 2026-05 unverdicted novelty 7.0

BBCritic uses contrastive learning to align GUI actions in a continuous affordance space, outperforming larger binary critic models on a new four-level hierarchical benchmark while enabling zero-shot transfer.
Sampling from Flow Language Models via Marginal-Conditioned Bridges
cs.LG 2026-05 unverdicted novelty 7.0

Marginal-conditioned bridges enable training-free sampling from Flow Language Models by drawing clean one-hot endpoints from factorized posteriors and using Ornstein-Uhlenbeck bridges, preserving token marginals and r...
CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models
cs.CV 2026-05 conditional novelty 7.0

LiteLVLM prunes visual tokens for pixel grounding by reversing CLIP visual-text similarity to retain referent region tokens, outperforming prior methods by over 5% with 22% speedup and 2.3x memory reduction without an...
MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving
cs.RO 2026-05 unverdicted novelty 7.0

MindVLA-U1 introduces a unified streaming VLA with shared backbone, framewise memory, and language-guided action diffusion that surpasses human drivers on WOD-E2E planning metrics.
CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives
cs.CV 2026-05 unverdicted novelty 7.0

CausalCine enables real-time causal autoregressive multi-shot video generation via multi-shot training, content-aware memory routing for coherence, and distillation to few-step inference.
G$^2$TR: Generation-Guided Visual Token Reduction for Separate-Encoder Unified Multimodal Models
cs.CV 2026-05 unverdicted novelty 7.0

G²TR reduces visual tokens and prefill computation by 1.94x in separate-encoder UMMs via generation-guided importance from VAE latent consistency while preserving reasoning accuracy and editing quality.
Reconstruction of Personally Identifiable Information from Supervised Finetuned Models
cs.CR 2026-05 unverdicted novelty 7.0

PII can be reconstructed from SFT models via prefix attacks, with the new COVA algorithm improving success rates and leakage varying by attacker knowledge and PII type.
UniPath: Adaptive Coordination of Understanding and Generation for Unified Multimodal Reasoning
cs.MM 2026-05 unverdicted novelty 7.0

UniPath adaptively models coordination-path diversity in unified multimodal models by training a path-conditioned executor and using a lightweight planner for input-dependent selection, improving performance over fixe...
Kairos: A Scalable Serving System for Physical AI
cs.RO 2026-05 unverdicted novelty 7.0

Kairos is the first multi-robot serving system that treats the generate-execute loop as a first-class citizen and reduces average task latency by 31.8-66.5% versus digital AI serving systems.
HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model
cs.CL 2026-05 unverdicted novelty 7.0

Hebatron is the first open-weight Hebrew MoE LLM adapted from Nemotron-3, reaching 73.8% on Hebrew reasoning benchmarks while activating only 3B parameters per pass and supporting 65k-token context.
ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models
cs.RO 2026-05 unverdicted novelty 7.0

ALAM creates algebraically consistent latent action transitions from videos to act as auxiliary generative targets, raising robot policy success rates from 47.9% to 85.0% on MetaWorld MT50 and 94.1% to 98.1% on LIBERO.
PhyGround: Benchmarking Physical Reasoning in Generative World Models
cs.CV 2026-05 accept novelty 7.0

PhyGround is a new benchmark with curated prompts, a 13-law taxonomy, large-scale human annotations, and an open physics-specialized VLM judge for evaluating physical reasoning in generative video models.
StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs
cs.CY 2026-05 accept novelty 7.0

StereoTales shows that all tested LLMs emit harmful stereotypes in open-ended stories, with associations adapting to prompt language and targeting locally salient groups rather than transferring uniformly across languages.
StereoTales: A Multilingual Framework for Open-Ended Stereotype Discovery in LLMs
cs.CY 2026-05 unverdicted novelty 7.0

StereoTales shows that LLMs produce harmful, culturally adapted stereotypes in open-ended multilingual stories, with patterns consistent across providers and aligned human-LLM harm judgments.
PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents
cs.AI 2026-05 unverdicted novelty 7.0

PaperFit uses rendered page images in a closed loop to diagnose and repair typesetting defects in LaTeX documents, outperforming baselines on a new benchmark of 200 papers.
SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation
cs.CV 2026-05 unverdicted novelty 7.0

SciVQR is a new benchmark dataset for evaluating multimodal AI models on complex scientific reasoning tasks across six disciplines, including expert solutions for nearly half the items.
ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models
cs.CV 2026-05 unverdicted novelty 7.0

ViSRA boosts MLLM 3D spatial reasoning performance by up to 28.9% on unseen tasks via a plug-and-play video-based agent that extracts explicit spatial cues from expert models without any post-training.
When to Re-Commit: Temporal Abstraction Discovery for Long-Horizon Vision-Language Reasoning
cs.AI 2026-05 conditional novelty 7.0

State-conditioned commitment depth in a vision-language policy Pareto-dominates fixed-depth baselines on Sliding Puzzle and Sokoban, raising solve rates by up to 12.5 points while using 25% fewer actions and beating l...
MOTOR-Bench: A Real-world Dataset and Multi-agent Framework for Zero-shot Human Mental State Understanding
cs.CV 2026-05 unverdicted novelty 7.0

MOTOR-Bench supplies a real-world video dataset for structured mental state understanding in learning settings, while MOTOR-MAS improves zero-shot prediction of behavior, cognition, and emotion labels over single mode...
Scratchpad Patching: Decoupling Compute from Patch Size in Byte-Level Language Models
cs.CL 2026-05 conditional novelty 7.0

Scratchpad Patching decouples compute from patch size in byte-level language models by inserting entropy-triggered scratchpads to update patch context dynamically.
SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
cs.AI 2026-05 unverdicted novelty 7.0

Multimodal AI models for physics reasoning lose performance when information shifts from text to images, and RLVR training gains often come from non-visual textual or distributional cues rather than actual visual evidence.
SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
cs.AI 2026-05 unverdicted novelty 7.0

SeePhys Pro benchmark reveals multimodal models degrade on physics reasoning as information transfers from text to images, with blind training improvements often stemming from textual cues rather than visual evidence.
VORT: Adaptive Power-Law Memory for NLP Transformers
cs.LG 2026-05 unverdicted novelty 7.0

VORT assigns learnable fractional orders to tokens and approximates their power-law retention kernels via sum-of-exponentials for efficient long-range dependency modeling in transformers.
PPI2Text: Captioning Protein-Protein Interactions with Coordinate-Aligned Pair-Map Decoding
cs.CE 2026-05 unverdicted novelty 7.0

PPI2Text generates natural-language captions for protein-protein interactions from sequences by encoding each protein with ESM3, building a residue-pair map, and decoding with Qwen3 using coordinate-aligned positional...
SYNCR: A Cross-Video Reasoning Benchmark with Synthetic Grounding
cs.CV 2026-05 unverdicted novelty 7.0

SYNCR benchmark shows leading MLLMs reach only 52.5% average accuracy on cross-video reasoning tasks against an 89.5% human baseline, with major weaknesses in physical and spatial reasoning.
MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents
cs.RO 2026-05 unverdicted novelty 7.0

MemCompiler introduces state-conditioned memory compilation that dynamically selects and compiles relevant memory into text and latent guidance, yielding up to 129% gains over no-memory baselines and 60% lower latency...
Beyond GSD-as-Token: Continuous Scale Conditioning for Remote Sensing VLMs
cs.CV 2026-05 unverdicted novelty 7.0

ScaleEarth conditions remote sensing VLMs on continuous GSD via CS-HLoRA and a visual GSD predictor, creating a closed training loop with GeoScale-VQA to achieve SOTA on Earth observation benchmarks.
Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning
cs.AI 2026-05 unverdicted novelty 7.0

LLM agents reach only 50.6% accuracy on chemical cost estimation within 25% error even with tools, dropping with noise due to parsing, pack selection, and tool-use failures.
Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
cs.CV 2026-05 unverdicted novelty 7.0

Qwen3-VL-Seg decodes MLLM bounding boxes into pixel-level referring segmentation via a lightweight box-guided mask decoder, new SA1B-ORS training data, and ORS-Bench evaluation, showing strong open-world performance.
$f$-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses
cs.LG 2026-05 unverdicted novelty 7.0

The paper establishes the first O(log T) regret and O(1/T) sub-optimality bounds for online RLHF under general f-divergence regularization via two sampling algorithms.
Rollback-Free Stable Brick Structures Generation
cs.LG 2026-05 unverdicted novelty 7.0

Reinforcement learning internalizes physical stability rules for brick structures, enabling the first rollback-free generation with orders-of-magnitude faster inference.
MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media
cs.CL 2026-05 unverdicted novelty 7.0

MultiSoc-4D benchmark shows LLMs annotating Bengali social media exhibit instruction-induced label collapse, preferring fallback labels and missing 79% of hate speech and 75% of sarcasm instances despite high agreemen...
IntentGrasp: A Comprehensive Benchmark for Intent Understanding
cs.CL 2026-05 unverdicted novelty 7.0

IntentGrasp benchmark demonstrates that LLMs have low intent understanding capabilities, with most models underperforming random guessing on a challenging subset, but Intentional Fine-Tuning provides large improvements.
PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts
cs.CR 2026-05 unverdicted novelty 7.0

PragLocker protects agent prompts as IP by building non-portable obfuscated versions that function only on the intended LLM through code-symbol semantic anchoring followed by target-model feedback noise injection.
Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
cs.CL 2026-05 unverdicted novelty 7.0

TextPro-SLM minimizes the speech-text modality gap from the input side via a prosody-aware unified encoder, delivering the lowest gap and strong performance at 3B/7B scales with only ~1000 hours of audio.
Training-Free Dense Hand Contact Estimation with Multi-Modal Large Language Models
cs.CV 2026-05 unverdicted novelty 7.0

ContactPrompt uses part-wise vertex grids and multi-stage part-conditioned reasoning in MLLMs to achieve training-free dense hand contact estimation that outperforms prior supervised methods.
Retain-Neutral Surrogates for Min-Max Unlearning
cs.LG 2026-05 unverdicted novelty 7.0

ROSU derives a closed-form retain-neutral perturbation for min-max unlearning that bounds retain damage via curvature and improves performance when gradients are aligned.
AffectSeek: Agentic Affective Understanding in Long Videos under Vague User Queries
cs.CV 2026-05 unverdicted novelty 7.0

AffectSeek is an agentic framework that localizes affective moments, classifies emotions, and generates rationales in long videos under vague user queries, backed by the new VQAU-Bench benchmark.
WorldJen: An End-to-End Multi-Dimensional Benchmark for Generative Video Models
cs.CV 2026-05 unverdicted novelty 7.0

WorldJen is a new benchmark for generative video models that uses VLM-judged multi-dimensional Likert questionnaires validated against human preferences to achieve perfect tier agreement.
MemFlow: Intent-Driven Memory Orchestration for Small Language Model Agents
cs.MA 2026-05 unverdicted novelty 7.0

MemFlow routes queries by intent to tiered memory operations, nearly doubling accuracy of a 1.7B SLM on long-horizon benchmarks compared to full-context baselines.
Toward Fine-Grained Speech Inpainting Forensics:A Dataset, Method, and Metric for Multi-Region Tampering Localization
cs.SD 2026-05 unverdicted novelty 7.0

A new dataset, iterative coarse-to-fine localization framework, and segment-level IoU F1 metric tackle the open problem of detecting multiple unknown word-level inpainted regions in speech.
DiagramNet: An End-to-End Recognition Framework and Dataset for Non-Standard System-Level Diagrams
cs.AI 2026-05 unverdicted novelty 7.0

DiagramNet supplies a new multimodal dataset and progressive training pipeline with decoupled multi-agent workflow, allowing a 3B model to outperform GPT-5, Claude-Sonnet-4, and Gemini-2.5-Pro by over 2x on system-lev...