{"work":{"id":"f6a7efa2-8f95-4bbf-9931-611f36393c20","openalex_id":null,"doi":null,"arxiv_id":"2411.15114","raw_key":null,"title":"Re-bench: Evaluating frontier AI r & d capabilities of language model agents against human experts","authors":null,"authors_text":"Hjalmar Wijk, Tao Lin, Joel Becker, Sami Jawhar, Neev Parikh, Thomas Broadley, Lawrence Chan, Michael Chen, Josh Clymer, Jai Dhyani, Elena Ericheva, Katharyn Garcia, Brian Goodrich, Nikola Jurkovic, Holden Karnofsky, Megan Kinniment, Aron L","year":2025,"venue":null,"abstract":null,"external_url":"https://arxiv.org/abs/2411.15114","cited_by_count":null,"metadata_source":"arxiv_reference","metadata_fetched_at":"2026-06-29T15:33:32.797371+00:00","pith_arxiv_id":null,"created_at":"2026-05-09T06:05:36.483464+00:00","updated_at":"2026-06-29T15:33:32.797371+00:00","title_quality_ok":true,"display_title":"Re-bench: Evaluating frontier ai r&d capabilities of language model agents against human experts","render_title":"Re-bench: Evaluating frontier ai r&d capabilities of language model agents against human experts"},"hub":{"state":{"work_id":"f6a7efa2-8f95-4bbf-9931-611f36393c20","tier":"hub","tier_reason":"10+ Pith inbound or 1,000+ external citations","pith_inbound_count":19,"external_cited_by_count":null,"distinct_field_count":5,"first_pith_cited_at":"2024-12-06T12:09:50+00:00","last_pith_cited_at":"2026-06-10T10:57:05+00:00","author_build_status":"not_needed","summary_status":"needed","contexts_status":"needed","graph_status":"needed","ask_index_status":"not_needed","reader_status":"not_needed","recognition_status":"not_needed","updated_at":"2026-06-29T23:29:17.928856+00:00","tier_text":"hub"},"tier":"hub","role_counts":[{"context_role":"background","n":3}],"polarity_counts":[{"context_polarity":"background","n":3}],"runs":{},"summary":{},"graph":{},"authors":[]}}