practical - a tintegral Collection

tintegral 's Collections

practical

updated 10 days ago

LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

Paper • 2412.15204 • Published 11 days ago • 31
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Paper • 2412.14161 • Published 12 days ago • 44
Alignment faking in large language models

Paper • 2412.14093 • Published 12 days ago • 7
The Open Source Advantage in Large Language Models (LLMs)

Paper • 2412.12004 • Published 14 days ago • 9