Как Claude Opus 4.
Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети.
В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой и...








