Какие направления дальнейшей работы видят авторы:
— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач
— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату
— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре
— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть
— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами
— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)
Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...
— Всё еще покрыты не все ресурсы/форумы/региональные и локальные олимпиады. Можно получить сколько-то десятков-сотен тысяч задач
— Улучшения в процессе разметки и извлечения, чтобы приводить всё к одному формату
— корректировка сгенерированных синтетически решений: сейчас валидность проверяется лишь по соответствию ответу, но при этом ход решения может быть как чуть-чуть, так и в целом неправильным. Хорошей идеей может стать использование GPT-4 для перепроверки/перегенерации, чтобы не обучать свои модели на мусоре
— сейчас используется только Python, но можно подключать другие инструменты. В обществе математиков давно разработаны пруверы (доказывают) и солверы (решают), даже специальные языки есть
— улучшение процесса создания синтетических решений. Сейчас некоторые задачи слишком сложны даже для GPT-4, и в решениях есть явные паттерны ошибок, которые можно постараться обойти промптами и примерами
— во всех постах выше речь шла про решения задач, имеющих численный ответ. Но на олимпиадах не менее часто попадаются и задачи на доказательство, и у LLM тут по нулям. Создание датасета доказательств и способов обучения на этом также должно улучшить общие навыки моделей (ждём от OpenAI...)
Вот так вот. Ждём второй раунд соревнований, посмотрим, сколько можно выжать сверх полученных результатов просто за счёт чуть более умной тренировки + агрегаций предсказаний + валидации + ...