https://arxiv.org/abs/2410.05229 (논문은 우측 View PDF 클릭)
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Modelsarxiv.orgRecent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.
이 논문은 대형 언어 모델(LLMs)의 수학적 추론 능력을 평가하기 위해 새로운 벤치마크인 GSM-Symbolic을 도입합니다. 기존 GSM8K 벤치마크의 한계를 극복하기 위해, GSM-Symbolic은 다양한 문제를 생성할 수 있는 상징적 템플릿을 활용하여 더 정교한 평가를 가능하게 합니다. 연구 결과, LLM들은 동일한 질문의 숫자만 변경해도 성능이 크게 감소하며, 질문의 조건이 늘어날수록 성능이 급격히 악화된다는 점을 보여줍니다. 이는 현재 LLM들이 진정한 논리적 추론보다는 학습된 데이터의 패턴을 반복하는 데 의존하고 있음을 시사합니다. 추가적인 조건이 포함되면, 비록 해당 조건이 최종 답변에 필요하지 않더라도 성능이 최대 65%까지 감소하는 현상이 관찰되었습니다. 이 연구는 LLM의 수학적 추론 능력과 한계에 대해 더 깊은 통찰을 제공합니다.
GSM-Symbolic 벤치마크는 대형 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 Apple 연구팀이 개발한 새로운 평가 체계입니다. 이 벤치마크는 기존 GSM8K의 한계를 극복하고자 상징적 템플릿을 활용해 문제의 구조와 숫자를 다양하게 변형하여 생성합니다. 이를 통해 LLM의 진정한 논리적 사고 능력을 평가하는 데 중점을 둡니다
주요 평가 결과
-
숫자 변경에 따른 성능 저하: LLM들은 동일한 문제의 숫자만 변경해도 정확도가 크게 하락했습니다. 예를 들어, GSM8K에서 80% 이상의 정확도를 보이던 모델이 GSM-Symbolic에서는 50% 미만으로 떨어졌습니다157. 이는 모델들이 패턴 인식에 의존하고 실제 수학적 이해가 부족함을 시사합니다.
-
복잡성 증가에 따른 취약성: 문제에 조건(절)이 추가될수록 모델 성능이 급격히 감소했습니다. 특히, 최종 답변과 무관한 조건이 추가되더라도 성능이 최대 65%까지 하락하는 현상이 관찰되었습니다467. 이는 LLM들이 관련 정보와 무관한 정보를 구분하지 못하고, 복잡한 논리 구조를 처리하는 데 한계가 있음을 보여줍니다.
-
상징적 추론의 부재: GSM-Symbolic은 모델이 수학적 원리를 이해하는지보다는 훈련 데이터의 패턴을 복제하는지 평가합니다. 연구 결과, LLM들은 문제의 구조적 변형에 유연하게 대응하지 못하며, 이는 진정한 논리적 추론 능력의 결여로 해석됩니다258.
향후 과제
-
하이브리드 모델 개발: 상징적 추론과 통계적 학습을 결합한 접근법이 필요합니다15.
-
데이터 오염 문제: GSM-Symbolic의 결과가 기존 GSM8K 데이터에 오염된 영향일 수 있다는 지적도 제기되며, 향후 평가 체계의 정제가 요구됩니다8.
이 연구는 LLM의 수학적 능력이 아직 초기 단계에 머물러 있음을 보여주며, 진정한 추론 능력을 갖춘 AI 개발을 위한 중요한 통찰을 제공합니다347.
비슷한 성능저하 문제를 겪었던 경험을 공유하자면, copilot에게 앰프와 헤드폰의 스펙에 대해서 알려주고, 출력 볼륨을 찾는 질문을 했던 적이 있습니다. 질문을 할 때마가 답하는 볼륨 값이 달라지는 일이 있었죠.