• List
  • Down
  • Up
  • Write
  • Search
음향

[논문] 현재 AI 기술의 한계 평가를 위한 GSM-Symbolic 벤치마크 (Apple 논문)

purplemountain purplemountain
91 8 2

https://arxiv.org/abs/2410.05229 (논문은 우측 View PDF 클릭)

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Modelsarxiv.orgRecent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning. 

  

이 논문은 대형 언어 모델(LLMs)의 수학적 추론 능력을 평가하기 위해 새로운 벤치마크인 GSM-Symbolic을 도입합니다. 기존 GSM8K 벤치마크의 한계를 극복하기 위해, GSM-Symbolic은 다양한 문제를 생성할 수 있는 상징적 템플릿을 활용하여 더 정교한 평가를 가능하게 합니다. 연구 결과, LLM들은 동일한 질문의 숫자만 변경해도 성능이 크게 감소하며, 질문의 조건이 늘어날수록 성능이 급격히 악화된다는 점을 보여줍니다. 이는 현재 LLM들이 진정한 논리적 추론보다는 학습된 데이터의 패턴을 반복하는 데 의존하고 있음을 시사합니다. 추가적인 조건이 포함되면, 비록 해당 조건이 최종 답변에 필요하지 않더라도 성능이 최대 65%까지 감소하는 현상이 관찰되었습니다. 이 연구는 LLM의 수학적 추론 능력과 한계에 대해 더 깊은 통찰을 제공합니다.

 

 GSM-Symbolic 벤치마크는 대형 언어 모델(LLM)의 수학적 추론 능력을 평가하기 위해 Apple 연구팀이 개발한 새로운 평가 체계입니다. 이 벤치마크는 기존 GSM8K의 한계를 극복하고자 상징적 템플릿을 활용해 문제의 구조와 숫자를 다양하게 변형하여 생성합니다. 이를 통해 LLM의 진정한 논리적 사고 능력을 평가하는 데 중점을 둡니다

주요 평가 결과

  1. 숫자 변경에 따른 성능 저하: LLM들은 동일한 문제의 숫자만 변경해도 정확도가 크게 하락했습니다. 예를 들어, GSM8K에서 80% 이상의 정확도를 보이던 모델이 GSM-Symbolic에서는 50% 미만으로 떨어졌습니다157. 이는 모델들이 패턴 인식에 의존하고 실제 수학적 이해가 부족함을 시사합니다.

  2. 복잡성 증가에 따른 취약성: 문제에 조건(절)이 추가될수록 모델 성능이 급격히 감소했습니다. 특히, 최종 답변과 무관한 조건이 추가되더라도 성능이 최대 65%까지 하락하는 현상이 관찰되었습니다467. 이는 LLM들이 관련 정보와 무관한 정보를 구분하지 못하고, 복잡한 논리 구조를 처리하는 데 한계가 있음을 보여줍니다.

  3. 상징적 추론의 부재: GSM-Symbolic은 모델이 수학적 원리를 이해하는지보다는 훈련 데이터의 패턴을 복제하는지 평가합니다. 연구 결과, LLM들은 문제의 구조적 변형에 유연하게 대응하지 못하며, 이는 진정한 논리적 추론 능력의 결여로 해석됩니다258.

향후 과제

  • 하이브리드 모델 개발: 상징적 추론과 통계적 학습을 결합한 접근법이 필요합니다15.

  • 데이터 오염 문제: GSM-Symbolic의 결과가 기존 GSM8K 데이터에 오염된 영향일 수 있다는 지적도 제기되며, 향후 평가 체계의 정제가 요구됩니다8.

이 연구는 LLM의 수학적 능력이 아직 초기 단계에 머물러 있음을 보여주며, 진정한 추론 능력을 갖춘 AI 개발을 위한 중요한 통찰을 제공합니다347.

ReportShareScrap
Tigris Tigris님 포함 8명이 추천

Comment 2

Comment Write
profile image 1등

비슷한 성능저하 문제를 겪었던 경험을 공유하자면, copilot에게 앰프와 헤드폰의 스펙에 대해서 알려주고, 출력 볼륨을 찾는 질문을 했던 적이 있습니다. 질문을 할 때마가 답하는 볼륨 값이 달라지는 일이 있었죠.

11:29
25.04.11.
profile image
차바
현재 LLM들은 사람처럼 동일한 질문에 대해 똑같은 답변을 하지 않도록 의도적으로 random 요소를 넣긴 했습니다
어느 정도의 무작위 요소로 인해 이런 현상이 벌어지긴 했으니 수치나 사전적 정의가 분명한 부분을 LLM에 효과적으로 이해시키는게 다음 과제겠네요
12:05
25.04.11.
You do not have permission to access. Login
WYSIWYG

Report

"님의 댓글"

Are you sure you want to report this comment?

Comment Delete

"님의 댓글"

I want to Are you sure you want to delete?

Share

Permalink
Category Subject Author Date Views
[영디비 공동구매] 젠하이저 IE 시리즈 앵콜 공구 진행 6 영디비 6일 전12:06 4289 +13
영디비 이용 가이드 (2024년 개정판) 10 Gprofile 24.07.29.19:00 8019 +7
음향
image
idletalk 1시간 전03:26 28 +3
잡담
image
푸우 3시간 전01:51 43 +2
잡담
image
eoeoe 4시간 전00:39 78 +8
잡담
image
FuryKim 5시간 전23:58 51 +6
잡담
image
Gprofile 6시간 전23:05 36 +3
IT
image
플랫러버 6시간 전22:48 56 +6
IT
normal
박지훈 8시간 전20:55 105 +10
잡담
image
로우파이맨최노인 8시간 전20:22 419 +9
잡담
image
숙지니 10시간 전18:28 87 +4
잡담
image
Software 11시간 전18:08 185 +9
유머
image
AlpineSnow 11시간 전18:02 90 +2
잡담
normal
DECALPHA 11시간 전17:52 105 +7
잡담
image
숙지니 12시간 전16:36 78 +2
잡담
image
eoeoe 12시간 전16:20 183 +8
잡담
image
숙지니 13시간 전16:07 100 +5
잡담
image
숙지니 14시간 전14:40 96 +6
잡담
image
숙지니 14시간 전14:34 132 +5
잡담
image
쪽빛 17시간 전11:52 256 +8
잡담
image
eoeoe 19시간 전09:56 249 +4
잡담
image
배고파정말 1일 전05:06 156 +9
잡담
normal
-루비아이 1일 전04:48 157 +5
잡담
image
eoeoe 1일 전01:59 285 +14
잡담
image
COCT 1일 전22:36 245 +12
잡담
normal
AlpineSnow 1일 전22:14 587 +10
잡담
image
Gprofile 1일 전22:10 80 +5
잡담
normal
쏘핫 1일 전22:09 52 +4
잡담
image
열렙중인엘프 1일 전22:07 46 +4
잡담
image
푸우 1일 전21:36 170 +7
잡담
image
윤석빈 1일 전21:09 671 +12
잡담
image
마루에marue 1일 전20:58 1258 +14