WSJ NCAA ‘March Madness’ 브래킷에서 ChatGPT·Claude·Gemini 예측 성적이 두드러진 이유

The Wall Street Journal은 NCAA ‘March Madness’ 브래킷 풀에서 ChatGPT, Claude, Gemini 등 3개 주요 대형 언어 모델(LLM)의 경기 예측을 비공개로 제출해 다수의 사람 참가자들과 같은 조건에서 경쟁시켰다. 보도에 따르면 이들 ‘AI 참가자’는 초반에는 우세하지 않았지만, 대회가 진행될수록 이변에 베팅하고, 대세 추종을 피하는 선택을 더 자주 하면서 전체 성적이 점차 많은 사람 참가자들을 앞서기 시작했으며, ‘우승 가능성’이 거론되는 상황도 나왔다.

메커니즘 측면에서 보면, 브래킷 예측은 데이터 요소와 무작위성이 함께 작용하며, 사람 참가자들은 팀 선호, 직감, 감정의 영향을 자주 받아 선택이 동질화되기 쉽다. 반면 AI는 ‘응원팀 편향’이 없는 전제에서, 제한된 정보 안에서도 차별화된 결정을 내리는 쪽으로 기울어 특정 규칙에서는 유리함을 얻을 수 있다. 다만 이런 결과는 AI의 우위가 곧 ‘농구를 더 잘 안다’는 의미일 필요는 없으며, 불확실한 예측 과제에서 사람이 체계적 편향을 더 쉽게 보일 수 있음을 반영하는 것일 수도 있음을 시사한다.

코멘트: 대형 모델이 더 많은 예측·의사결정 영역에 활용되면서, ‘전략적 우위’와 ‘실제 능력’을 어떻게 구분할지, 그리고 대회나 평가에서 설명 가능하고 재현 가능한 비교 방법을 어떻게 구축할지가 향후 핵심 쟁점이 될 전망이다.

기사 검색

인기 기사

ChatGPT를 가장 잘 활용할 수 있는 몇 가지 프롬프트(Prompt) — 효율을 진짜 10배 올리는 사용법

Claude Code 설치가 계속 오류 나나요? 3단계로 설정 문제를 끝내는 단계별 가이드

ChatGPT Claude Gemini Midjourney 출력이 망했을 때의 트러블슈팅 체크리스트와 프롬프트 KISS 팁

ChatGPT, Claude, Gemini와 Midjourney를 효율적으로 연동하는 워크플로: 출력 불일치와 개고 고충 해결

ChatGPT와 Claude 답변 불일치 문제 해결: AI를 정확히 이해시키는 3가지 질문 기술