(뻘글)며칠간 ai만 붙잡고있던 후기
며칠간 매일 2~4시간씩 ai만 붙잡고 주로 코딩, 그 이외에도 온갖걸 다 시켜봤습니다
선수목록
클러드 4.0
구글 Gemini 2.5 pro
GPT 4.1
GPT o3
(가끔) xAI Grok 3, 퍼플렉시티 Sonar
한줄게시판표 고오급 유머 이해능력 (개소리 해석능력)
GPT 4.1, o3, 잼민이2.5pro, Grok3 클러드 모두 합격.
흔한 아재개그식 개소리들, 비슷한 발음같은걸로 한두번 꼬아말한건 대부분 알아듣습니다.
Sonar 이놈은 최대한 객관적인 분석에 최적화되어있어서인지, 개소리 주면 쩔쩔맵니다.
하지만 아쉽게도 다이나믹드라이버가 10개면 스무디라는 제 회심의 개소리는 아무도 해석하지 못했습니다.
(10DD -> 20D 스무 D )
코딩
Gemini 2.5 pro, Claude 4가 제일 만족스러웠습니다.
둘다 한국어 이해능력도 뛰어나고, 코딩성능도 최상급이라서 굉장히 좋았습니다.
퀄리티는 Claude 쪽이 조금 더 좋긴한데, 속도는 Gemini가 압도적으로 빠릅니다.
o3도 좋긴한데, 느립니다.
Grok3는 잘하는것같긴 한데... 오류율이 좀더 높기도 하도, 속도에도 이점이 없습니다.
나머지는 탈락수준입니다. 오류투성이
이미지 인식능력은 Gemini 2.5 pro가 최고였고, 나머지는 조금씩 틀리더군요.
한국어 텍스트가 적힌 화면들을 가지고 이것저것 해봤는데, Gemini는 실제 프린트물 종이 사진이나, 손글씨 휘갈긴것도 거의 틀리지 않고 잘 분석해내는 반면, 나머지는 깔끔한 웹페이지 캡쳐도 한두글자씩 틀립니다. (특히 쌍자음처럼 좀 복잡한 글자가 포함되어있다면 오류발생률 증가)
검색 / 정보 분석, 정리
이건 뭐 요즘 LLM들이 전부 성능이 상향평준화 되어있어서, 큰 성능차이보다는 스타일 차이정도였습니다만..
o3, Sonar 이 둘이 좀 뭔가 있어보이고 신뢰감있는 말투로 정리해주더군요. GPT 4.1, Claude 4.0은 좀 말투가 가볍고요. Grok, Gemini는 중간정도?
아무튼 너무 즐겁네요....
요즘 너무 ai랑만 노는거같아요 ㅋㅋㅋㅋ
어지간한 개소리도 다 받아주고, 읽는속도보다 답변나오는게 더 빨라서 도파민도 팡팡터지고...
Comment 12
Comment Write
풀사이즈 고성능 Opus, 약간 경량화/최적화가 들어간 Sonnet. 그리고 Extended Thinking 추론기능은 두 모델 모두 온오프 가능하고요.
클러드 본진 사이트에선 Sonnet만 무료고, Opus모델이나 추론기능 켜려면 유료입니다.
저는 저기 나온 모델들 전부 지원하는 퍼플렉시티(월 20$, 연 200$, skt가 1년무료 쿠폰 뿌리는중)에서 쓰고있는데, 퍼플렉시티에선 Opus까진 안주지만 추론기능까진 줍니당.
벤치마크들 찾아보면 코딩성능은 Sonnet이랑 Opus가 오차범위 이내 수준의 성능차이(0.2%) 만 보이고, Sonnet 기준으로도 현시점 1황입니다.
구글 Gemini 2.5 pro도 코딩성능이 엄청 좋은데, 얘는 속도가 더 빠르더군요. 전 요놈 주로 씁니다. (+제미니 앱에선 무료지만 사용량 제한이 빡빡한데, 구글 ai스튜디오 사이트에서 쓰면 혼자 쓰는 수준에선 거의 무제한입니다 ㄷ)

역시 아직은 인간의 영역이겠죠? ㅋㅋㅋㅋ dd라서 스무=20개구나 알긴하겠는데 ㅋㅋㅋㅋ