본문 바로가기
직장인 친칠라/Weekly Stash 주간 채집

[Weekly Stash/주간 채집] 2025년 11월 둘째주

by 친칠라 2025. 11. 16.
1. [Article] AI가 수능을 본다면
2. [기사] “여럿이 함께 쓰는 챗GPT”…오픈AI, 한국에 ‘그룹 채팅’ 시범 도입
3. [블로그] DeepSeek의 새로운 OCR: Contexts Optical Compression 논문 리뷰
🐿️ 친칠라의 주간 채집 🌱
한 주 동안 "나중에 살펴봐야지!" 하고 수집해 둔 링크들이 그대로 잊히지 않도록,
주말마다 가볍게 살펴보고 짧은 생각을 남깁니다.
주로 LLM이나 프롬프트 엔지니어링과 관련된 내용들을 스크랩하고,
본 전공인 국어학 쪽에서도 재미있는 내용이 있으면 가져올게요!

 

1. [Article] AI가 수능을 본다면

NAVERfficial - AI가 수능을 본다면

 

NAVERfficial - AI가 수능을 본다면

호기심에서 출발한 6개월간의 사고실험

fficial.naver.com

AI, 수능에 도전하다: KoNET | CLOVA

 

CLOVA

하이퍼스케일 AI로 플랫폼 경쟁력을 강화하고 비즈니스 시너지를 확장합니다.

www.clova.ai

 

LLM의 성능 측정에 수능 시험을 테스트케이스로 활용하는 시도 자체는 이미 그다지 새롭지 않다. 아무래도 수능은 한국에서 구할 수 있는 가장 표준화되고 공인화된 시험 중 하나이기도 하고, 많은 한국 성인들이 몸소 경험해본 시험이다 보니, LLM이 한국어로 얼마나 잘 추론하는지를 확인하는 데에는 이만한 데이터가 없을 것이다.

 

하이퍼클로바X를 만드는 네이버클라우드 비전 언더스탠딩 팀에서 장장 6개월에 걸쳐 LLM에게 수능 시험을 치르게 하고, 그 결과를 분석하는 실험을 했다고 한다. 이미 말했지만 시도 자체가 대단히 새로운 것은 아니지만, 실험 과정과 고민점, 결과 분석까지 잘 정리해준 글이라 가져왔다. (특히 두 번째 글) 제목과 달리 네이버클라우드는 1회의 수능 테스트만 한 것은 아니고, 초등/중등/고등 검정고시와 수능시험 문항을 활용하여 KoNET라는 벤치마크를 구축하였다.

 

시험 결과 분석에 페르소나 분석을 활용한 것이 흥미로웠는데 그 자세한 분석 내용은 제시되어 있지 않아서 궁금하다. 반드시 큰 모델이 문제를 더 잘 풀지는 못했다는 점, 일단 OCR과 한국어 특화 전처리가 잘 되어야 결과가 좋았다는 점, AI는 사람에 비해 반복적이거나 집중력이 필요한 독해형 문제에서 우위를 보였지만 배경지식이나 문화적, 역사적 맥락을 요구하는 문제에서는 사람보다 못했다는 점 모두 어느 정도 예상 가능하긴 했지만 그래도 여전히 흥미롭다. 수많은 서비스씬에서 '실제 사람처럼 생각하고 행동하는' AI Agent를 원하지만, 결국 (아직까지는?) LLM이 입력을 받아 추론하고 결과값을 내놓는 과정이 본질적으로 실제 사람과 다르다는 것을 보여주는 것 같다.

 

2. [기사] "여럿이 함께 쓰는 챗GPT"...오픈AI, 한국에 '그룹 채팅' 시범 도입

“여럿이 함께 쓰는 챗GPT”…오픈AI, 한국에 ‘그룹 채팅’ 시범 도입 < IT·전자 < 산업 < 기사본문 - 핀포인트뉴스

 

“여럿이 함께 쓰는 챗GPT”…오픈AI, 한국에 ‘그룹 채팅’ 시범 도입 - 핀포인트뉴스

오픈AI는 여러 사용자가 하나의 대화창에서 챗GPT와 함께 대화를 나누며 협업할 수 있는 ‘그룹 채팅’ 기능을 한국에 시범 도입했다고 14일 밝혔다. 해당 기능은 한국을 포함해 일본, 뉴질랜드,

www.pinpointnews.co.kr

나의 ChatGPT 대화 내역을 공유하는 기능도 꽤 유용하게 잘 쓰고 있었는데, 그룹 채팅 기능은 상상해본 적이 없었다. 내가 들어가 있는 한 오픈채팅 방에서 한 분이 그룹 채팅 링크를 공유해주셔서 들어가 보려고 했는데, 뭐가 문제인지 내 계정에서는 그룹 채팅에 들어가지지 않았다. 조만간 친구들이랑 써봐야지!

 

기사를 보니 사용량 제한은 ChatGPT 응답에만 부과되고 참여자 간 메시지에는 적용되지 않는다는데, 그러면 이 ChatGPT 응답의 요금 부과는 누구에게 부여되는지 궁금하다. 역시 채팅방을 만든 방장에게 부과되는 것인가...? 또 ChatGPT가 매번 대화에 끼어들지 않고 이용이 필요할 때만 호출해서 답변을 생성하게 하는 기능도 있다고 하고, 그룹 채팅마다 응답 방식 커스텀도 가능한 것 같은데 어떤 식으로 제어하게 해뒀는지도 궁금하다.

 

3. [블로그] DeepSeek의 새로운 OCR: Contexts Optical Comression 논문 리뷰

꿈 많은 사람의 이야기

 

DeepSeek의 새로운 OCR: Contexts Optical Compression 논문 리뷰

포스팅 개요최근 AI 챗봇과 대화를 나누거나 긴 리포트를 요약시킬 때, "입력 가능한 글자 수를 초과했습니다"라는 메시지를 본 적 있으신가요? 현대의 대형 언어 모델(LLM)은 놀라운 성능을 보여

lsjsj92.tistory.com

최근 프로젝트에서 대화 컨텍스트 관리와 문서 OCR 문제로 골머리를 썩는 중이라 아주 솔깃한 글이었다. 딥시크 뭔가 계속 꾸준히 내고 있구나, 싶기도 하고. 이 글에서 나온 DeepSeek의 OCR의 기본 아이디어는 "긴 텍스트를 처리하는 게 비싸다면, 텍스트를 이미지로 바꿔버리면 어떨까?"에서 출발했다고 한다. 단순히 OCR의 기능 자체를 개선하는 게 아니라, AI가 컨텍스트를 기억하는 방식을 바꾸려는 시도인 것이다.

 

치 연구의 관건은 텍스트를 이미지로 압축했다가 다시 OCR을 통해 복원했을 때 원본과 얼마나 똑같은지, 즉 정보가 유실되지 않고 유지되는지였다. 결론은 이 방식이 꽤나 쓸만하다는 것. 다만 기존의 VLM 인코더들은 고해상도와 효율 중 하나를 포기해야만 했기 때문에 이 기법이 널리 사용되지 않았는데, DeepSeek에서는 새로운 인코더인 DeepEncoder를 설계하여 이러한 한계를 타파하고자 했다.

 

개인적으로 특히 흥미로웠던 것은 단순한 문자 인식을 넘어 문서 구조 이해까지 나아가고자 했다는 것. 우리가 실생활에서 사용하는 많은 문서들은 사실 텍스트뿐 아니라 표나 그림, 구조와 레이아웃을 통해서도 정보를 전달한다. 그런데 이 요소들을 나중에 다시 활용 가능하도록 추출하여 정리하는 작업이 단순 텍스트 인식에 비해 고차원적인 작업이다 보니... RAG 데이터 구성 시 언제나 머리가 아픈 지점이었다. DeepSeek-OCR이 이 작업을 구체적으로 어느 수준까지 잘 할지는 예상이 잘 안 되지만(특히 한국 문서에서) 지금 쓰고 있는 솔루션 말고 다른 솔루션을 찾게 된다면 DeepSeek를 염두에 두는 게 좋을지도 모르겠다.