직장인 친칠라/Weekly Stash 주간 채집

[Weekly Stash/주간 채집] 2025년 9월 셋째주

친칠라 2025. 9. 21. 23:13
1. [Article] [AI x 윤리] 신뢰 가능한 AI: 기계에 대한 신뢰는 어떻게 형성되는가
2. [논문리뷰] Task Arithmetic (Task Vector, Model Merge)
3. [문서] AI Evals Bible for Engineers and PMs
🐿️ 친칠라의 주간 채집 🌱
한 주 동안 "나중에 살펴봐야지!" 하고 수집해 둔 링크들이 그대로 잊히지 않도록,
주말마다 가볍게 살펴보고 짧은 생각을 남깁니다.
주로 LLM이나 프롬프트 엔지니어링과 관련된 내용들을 스크랩하고,
본 전공인 국어학 쪽에서도 재미있는 내용이 있으면 가져올게요!

 

1. [Article] [AI x 윤리] 신뢰 가능한 AI: 기계에 대한 신뢰는 어떻게 형성되는가

https://fairai.or.kr/embedded-ethics/insight-plus/33?utm_source=newsletter&utm_medium=contents&utm_campaign=letter_promote15

 

[AI x 윤리] 신뢰 가능한 AI: 기계에 대한 신뢰는 어떻게 형성되는가 | FAIR AI

 

fairai.or.kr

구독 중인 AI 윤리 레터를 통해 접하게 된 글이다. 그동안 심리학에서 논의되어 온 인간과 인간 사이의 신뢰 가능성(trustworthiness)의 개념을 바탕으로 인간과 기술, 특히 인공지능 사이의 신뢰 가능성을 어떻게 정의하고 평가할 수 있을지 고찰하고 있다.

 

인간 사이의 신뢰 가능성을 논할 때에는 능력(ability), 선의(benevolence), 도덕성(integrity) 세 가지가 구성 요소로 꼽힌다. '비인간인 기술과의 신뢰 가능성을 논하는 데에도 이 구성을 그대로 가져와 논할 수 있는가' 하는 의문과, '인간 행위자와 기술 행위자의 경계가 빠르게 흐려지고 있다'는 현실이 맞물려, 능력, 선의, 도덕성은 각각 성능(performance), 목적(purpose), 절차(process)로 재개념화되어 인간-기계 상호작용에 확대 적용되게 되었다.

 

이 글에서는 여기에서 한 가지 더, 기술을 제공하는 기업의 신뢰 가능성까지도 종합적으로 고려되어야 한다는 점을 지적한다. 인공지능 기술이 사회에 수용되기 위해서는 사회 구성원들이 그 신뢰 가능성을 평가할 수 있어야 한다. 이는 곧 인공지능 기술의 성능, 목적, 절차를 평가할 수 있어야 한다는 뜻인데, 현실적으로 일반인들이 인공지능 기술에 대해 충분한 정보를 갖고 평가하기란 쉽지 않다. 충분한 정보 확보를 어렵게 만드는 요소에는 인공지능 기술 자체의 불투명성이나 빠른 발전 속도도 있지만, 세계 각국의 정책 환경과 인공지능 기업의 의도적인 불투명성도 포함된다. 그렇기에 인공지능 기술의 탈주술화를 위해서는 기업의 투명성과 책임성 원칙이 필수적이고, 기술에 대한 신뢰는 기술과 그 기술을 제공하는 기업의 신뢰 가능성까지 종합적으로 평가될 때 이루어질 수 있다는 것이다.

 

인터넷을 돌아다니다 보면 간혹 인공지능의 능력을 '신격화'에 가깝게 고평가하는 의견을 맞닥뜨리곤 한다. 그런 의견에는 인공지능 기술의 발달로 인류에게 좀 더 안락한 미래가 도래할 것이라는 낙관적인 반응도 따르지만, 한편으로는 인간이 할 수 있는 영역이 줄어들 것이라는 비관적인 반응이나 오남용되는 기술에 무력하게 피해를 입게 될 것이라는 두려움도 따르는 것 같다. 결국 어느 쪽이든 인공지능에 대한 충분한 정보가 없는 (혹은 앞으로도 갖출 수 없을 것이라고 예상되는) '탈주술화' 이전의 상태라는 생각이 든다. 인공'지능'이라는 워딩이 그 탈주술화를 더 어렵게 만드는 것 같기도 하다. 인간이 만들어낸 것이지만 마치 인간과 동일한 수준의 '지능'을 갖고 주체적으로 발전할 것만 같은 인상을 준달까... 글에서 탈주술화된 기술의 예로 자동차가 언급되었는데, 인공지능 기술이 그와 비슷한 수준으로 탈주술화되는 날이 정말 올 수 있을까 하는 의문도 남는다.

 

2. [논문리뷰] Task Arithmetic (Task Vector, Model Merge)

https://obsidian-blog-gilt.vercel.app/paper-review/Task%20Arithmetic%20(Task%20Vector,%20Model%20Merge)/

 

 

 

 

지난주에 이어... 논문 원문을 읽어보지는 못하고... Jeffrey님의 블로그 글로 논문 이해(하려 노력하)기...!

 

모델의 파라미터끼리 더하기 빼기를 해서 간단히 원하는 능력을 더하거나 뺄 수도 있다는 것이 핵심인 듯하다. 더하거나 뺄 task vector라는 것을 어떻게 구할 수 있는가에 대한 내용도 적혀 있다. 이게 나에게는 마치... 어떤 작업을 하느냐에 따라 인간의 뇌에서 활성되는 영역이 다른데(=task vector?) 이걸 파악하고 나면 서로 다른 작업을 모두 잘 할 수 있도록 뇌의 여러 영역을 활성화시킬 수 있다... 와 비슷한 이야기로 들린다. (잘 이해한 건지 자신은 없다 ㅎㅎ ㅠ)

 

사실 파라미터 더하기로 능력을 합치는 것보다, 빼기로 불필요한 능력을 제거한다는 개념이 더 흥미롭다. toxic generation 방지를 위해 뭔가를 더 학습시키는 게 아니라 유해 발화를 생성하는 task vector를 빼면 된다는 것이다. 이 논문이 2023년에 나왔는데 이 방식이 지금 AI safety 쪽에서 얼마나 수용되고 활용되고 있는지 궁금하다. 잘 활용되고 있지 않다면 그 이유도 궁금한데... 다음주 시간적인 여유가 좀 생기면 서치해 봐야겠다.

 

3. [문서] AI Evals Bible for Engineers and PMs

https://www.linkedin.com/posts/pawel-huryn_ai-evals-bible-for-engineers-and-pms-ugcPost-7373733967113551872-651D?utm_source=share&utm_medium=member_android&rcm=ACoAAEF2Jt4B8yWgDOyrLfNv4lCSZPEgxui2AVc

 

AI Evals Bible for Engineers and PMs | Paweł Huryn | 댓글 34

I got permission to publish a new AI Evals FAQ. It’s like a bible for engineers and AI PMs 🤯 Hamel Husain and Shreya Shankar run the world’s No. 1 AI Evals course by any metric. Together with top AI architects and ML researchers, they answer the mos

www.linkedin.com

Frequently Asked Questions About AI Evals.pdf
9.88MB

 

링크드인에서 발견한 Evaluation 관련 문서. 분량이 꽤 되고... 부끄럽게도 아직 일부만 읽어봤다. 읽어보다가 이번 주에 발견하지 못한 인사이트가 발견된다면 다른 주차에서 추가로 다룰지도 모르겠다.

 

우선 다루고 있는 질문들의 일부 리스트를 보면 다음과 같다. Evaluation 관련해서 나올 수 있는 질문들은 싹싹 긁어모은 느낌! 기본 용어들 설명부터 사용할 수 있는 평가 기법, human annotation 관리 관련 내용도 있고, 프롬프트 버전 관리 내용도 있다.

(그 와중에 너무나 강렬한 Is RAG dead? 의 존재감이란...ㅋㅋㅋㅋㅋ)

Q: What are LLM Evals?
Q: What’s a minimum viable evaluation setup?
Q: Why is "error analysis" so important in LLM evals, and how is it performed? -
Q: What is the best approach for generating synthetic data?
Q: Are there scenarios where synthetic data may not be reliable
Q: Why do you recommend binary (pass/fail) evaluations?
Q: Should I use "ready-to-use" evaluation metrics?
Q: How many people should annotate my LLM outputs?
Q: Should PMs and engineers collaborate on error analysis? How?
Q: What parts of evals can be automated with LLMs?
Q: Should I stop writing prompts manually in favor of automated tools?
Q: What makes a good custom interface for reviewing LLM outputs?
Q: What gaps in eval tooling should I be prepared to fill myself?
Q: How should I version and manage prompts?
Q: How are evaluations used differently in CI/CD vs. monitoring production?
Q: What’s the difference between guardrails & evaluators?
Q: Is RAG dead?
Q: How should I approach evaluating my RAG system?
Q: How do I evaluate sessions with human handoffs?
Q: How do I evaluate complex multi-step workflows?
Q: How do I evaluate agentic workflows?

 

일단 주로 Evaluation Design & Methodology 파트만 훑어봤다. 몇 가지 기억에 남는 것들만 좀 적어봐야겠다.

 

Q: Should I use "ready-to-use" evaluation metrics?

Generic evaluations는 시간 낭비라는 답변이 적혀 있다. 여기서 말하는 포괄적인 ready-to-use 메트릭이라는 게 뭔지 정확히는 안 적혀 있지만, 남이 만들어 둔 메트릭을 고대로 가져다 쓰는 걸 얘기하는 듯하다. 이런 평가 방식은 false confidence를 유발할 수 있고 좋은 점수가 곧 시스템이 잘 작동함을 의미하지는 않으며, 차라리 실패를 이해하기 위해 오류 분석(error analysis)을 하라고 한다. 어디에나 적용되는 메트릭이란 허상이며 각 서비스에 맞는 평가 방식이 필요하고 또 그것을 위해서는 하나하나의 실제 오류를 분석하는 작업이 필요하다는 뜻인 것 같다. 교육학에서 평가에 대해 접근할 때에도 비슷한 느낌이었던지라 재미있다고 생각했는데, 또 좀 더 생각해보니 어쩌면 이게 '평가'라는 행위의 본질일지도 모르겠다.

 

Q. Can I use the same model for both the main task and evaluation?

LLM-as-Judge 방식에서 main task와 evaluation은 다른 태스크이기 때문에 같은 모델로 해도 상관없다는 입장인데...! 일단 Judge 모델이 같은 계열의 모델 답변을 더 후하게 평가하는 경향이 있다고들 하는 것 같은데... 정말로 상관이 없을지 잘 모르겠네? 최근에 main task를 gpt-5 계열 모델로 하는 워크플로우의 평가 모델을 뭘로 정해야 하나 고민하면서 '아 그냥 같은 모델 쓸까?' 하다가 결국 다른 모델로 했었는데, 정말 상관이 없다면야 작업자 입장에서는 여러 모로 편하긴 하다. 하지만 여기저기 읽어봤던 글들과 좀 다른 입장이라... 여기는 일단 물음표.

 

Q. How do we evaluate a model's ability to express uncertainty or "know what it doesn't know"?

요즘 들어 정말정말 중요성을 느끼고 있는 평가 항목이다. 모르는 걸 지어내지 말고 정직하게 모른다고 답하기! 문서의 답변은 좀 허무하리만치 간단한데, Answerable Questions와 Unanswerable Questions를 평가셋으로 만들고 Pass/Fail 바이너리로 평가하라는 것이다. Pass는 answerable questions에 대답을 하거나 unanswerable answer에 답하기를 거부하는 경우라는데, answerable question에 정확하지 않은 답변을 하면 그때는 어떻게 평가하는 거지? 하는 궁금증이 남는다. 답할 수 있는 내용에만 답하는지를 보는 거니까 내용의 정확성까지는 안 따지나 싶기도 하고. 학계에서는 이 능력을 Abstention Ability라고 부르는 모양이다. 직역하면 '기권 능력' 정도 될 것 같은데, 용어를 보니 '정확한 답변을 하느냐'가 아니라 '대답할 수 없는 것을 대답하지 않는가'가 핵심인 게 맞는 것 같다. 환각 방지와 연관된 부분이면서도 또 완전히 겹치지는 않는다. 환각과 관련된 요인 중 하나라고 보는 게 정확할 것 같다.

그러고 보니 지난주에 리뷰한 기사와도 좀 연결되는 것 같다. OpenAI에서 밝혀내길, LLM이 환각을 일으키는 것은 학습 시 불확실한 부분에 대해 추측이라도 해서 답변을 하도록 장려받기 때문이라는 기사였다. 환각을 줄이고 AI 에이전트 서비스의 사용자 경험을 향상시키기 위해서는 모델 학습에서도 평가에서도 Abstention Ability를 신경써야 한다, 정도로 두 글을 연결시켜볼 수 있겠다.