1. [Article] Doomprompting: Endless tinkering with AI outputs can cripple IT results
2. [포스트] "말고"가 답변을 망치는 이유: "부정어"와 "프롬프트" / 부정어를 처리하는 프롬프트 작성법
3. [기사] 예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유
4. [기사] 연세대, GPT 대체할 ‘디퓨전 언어모델’ 연구…AI 최고 권위 학회 등재
🐿️ 친칠라의 주간 채집 🌱
한 주 동안 "나중에 살펴봐야지!" 하고 수집해 둔 링크들이 그대로 잊히지 않도록,
주말마다 가볍게 살펴보고 짧은 생각을 남깁니다.
주로 LLM이나 프롬프트 엔지니어링과 관련된 내용들을 스크랩하고,
본 전공인 국어학 쪽에서도 재미있는 내용이 있으면 가져올게요!
1. [Article] Doomprompting: Endless tinkering with AI outputs can cripple IT results
Doomprompting: Endless tinkering with AI outputs can cripple IT results - Tiatra, LLC
Many AI users have developed a healthy distrust of the technology’s outputs, but some experts see an emerging trend of taking the skepticism too far, resulting in near-endless tinkering with the results. This newly observed phenomenon, dubbed “doomprom
tiatra.com
이름부터 뭔가 어마무시한(?) Doomprompting이란 무엇인가! AI의 출력물에 불신을 거두지 못하고 결과물을 끝없이 수정하려다가 결국 시간과 자원을 낭비하게 되는 것을 일컫는다. 가만, 이거 내가 하고 있는 거 아니야...?
아직까지는 AI가 인간을 완전히 대체하기는 어려운 이상, AI의 출력물에 어느 정도 의심을 갖는 것은 당연하며 또 필요한 일이기도 하다. 하지만 여기서 그치지 않고, '조금만 더 하면 더 완벽한 답을 얻을 수 있지 않을까?' 하는 생각에 끝없이 수정을 하며 오히려 비용을 낭비하게 되는 지경에 이르면 이걸 '둠프롬프팅'이라고 하는 것 같다. 실제로 프롬프팅을 하다 보면 '이것만 조정되면 더 좋을 것 같은데...' 하는 생각에 프롬프트를 미세하게 계속 조정하게 되는 일이 자주 일어난다. 그러한 노력이 실제로 효과가 있을 때도 있다. 하지만 조금 나아지는 것 같다가도 결국 또다른 수정사항이 계속해서 보여서, 시간은 시간대로 쓰고 머리는 더 이상 굴러가지 않아 '항복' 선언을 하기도 한다. 이걸 지칭하는 용어가 따로 있었다니, 반가우면서도 부끄럽다.
'좋은 결과'가 무엇인지 명확히 정의되지 않았을 때 이런 둠프롬프팅이 발생한다고 한다. 이것 역시 아주 반가우면서 부끄러운 지적이다. 명쾌한 목표 지표 없이 막연히 '좀 더 나은 답변'을 찾으려고 하니까 프롬프팅에 끝이 보이지 않았던 것임을 깨닫게 되었다. 지금 만들고 있는 상담 봇 서비스 개선 목표를 잡을 때 이걸 계속 염두에 두어야겠다는 생각이 든다. '좋음'의 적은 '완벽함'이라는 말을 명심하자...
“The enemy of good is perfect, and LLMs make us feel like if we just tweak that last prompt a little bit, we’ll get there.”
2. [포스트] "말고"가 답변을 망치는 이유: "부정어"와 "프롬프트" / 부정어를 처리하는 프롬프트 작성법
#promptengineering #prompt #negation #llms #prompting | Sujin Kang Ph.D. | 댓글 15
#promptengineering #prompt #negation #llms #prompting | Sujin Kang Ph.D. | 댓글 15
>> "말고"가 답변을 망치는 이유: "부정어"와 "프롬프트" 부정어를 처리하는 프롬프트 작성법 최근 티타임즈TV 컨텐츠를 통해 GPT-5 와 프롬프트를 주제로 실험한 내용을 소개했습니다. LLM은 한국어
kr.linkedin.com
강수진 박사님의 링크드인 포스트를 가져왔다. 포스트에서 언급된 유튜브 영상은 사실 몇 주 전에 내가 이미 리뷰한 영상인데, 이 포스트는 그 영상에서 다루어진 내용 중 특히 '부정어' 프롬프트 관련 내용에 대해 구체적으로 다시 정리하신 글이다.
어째서 LLM은 부정어 프롬프트를 잘 처리하지 못하는가? 'A는 하지 말고 ~' 라는 식으로 프롬프트를 작성하면, 오히려 그 문구를 넣기 전보다 'A'에 대해 더 언급하는 청개구리 같은 답변을 얻게 되는 경우가 있다. 마치 우리가 '코끼리는 생각하지 마세요' 라는 말을 듣는 순간부터 머릿속에서 코끼리를 몰아낼 수 없는 것처럼 말이다. LLM이 부정어를 잘 처리하지 못하는 이유도 사실 이와 비슷하다. LLM은 확률적으로 이 다음에 올 가능성이 높은 단어를 가져오도록 학습되었기 때문에, 'A'가 언급되는 순간 그것이 오히려 연상 자극으로 이어진다는 것이다.
이 링크드인 포스트를 가져온 이유는 한국어 '말고'의 구조적 특징을 분석하신 게 재미있어서이다.
✅ 한국어 "말고"의 구조적 특징
"말고"는 한 문장 안에 두 지시를 묶습니다.
1. 동사 연결: “A-하지 말고 B-해” → 금지(¬A) + 대체행위(B)
2. 명사구 대조: “A-말고 B” → 예외/배제(A 제외) + 선택(B)
한 줄에 배제와 선택이라는 상호 의존 제약이 동시에 들어갑니다.
안 그래도 부정어를 잘 처리하지 못하는데, 배제와 선택이라는 두 가지 제약이 동시에 들어가 있다니! LLM 입장에서는 곤혹스럽지 않을 수 없다.
부정어 프롬프트가 생각만큼 효과적이지 않다는 (오히려 역효과가 날 때도 있다는) 사실을 알게 된 후로는 최대한 긍정문으로 프롬프트를 구성하려고 하고, 또 여러 제약 조건을 한 문장에 동시에 언급하면 잘 처리하지 못한다는 사실을 발견하고 나서는 최대한 단문으로 쪼개서 프롬프트를 작성하고 있다. 그래도 어쩔 수 없이 엄격한 금지 조건을 걸어야 하거나, 다양한 제약 조건을 동시에 주어야 하는 경우가 있어 이 부분은 매번 고민 포인트이다. 어쨌거나 조금 큰/성능 좋은 모델을 쓰면 그렇지 않은 모델보다는 또 좀 잘 한단 말이지!
3. [기사] 예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유
예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유 - 전자신문
예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유
대형 언어모델(LLM)들이 개인 맞춤형 글쓰기 도구로 널리 활용되면서, 과연 AI가 몇 개의 예시만으로도 개인의 고유한 글쓰기 스타일을 완벽하게 모방할 수 있는지에 대한 의문이 제기되고 있다.
m.etnews.com
제목만 보고 퓨샷 기법에 대한 맹신 타파 기사인 줄 알았는데 그거랑은 초점이 약간 달랐다. LLM에게 일반 사람들의 글을 예시로 주면 인간의 개인적인 글쓰기 스타일(특히 블로그나 포럼 등에서 볼 수 있는 다소 비공식적인 스타일)을 모방할 수 있는가 하는 실험을 해봤는데 결국 불가능했다는 이야기였다.
파인튜닝이나 정교한 프롬프팅을 했다면 조금 더 나은 결과가 있었겠지만, 일부러 일반 사용자가 실제로 사용하는 방식대로 실험을 했다고 한다. 복잡하지 않은 프롬프트와 몇 가지 글쓰기 예시를 활용했다는 것인데, 결론적으로 이런 방법은 일반인의 개인적인 작문 스타일을 효과적으로 모방하지 못했으며 예시의 개수를 늘린다고 결과물이 더 좋아지지도 않았다. 기사에서는 이를 AI 업계에서 종종 발견되는 '실험실 환경에서의 성능'과 '실제 사용 환경에서의 성능' 사이의 간극을 드러내는 것이라고 해석했다. 아무리 여기저기서 '이제 LLM이 인간을 따라잡았다'는 식으로 이야기가 들려도, 일반 사람들 입장에서는 '엥, 근데 이것도 못해?' 하는 생각이 드는 이유가 바로 여기에 있을 것이다.
이 기사는 단순히 예시를 더 많이 제공하거나 모델을 확장하는 것만으로는 개인화 문제를 해결할 수 없으며, 새로운 아키텍처나 훈련 방법론 개발이 필요함을 지적하고 있다. 그런데 나는 기사를 읽으면서 '그렇게까지 개인화가 절실하게 필요한가...?' 하는 의문이 좀 남았다. 아직까지는 내가 범용성이 더 중요한 작업들을 하고 있어서일까? 개인화된 출력물이 그렇게까지 필요한 곳이 어디일지 잘 모르겠다. AI가 그동안은 못 했던 비공식적이고 개인적인 글쓰기를 잘 하도록 발전시키는 것 자체가 목적이라면 할 말은 없지만 단순히 그 목적만으로 연구가 이루어진 것은 아닐 터이다. 블로거나 작가들이 보조 도구로 사용하기에 좋으려나 싶다가도, 지금 생각으로는 오히려 이런 작업들을 AI가 잘 처리할수록 창작자들은 위협을 더 느낄 것 같다는 생각이 든다. 꼭 창작자가 아니라도 인간이 쓴 글과 AI가 쓴 글을 쉽게 구분할 수 없게 된다면 이를 불쾌하게 느낄 사람도 꽤 있을 것 같다. 연구가 더 진행되면서 여기저기 응용되기 시작하면 내 생각이 바뀔 수도 있겠지만 말이다.
4. [기사] 연세대, GPT 대체할 ‘디퓨전 언어모델’ 연구…AI 최고 권위 학회 등재
연세대, GPT 대체할 ‘디퓨전 언어모델’ 연구…AI 최고 권위 학회 등재
연세대, GPT 대체할 ‘디퓨전 언어모델’ 연구…AI 최고 권위 학회 등재
(서울=뉴스1) 송송이 기자 = 연세대학교는 인공지능융합대학 서영빈 연구원이 제1 저자로 제출한 논문이 세계 최고 권위의 머신러닝 학회인 뉴립스(NeurIPS)에서 스포트라이트(Spotlight) 등급에 채택
v.daum.net
한 번에 여러 단어를 생성하도록 학습된 '디퓨전 언어모델'이 개발되었는데, 이 모델의 장점은 GPT와 같은 기존의 자가 회귀 언어모델에 비해 빠르고 유창한 언어 생성이 가능하다는 점이라고 한다. 다만 그 특성 때문에 긴 글에서는 문법 오류나 문맥의 불연속성 등이 발생하여 안정성이 떨어질 수 있는데, 이를 해결하기 위한 기법까지 적용해서 기존 언어모델보다 3배 이상 빠르면서도 안정성과 응답 성능을 유지하도록 했다고 한다. 전공자가 아닌지라 이게 패러다임을 바꿀 만큼 큰 변화가 될지 예측하기는 힘들지만, 빠르면서도 안정적인 모델이라니 상용 모델이 풀리면 꼭 사용해 보고 싶다. 토큰 비용이 더 많이 든다든지 하는 단점이 있는 건 아닐지도 궁금하다. LLM 시장(?)을 지켜보다 보면 결국 답을 알게 되겠지.
'직장인 친칠라 > Weekly Stash 주간 채집' 카테고리의 다른 글
| [Weekly Stash/주간 채집] 2025년 10월 넷째주 (0) | 2025.10.26 |
|---|---|
| [Weekly Stash/주간 채집] 2025년 10월 둘째주 (1) | 2025.10.12 |
| [Weekly Stash/주간 채집] 2025년 9월 셋째주 (0) | 2025.09.21 |
| [Weekly Stash/주간 채집] 2025년 9월 둘째주 (0) | 2025.09.14 |
| [Weekly Stash/주간 채집] 2025년 9월 첫째주 (0) | 2025.09.07 |