본문 바로가기
직장인 친칠라/실험실

문서 요약기 업그레이드하기

by 친칠라 2025. 8. 17.

0. 업그레이드 내용 개요

일단 올해 초에 만들었던 문서 요약기는 이것이었는데...

https://earnestland.tistory.com/29

 

문서 요약기 만들기

연휴에 뭐라도 해봐야 할 것 같아서 만들어 본 문서 요약기!챗GPT의 도움을 아주매우많이 받았다. 고마워 챗GPT... 기록으로 남기는 게 좋을 것 같아서 티스토리를 다시 살려봤는데 무슨 말을 어

earnestland.tistory.com

 

이것저것 테스트해보며 개선해보고 기록도 남기려고 했으나 개인적인 일들이 몰아쳐서 정신이 없었고 그게 지나가자 일이 바빠졌다(...)

문득 다시 들어가보니 허깅페이스 데모도 제대로 안 돌아가고... Upstage 에서 document parse api 사용하는 방법도 좀 달라져서 이것저것 손봐야 할 것 같았다.

원래는 저번에 만든 요약기에서 코드를 수정하고 반영하려 했으나.. 뭔가 계속 잘 돌아가지 않아서 그냥 깃 레포도 허깅페이스 스페이스도 새로 파기로 했다.

새로 파는 김에 겸사겸사... gpt 모델과 프롬프트(시스템/요약)에도 변화를 주면서 실험해보면 좋겠다! 싶어서 그 버전으로 업그레이드해 보았다.

저번과 마찬가지로 허깅페이스 데모로 사용해볼 수 있다는 점!

 

1. 구성

열어보면 화면은 이렇다.

사용법 설명을 예쁘게 넣겠다고 코드박스에 넣었는데 **굵게** 표시가 저렇게 가독성 떨어지게 들어간 걸 이제 발견했다.. 언젠가 수정해야지...

전반적으로 화면이 매우매우 조잡하게 구성되었지만 거의 바이브 코딩으로 작업한 나에게는 아직 이게 한계다.

특히 모델명 넣는 부분은... 저렇게 하면 100% 모델명 잘못 넣는 경우가 비일비재할 것을 알지만 일단은 작동되는 걸 보는 게 우선이라 저렇게 넣었다. 디폴트 모델은 gpt-5-mini 이다. 왜 gpt-5-mini 냐면 나의 개인 api key 를 사용하고 있기 때문이다...

 

2. 문서 파싱

저번 글에서 Upstage 말고도 이것저것 써봤다는 이야기를 했는데.. 결국 관련 추가 실험은 하지 못했다.

지난 경험상 (너무 오래전이긴 하지만...) 적어도 한국어 문서 파싱은 Upstage가 제일 낫다는 믿음이 있기 때문에 이번에도 Upstage document parse를 사용했다.

API Reference 수정된 부분들이 있길래 참고해서 코드를 수정하였다.

저번 버전에서는 파싱된 문서의 첫 4000자만 사용하도록 했는데, 이번에는 8000자로 늘려 버렸다. 4000자만 하니까 영 피상적인 요약이 나오는 것 같아서 통 크게 늘렸다. (비용이 감당되지 않으면 다시 조정하는 것으로...)

 

3. 프롬프트

시스템 프롬프트와 요약 프롬프트를 업데이트할 수 있도록 해 두었다!

기본값 프롬프트는 내가 저번에 작성한 프롬프트를 좀 수정했다. 어떤 pdf 문서를 넣어도 상관없지만 일단 나부터가 주로 논문을 요약하는 데 쓸 계획이기 때문에... 논문 요약을 염두에 두고 작성하였다.

저번에 작성한 프롬프트로는 너무 축약된 요약만 나오는 것 같아서, 좀 더 상세한 설명이나 예시까지 언급할 수 있도록 프롬프트를 좀 수정하였다.

 

내가 석사과정 때 작성했던 논문으로 직접 요약을 해봤다.

전체 구조를 먼저 파악하고 요약하라고 했지 전체 구조도 요약에 넣으란 뜻은 아니었는데... 역시 프롬프트는 작성할 때 생각이랑 실제 결과가 다른 경우가 많다 ㅎㅎ ㅠ

 

그리고 사실 문서 요약기라고 했지만, 프롬프트를 자유롭게 작성할 수 있도록 해두었다는 점에서 요약이 아니라 다른 task로도 사용 가능하다...! 나는 위에서 사용한 동일한 논문을 넣고 초록을 작성하도록 해봤다. (귀찮아서 프롬프트는 그냥 "다음 문서의 초록을 작성하세요."로 주었다.)

전체 내용 요약 자체는 꽤 괜찮은데, 프롬프트가 성의 없어서인지 내가 직접 쓴 게 더 나은 것 같다. 일단 문장 형식이 덜 정제된 느낌이고, 좀 더 포괄적이어도 되는데 너무 구체적으로 언급된 부분들이 보인다. 그래도 내가 석사과정 때 이런 툴을 쓸 수 있었다면 기본 틀을 잡는 데 유용하게 썼을 것 같다. 대학원생들 의견은 어떠려나!

<내가 직접 쓴 초록>

‘맞다’는 대부분의 사전에서 동사로만 처리되어 있으나 형용사적으로 활용되는 경우가 적지 않고 감탄사적 용법으로 사용되기도 한다. 본고에서는 ‘맞다’를 동사와 형용사의 품사 통용 용언으로 볼 가능성과 감탄사 ‘맞다’ 설정의 타당성에 대하여 검토하였다. 말뭉치 용례 분석 결과, 특정 활용형에서 ‘맞다’가 형용사적 으로 활용된 빈도가 동사적으로 활용된 빈도보다 높게 나타났다. ‘맞다’는 의미적 차이 없이 동사의 활용형과 형용사 활용형이 넘나드는 양상을 보이며 일부 활용형에서는 동사의 활용형으로만 나타나므로, 품사 통용으로 처리하기보다 동사 ‘맞다’의 사전 기술에 형용사적 활용에 대한 참고 정보를 추가하는 것이 타당하다고 보았다. 감탄사적 용법의 ‘맞다’가 동사에서 감탄사로 어휘화된 것인지 확인하기 위해 본고에서는 용언의 활용형에서 온 감탄사를 판정하는 형태적, 통사적, 의미적 기준을 설정하였다. 말뭉치 용례 분석을 통해 감탄사적 용법의 ‘맞다’가 이 판정 기준에 부합함을 밝혔으며 이에 따라 감탄사 ‘맞다’를 동사 ‘맞다’와 별도 의 동형어로 분리하여 사전에 등재할 것을 제안하였다.
<생성된 초록>

본고는 국어사전에서 주로 동사로 처리되고 있는 어휘 '맞다'의 사전적 기술을 재검토하고, 형용사적 활용과 감탄사적 용법의 설정 가능성을 살펴보았다. 여러 국어사전의 기술 현황을 정리하고, 21세기 세종계획 말뭉치(현대 구어·문어 말뭉치)를 기반으로 실제 용례를 추출·분석하였다. 말뭉치 분석 결과, 특정 활용형에서는 어간 '맞-'이 형용사적 활용형으로 나타나는 빈도가 동사적 활용형보다 현저히 높게(구어 예에서 형용사형 28회·동사형 3회 등) 관찰되었다. 또한 동사형과 형용사형이 의미적 차이 없이 교차 출현하는 양상을 보였으나 일부 활용형은 동사형으로만 나타났다. 따라서 품사 통용(동사·형용사 양쪽 표제)으로 처리하기보다는 동사 '맞다'의 표제어에 형용사적 활용에 대한 참고 정보를 제공하는 편이 적절하다고 제안한다. 한편 순간적 상기 표현으로 쓰이는 '맞다!' 유형에 대해서는 형태·통사·의미 기준을 설정하여 판정한 결과, 감탄사로 독립 어휘화된 것으로 판단되어 동사와는 별개의 동형어(감탄사)로 사전에 등재할 것을 권한다.

 


허깅페이스 데모 :

https://huggingface.co/spaces/Cheeseorim/doc_summarize_prompt_test

 

Doc Summarize Prompt Test - a Hugging Face Space by Cheeseorim

 

huggingface.co

 

Git Repository :

https://github.com/Cheeseorim/doc_summarize_prompt_test

 

GitHub - Cheeseorim/doc_summarize_prompt_test: 문서 요약 프롬프트 테스트용

문서 요약 프롬프트 테스트용. Contribute to Cheeseorim/doc_summarize_prompt_test development by creating an account on GitHub.

github.com

 

'직장인 친칠라 > 실험실' 카테고리의 다른 글

문서 요약기 만들기  (0) 2025.01.31