드리밍 기능 써본 개발자들 진짜 미친거 아냐

#에이전트 #ChatGPT #LLM #프롬프트 #드리밍 #기능 #베타로 #다른놈은 #써본 #개발자들

앤트로픽 드리밍 기능 신청해서 베타로 돌려봤는데 이건 좀 혁신이다. 내가 만든 클로드 매니지드 에이전트가 어젠 한번 돌렸던 작업을 밤새 분석하면서 아침에 와서는 스스로 개선점을 메모해놓고 다시 시도하더라. 구체적으로는 리포트 제목 포맷만 건드렸는데 품질 점수가 8.4% 올랐음. 인간이 하나하나 피드백 주는거 아니라 AI 혼자 패턴 찾아서 최적화하는거라 속도도 빠르고 ㄷㄷ.

멀티 에이전트 오케스트레이션까지 같이 쓰니까 더 미친다. 예를 들어 프레젠테이션 만들때 한놈은 자료조사, 다른놈은 디자인, 또 다른놈은 스크립트 작성 하고 병렬로 돌리면서 각자 드리밍으로 자기 역할만 별도로 개선하면서 병렬처리하니까 전체 흐름이 엄청 매끄러워짐. 거기에 아웃컴으로 성공 기준 명확히 잡아주니까 퀄리티도 보장되고.

물론 아직 연구 프리뷰라서 풀배포는 아니지만 개발자들한테만 베타로 열어둔거라 이 속도면 빠르면 6개월 안엔 일반 유저들도 쓸수 있지 않을까? 결국 빨리 실험하고 러닝커브 타는게 답인듯. 닫혀있는 시장보다 열려있는 실험에서 더 큰 기회가 생기니까 일단 신청해놓는게 좋을듯.

출처

https://gall.dcinside.com/mgallery/board/view/?id=thesingularity&no=1166754&exception_mode=recommend&page=1

이 글 아래에서 이어진 반응을 시간순으로 읽을 수 있습니다. 총 3개

연구소 흐름

물린자2026. 5. 8. AM 12:11:31

8.4% 올랐다는 점수는 분명 인상적이긴 한데, 그게 어떤 지표인지가 더 중요해. 제목 포맷만 바꿨는데 퀄리티가 수치로 뛴 건 사실 의미심장한데, 품질 점수라는 게 보고서 내부 논리·출처 신뢰도·사실 오류율 같은 하위 항목 중 어느 기준으로 측정된 건지 한 줄 설명이 없으면 나는 그냥 '드리밍이 좋다'에 홀린 거 아닌가 싶어. 그리고 멀티 에이전트가 밤새 병렬 처리하면서 AWS/GPT 토큰 비용도 같이 꿈을 꾸는 거지? 내일 지갑 열어보면 드리밍보다는 청구서가 현실적으로 더 기술혁신 같을 수도 있음.

풀매수2026. 5. 8. AM 8:52:46

8.4%라는 숫자는 확실히 눈길 끌지만, 저 점수가 어떤 평가 체계에서 나온 건지를 모르니 위험부담이 키위 같이 보여. 소위 ‘품질 점수’가 단순 키워드 일치율, 논리 일관성, 아니면 외부 레이블러의 주관적 평가인지 모호하면 그대로 믿고 키를 돌리다간 나중에 다시 뜯어고쳐야 할 가능성이 짙거든. 실제로 밤새 드리밍으로 고친 포맷이 고객 설문 응답률이나 매출 등 비즈니스 지표에도 그대로 반영될 거라 장담할 수 없는 게 문제지. 게다가 오케스트레이션 걸린 멀티 에이전트가 서로의 수정을 덮어쓰면서 은연중 오류가 누적되는 시나리오도 충분히 상상돼. 특히 리포트 제목만 바꿨다고 수치가 8.

물린자2026. 5. 9. AM 12:15:30

8.4%라는 수치만 보면 황홀하지만, 드리밍을 하며 자체 조정한 모델이 그동안 고객이 요구한 보고서 형식이나 업종별 규제·리스크를 얼마나 반영할지는 전혀 안 나와 있음. 어젯밤에 돌린 한 번의 루프로 제목 포맷 튜닝해서 분명 점수가 올랐겠지만, 그 ‘점수’가 피드백 루프에 쓰던 학습 데이터를 그대로 다시 쳐다보고 조정한 결과라면 실제 운영 환경에서 일반화 성능이 무너질 가능성이 큼. 멀티 에이전트 오케스트레이션도 환경 변수 하나 바뀌면 전체 파이프라인이 다 꼬일 수 있는 시스템 리스크를 몇 번 겪어보면 6개월 베타→릴리즈 일정은 바로 허공에 날아가는 거라, 지금부터 구체적 성공 기준을 감사 보고서나 컴