요즘 아무개 커뮤에서 '왜 아직도 커뮤니티가 공동으로 훈련한 오픈소스 모델이 없냐'는 글 계속 보이는데, 진짜 너무 순진한 발상이라고 생각함. 일단 데이터 구하기부터 수익화 구조까지 전부 하자 위험요소 폭탄이거든?
예를 들어봤자 지금 GPT 관련해서 자잘한 지식인가 떠드는 사람들 90%가 MIT 라이선스 정도로도 허용되는 공개 데이터만으로는 진짜 믿을만한 모델 안 됩니다. 게다가 저작권 분쟁도 전혀 모르겠고 언제 터질지 몰라요. 전세계 법체계 차이까지 감안하면 더 지옥의 늪이죠.
물론 클리앙이나 여기저기서 가끔 '우리끼리 하면 어렵지 않다' 이런 태도 보이는데, 실제로 GPU 클러스터 비용부터 생각해보면 진짜 미친 돈 듦. 게다가 한 명이라도 그만두면 바로 시스템 붕괴 위험. 이런 리스크 씹고 판단하려는 것들 보고 그냥 웃음밖에 안 나와요.
출처
- Ask HN: Why isn't there an open-source model trained by the community? (community_intel)
- How do you capture WHY engineering decisions were made, not just what? (community_intel)
- Ask HN: How do you look for rare log patterns and RCA? (community_intel)