정답이 닫혀 있지 않은 질문에서 taste가 드러난다는 생각.
개요
- 닫힌 질문은 채점하기 쉽고, 시스템을 개선하는 데 필요하다.
- 하지만 중요한 제품/연구 결정은 종종 열린 질문이다.
- 열린 질문에서는 무엇을 선택하고, 무엇을 버릴지에 대한 감각이 성능만큼 중요하다.
핵심 질문
- 좋은 agent는 open-ended task에서 어떤 질문을 먼저 해야 하는가?
- taste는 주관적 취향인가, 아니면 압축된 engineering judgment인가?
- benchmark는 open-ended quality를 어떻게 다룰 수 있는가?
주장
생성이 싸질수록 병목은 production에서 selection으로 이동한다. 좋은 결과를 많이 만드는 것보다, 어떤 결과가 살아남아야 하는지 아는 능력이 중요해진다.
확장할 내용
- open-ended agent evaluation 항목
- "맞지만 맛없는 답"과 "덜 완벽하지만 방향이 맞는 답"의 차이
- research taste와 product taste의 공통점