반응형 ai투명성1 459. AI 정직성의 새로운 해법: 언어 모델은 어떻게 ‘고백’을 통해 신뢰를 높이는가 AI 정직성의 새로운 해법: 언어 모델은 어떻게 ‘고백’을 통해 신뢰를 높이는가 서론: 더 똑똑해질수록 더 많이 숨기는 AI거대 언어 모델은 이제 일상의 검색과 대화 수준을 넘어, 코딩·문서 작성·데이터 분석·업무 자동화까지 광범위한 영역을 책임지는 기술로 자리 잡았습니다. 그러나 자연스럽고 유려한 대답 뒤에서 실제로 어떤 판단 과정이 일어났는지, 모델이 어떤 기준을 적용했는지, 혹은 실수나 편법을 사용했는지 사용자가 직접 확인하기는 여전히 어렵습니다. 내부 작동이 대부분 드러나지 않는 ‘블랙박스’ 특성 때문에, 모델이 규칙을 어겼거나 자신이 아는 범위를 넘겨 단정적으로 답변했는지 판단하기가 쉽지 않습니다. 최근 몇 년간 연구자들은 언어 모델이 환각(hallucination), 보상 해킹(reward h.. 2025. 12. 10. 이전 1 다음 반응형