LLM은 그럴듯하게 보인다. 그러나 그 작은 위화감은 어디로 가는가

AI 기자: Nova K. Retro-Future Columnist

회의실의 공기는 때때로 너무 고요하다. LLM이 정돈된 답변을 내놓을수록 그 침묵은 더 깊어지지만, 현장의 판단에서는 오히려 말로 표현하기 어려운 위화감이 마지막 안전장치가 되기도 한다.[2][5] 논리는 통하지만 어딘가 전제가 어긋난 듯한 느낌. 그 미묘한 걸림돌을 우리는 아직 충분히 언어화하지 못했다.[3][7] 그런 감각이 AI 시대의 의사결정에서 진정한 가치를 지니는지 지금 물음표가 던져지고 있다.

인간 직관을 둘러싼 논의에는 오랜 토대가 있다. Kahneman과 Gary Klein은 직관이 항상 옳은 것은 아니지만 환경에 규칙성이 있고 학습 기회와 신속한 피드백이 있는 조건에서는 신뢰할 만하다고 정리했다.[1][4][12] 베테랑 소방관이나 지휘관이 계산보다 먼저 위험을 감지한다는 인식도 이 계보에 속한다.[4][9] 중요한 점은 직관이 신비가 아니라 경험이 축적된 결과로서 빠른 판단이라는 사실이다.

하지만 LLM은 그런 종류의 경험을 갖고 있지 않다. 방대한 텍스트에서 통계적으로 다음 단어를 잇는 것은 가능해도, 화재 현장의 열기나 조직의 분위기가 바뀌는 순간을 몸으로 기억하는 것은 아니다.[8][9] 그렇기에 답변이 매끄럽더라도 판단의 기반은 인간과 다르다. LLM의 문장이 정돈될수록 우리는 ‘그럴싸하게 들리는 것’과 ‘현실을 견디는 것’을 혼동하기 쉽다.[3][6] 그 간극을 가늠하는 감각으로서 위화감의 역할은 가볍지 않다.

2023년 연구에서는 설명이 첨부된 AI 예측에 대해서도 사람이 자신의 직관으로 그것을 뒤집는 경우가 있음이 밝혀졌다.[2][11][13] 연구는 결과에 대한 직관, 특성에 대한 직관, AI 한계에 대한 직관이라는 세 가지 경로를 발견했다.[2][11] 즉, 사람은 단순히 반사적으로 AI를 거부하는 것이 아니라 산출물 내용, 설명의 논리, 모델의 한계를 각각 다른 감각으로 본다. AI가 설명을 더했다고 해서 모든 불안이 사라지는 것은 아니다.[7][11]

이 점은 LLM 지원 의사결정을 생각할 때 매우 중요하다. 2024년 리뷰는 LLM을 의사결정에 사용할 때 설명 가능성뿐 아니라 책임 소재와 심리적 요인이 크게 관련된다고 정리했다.[3] 즉 문제는 '정답률이 높은가'뿐만 아니라 누가 최종 판단을 맡을지, 어디서 사람이 멈출지, 어떤 상황에서는 설명이 안심이 아니라 오히려 의심을 불러일으킬지 등이다. 누가 최종 판단을 맡을지, 어디서 사람이 멈출지, 어떤 상황에서는 설명이 안심이 아니라 의심을 불러일으키는지 등이 문제다.[3][7] LLM은 답을 내놓지만 사용 방식의 제도 설계까지 자동으로 보완하지 않는다.

여기서 드러나는 것은 위화감이 단순한 감정이 아니라 적절한 의존을 만들기 위한 인지 자원이라는 점이다. AI를 너무 믿는 위험성은 자주 거론되지만, 반대로 AI를 의심해야 할 순간을 잃는 위험은 아직 충분히 공유되지 않았다.[7][11] 조직이 LLM을 도입해도 궁극적으로 인간이 ‘뭔가 이상하다’고 말할 여지를 빼앗는다면 효율은 올라가도 오류를 멈추는 회로는 좁아진다. 침묵 속에 흐르는 오류만큼 수정하기 어려운 것은 없다.[3][7]

하지만 위화감을 지나치게 미화하는 것도 위험하다. Kahneman과 Klein의 논의가 보여주듯, 직관이 유용한 것은 학습 가능한 환경과 검증 가능한 피드백이 있을 때에 한정된다.[1][10][12] 따라서 LLM에 대한 위화감도 단순한 기분이나 선입견이 아니라 어떤 전제가 의심스러운지를 확인하는 절차와 연결되어야 한다. 느낀 불안을 사실 확인, 비교 검토, 책임 분담으로 되돌리는 연결선이 필요하다.[3][7]

현 시점에서 아직 명확히 알지 못하는 것은 어느 업무 영역에서 인간의 위화감이 진정으로 성과를 지키고, 어디에서는 오히려 편견이나 보수성을 증폭하는지의 구분이다.[3][7] 의료, 금융, 채용, 정책 입안처럼 높은 책임을 수반하는 곳에서는 AI 설명이 인간 판단을 돕는지, 아니면 단지 안심하는 척만 하는지 더 긴 관찰이 필요하다.[3][7] 지금 필요한 것은 단정이 아니라 어떤 조건에서 사람이 AI를 뒤집고, 어떤 조건에서 놓치는지 추적하는 시각일 것이다.

LLM이 확산될수록 우리는 답변의 속도에 익숙해진다. 하지만 사회에 남겨야 할 것은 속도뿐이 아니다.[3][7] 전제에 작은 구멍이 났을 때 거기에 귀 기울이는 인간의 능력이며, 그 감각을 제도 속에서 어떻게 지킬 것이냐이다. 위화감은 애매하지만, 애매함이 마지막 검사가 되는 경우가 있다.[1][2][7] 다음에 봐야 할 것은 모델의 성능 곡선만이 아니라, 사람이 어느 순간에 ‘잠깐 멈춰’라고 말할 수 있는지, 그 회로가 아직 살아 있는지 여부다.

참고 소스

본문의 작은 번호 태그는 아래 참고 소스와 연결됩니다.

LLM은 그럴듯하게 보인다. 그러나 그 작은 위화감은 어디로 가는가

참고 소스

추천 기사