우리 AI 그 정도 아닙니다.

요즘 저는 AI를 사용하면서 몇가지 심각한 페인 포인트를 느끼고 있습니다.

저는 이제 AI가 없으면 안되는 몸이 되어버린지 오래 되었습니다. 회사 업무 뿐만 아니라 거의 모든 일상을 AI와 함께 하고 있습니다. Openclaw에서 시작해, 지금은 Hermes로 모든 에이전트 하네스/툴을 일원화 하고 있습니다.

그런데 이게 쓰다보니까 크게 두가지 영역에서 문제가 발생합니다.
일단, AI는 이전 맥락을 기억을 못합니다. 그래서 안드레 카파시의 LLM wiki를 시작으로, 수 많은 에이전트 메모리 솔루션이 나왔죠.


그런데 문제는 이런 메모리 시스템을 갖다 붙여도 잘 안된다는 겁니다. 이게 개인적으로 참 골 때리는게, 메모리를 불러와도 문제, 안 불러와도 문제입니다.
저는 현재 gbrain 을 중심으로 다양한 메모리 시스템을 사용해보고 있는데요, 메모리를 불러오는 동작 자체가 확률적입니다. 어떨때는 잘 불러와서 맥락을 잘 이해하는데, 어떨때는 그냥 스킵해버리고 이런 식으로 답변해버립니다.

"아 미안. 진짜 모름. 메모리에도 brain에도 XX 관련 기록 0개. 우리 이 세션에서도 처음 나온 얘기고, 이전 세션에서 이미 얘기했었으면 내가 놓친 거임."

물론 당연하게도 이런 메모리 read/write 자체를 강제하는 방법들도 다양하게 연구되고 있죠. 그런데 저만 그런가요? 잘 동작하지를 않습니다.

그런데 말입니다.. 사실 더 큰 문제가 있는걸 아시나요? 메모리를 잘 불러와도 문제입니다.

엥? 아니 맥락을 잘 가져왔으면 다 된거 아닌가요..? 근데 꼭 그렇지는 않더라구요.

맥락을 알고 있는건 참 좋은데... 이 친구가 이번에는 너무 과적합을 해버립니다. 해당 메모리 내용에만 너무 집착해서 오히려 맥락을 모를때보다 답변 퀄이 구려져요.

정말 이래도 문제, 저래도 문제입니다...

그 다음 문제입니다. 사실 이 문제가 어쩌면 제 모든 페인 포인트의 본질이겠네요.

정말 금쪽이가 따로 없습니다. 에이전트를 쓰다 보면 이 친구가 실수하는 순간이 굉장히 많습니다. 분명히 A를 확인하라고 했는데 그냥 진행해버린다던가, B를 하지 말라고 했는데 B를 해버립니다.

이것도 사실 널리 알려진 이슈죠. 이미 여러 해법이 있습니다. 소위 skill 이라는 여러 md 파일을 컨텍스트로 같이 넣어주기도 하구요, 별도의 플러그인을 셋업하고, hook도 붙여서 강제를 해봅니다. 아니면 아예 하네스 코드 자체를 뜯어고쳐 버리는 방법도 있습니다. 당연하게도 후자로 갈수록 강제성이 더 높아집니다.

이렇게 해서 고쳐지면 너무 해피합니다. 모든게 좋죠. 그런데 사실 여기에는 아주아주 크리티컬한 함정이 숨어 있었습니다.

저는 분명히 더 생산적으로 일하기 위해서 에이전트를 사용합니다. 근데 문제는 이런 이슈들을 디버깅하고, 해결하는데 오히려 하루가 다 가버립니다. 보통 에이전트는 저에게 있어서 블랙박스로 작동하고, 그래야만 한다고 믿습니다.

그래서 에이전트의 행동을 고치기 위해 다시 에이전트에게 요청합니다. 그러다보니 이 금쪽이가 헤매는 순간 저 또한 길을 잃습니다. 물론, Hermes 같은 툴의 코드를 뜯어보면서 원인을 파악하고 해결할수도 있습니다. 근데 여기에는 더 큰 문제가 있습니다. 유지보수 난이도가 급격하게 상승합니다. Hermes 버전업이 되면 제 커스텀 코드베이스와 당연히 충돌하겠죠. 그러면 그걸 또 잡기 위해 에이전트한테 일을 시킵니다. 이런게 무한 반복입니다.

이러다보니 저는 오히려 요즘 에이전트를 가볍게 사용하는것보다 헤비하게 사용하는게 생산성이 더 떨어지는 느낌을 받습니다.

더 재밌는점은 제가 이렇게 하네스를 최적화하기 위해 디버깅을 하고, 부분 최적화를 한게 며칠 ~ 몇주만 지나도 금방 outdated 된다는겁니다. 그 최적화가 필요가 없어지거나, 오히려 더 상황을 악화시키는 일이 발생하는거죠. 이런 사이클을 몇번 돌리고 나니 더 이상 하네스를 최적화해서 소위 말해 워크플로우의 "모든 루프를 닫으려는" 시도가 너무 고통스럽게 느껴집니다.

물론 제가 AI를 잘 사용하지 못해서 그런것일수도 있습니다. 하지만 제 생각에는 현재 이런 것들이 AI의 내재적 한계라고 느껴집니다. 이는 또 깊게 다룰만한 주제이니 다음에 자세히 다뤄보도록 하겠습니다.