모델러가 SR 11-7의 설명된 지침을 따르면서 머신 러닝 모델을 개발하고 검증하는 방법에 대해 광범위하게 논의했다. 모델이 내부적으로 성공적으로 검증되면, 조직은 모델을 생산하고 비즈니스 의사 결정에 사용할 수 있습니다.
현대 기계 학습(ML) 방식의 생산 모니터링
그러나, 일단 모델이 생산되면, 금융기관은 모델이 의도한 목적과 설계에 맞게 기능하고 있는지 어떻게 알 수 있는가?모델은 현실을 단순화한 표현이기 때문에 모델을 개발할 때 모델러가 사용했을 수 있는 많은 가정은 실제 전개 시에는 해당되지 않을 수 있습니다. 모델링 되는 프로세스의 근본적인 변경으로 인해 가정이 위반되는 경우, 배치된 시스템은 의도한 목적에 부합하지 않을 가능성이 높기 때문에 기관이 관리해야 하는 추가적인 모델 리스크가 발생합니다. 이 위험 관리의 중요성은 SR 11-7에 제공된 지침에서 더욱 강조됩니다.
제품, 노출, 활동, 고객 또는 시장 상황의 변경이 모델의 조정, 재개발 또는 교체가 필요한지 여부를 평가하고 원래 범위를 벗어나는 모델의 확장이 유효한지를 확인하기 위해 지속적인 모니터링이 필수적이다.
변화할 가능성이 있는 변수가 많은 상황에서 금융기관은 어떻게 견고한 모니터링 전략을 책정하고 ML 모델의 맥락에서 이를 적용할 것인가?이 게시물에서는 SR 11-7의 지침에 따라 지속적인 모니터링에 대한 고려 사항에 대해 논의하고 DataRobot의 MLOps 플랫폼을 통해 조직이 ML 모델이 최신이고 의도한 목적에 맞게 작동하는 방법을 보여 줍니다.
모니터링 모델 메트릭
기계 학습 모델을 설계할 때 사용되는 가정은 모델링되는 프로세스의 변경으로 인해 빠르게 위반될 수 있습니다. 이는 모델을 훈련하는 데 사용되는 입력 데이터가 정적이고 한 시점에 세계를 나타내기 때문에 자주 발생합니다. 이 데이터는 끊임없이 변화합니다. 이러한 변화를 모니터링하지 않으면 모델의 예측에서 내린 결정이 잠재적으로 유해한 영향을 미칠 수 있습니다. 예를 들어 금리를 포함한 거시경제 데이터를 바탕으로 주택담보대출 수요를 예측하는 모델을 만들 수 있다. 이 모델이 금리가 낮은 기간 동안 훈련되었다면, 금리나 다른 거시 경제 변수가 갑자기 변화할 경우 그러한 대출에 대한 수요를 과대평가할 수 있다. 모델이 새로운 현실을 포착하지 못해 재교육이 필요할 수 있으므로 이 모델에서 비즈니스 의사 결정을 내리는 것은 결함이 있을 수 있습니다.
모델을 사용할 수 없게 될 가능성이 있는 상태가 계속 변화하고 있는 경우, 어떻게 사전에 특정할 수 있습니까?전개된 모델의 진화하는 퍼포먼스를 측정하기 위한 전제조건은 전개된 환경에서 입력 데이터와 비즈니스 결과를 모두 수집하는 것입니다. 이 데이터를 사용하여 데이터 드리프트와 모델 성능을 모두 측정할 수 있으며, 이 두 가지 모두 배포된 모델의 상태를 측정하는 데 필수적인 지표입니다.
수학적으로 말하면, 데이터 드리프트는 모형을 훈련하는 데 사용되는 입력 값의 분포의 변화를 측정합니다.상기의 주택담보대출 수요 예에서는 다양한 주택담보대출 상품의 평균금리를 측정하는 입력값을 가지고 있을 수 있습니다. 이러한 관측치는 모형이 예측하기 위해 활용하는 분포에 걸쳐 있을 것입니다. 그러나 중앙은행의 새로운 정책이 금리를 움직인다면 그에 따른 가치 분포의 변화를 볼 수 있을 것이다.
DataRobot 배포의 데이터 드리프트 탭에서 사용자는 배포에서 발생한 이동량을 수량화할 수 있을 뿐만 아니라 시각화할 수도 있습니다.아래 이미지에서는 전개된 모델에서 발생한 드리프트 양을 나타내는 두 개의 차트를 볼 수 있습니다.
왼쪽에는 드리프트에 대한 모델 입력의 특징 중요도에 대한 산점도를 나타낸 차트가 있습니다.이 맥락에서 특징 중요도는 모델이 훈련되었을 때 치환 중요도 메트릭을 사용하여 0부터 1까지의 척도에서 입력 변수의 중요성을 측정합니다. 이 값이 1에 가까울수록 모형 성능에 더 큰 영향을 미쳤습니다. 이 같은 그래프의 Y축에는 표류가 표시되며, 이는 모델 훈련과 생산 환경 간의 값 분포 변화를 수량화하는 모집단 안정성 지수라는 메트릭을 사용하여 측정된다. 오른쪽에는 특정 입력 기능에 대한 값의 빈도를 나타내는 히스토그램이 있으며, 모델을 훈련하는 데 사용된 데이터(진한 파란색)와 전개된 설정(연한 파란색)에서 관찰된 데이터 간에 비교합니다. 왼쪽의 특징 표류도와 조합하여 이러한 메트릭을 통해 실시간 설정에서 값 분포에 큰 변화가 있을 경우 모델러에게 알릴 수 있습니다.
모델의 정확성은 배포된 환경에서 모델의 상태를 알려주는 또 다른 필수 메트릭입니다.배치된 모델의 유형(분류 대 회귀)에 따라 예측이 얼마나 정확한지 수량화하기 위해 사용할 수 있는 다수의 지표가 있습니다. 분류 모델에서는 특정 신용카드 거래가 사기인지 아닌지를 판별하는 모델을 구축했을 가능성이 있습니다. 이러한 맥락에서 모델을 배포하고 실시간 데이터에 대한 예측을 할 때 실제 결과가 실제로 부정이었는지 관찰할 수 있습니다. 이러한 비즈니스 실물을 수집할 때 모델의 LogLoss, F1 점수 및 AUC를 포함하는 메트릭을 계산할 수 있습니다.
DataRobot의 Accuracy 탭은 모델 배포 소유자에게 현재 사용 사례에 따라 모니터링할 정확도 메트릭을 유연하게 제공합니다.아래 그림에서는 모델의 LogLoss 메트릭이 시간 경과에 따라 어떻게 변화했는지를 다른 성능 메트릭과 함께 보여주는 배포된 분류 모델의 예를 보여 줍니다.
실제 환경에서 데이터 드리프트와 정확도가 어떻게 변화했는지를 파악한 모델러는 모델을 교육할 때 사용된 가정 중 위반 사항이 있는지 더 잘 이해할 수 있습니다. 또한 모델러는 실제 비즈니스 결과를 관찰하면서 정확도 저하를 정량화하고 새로운 데이터를 기반으로 모델을 재교육해야 하는지 여부를 결정할 수 있습니다.
모델 벤치마킹
정확도와 데이터 드리프트에 대한 원격 측정이 결합되어 모델러는 조직의 모델 위험을 관리할 수 있으며, 이에 따라 배치된 ML 모델의 잠재적인 악영향을 최소화할 수 있습니다. 이러한 원격측정법은 건전한 모델 리스크 관리 원칙에 매우 중요하지만, 그것만으로는 충분하지 않다. SR 11-7에서 규정한 모델링 프로세스의 또 다른 기본 원칙은 대체 모델과 이론을 사용하여 생산에 투입된 모델을 벤치마킹하는 것입니다. 이는 모델러가 초기 챔피언 모델을 설계하는 데 사용된 원래 가정을 재검토하고 다양한 데이터 입력, 모델 아키텍처 및 목표 변수의 조합을 시도하도록 하기 때문에 모델 위험을 관리하는 데 필수적입니다.
DataRobot에서는 2차 방어선 내의 모델러는 새로운 도전자 모델을 쉽게 제작하여 1차 방어선에서 생산된 챔피언 모델에 대한 효과적인 도전을 제공할 수 있습니다.그런 다음 조직은 도전자들의 성과를 챔피언과 비교하고, 도전자 모델을 챔피언과 교환하는 것이 적절한지 또는 초기 챔피언 모델을 그대로 유지하는 것이 적절한지 확인할 수 있습니다.
구체적인 예로서 조직이 있는 사업부는 대출 신청자의 채무불이행 가능성을 판단하기 위한 신용위험 점수표 모델을 개발하는 임무를 맡을 수 있다.최초 모델 설계에서 모델러는 자신의 영역 전문지식에 기초하여 출원인이 대출 승인을 받은 후 3개월 이내에 대출금을 상환했는지 여부에 기초하여 채무불이행의 목표 변수를 정의했을 수 있다. 검증 과정을 거칠 때, 2차 방어선의 다른 모델러는 3개월이라는 기간이 아니라 오히려 6개월이라는 기간을 기준으로 디폴트 목표 변수를 재정의할 충분한 이유가 있었을 수 있습니다. 또, 다른 입력 기능과 모델 아키텍처의 조합도 시험했을 가능성이 있어, 예측력이 높다고 생각됩니다. 아래 이미지에서는 DataRobot 내에서 배치된 챔피언 모델에 도전자로 모델을 등록하고 성능을 쉽게 비교할 수 있습니다.
오버레이를 사용하여 모형 예측 재정의
건전한 MRM 프로세스에서 벤치마킹의 중요성은 아무리 강조해도 지나치지 않습니다.모델 설계에 사용된 핵심 가정을 지속적으로 평가하여 모델 설계에 반복하고 의도한 목적에 부합하는지 확인해야 합니다. 그러나 모델은 현실의 수학적 추상화일 뿐이기 때문에 금융기관이 인정하고 설명해야 할 한계점이 있다. SR 11-7에 기재된 바와 같이: 지속적인 모니터링에는 적절한 문서와 함께 재정의 분석이 포함되어야 한다. 거의 모든 모델을 사용할 때 모델 사용자의 전문가 판단에 따라 모델 출력이 무시되거나 변경되거나 반전되는 경우가 있습니다. 이러한 재정의는 어떤 면에서 모형이 의도한 대로 수행되지 않거나 한계가 있음을 나타낸다.
DataRobot 내에서 모델러는 입력 데이터와 모델 출력 모두에서 재정의 규칙 또는 모델 오버레이를 설정할 수 있습니다.DataRobot의 이러한 겸손 규칙은 특정 조건 하에서의 모델의 한계를 인정하고 모델 제작자가 직접 모델의 코드화와 재지정 조치를 취할 수 있도록 합니다. 예를 들어 신용카드 부정거래를 특정하는 모델을 구축했다면 북미 등 특정 지역의 샘플만 관찰했을 가능성이 있습니다. 그러나 생산 환경에서는 샘플이 거의 없거나 교육 데이터에 전혀 없는 다른 국가에서 발생한 트랜잭션을 관찰할 수 있습니다. 이러한 상황에서 우리의 모델은 새로운 지역에 대해 신뢰할 수 있는 예측을 하지 못할 수 있으며, 우리는 오히려 기본 규칙을 적용하거나 그 거래를 위험 분석가에게 보낼 것입니다. 모델러는 겸손 규칙을 사용하여 트리거 규칙을 코드 화하고 적절한 오버라이드를 적용할 수 있습니다. 이는 모델이 신뢰할 수 없는 경우 기관이 전문가의 판단을 사용할 수 있도록 함으로써 모델 위험을 최소화하는 효과가 있습니다.
겸손의 규칙과 트리거가 설정되면 모델러는 그것들이 호출된 횟수를 감시할 수 있습니다.위에서 설명한 사기 거래의 예를 다시 살펴보면, 생산 환경에서 유럽에서 많은 샘플을 보유하고 있는 것을 확인할 수 있다면, 초기 모델 설계에 사용된 가정을 재검토하고 더 넓은 지리적 영역에서 모델을 재교육하여 신뢰할 수 있도록 해야 할 이유가 있을 수 있다. 아래 그림과 같이 모델러는 다음과 같이 시계열 시각화를 보고 배포된 모델의 수명 동안 규칙이 놀라운 속도로 트리거 되었는지 확인할 수 있습니다.
결론
지속적인 모델 모니터링은 건전한 모델 리스크 관리 관행의 필수 구성요소입니다.모델은 특정 시점에만 세계 상태를 캡처하기 때문에 외부 조건의 변화에 따라 배치된 모델의 성능이 크게 저하될 수 있습니다. 모델이 의도한 목적에 맞게 작동하도록 하기 위해 주요 전제조건은 생산 환경에서 모델 원격측정 데이터를 수집하고 이를 사용하여 데이터 드리프트 및 정확성을 포함한 상태 메트릭을 측정하는 것입니다. 모델의 진화하는 성능을 이해하고 초기 설계에 사용된 가정을 재검토함으로써 모델 작성자는 모델이 여전히 수행되고 의도된 비즈니스 목적에 적합하도록 돕는 도전자 모델을 개발할 수 있습니다.
마지막으로 모델의 한계로 인해 모델러는 불확실하거나 극단적인 상황에서 전문가의 판단이 모델 산출물을 우선하도록 규칙을 설정할 수 있습니다.이러한 전략을 모델의 라이프 사이클 내에 통합함으로써, 조직은 모델이 비즈니스에 미칠 수 있는 잠재적인 악영향을 최소화할 수 있습니다.
데이터 중심 마케팅을 중시하는 이유
데이터는 오늘날 마케팅의 기초가 되며 디지털 마케팅의 생명선입니다.이처럼 많은 B2C 및 B2B 구매 여정이 디지털 접점을 거치면서, 그 어느 때보다 대규모 고객 데이터를 수집할 수 있는 기회가
www.oskinp.com
댓글