본문 바로가기
마케팅

기계학습 프로젝트 체크리스트

by 써봐 2022. 9. 21.
반응형

기계 학습 프로젝트 계획

머신 러닝과 AI를 통해 조직은 데이터를 분석하고, 통찰력을 발견하고, 수많은 데이터에서 의사결정을 주도할 수 있습니다.그 어느 때보다 많은 조직이 머신러닝에 투자하고 있습니다.프로젝트의 87%만이 실제 가동에 도달하지 못하고 있기 때문에 성공 여부는 부지런한 계획에 달려 있습니다.

데이터 과학자는 실현 가능성을 평가하고, 기대치를 설정하고, 측정 기준을 정의하고, 프로젝트 청사진을 설계하기 위해 비즈니스 문제와 프로젝트 범위를 이해해야 합니다.비즈니스 팀과 기술 팀 간의 긴밀한 협업과 연계는 성공을 보장하는 데 도움이 됩니다.

모든 프로젝트에 기계 학습이 필요한 것은 아닙니다.사용 사례에 미래 지향적인 예측 구성요소가 없는 경우, 기록 데이터에 적용된 분석 및 시각화를 통해 이러한 문제를 해결할 수 있습니다.

비즈니스 문제의 정의

사용 사례의 과제와 최종 목표를 이해합니다.비즈니스 문제를 머신러닝으로 해결할 수 있는지, 그리고 그러한 접근방식을 보증할 만큼 비즈니스에 충분한 영향을 미치는지 여부를 조사한다.기계 학습을 지원하기에 충분한 데이터가 있는지 문의합니다.

프로젝트 범위 정의

프로젝트 비전과 최종 결과에 따라 조정하십시오.성공을 측정하기 위한 명확한 메트릭을 개략적으로 설명합니다.리스크 관리 전략을 개발하기 위한 전제 조건과 리스크를 문서화합니다.

프로젝트 관계자를 특정

비즈니스, 법률 및 IT 부문의 이해관계자가 참여해야 합니다.사일로에서 작성된 머신러닝 모델은 거의 구현되지 않습니다.

인프라스트럭처 평가

데이터 과학 팀에 필요한 컴퓨팅 리소스와 개발 환경을 평가합니다.소규모 프로젝트는 직원용 노트북으로 완료할 수 있지만 공유 및 버전 관리가 어렵습니다.대규모 프로젝트 또는 텍스트, 이미지 또는 스트리밍 데이터와 관련된 프로젝트에는 전문 인프라가 필요할 수 있습니다.DataRobot과 같은 엔터프라이즈 플랫폼은 즉시 통합, 멀티모달 데이터 지원, 협업 통합 환경 및 엔터프라이즈 거버넌스를 제공하여 팀이 AI를 신속하게 제공할 수 있도록 지원합니다.

클라우드 및 사내 요구사항에 맞는 솔루션에 투자

인프라 팀은 주요 클라우드 플랫폼(예: Amazon Web Services, Google Cloud Platform, Microsoft Azure)이나 사내 데이터 센터에 모델을 구축하거나 둘 다 구축하기를 원할 수 있습니다.모델을 동시에 여러 환경에 도입할 수도 있습니다.솔루션이 유연성을 제공하고 단일 기술 인프라 또는 클라우드 플랫폼에 얽매이지 않도록 하십시오.

소비 전략을 특정하다

기계 학습 모델을 구축한 후 이해 관계자가 어떻게 상호작용하기를 원하는지 논의합니다.모델 도입은 비즈니스 요건에 따라 복잡성이 다를 수 있습니다.예측은 일괄적으로 또는 실시간으로 할 수 있습니다.예측은 데이터베이스에 저장하거나 다른 프로세스에서 즉시 사용할 수 있습니다.

지속적인 유지보수 및 확장 계획

정확성과 데이터 드리프트를 어떻게 감시할 것인지 관계자와 논의합니다.재개발이 필요하기 전에 모델 성능 저하를 허용할 수 있는 수준에 합의합니다.모니터링 소유자와 모델 재개발 소유자를 결정합니다.

데이터 탐색 및 변환

필요에 따라 데이터 세트를 정리하고 변환합니다.우수한 데이터 큐레이션과 데이터 준비를 통해 보다 실용적이고 정확한 모델 결과를 얻을 수 있습니다.

대상 변수 생성

대상 변수에 대한 정확한 계산을 정의하거나 테스트할 두 가지 옵션을 만듭니다.대부분의 사용 사례에 대해 몇 가지 합리적인 선택지가 있습니다.고객 이탈 사용 사례의 경우 이탈은 "향후 30일 이내에 구입하지 않음", "향후 180일 이내에 구입하지 않음", 또는 "구독이 취소됨"으로 정의할 수 있습니다.신용위험 모델의 경우, 대상은 "대출금 전액 상환" 또는 "처음 2년간의 지급액은 유동" 또는 "담보가 회수"로 정의할 수 있다.

필요에 따라 데이터 재구성 및 집계

데이터는 롱 형식에서 와이드 형식으로 재형성해야 할 수 있습니다.분석과 무관한 행(예: 단종 제품)을 제거해야 할 수 있습니다.매시간에서 매일 또는 매일에서 매주 시간 단계와 같은 데이터 집약이 필요할 수도 있습니다.

데이터 품질 확인 및 문제 처리 절차 개발

일반적인 데이터 품질 검사 및 수정은 다음과 같습니다.

  • 데이터 누락 또는 불완전한 레코드
  • 데이터 형식이 일관되지 않음(전화번호 대시 및 괄호 등)
  • 측정 단위가 일관되지 않음(예: 통화 필드에 달러와 유로가 혼합됨 범주형 데이터의 일관성 없는 코드화(예: "TX"와 같은 약어와 "Texas"와 같은 전체 이름 혼합) 특이치 및 이상치(0세 미만 및 150세 이상)

엔지니어 예측 기능

머신 러닝 모델의 퍼포먼스와 정확도를 향상시키기 위한 추가 기능을 구성합니다.기능 엔지니어링에는 빈화 및 수치 특성 집계(예: 지난 12개월 평균 구매), 새로운 범주형 변수 생성(예: 여름/겨울), 계산 적용(예: 소득 대비 부채 비율)이 포함될 수 있다.비즈니스상의 문제와 이용 가능한 데이터 소스에 대한 건전한 지식을 통해 가장 효과적인 기능 엔지니어링을 실현할 수 있습니다.

기능의 표준화

많은 모형화 기법에서는 평균이 0이 되도록 표준화된 수치 피쳐가 필요합니다.분포가 심하게 치우친 경우 데이터를 표준화하기 전에 로그 변환이 적절할 수 있습니다.

기계 학습 모델 구축

머신러닝은 다양한 비즈니스 시나리오에 적용할 수 있습니다.결과는 수백 가지 요인에 따라 달라집니다.인간이 감시하기 어렵거나 불가능한 요인입니다.이러한 요소에서 생성된 모델에는 프로덕션 환경에 배포하기 전에 신뢰할 수 있는 결과를 얻을 수 있도록 가드 레일이 필요합니다.

사용 중인 운영 시스템에서 지원되는 언어를 확인합니다.

기계 학습 모델을 프로덕션 시스템이 이해할 수 있는 언어로 작성합니다.운영 환경에서 모델을 읽을 수 있어야 합니다.그렇지 않으면 재코딩으로 인해 프로젝트 일정이 몇 주 또는 몇 달 연장될 수 있습니다.

여러 기계 학습 모델 선택, 교육 및 자동화

비즈니스 문제를 가장 정확하게 해결하는 여러 모델을 개발하고 비교합니다.모델을 비교할 때 고려해야 할 사항으로는 정확도, 재훈련 난이도 및 생산 성능 등이 있습니다.

모델 드리프트 및 데이터 드리프트를 해결하기 위한 방법론 통합 비즈니스 요구의 변화로 인해 모델 관련성이 저하되어 모델을 재교육해야 할 수 있습니다.계절성, 소비자 선호도 및 규정의 차이와 같이 초기 교육 데이터 세트와 점수가 매겨진 데이터 세트 사이에 불일치가 있는 경우에도 재교육이 보증될 수 있습니다.이러한 문제를 해결하기 위해 미리 재교육 방법론을 추가하면 시간을 절약할 수 있습니다.

예측이 설명 가능한지 확인

모델 결과를 설명하는 특징 설명을 통합하여 "블랙 박스" 증후군을 방지하십시오.이를 통해 비즈니스 전략에 초점을 맞추고, 결과를 관계자에게 설명하고, 모델 개발을 규정 준수에 맞게 조정할 수 있습니다.

공정성 확보를 위한 편향성 검정

기계 학습 모델은 성과를 저해할 뿐만 아니라 실질적인 우려와 고려사항을 야기하는 의도하지 않은 편견을 포함할 수 있다.테스트, 모니터링 및 편견 완화를 통해 모델이 기업의 윤리 및 문화에 부합하도록 보장할 수 있습니다.

머신 러닝 모델 도입

기계 학습 모델은 변덕스러운 세상에서 자산에서 부채로 빠르게 변할 수 있습니다.모델 도입과 라이프 사이클 관리를 성공시키기 위해서는 규제 수준이 높은 업계, 명확하게 정의된 MLOps 프로세스 및 모델을 최고의 성능을 유지하는 전략을 위한 컴플라이언스 문서를 작성합니다.이러한 전략을 통해 AI 채택을 확장할 수 있습니다.

규제 대상 업종을 위한 모델 컴플라이언스 문서 작성

은행, 금융 시장 및 보험과 같이 규제가 심한 산업은 모델을 생산하기 전에 모델 검증에 대한 정부 규정을 준수해야 합니다.여기에는 도입된 모델에 대한 중앙 집중식 모니터링, 관리 및 거버넌스를 기반으로 견고한 모델 개발 문서 작성도 포함됩니다.

MLOps 프로세스를 명확하게 정의

모델의 사용량과 가치를 확장하려면 확립된 제어를 지원하기 위한 명확한 역할, 절차 및 로깅을 포함하여 강력하고 반복 가능한 생산 프로세스가 필요합니다.모델을 도입 및 변경할 때 일관된 관리와 위험을 최소화하기 위해 모델 거버넌스 관행을 확립해야 합니다.

머신 러닝 모델 도입

실제 의사결정을 위해 모델을 실제 환경에 도입해야 합니다.도입에서는, 데이터 과학자, IT팀, 소프트웨어 개발자, 및 비즈니스 프로페셔널의 조정이 필요합니다.

결과 감시 및 관찰

합의된 성공 지표를 표시하는 대시보드는 비즈니스 이해관계자와의 중요한 커뮤니케이션 도구입니다.그러나 사용자는 대시보드를 일관성 있게 검토하는 경우가 거의 없기 때문에, 중요한 활동을 이해관계자에게 통지하는 데 경보 기능이 중요한 역할을 한다.이 기능을 사용하여 성공을 강조 표시하고 이상을 탐지할 수 있습니다.

DataRobot을 통한 머신 러닝 프로젝트 가속화

조직에서 DataRobot을 사용하여 머신 러닝 프로젝트를 가속화하는 방법을 알아보십시오.데이터부터 가치까지 머신러닝 라이프 사이클 전체에 걸쳐 지속적인 최적화를 실현하는 통합 환경에서 콜라보레이션 할 수 있습니다.

모델 리스크 컴플라이언스 자동화

 

모델 리스크 컴플라이언스 자동화

모델러가 SR 11-7의 설명된 지침을 따르면서 머신 러닝 모델을 개발하고 검증하는 방법에 대해 광범위하게 논의했다. 모델이 내부적으로 성공적으로 검증되면, 조직은 모델을 생산하고 비즈니스

www.oskinp.com

 

반응형

댓글