[요약] 데이터 사이언티스트의 비즈니스 기여

[발표 요약]

[토스ㅣSLASH 22]

Data Scientist는 어떻게 비즈니스에 기여할 수 있을까? (황동현 / 토스)

url: https://www.youtube.com/watch?v=mKf1kvWXiPY
기존 역할: Silo 개별 지원
→ 데이터 프로덕트 개발: 공통 니즈 반영
- ‘데이터 프로덕트를 중심으로’ 전략 수립 → CDP 프로덕트 MVP 개발 → 개선
1) CVR 예측 모델
- Conversion Rate: ‘10원 받기’를 클릭해 실제로 10원을 받은 유저만 전환 유저로 정의
- 전환 유저 수 → 성장율 대변
- TUBA(메세지 발송 시스템) 활용
- 전환유저가 될 것 같은 유저를 예측 → (과거 전환 유저 수만 충분하다면) 모든 서비스에 적용 가능하므로 ‘확장성’이 높음
2) 결제 예측 모델
- 유저 소비명세를 확인하여 구매했다면 캐시백 혜택
- 캐시백 혜택을 자주 이용하는 유저에게 푸쉬 메세지 발송
- 효과
  - 광고효과 극대화 가능
  - 서비스 추천으로 리텐션 강화
  - 유저 특성별 프로모션
  - 실구매 확률이 높은 유저에게 광고 노출 **
모델링: LightGBM 모델 활용
- 테이블형 데이터에 유리
- 유저의 인구통계학적 정보, 소비명세, 계좌 정보, 카드 정보 등 활용
- → 앞으로 30일 안에 발생할 일 예측
모델 확장성 문제
- 최소한의 리소스로 최대한의 효과를 만들기 위해서 ‘데이터 웨어하우스’ 재탐색
- 유저 정보, 소비 정보, 서비스 사용 정보: 1~3달 정보 포함 → 데이터 집계기간이 짧았음
- 유저 행동 지표(act type) 확장: 기존 24개 → 일별 / 주별 / 월별 집계
  - 로그 중에서 특정 타입을 ‘act type’으로 별도 보관
  - 서비스 전환, 버튼 클릭, 페이지 진입 등이 포함
  - 일별 / 주별 / 월별 집계: 작은 관점에서 큰 관점에서 유저의 서비스 활용 이해 가능
- 데이터 마트 새롭게 구성
  - 1달~1년 데이터로 확장
  - 기존 액티브 유저, 신규 유저 분리 집계
  - RFM 데이터, 소분류 대분류 브랜드 소비 이력 등 집계 → 컬럼 수 3~6천 개로 확대
파이프라인
- 일 단위의 작동 오프라인 서빙 목표
- 젠킨슨 서버: 다른 팀과 공유
  - 컴퓨팅 리소스 문제 해결을 위해 ‘Ray Cluster’ 별도 구성
    - 병렬 학습 및 추론
모델 학습
- 학습 주기적(주단위 수행), 추론은 매일
- 학습마다, 모델 버전마다 메트릭 확인
- 모델 버전 및 모니터링: mlflow 활용 - 실험 히스토리 저장 → 태그별로 모델 관리 → 과거 실험 쉽게 reproducing 가능
데이터 변경 문제
- act type 집계 기준 변경, 삭제, 결제 카테고리 통합 등 → 각 파이프라인 모두에서 발생할 수 있음
- 데이터 정합성 문제 사전 인지 필요: slack 알람을 활용하여 사전 확인 대응
CDP 모델 런칭
- Back Test 결과를 제공 → 모델 성능에 대한 의구심 해소
- 예측 모델의 좋은 성능 확인할 수 있었음
Silo의 추가 요청 발생: 신규 브랜드를 위한 유저 세그먼트 추출
- 라벨 데이터가 없는 상황이라 LightGMB으로 학습하기는 어려움
- 이런 니즈를 해결하기 위해 GNN 검토 중: 유저들의 소비 데이터에서 고객, 소비한 물품을 그래프로 표현하여 GNN으로 학습 → 유사도 검색을 통해서 유사한 유저나 브랜드 등을 구분할 수 있음
지속적인 모델 개선 노력
- 트랜스포머 모델 활용
- Measure - Data - Learn 을 통해 비즈니스에 기여 목표