미리디의 데이터 혁신

| "폭발적인 성장을 이끄는 데이터브릭스 기반 데이터 문화 구축 이야기"

Databricks 주최 'Data Intelligence Day' 발표

데이터엔지니어링팀 이준수님

| 들어가기에 앞서

얼마 전 Databricks가 주최한 Data Intelligence Day에서 미리디 데이터 엔지니어 이준수님께서 데이터브릭스 도입 과정과 도입 이후의 변화에 대해 소개를 해주셨는데요.

실제 조직 안에서 데이터 아키텍처를 어떻게 전환했는지, 그리고 그 변화가 어떻게 일하는 방식까지 바꿨는지를 생생하게 들을 수 있는 시간이었습니다.


아래 내용은 미리디의 데이터 혁신 여정을 담아 준수님께서 발표해 주신 내용입니다.

| 미리디의 폭발적인 성장과 새로운 도전

미리디는 현재 '미리캔버스'와 '비즈하우스'라는 두 대표 서비스를 통해 누구나 쉽게 디자인을 만들고 실제 인쇄물로 제작할 수 있도록 돕고 있습니다. 이 외에도 디자이너와 인쇄 파트너들을 위한 '디자인허브', '컨텐츠 샵', '프린트허브' 등 다양한 서비스를 운영하며 디자인 생태계를 풍성하게 만들고 있습니다.


미리디는 그동안 빠른 성장을 거듭해왔습니다. 2020년 12월 시리즈 A 투자 유치 당시 누적 가입자 약 158만 명, 월간 디자인 다운로드 약 179만 건이었던 미리캔버스는, 2024년 12월 시리즈 B 투자 당시 기준으로 누적 가입자 약 1,604만 명, 월간 디자인 다운로드 1,301만 건으로 약 10배 이상 성장했습니다.


이처럼 회사가 빠르게 성장하면서 방대한 양의 데이터가 생성되기 시작했고, 이는 기존의 데이터 처리 방식으로는 감당하기 어려운 상황을 초래했습니다. 데이터 인프라의 한계는 결국 데이터 활용, 운영, 거버넌스 전반에 걸쳐 다양한 문제들을 야기했습니다.

| 우리가 마주했던 세 가지 주요 과제

급격한 성장에 따라 미리디의 데이터 환경은 몇 가지 근본적인 한계를 드러냈습니다.

2024년 8월 데이터팀이 신설되면서, 우리는 이러한 문제들을 명확하게 정의하고 체계적인 전환이 필요한 시점임을 인식하게 되었습니다.


1. 데이터 활용 환경의 복잡성

데이터가 여러 시스템에 파편화되어 흩어져 있다 보니, 어디에 어떤 데이터가 있는지 찾기부터 어려웠습니다.

데이터 수집 파이프라인이 파편화되어 유지보수와 장애 대응이 복잡했으며, 데이터 분석 시작 자체가 높은 진입 장벽이 되어 신규 분석가나 비즈니스 유저의 데이터 탐색을 어렵게 만들었습니다.


2. 데이터 거버넌스의 부재

데이터의 양이 많아지면서 어떤 데이터를 신뢰할 수 있는지, 누가 데이터에 접근할 수 있는지에 대한 기준이 모호했습니다.

스키마 관리 체계가 부족하여 데이터 누락이나 불일치가 잦았고, 아테나 쿼리 오류나 분석 결과 신뢰도 저하로 이어지기도 했습니다.

또한, 데이터 흐름을 추적할 수 없어 문제 발생 시 원인 파악이 쉽지 않았습니다.


3. 데이터 운영의 비효율성

기존에는 백엔드 팀이 데이터 관련 작업을 병행하여 체계적인 데이터 아키텍처가 부족했고, 파이프라인 장애나 데이터 수집 실패를 사전에 인지하고 대응할 체계가 미흡했습니다.

모니터링과 알림 시스템 부족으로 오류는 분석이 끝난 후에야 발견되는 경우가 많아, 분석 결과의 신뢰성에 악영향을 주었습니다.

아테나에 지나치게 의존한 단일 분석 구조는 대용량 데이터 처리 시 성능 한계를 보였습니다.

| 미리디 데이터팀의 비전: 데이터 리터러시를 높이고 신뢰를 쌓다

이러한 과제들을 해결하기 위해 저희 데이터팀은 '데이터브릭스를 어떻게 도입하고 제대로 활용할 것인가'라는 질문에 답을 찾기 시작했습니다. 단순히 도구만 바꾸는 데 그치지 않고, 미리디의 모든 구성원이 데이터를 더욱 효과적으로 활용할 수 있도록 방향을 명확히 설정했습니다.


우리의 궁극적인 목표(Objective)는 바로 이것이었습니다.

  • "모든 구성원의 데이터 리터러시를 높이고, 누구나 편하게 고도화된 분석 환경을 쓸 수 있게 하자."

  • "신뢰도 높은 분석 데이터를 전사에 제공하자."

이는 데이터가 한정된 누군가만의 도구가 아니라, 모두의 일하는 방식이 되게 하자는 의미였습니다.


이를 실현하기 위한 핵심 결과 지표(Key Results)는 다음과 같습니다:

  • 누구나 부담 없이 시작할 수 있는 고도화된 데이터 분석 환경 제공

  • 품질과 일관성을 갖춘, 신뢰도 높은 분석 데이터 제공

  • 견고한 보안과 거버넌스 체계 정립

  • 사용자 중심의 데이터 검색성 및 메타데이터 제공

  • 확장성과 비용 효율을 고려한 인프라 구성

| 데이터브릭스와 함께한 데이터 아키텍처 대전환

위와 같은 OKR을 달성하기 위해, 저희는 아키텍처 전반을 완전히 새롭게 구성하기 시작했습니다.

기존처럼 하나의 도구에 모든 역할을 몰아넣는 대신, 각 기능에 최적화된 도구들을 명확히 분리하여 연결하는 방식으로 접근했습니다.


특히, 저희 데이터 환경 전반을 재설계하는 데 있어 가장 중요한 역할은 데이터브릭스였습니다.

미리디는 데이터브릭스를 단순한 도구로만 활용하지 않고, 조직 전체의 데이터 활용 방식 자체를 바꾸는 핵심 축으로 삼았습니다.


에어플로는 데이터 적재 및 스케줄링 오케스트레이션, 쿠버네티스는 컴퓨팅 리소스 스케일링, 카프카는 실시간 메시지 큐, 데이터 허브는 메타데이터 통합 관리, 테블로는 BI 대시보드 제공 역할을 하며, 데이터브릭스는 데이터 처리 및 분석의 중심 허브 역할을 수행하게 되었습니다.

| 데이터브릭스가 가져온 긍정적인 변화들

데이터브릭스 도입은 단순한 도구의 전환을 넘어, 미리디의 데이터 인프라 전반에 구조적인 개선을 가져왔습니다.

협업 환경, 데이터 신뢰성, 거버넌스 체계, 인프라 효율성까지 전방위에서 긍정적인 변화가 나타났습니다.


먼저, 데이터의 신뢰성과 거버넌스 측면에서 눈에 띄는 진전이 있었습니다. 미리디는 유니티 카탈로그 기반의 메달리온 아키텍처를 도입해 데이터를 브론즈, 실버, 골드로 계층화하여 관리함으로써 증분 데이터 반영 속도를 높이고 리소스 낭비를 줄였습니다.

민감 정보에 대한 접근 제어도 강화되어, Python 함수 기반의 마스킹 로직을 통해 역할과 책임에 따라 유연한 접근 통제가 가능해졌습니다. 여기에 감사 로그와 테이블 히스토리 기능이 더해져, 데이터 활용 시 ‘누가, 언제, 무엇을’ 했는지를 추적할 수 있어 투명성과 책임성이 확보됐습니다.


또한, 데이터 리니지 시각화 기능을 통해 데이터 흐름을 그래프 형태로 직관적으로 파악할 수 있게 되었고, 분석 및 디버깅 시간도 획기적으로 단축됐습니다.


운영 측면에서도 큰 변화가 있었습니다. 작업 유형별로 클러스터를 분리함으로써 대용량 ETL 작업은 고성능 클러스터에서, 간단한 쿼리는 경량 클러스터에서 실행되도록 최적화되었습니다. 특히 Delta-RS 기반의 경량 실행 방식을 통해 Spark 클러스터를 띄우지 않고도 짧고 가벼운 작업을 빠르게 처리할 수 있게 되면서, 전체 인프라 비용을 절감하고 처리 속도는 유지 또는 개선되었습니다.


이러한 기술적 전환은 미리디 구성원이 데이터에 더 신뢰를 갖고, 안정적인 환경에서 분석할 수 있도록 만든 핵심 기반이 되었습니다.

| 데이터브릭스, 미리디의 일하는 방식을 바꾸다

데이터브릭스 도입 이후, 미리디 내부에서는 '데이터를 다루는 사람'의 범위가 급격히 확장되었습니다.

디자이너, 개발자, PM은 물론 피플팀, CX팀, 데브옵스 등 다양한 부서에서 실제 업무에 데이터브릭스를 활용하고 있습니다.

이는 단순히 '도구를 도입했다'는 수준을 넘어, 조직 전반에 데이터 기반 의사결정 문화가 확고히 자리 잡고 있다는 확실한 지표라고 생각합니다.


대표적인 변화는 워크플로의 자율 운영입니다. 각 부서는 분석팀의 개입 없이도 자체적으로 대시보드를 만들고, 리포트를 자동 생성하며, 데이터를 주기적으로 갱신하거나 간단한 전처리를 수행하고 있습니다. 이는 분석팀과 데이터 엔지니어의 부담을 줄일 뿐 아니라, 각 팀의 의사결정 속도를 획기적으로 높였습니다.


비개발자들도 ‘지니’ 기능을 활용해 SQL을 몰라도 데이터를 직접 조회하고 사용할 수 있게 되었습니다. 데이터 환경 접근 또한 간소화되어, 과거에는 AWS 계정 발급이 필요한 절차였던 것이 이제는 슬랙 버튼 한 번으로 계정이 생성되고 역할에 맞는 권한까지 자동 부여됩니다. 이로 인해 데이터 접근성이 실질적으로 획기적으로 향상되었습니다.


데이터브릭스 대시보드는 실시간 데이터 시각화에 최적화된 BI 도구로서, 데이터 이동 없이도 레이크에서 직접 시각화할 수 있어 빠르고 직관적입니다. 미리디는 이 도구를 활용해 SKU별 사용량, 팀별 리소스 활용량, 비용 분포 등을 매일 분석하고 그 결과를 슬랙을 통해 전사에 자동 공유하고 있습니다. 이를 통해 구성원 모두가 자원의 흐름과 사용 현황을 실시간으로 인지하고 의사결정에 반영하고 있습니다.


무엇보다 중요한 변화는 이 모든 경험들이 “그냥 편해서 자주 쓰게 되는 도구”로 자리 잡았다는 점입니다. 


아래 사진처럼 데이터브릭스 사용 방법에 대해 사내에서 활발히 교육을 진행하고 있기도 합니다.

내부에서는 “알면 알수록 쓸만해서 더 좋아요”, “태블로 지옥에서 벗어나기 위해 간절했어요”와 같은 자발적 피드백이 이어지고 있습니다. 설명하지 않아도 자연스럽게 퍼지고, 실사용자가 늘어나며, 조직 문화까지 바꾸는 도구가 된 데이터브릭스는 현재 미리디의 일하는 방식을 정의하는 핵심 축이 되었습니다.

| 미리디의 데이터 혁신 여정, 함께할 동료를 찾습니다.

미리디는 이처럼 고객의 문제를 깊이 이해하고, 이를 해결하기 위한 구체적인 시도들을 통해 더 나은 제품과 경험을 만들어가고 있습니다. 데이터브릭스를 통해 구축된 안정적이고 효율적인 데이터 인프라는 미리디의 성장을 더욱 가속화할 것입니다.


현재 미리디는 이러한 여정을 함께하며 문제를 발견하고 해결해가는 과정을 즐길 동료들을 찾고 있습니다.


데이터 엔지니어

데이터 사이언티스트

미리디의 여정에 함께할 당신을 기다립니다.