현업 데이터 과학자가 깨달은 멀티모달 데이터셋 구축 시 주의사항 4가지
작성자 정보
- 작성자 페블이
- 작성일
컨텐츠 정보
- 조회 6
본문
AI 개발 프로젝트를 진행하시는 실무자분들이라면 멀티모달 데이터셋 구축의 어려움을 체감하고 계실 겁니다. 그래서 현업 데이터 과학자로서 실제로 식단 모니터링 AI 개발 과정에서 멀티모달 데이터셋을 구축하며 깨달은 핵심 주의사항을 4가지를 공유합니다!
1. 정합성 확보: 이미지 속 고양이가 바닥에 누워있는데 텍스트는 "소파에 앉아있다"고 설명한다면 정합성이 맞지 않은 것입니다.
2. 편향 방지: 텍스트만 보고 이미지를 무시하는 경우가 있습니다. 이렇게 '멀티모달인 척' 하는 AI가 되지 않도록 주의해야 합니다.
3. 여러 모달을 모두 조심해야 합니다. : 예를 들어 자율주행 데이터 1초에 카메라, 레이더, GPS, LiDAR이 엮여 있어 하나만 문제가 생겨도 처리가 복잡합니다. 하나라도 유실되지 않도록 주의해야 합니다.
4. SME와의 긴밀한 협업: 특정 상황을 정확히 재현하기 위해 해당 분야 전문가와의 협업이 꼭 필요합니다. 데이터 분석 능력만으로는 부족합니다.
실제 사례로 식판 음식 인식 AI 개발 시, 수만 장의 라벨링에 수천 시간이 필요했던 문제를 합성데이터로 해결했습니다. 식판 재질, 반사광까지 고려한 3D 자산으로 무한 조합 가능한 데이터를 생성해, 쌀 한 톨까지 인식하는 AI를 완성했습니다.
정합성 확보 전략, 모달 붕괴 해결법, 품질 관리 노하우 등 실무 방법론이 궁금하신 분들은 링크에서 자세히 확인해보세요.
관련자료
-
다음





