데이터 라벨링 프로젝트에 대해 이어서 살펴봤습니다.
데이터 라벨링 프로젝트 2
프로젝트 계획을 수립할 때 목표 설정, 일정수립, 리소스 배분의 단계를 거칩니다.
95%, 99%의 성공률을 위해 설명가능한 규칙이 필요합니다.
예를 들어, 머리카락이 있는데 그걸 한 가닥 한 가닥 다 잡기는 불가능에 가깝습니다.
여러가지 방식이 있을 수 있는데, 설명에 '모든 머리카락이 들어가야 한다' 이거나 '몇 %이상 사람이 아닌 건 들어가면 안 된다'가 될 수 있겠습니다.
규칙을 짜는 데는 비용이 많이 소요됩니다.
실제 프로젝트 계획 예시
자율주행차를 위한 고품질 이미지 데이터셋 구축이 최종 목표인 데이터 라벨링 프로젝트입니다.
최종적으로 자율주행차의 객체 인식을 위한 고품질 데이터셋 구축을 목표로 매주 1만 장의 이미지 라벨링을 중간 목표로 설정합니다.
일정, 리소스 배분, 도구, 예산은 아래와 같이 설정합니다.
보통 3천 만원으로 5만 장을 모인다면 돈을 많이 쓴 예산이 됩니다.
사진 레이블링 기술이 좋아졌기 떄문입니다.
데이터수집팀은 사진을 찍거나 사진을 다운로드해도 됩니다. 다운로드는 단 저작권이 없어야 됩니다.
날이 밝은 날, 흐린 날 등 환경도 중요합니다.
라벨링팀은 2주차부터 시작하는데 5주차에 딱 끝나는 게 아니라 계속 라벨링을 하게 됩니다.
대부분의 작업들이 아주 깔끔하게 굴러가지 않는다면 우당탕탕 굴러갈 수도 있고, 다른 업무도 맞게 될 수 있습니다.
이런 부분을 알고 작업에 임하면 괜찮겠네요.
바운딩 박스만 한다면 하루에 수백장도 라벨링 할 수 있지만, 세그맨테이션은 훨씬 오래 걸립니다.
라벨러에게 많은 돈을 주려고 하진 않지만, 최저 작업량은 보장되어 있기 때문에 빠르게 하면 일찍 퇴근할 수도 있습니다.
하루에 천 장씩 4명이 4주 동안 할 계획이다면 6주동안 하루에 300장씩 하겠구나 하는 마음가짐이 있어야 합니다.
깔끔하게 레이블링이 잘 되는 경우가 많지 않아서입니다.