데이터 라벨링이란?

데이터 라벨링에 대해 공부하는 중에 관련 내용을 정리해봤습니다.


데이터 라벨링이란?

데이터 라벨러의 필요

데이터 프라이버시 

민감한 개인정보가 포함된 데이터 라벨링에 대한 윤리적 우려가 존재함

- 주소, 전화번호, 이름

- 내부 건설 입찰자료를 알려주는 챗봇을 만들기로 했는데, 내부적으로 쓸 경우에는 개인정보는 지우지 않아도 된다.


효율성 향상

라벨링 작업의 자동화와 크라우드소싱을 통해 효율성과 생산성을 높여야 함

- 크라우드소싱을 통해 데이터 라벨러의 경험을 먼저 쌓아야 함

- 천만 장을 검수까지 해서 턴키로 제공하는 기업이 많아지고 있다.

- 크라우드소싱에 가입해서 일을 하고자 하는 사람에게 건당 20원 등으로 가장 먼저 시작할 수 있다.


품질 관리

대규모 데이터 라벨링에서 정확성과 일관성을 유지하는 것이 중요한 과제임

- 레이블러가 먼저고, 이후 검수자, 규칙 정하는 사람 순으로 올라간다.

- 기술이 쌓이면 관리자 급으로 올라가는 순이다.

- 레이블러는 기준을 잘 이해하고, 매번 달라지는 기준에 맞춰 작업하는 것이 중요


데이터 라벨링의 다양한 적용

텍스트 데이터

- 텍스트 데이터에는 문장 부호 추가, 개체명 인식, 감정 분석 등의 라벨링이 이루어짐
문장 부호 추가는 오탈자 수정
감정 분석은 1-5로 수치화할 수 있음

- 자연어 처리 모델 학습에 활용할 수 있음

오디오 데이터

- 오디오 데이터에서는 음성, 음향, 노이즈 등의 구간을 라벨링하여 음성 인식 및 음원 분리 모델 학습에 사용할 수 있음

비디오 데이터

- 비디오 데이터에서는 객체 탐지, 추적, 행동 인식 등을 위해 프레임 단위로 다양한 라벨링이 이루어짐
초당 24프레임인 영상, 60초라면 24 x 60 장의 이미지를 작업한다. 일일히 하지 않고 구간별로 끊어서 작업

3D 데이터

- 3D 포인트 클라우드 데이터에서는 세그먼테이션, 객체 탐지, 인스턴스 분할 등의 라벨링이 수행됨
- 자율 주행, 로봇 비전 등에 활용됨

데이터 라벨링




댓글 쓰기

다음 이전