인공지능 학습데이터 용어
⚫ 원시데이터 (Raw Data)
기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터
⚫ 원천데이터 (Source Data, Unlabeled Data)
원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등
정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터
⚫ 라벨링데이터 (Labeled Data)
원천데이터에 부여한 ‘참값’, 파일형식이나 해상도 등의 속성, 그리고 설명이나 주석 등이
포함된 ‘어노테이션’의 집합
⚫ 인공지능 학습용 데이터 구축
임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동
⚫ 데이터 획득 (Data Acquisition)
인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 수집 또는 생성하거나,
이미 보유하고 있는 조직이나 시스템 등으로부터 법률적 제약이 없도록 ‘원시데이터’를 확보하는 활동
⚫ 데이터 정제 (Data Refinement)
획득한 원시데이터를 기계학습에 필요한 형식으로 맞추거나 불필요한 중복을 제거하며,
개인정보를 비식별화하여 처리하는 등 일련의 전처리 과정을 통해 ‘원천데이터’를 확보하는 활동
⚫ 데이터 라벨링 (Data Labeling)
인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동
⚫ 참값 (Ground Truth)
인공지능의 기계학습 목적에 따라 원천데이터에 라벨링된 정확한 값이나
사실의 의미적 표현
⚫ 어노테이션 (Annotation)
데이터 라벨링 시 원천데이터에 주석을 표시하는 작업을 의미하며,
추가 부착되는 설명정보 데이터는 기능 목적에 따라 다양한 형태로 표현될 수 있으며
이러한 설명정보 표현방식을 지칭
※ 용어사용 예 : 사물 바운딩박스 어노테이션, 클래스 라벨링 어노테이션 등
⚫ 광학문자인식 (OCR, Optical Character Recognition)
사람이 쓰거나 기계로 인쇄한 문자의 영상을 기계가 읽을 수 있는 문자로 변환하는 것
(출처 : 인공지능 학습용 데이터 구축 안내서)