인공지능 학습데이터 용어


⚫ 원시데이터 (Raw Data)

  기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터



⚫ 원천데이터 (Source Data, Unlabeled Data)

  원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 

  정제 작업을 수행한 데이터로 라벨링데이터가 부여되지 않은 상태의 데이터



⚫ 라벨링데이터 (Labeled Data)

  원천데이터에 부여한 ‘참값’, 파일형식이나 해상도 등의 속성, 그리고 설명이나 주석 등이 

  포함된 ‘어노테이션’의 집합


  

⚫ 인공지능 학습용 데이터 구축

  임무정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동



⚫ 데이터 획득 (Data Acquisition)

  인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 수집 또는 생성하거나, 

  이미 보유하고 있는 조직이나 시스템 등으로부터 법률적 제약이 없도록 ‘원시데이터’를 확보하는 활동



⚫ 데이터 정제 (Data Refinement)

  획득한 원시데이터를 기계학습에 필요한 형식으로 맞추거나 불필요한 중복을 제거하며, 

  개인정보를 비식별화하여 처리하는 등 일련의 전처리 과정을 통해 ‘원천데이터’를 확보하는 활동



⚫ 데이터 라벨링 (Data Labeling)

  인공지능이 기계학습에 활용할 수 있도록 기능이나 목적에 부합하는 정보를 원천데이터에 부착하는 활동



⚫ 참값 (Ground Truth)

  인공지능의 기계학습 목적에 따라 원천데이터에 라벨링된 정확한 값이나 

  사실의 의미적 표현

  

  

⚫ 어노테이션 (Annotation)

  데이터 라벨링 시 원천데이터에 주석을 표시하는 작업을 의미하며, 

  추가 부착되는 설명정보 데이터는 기능 목적에 따라 다양한 형태로 표현될 수 있으며

  이러한 설명정보 표현방식을 지칭

  ※ 용어사용 예 : 사물 바운딩박스 어노테이션, 클래스 라벨링 어노테이션 등



⚫ 광학문자인식 (OCR, Optical Character Recognition)

  사람이 쓰거나 기계로 인쇄한 문자의 영상을 기계가 읽을 수 있는 문자로 변환하는 것 

  

  (출처 : 인공지능 학습용 데이터 구축 안내서) 

  

  

  

  

  

이 블로그의 인기 게시물

선묵혜자스님 108산사  사찰 위치한 산명 리스트 사찰명

스탑오버 vs 레이오버 : 차이점?

폐가전제품 무상방문수거 서비스 E-순환거버넌스