인공지능 원천데이터

한국형 이미지&텍스트 데이터

1. 데이터 활용 가이드라인 정보

1.1 데이터 정보 요약

- 인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 30,000건의 이미

지&텍스트 데이터셋 구축

사업명	초거대 인공지능을 위한 한국형 저작물 이미지 구축
데이터 이름	한국형 이미지&텍스트 원천데이터
활용 분야	- 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 콘텐츠에 특성화 된 인공지능 모델 파인-튜닝 - 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능 데이터로 활용
데이터 요약	‘한국형 이미지&텍스트 원천데이터’ 3만 건 구성 - 이미지 데이터 : 국내 유명명소 야외 이미지(2만 건)+한국 문화(음식,정물) 이미지(9 천 건)+일상 이미지(1천 건) - 텍스트 데이터 :　메타정보/라벨링 캡션 3만 건
데이터 출처	- 주식회사 데이터메이커
데이터 이력	배포버전	버전 1.0
	개정이력
	작성자 / 배포자	이에녹 / 주식회사 데이터메이커

1.2 데이터 포맷

- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데

이터셋을 JPG와 JSON 데이터로 구성하여 구축합

- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함

l 메타정보 데이터