한국형 이미지&텍스트 데이터
- 데이터 유형
- : 이미지, 텍스트
- 데이터 건수
- : 30,000건
1. 데이터 활용 가이드라인 정보
1.1 데이터 정보 요약
- 인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 30,000건의 이미
지&텍스트 데이터셋 구축
사업명 | 초거대 인공지능을 위한 한국형 저작물 이미지 구축 | |
데이터 이름 | 한국형 이미지&텍스트 원천데이터 | |
활용 분야 | - 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 콘텐츠에 특성화 된 인공지능 모델 파인-튜닝 - 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능 데이터로 활용 | |
데이터 요약 | ‘한국형 이미지&텍스트 원천데이터’ 3만 건 구성 - 이미지 데이터 : 국내 유명명소 야외 이미지(2만 건)+한국 문화(음식,정물) 이미지(9 천 건)+일상 이미지(1천 건) - 텍스트 데이터 : 메타정보/라벨링 캡션 3만 건 | |
데이터 출처 | - 주식회사 데이터메이커 | |
데이터 이력 | 배포버전 | 버전 1.0 |
개정이력 | | |
작성자 / 배포자 | 이에녹 / 주식회사 데이터메이커 |
1.2 데이터 포맷
- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데
이터셋을 JPG와 JSON 데이터로 구성하여 구축합
- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함
l 메타정보 데이터
목록 | id | filename | category | date | device | format | width | height | gps |
형식 | num | string | string | string | string | string | num | num | string |
예제 | 01 | 강릉솔향 수목원001 .jpg | 랜드마크 | 2023:07:25 09:42:57 | samsung_ SM-F926N | jpg | 4000 | 2252 | 51.92448, 43.165439 |
설명 | 순번 | 파일 이름 | 촬영 장소 | 촬영 일자 | 촬영 기기 | 포맷 | 이미지 넓이 | 이미지 높이 | 촬영 좌표 |