상세검색

  • 이미지 유형

라이선스 유형

한국형 이미지&텍스트 데이터

데이터 유형
: 이미지, 텍스트
데이터 건수
: 30,000건건

1. 데이터 활용 가이드라인 정보

 

1.1 데이터 정보 요약

 

- 인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 30,000건의 이미

 

&텍스트 데이터셋 구축

 

사업명

초거대 인공지능을 위한 한국형 저작물 이미지 구축

데이터 이름

한국형 이미지&텍스트 원천데이터

활용 분야

- 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 콘텐츠에 특성화

된 인공지능 모델 파인-튜닝

- 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능 데이터로 활용

데이터 요약

한국형 이미지&텍스트 원천데이터’ 3만 건 구성

- 이미지 데이터 : 국내 유명명소 야외 이미지(2만 건)+한국 문화(음식,정물) 이미지(9

천 건)+일상 이미지(1천 건)

- 텍스트 데이터 : 메타정보/라벨링 캡션 3만 건

데이터 출처

- 주식회사 데이터메이커

데이터 이력

배포버전

버전 1.0

개정이력

 

작성자 / 배포자

이에녹 / 주식회사 데이터메이커

 

 




1.2 데이터 포맷

 

- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데

 

이터셋을 JPGJSON 데이터로 구성하여 구축합

 

- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함

 

 

l 메타정보 데이터

 

목록

id

filename

category

date

device

format

width

height

gps

형식

num

string

string

string

string

string

num

num

string

예제

01

강릉솔향

수목원001

.jpg

랜드마크

2023:07:25

09:42:57

samsung_

SM-F926N

jpg

4000

2252

51.92448,

43.165439

설명

순번

파일 이름

촬영 장소

촬영 일자

촬영 기기

포맷

이미지

넓이

이미지

높이

촬영 좌표

 


맨 위로