한국적 웹툰 이미지 데이터
- 데이터 유형
- : 이미지, 텍스트
- 데이터 건수
- : 20,000건
데이터 정보 요약
인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 20,000건의 이미지&텍스트 데이터셋 구축
사업명 | 생성형 AI를 위한 한국적 웹툰 이미지 데이터 구축 | |
데이터 이름 | 한국형 웹툰 이미지&텍스트 원천데이터 | |
활용 분야 | - 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 웹툰 콘텐츠에 특 성화된 인공지능 모델 파인-튜닝 - 웹툰 시장 내 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능 데이터로 활용 | |
데이터 요약 | ‘한국형 이미지&텍스트 원천데이터’ 2만 건 구성 - 이미지 데이터 : 국내 명소 7,000장(레이어)+한국 음식 7,000장(레이어) +한국 문 화 6,000장(레이어) - 텍스트 데이터 : 메타정보/라벨링 캡션 2만 건 | |
데이터 출처 | - 주식회사 데이터메이커 | |
데이터 이력 | 배포버전 | 버전 1.0 |
개정이력 | | |
작성자 / 배포자 | 이에녹 / 주식회사 데이터메이커 |
데이터 포맷
- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데이터셋을 PNG와 JSON 데이터로 구성하여 구축함
- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함
구분 | 항목명 | 타입 | 필수구분 | 설명 | 비고 |
info_ img | id | string | 필수 | 파일에 부여된 ID | |
filename | string | 필수 | 원본 이미지 파일명 | | |
category | string | 필수 | 데이터 유형 분류 | 이미지 주제 | |
date | string | 필수 | 이미지 제작 날짜 | | |
layer | string | 필수 | 레이어 정보 | 콘티, 스케치, 채색(기본), 채색(명암), 배경 | |
format | string | 필수 | 이미지 포맷 | png | |
width | string | 필수 | 이미지 가로 길이 | | |
height | string | 필수 | 이미지 세로 길이 | | |
tool | string | 필수 | 저작도구 | | |
label | keyword | string | 필수 | 원천데이터 키워드 명 | 태화루 |
caption | string | 필수 | 이미지 설명문(캡션) | 작성된 설명문 | |
tag | list | 필수 | 해시태그 값 | 태화루, 태극, 마루 |
이미지 카테고리 | 파일 형태 |
1. 국내 명소 | 1. img 2. json |
2. 한국 음식 | |
3. 한국 문화 |