상세검색

  • 이미지 유형

라이선스 유형

한국적 웹툰 이미지 데이터

데이터 유형
: 이미지, 텍스트
데이터 건수
: 20,000건

데이터 정보 요약

인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 20,000건의 이미지&텍스트 데이터셋 구축



사업명

생성형 AI를 위한 한국적 웹툰 이미지 데이터 구축

데이터 이름

한국형 웹툰 이미지&텍스트 원천데이터

활용 분야

- 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 웹툰 콘텐츠에 특

성화된 인공지능 모델 파인-튜닝

- 웹툰 시장 내 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능

데이터로 활용

데이터 요약

한국형 이미지&텍스트 원천데이터’ 2만 건 구성

- 이미지 데이터 : 국내 명소 7,000(레이어)한국 음식 7,000(레이어) +한국 문

6,000(레이어)

- 텍스트 데이터 : 메타정보/라벨링 캡션 2만 건

데이터 출처

- 주식회사 데이터메이커

데이터 이력

배포버전

버전 1.0

개정이력

 

작성자 / 배포자

이에녹 / 주식회사 데이터메이커





데이터 포맷

- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데이터셋을 PNG와 JSON 데이터로 구성하여 구축함

- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함


구분

항목명

타입

필수구분

설명

비고

info_

img

id

string

필수

파일에 부여된 ID

 

filename

string

필수

원본 이미지 파일명

 

category

string

필수

데이터 유형 분류

이미지 주제

date

string

필수

이미지 제작 날짜

 

layer

string

필수

레이어 정보

콘티, 스케치,

채색(기본),

채색(명암), 배경

format

string

필수

이미지 포맷

png

width

string

필수

이미지 가로 길이

 

height

string

필수

이미지 세로 길이

 

tool

string

필수

저작도구

 

label

keyword

string

필수

원천데이터 키워드 명

태화루

caption

string

필수

이미지 설명문(캡션)

작성된 설명문

tag

list

필수

해시태그 값

태화루, 태극, 마루



데이터 구성
산출물 업로드 시 폴더명 구성을 설명과 예시를 통해 공유하고, 동일한 폴더구조로 산출물 및 파일을 관리하여야 하므로 개별 파일명의 명명 규칙에 따라 작성함

이미지 카테고리

파일 형태

1. 국내 명소

1. img

2. json

2. 한국 음식

3. 한국 문화






맨 위로