인공지능 원천데이터

한국적 웹툰 이미지 데이터

데이터 정보 요약

인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 20,000건의 이미지&텍스트 데이터셋 구축

사업명	생성형 AI를 위한 한국적 웹툰 이미지 데이터 구축
데이터 이름	한국형 웹툰 이미지&텍스트 원천데이터
활용 분야	- 국내 환경에 맞는 양질의 한국형 원천데이터 활용을 통한 한국형 웹툰 콘텐츠에 특 성화된 인공지능 모델 파인-튜닝 - 웹툰 시장 내 한국형 초거대 인공지능 모델 고도화, VQA분야 실서비스 활용 가능 데이터로 활용
데이터 요약	‘한국형 이미지&텍스트 원천데이터’ 2만 건 구성 - 이미지 데이터 : 국내 명소 7,000장(레이어)＋한국 음식 7,000장(레이어) +한국 문 화 6,000장(레이어) - 텍스트 데이터 :　메타정보/라벨링 캡션 2만 건
데이터 출처	- 주식회사 데이터메이커
데이터 이력	배포버전	버전 1.0
	개정이력
	작성자 / 배포자	이에녹 / 주식회사 데이터메이커

데이터 포맷

- 수집된 원시 데이터(이미지)를 정제 및 선별하고 텍스트 데이터 라벨링을 수행하여 이미지&텍스트 데이터셋을 PNG와 JSON 데이터로 구성하여 구축함

- JSON 데이터 형식은 하기와 같이 목록별 정보를 나열함

데이터 구성

산출물 업로드 시 폴더명 구성을 설명과 예시를 통해 공유하고, 동일한 폴더구조로 산출물 및 파일을 관리하여야 하므로 개별 파일명의 명명 규칙에 따라 작성함