상세검색

  • 이미지 유형

라이선스 유형

상황별 한국어-영어 대화문 데이터

데이터 유형
: 대화문 텍스트
데이터 건수
: 1,000,000건

데이터 정보 요약

 

인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 100만 문장 구축

 

사업명

인공지능 원천데이터 나눔 지원사업

데이터 이름

상황별 대화문 한국어 영어 원천데이터 구축

활용 분야

- 양질의 원천데이터 공개를 통한 K-데이터 산업 경쟁력 확대 및 인공지능 기반 시장 활성화

- 자연어처리 인공지능기술 고도화, 언어 및 대화의 추론/평가 등 연구자료로 활용

데이터 요약

- 상황별 대화문 한국어 영어 원천데이터 구성 : 50가지 이상의 상황 분류에 맞는 100만 문

장을 데이터 활용할 수 있도록 학습할 수 있는 데이터 구조로 생성하여 구축한 데이터

데이터 출처

- 솔트룩스이노베이션

데이터 이력

배포버전

버전 1.0

개정이력

신규

작성자/ 배포자

김영택 / 솔트룩스이노베이션



데이터 포맷

 

수집된 원시 데이터를 체계적으로 정제하여, 불필요한 데이터를 제거하고 데이터 셋을 구축하는데

 

필요한 형태로 저장하며 엑셀과 JSON 형식으로 구성

 

- 원천데이터 엑셀 형식의 데이터는 문장별 정보를 행으로 나열함

 

- 데이터 형식은 순번과 텍스트 유형으로 구분하여 표기함

 

 

목록

구분

언어

대분류

중분류

말뭉치

순번

문장

순번

문장

ID

화자I

D

문장

종류

본문

형식

Text

Text

Text

Text

Num

Num

Num

Text

String

Text

예제

원천

한국어

/영어

공항,

거리,

만남,

예약,

001

0000

01

1, 2,

3

A, B,

C

질문/

답변

안녕하세요?

 

 

 

- 학습용 원천데이터는 '필수값 여부' 항목이 'Y'인 경우 학습데이터(JSON)에 필수 값(Value)이 반드시 존재해야 함

 

- 학습데이터 생성 (json 파일)시 원천데이터의 포맷과 동일한 '수준1,2,3', 동일한 항목 '순서'를 고려하여 생성이 필요함




데이터 구성

 

산출물 업로드 시 폴더명 구성을 설명과 예시를 통해 공유하고, 동일한 폴더구조로 산출물 및 파일을 관리하여야 하므로 

개별 파일명의 명명 규칙에 따라 작성함

 

말뭉치 유형 구분

구축년도

언어분류

대분류

중분류

일련번호

(3자리)

CD:

Contextual

dialog

22

)

KO: 한국어

EN: 영어

AP:공항

01:물품구매

02:기내음식

주문

001

 



맨 위로