상황별 한국어-영어 대화문 데이터
- 데이터 유형
- : 대화문 텍스트
- 데이터 건수
- : 1,000,000건
데이터 정보 요약
인공지능 학습, 모델 개발 등에 활용 가능한 저작권이 해결된 인공지능 원천데이터 100만 문장 구축
사업명 | 인공지능 원천데이터 나눔 지원사업 | |
데이터 이름 | 상황별 대화문 한국어 영어 원천데이터 구축 | |
활용 분야 | - 양질의 원천데이터 공개를 통한 K-데이터 산업 경쟁력 확대 및 인공지능 기반 시장 활성화 - 자연어처리 인공지능기술 고도화, 언어 및 대화의 추론/평가 등 연구자료로 활용 | |
데이터 요약 | - 상황별 대화문 한국어 영어 원천데이터 구성 : 50가지 이상의 상황 분류에 맞는 100만 문 장을 데이터 활용할 수 있도록 학습할 수 있는 데이터 구조로 생성하여 구축한 데이터 | |
데이터 출처 | - 솔트룩스이노베이션 | |
데이터 이력 | 배포버전 | 버전 1.0 |
개정이력 | 신규 | |
작성자/ 배포자 | 김영택 / ㈜솔트룩스이노베이션 |
데이터 포맷
수집된 원시 데이터를 체계적으로 정제하여, 불필요한 데이터를 제거하고 데이터 셋을 구축하는데
필요한 형태로 저장하며 엑셀과 JSON 형식으로 구성
- 원천데이터 엑셀 형식의 데이터는 문장별 정보를 행으로 나열함
- 데이터 형식은 순번과 텍스트 유형으로 구분하여 표기함
목록 | 구분 | 언어 | 대분류 | 중분류 | 말뭉치 순번 | 문장 순번 | 문장 ID | 화자I D | 문장 종류 | 본문 |
형식 | Text | Text | Text | Text | Num | Num | Num | Text | String | Text |
예제 | 원천 | 한국어 /영어 | 공항, 거리, 등 | 만남, 예약, 등 | 001 | 0000 01 | 1, 2, 3 등 | A, B, C | 질문/ 답변 | 안녕하세요? |
- 학습용 원천데이터는 '필수값 여부' 항목이 'Y'인 경우 학습데이터(JSON)에 필수 값(Value)이 반드시 존재해야 함
- 학습데이터 생성 (json 파일)시 원천데이터의 포맷과 동일한 '수준1,2,3', 동일한 항목 '순서'를 고려하여 생성이 필요함
데이터 구성
산출물 업로드 시 폴더명 구성을 설명과 예시를 통해 공유하고, 동일한 폴더구조로 산출물 및 파일을 관리하여야 하므로
개별 파일명의 명명 규칙에 따라 작성함
말뭉치 유형 구분 | 구축년도 | 언어분류 | 대분류 | 중분류 | 일련번호 (3자리) |
CD: Contextual dialog | 22 | 예) KO: 한국어 EN: 영어 | AP:공항 | 01:물품구매 02:기내음식 주문 | 001 |