방송 음성 기반 말뭉치 원천데이터 2
- 데이터 유형
- : 영상
- 데이터 건수
- : 44.470건
1. 가이드 개요
본 원천 데이터는 KBS미디어로부터 수급 된 시사교양 카테고리의 KBS 방송 영상으로부터 추출된 음성을 텍스트로 변환한 말뭉치 데이터로, 상업적, 비상업적 용도에 관계없이 누구나 자유롭게 사용이 가능합니다.
본 가이드의 목적은 인공지능 모델 개발의 학습용 데이터 또는 텍스트 데이터 분석 등에 활용할 수 있도록 공개된 원천 데이터의 구조와 각 항목별 의미를 설명하는데 있습니다.
2. 데이터 정보 개요
1) 데이터 명: AI 자연어 처리를 위한 전문분야 방송음성 기반 말뭉치 원천데이터
2) 구축 데이터량: 44.470 장면
3) 원천 데이터 형식: txt(json), csv
4) 데이터 구축년도: 2023년
5) 구축/가공기관: 데이터크러쉬 주식회사 / 검수기관: (사)한국정보공학기술사회
6) 데이터 소개: 방송영상의 분할된 장면에서 추출된 음성을 텍스트로 변환한 말뭉치 데이터