방송 음성 기반 말뭉치 원천데이터
- 데이터 유형
- : 방송음성 텍스트
- 데이터 건수
- : 10,000건
데이터 정보 요약
1. 가이드 개요
본 원천 데이터는 KBS미디어로부터 수급 된 시사교양 카테고리의 KBS 방송 영상으로부터 추
출된 음성을 텍스트로 변환한 말뭉치 데이터로, 상업적, 비상업적 용도에 관계없이 누구나 자
유롭게 사용이 가능합니다. 말뭉치 데이터를 나눈 기준은 비디오에서 장면이 바뀌었을 때 입
니다. 장면이란 동일한 이야기 주제를 갖는 단위로 정의 했습니다. 즉, 주제가 다를 때 마다
다른 장면으로 분할했습니다.
본 가이드의 목적은 인공지능 모델 개발의 학습용 데이터 또는 텍스트 데이터 분석 등에 활용
할 수 있도록 공개된 원천 데이터의 구조와 각 항목별 의미를 설명하는데 있습니다.
2. 데이터 정보 개요
1) 데이터 명: 인공지능 자연어 처리를 위한 방송 음성 기반 말뭉치 원천데이터
2) 구축 데이터량: 18,541 장면, 2,292,785 글자
3) 원천 데이터 형식: txt(json), csv
4) 데이터 구축년도: 2022년
5) 구축/가공기관: 데이터크러쉬 주식회사 / 검수기관: (사)한국정보공학기술사회
6) 데이터 소개: 방송영상의 분할된 장면에서 추출된 음성을 텍스트로 변환한 말뭉치 데이터
3. 데이터 분포
원시 방송 영상 프로그램의 구성: 총 241편, 169.8시간
- 6시 내고향: 45편, 44시간
- 걸어서 세계속으로: 45편, 36.4시간
- 구석구석 대한민국 행복한 지도: 50편, 23.8시간
- 김영철의 동네한바퀴: 13편, 11.5시간
- 내고향 스페셜: 34편, 27.4시간
- 영상앨범 산: 46편, 20.2시간
- 한국인의 밥상: 5편, 4시간
- 생로병사의 비밀: 3편, 2.4시간