상세검색

  • 이미지 유형

라이선스 유형

방송 음성 기반 말뭉치 원천데이터

데이터 유형
: 방송음성 텍스트
데이터 건수
: 10,000건

데이터 정보 요약 


1. 가이드 개요

 

 본 원천 데이터는 KBS미디어로부터 수급 된 시사교양 카테고리의 KBS 방송 영상으로부터 추

출된 음성을 텍스트로 변환한 말뭉치 데이터로, 상업적, 비상업적 용도에 관계없이 누구나 자

유롭게 사용이 가능합니다. 말뭉치 데이터를 나눈 기준은 비디오에서 장면이 바뀌었을 때 입

니다. 장면이란 동일한 이야기 주제를 갖는 단위로 정의 했습니다. , 주제가 다를 때 마다

다른 장면으로 분할했습니다.

 

 

본 가이드의 목적은 인공지능 모델 개발의 학습용 데이터 또는 텍스트 데이터 분석 등에 활용

할 수 있도록 공개된 원천 데이터의 구조와 각 항목별 의미를 설명하는데 있습니다.

 

 

2. 데이터 정보 개요

 

1) 데이터 명: 인공지능 자연어 처리를 위한 방송 음성 기반 말뭉치 원천데이터

 

2) 구축 데이터량: 18,541 장면, 2,292,785 글자

 

3) 원천 데이터 형식: txt(json), csv

 

4) 데이터 구축년도: 2022

 

5) 구축/가공기관: 데이터크러쉬 주식회사 / 검수기관: ()한국정보공학기술사회

 

6) 데이터 소개: 방송영상의 분할된 장면에서 추출된 음성을 텍스트로 변환한 말뭉치 데이터



3. 데이터 분포

 

 원시 방송 영상 프로그램의 구성: 241, 169.8시간

 

- 6시 내고향: 45, 44시간

 

- 걸어서 세계속으로: 45, 36.4시간

 

- 구석구석 대한민국 행복한 지도: 50, 23.8시간

 

- 김영철의 동네한바퀴: 13, 11.5시간

 

- 내고향 스페셜: 34, 27.4시간

 

- 영상앨범 산: 46, 20.2시간

 

- 한국인의 밥상: 5, 4시간

 

- 생로병사의 비밀: 3, 2.4시간


맨 위로