상세검색

  • 이미지 유형

라이선스 유형

방송 음성 기반 말뭉치 원천데이터 2

데이터 유형
: 영상
데이터 건수
: 44.470 개건

1. 가이드 개요


 본 원천 데이터는 KBS미디어로부터 수급 된 시사교양 카테고리의 KBS 방송 영상으로부터 추출된 음성을 텍스트로 변환한 말뭉치 데이터로, 상업적, 비상업적 용도에 관계없이 누구나 자유롭게 사용이 가능합니다.

본 가이드의 목적은 인공지능 모델 개발의 학습용 데이터 또는 텍스트 데이터 분석 등에 활용할 수 있도록 공개된 원천 데이터의 구조와 각 항목별 의미를 설명하는데 있습니다.

 

 

2. 데이터 정보 개요

 

1) 데이터 명: AI 자연어 처리를 위한 전문분야 방송음성 기반 말뭉치 원천데이터

 

2) 구축 데이터량: 44.470 장면

 

3) 원천 데이터 형식: txt(json), csv

 

4) 데이터 구축년도: 2023

 

5) 구축/가공기관: 데이터크러쉬 주식회사 / 검수기관: ()한국정보공학기술사회

 

6) 데이터 소개: 방송영상의 분할된 장면에서 추출된 음성을 텍스트로 변환한 말뭉치 데이터

맨 위로