环球新消息丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

2023-04-25 10:44:23来源：腾讯云

试想一下，当我们在观看一段视频时，如果遇上字幕缺失，观感是不是会大打折扣？

近些年，短视频、直播等线上娱乐方式快速发展，直接拉动了旅游、电商、影视创作等行业新风潮；而要呈现出一段好的视频效果，不仅仅考验好的拍摄技法，后期处理也是重中之重。以视频字幕为例，有字幕的视频总能“一气呵成”的顺畅看完，而无字幕的，总令人觉得缺失了一种味道。事实上，纯手工添加字幕，也费时费力，面对较大时长与批量化字幕处理的，多少有些苦不堪言，那有没有更智能化的方式呢？

接下来，本文将分享一下，如何借助录音文件识别服务给无字幕视频自动生成字幕。

(资料图)

一、分析调研

给无字幕视频自动生成字幕，其实就是先对视频文件导出的音频文件进行识别，得到识别文字，再根据识别得到的文字与短句的时间信息处理得到视频srt字幕文件，在视频文件中导入srt字幕文件即可得到效果。

实现思路如下：

1.借助ffmpeg从视频中提取音频

2.调用录音文件识别服务，对音频文件进行识别

3.对识别得到的文字与短句的时间信息进行处理得到视频srt字幕文件

4.将命名相同的视频文件与srt文件放在同一目录下，用暴风影音或其他播放器打开，即可得到有字幕的视频。

二、代码开发

1.借助ffmpeg从视频中提取音频

项目使用了ffmpeg依赖，需先下载安装，并设置环境变量。之后就可通过引入subprocess库，执行ffmpeg命令，启动一个新进程，完成对音频的提取。

import subprocessdef extract_audio(video, tmpAudio):ret = subprocess.run("ffmpeg -version", shell=True)if ret.returncode != 0:print("请先安装 ffmpeg 依赖 ，并设置环境变量")returnret = subprocess.check_call(["ffmpeg", "-i", video, "-vn", "-ar", "16000", tmpAudio], shell=False)if ret.returncode != 0:print("error:", ret)

2.识别音频文件

在这里笔者选择的录音文件识别服务是腾讯云ASR的录音文件识别，通过调研，腾讯云的录音文件识别，可以在调用时直接根据语句之间的停顿智能断句、加标点，无需再调用其他接口进行语句拆分，同时返回结果数据也可根据不同需求进行多种选择，如是否过滤脏词、是否过滤语气词等。

服务具体详细信息这里不再赘述，详情见官方文档见腾讯云ASR。

(1)要访问腾讯云的服务，则需要SecertId与SecretKey，该API密钥可在API密钥管理页面新建与查询，稍后配置到config文件中即可。

笔者项目配置在tencent/config.py当中

class Config(object):OUTPUT_PATH = "/XXX/video-srt/audio/" #输出文件目录APP_ID = "******" # 对应上述APPIDSECRET_ID = "******" # 对应上述SecretIdSECRET_KEY = "******" # 对应上述SecretKey

(2)使用官网提供的sdk

找到腾讯云语音识别服务下的录音文件识别的API文档，滑动到下方，找到开发者资源，这里笔者选择调用Python SDK。

可以看到录音文件识别是个异步服务，可通过CreateRecTask接口发送录音文件识别请求，之后可通过DescribeTaskStatus接口查询识别结果。

笔者项目中函数create_rec、函数query_rec_task分别对CreateRecTask接口和DescribeTaskStatus接口进行了封装。详细介绍如下：

CreateRecTask：

在请求时除需传入EngineModelType（引擎模型类型）、ChannelNum（识别声道数）、ResTextFormat（识别结果返回形式）、SourceType（语音数据来源）等这些必选参数外，还可根据需要传入FilterDirty（是否过滤脏词）、FilterModal（是否过滤语气词）等参数。

该请求成功后将返回RequestId、TaskId等信息。

def create_rec(engine_type, file_url):client = create_client(Config.SECRET_ID, Config.SECRET_KEY)req = models.CreateRecTaskRequest()params = {"ChannelNum": 1, "ResTextFormat": 2, "SourceType": 0, "ConvertNumMode": 1}req._deserialize(params)req.EngineModelType = engine_typereq.Url = file_urltry:resp = client.CreateRecTask(req)logger.info(resp)requesid = resp.RequestIdtaskid = resp.Data.TaskIdreturn requesid, taskidexcept Exception as err:logger.info(traceback.format_exc())return None, None

这里需要注意两个参数：

一是，ResTextFormat。识别结果返回形式有三种，这里笔者因在后续生成srt文件时，还根据单句识别结果的标点进行了一层分隔，所以选用了“词级别粒度的详细识别结果(包含标点、语速值)”的形式，若是不需要多一层划分，可直接选用“识别结果文本(含分段时间戳)”的形势。

二是，SourceType。语音数据来源分为两种，分别是语音 URL和语音数据（post body），笔者这里选用的是语音 URL，具体实现为，将本地音频上传到腾讯云的cos存储桶中，则语音URL为固定地址+音频文件名，即可实现调用。也可通过其他方式得到音频的url。

import subprocessdef upload_file(tmpAudio):objectName = tmpAudio.split("/")[-1]ret = subprocess.run(["coscmd", "-s", "upload", tmpAudio, objectName], shell=False)if ret.returncode != 0:print("error:", ret)

DescribeTaskStatus：

在请求时需传入TaskId。

该请求成功后将返回RequestId和识别结果。

def query_rec_task(taskid):client = create_client(Config.SECRET_ID, Config.SECRET_KEY)req = models.DescribeTaskStatusRequest()params = "{"TaskId":" + str(taskid) + "}"req.from_json_string(params)result = ""while True:try:resp = client.DescribeTaskStatus(req)resp_json = resp.to_json_string()logger.info(resp_json)resp_obj = json.loads(resp_json)if resp_obj["Data"]["StatusStr"] == "success":result = resp_obj["Data"]["ResultDetail"]breakif resp_obj["Data"]["Status"] == 3:return False, ""time.sleep(1)except TencentCloudSDKException as err:logger.info(err)return False, ""return True, result

这里笔者将根据ResultDetail的信息生成srt文件，所以函数query_rec_task的返回值为DescribeTaskStatus接口返回的data中的ResultDetail。

3.处理识别结果生成srt字幕文件

笔者这里生成的srt文件除了根据调用接口已自动划分的句子进行时间的标注外，当自动划分的句子的长度较长时，还会根据当前句子的标点，结合ResultDetail中的OffsetEndMs、StartMs、EndMs等信息对句子进行再一次分割，避免字幕一行展示过多的情况。

def to_srt(src_txt):flag_word = ["。", "？", "！", "，"]basic_line = 15srt_txt = ""count = 1    for i in range(len(src_txt)):        current_sentence = src_txt[i]["FinalSentence"]        last_time = ms_to_hours(src_txt[i]["StartMs"])        len_rec = len(current_sentence)        if len_rec > basic_line:            start_rec = 0            last_time = ms_to_hours(src_txt[i]["StartMs"])             while(len_rec > basic_line):                flag = True                for j in flag_word:                     if j in current_sentence[start_rec:start_rec+basic_line]:                          loc_rec = current_sentence.index(j, start_rec, start_rec+basic_line) + 1                         flag = False                        break                if flag:                    loc_rec = start_rec + basic_line                current_txt = current_sentence[start_rec:loc_rec] + "\n"                 start_time = last_time                end_time = ms_to_hours(src_txt[i]["Words"][loc_rec]["OffsetEndMs"]+src_txt[i]["StartMs"])                if current_sentence[start_rec:] != "" and current_sentence[start_rec:] != None:                    srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_txt + "\n"                    count += 1                start_rec = loc_rec                last_time = end_time                len_rec = len(current_sentence[loc_rec:])            current_txt = current_sentence[start_rec:] + "\n"            start_time = last_time            end_time = ms_to_hours(src_txt[i]["EndMs"])            if current_sentence[start_rec:] != "" and current_sentence[start_rec:] != None:                srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_txt + "\n"                count += 1        else:            start_time = last_time            end_time = ms_to_hours(src_txt[i]["EndMs"])            srt_txt = srt_txt + str(count) + "\n" + start_time + "-->" + end_time + "\n" + current_sentence + "\n"+"\n"            count += 1return srt_txt

这里srt文件最终生成的位置与Config文件中的OUTPUT_PATH相关。

4.得到有字幕的视频。

(1)原视频文件的名称需与srt文件相同

(2)选择打开方式

(3)有字幕的视频

至此，给无字幕视频生成字幕已经实现，完整工程代码放在附录中，除去修改一些配置，使用起来较为简便，欢迎感兴趣的同学前来使用！

附录

工程代码：https://github.com/ForestSkyzzx/video-srt

腾讯云智能录音文件识别：https://cloud.tencent.com/product/asr

标签：

资源

七旬老人百本剪报册见证铁路百年变迁

用心品尝，残疾人在这家黑暗餐厅寻找“光明”

安全隐患巨大，拿什么遏制电动自行车改装乱象？

男子买三千辆车再打折转卖不付尾款被批捕，涉案逾1.6亿元

79岁老人取快递时猝死，快递公司“符合流程”就够了？

环球新消息丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

一、分析调研

二、代码开发

1.借助ffmpeg从视频中提取音频

2.识别音频文件

3.处理识别结果生成srt字幕文件

4.得到有字幕的视频。

附录

资源

课程

百科词典中国与马尔代夫的时差

知识籍贯是什么意思是出生地还是老家

仓储物流“成渝圈”如何乘势而上？

时隔三千年的再次相遇！两件西周青铜簋成功配对

“医保砍价”不是一个人在战斗

“购物成瘾”真的是一种病……何种程度算成瘾？

稻城海拔4000多米无人区辅警通宵搜救失联男子

追凶15年！成都警方破获部督特大命案积案

一批反映南京大屠杀历史的新书发布

电影《亲爱的》里面没有的结局，在我眼前“上映”

睡眠障碍成现代人健康隐患 57%失眠人听助眠音乐

老年教育面临缺口：老年大学常常“一座难求”

孙海洋被拐14年儿子如何找到的？线索来自另一起案件

北京天文馆、圆明园将对未成年人免费开放

今年全国粮食总产量再创新高连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类赶快学起来！

没人应该被放弃！医保目录公布那天，好多家长哭了

抖音“窗花剪剪”特效遭抄袭被判获赔20万元

失散十几年 3组家庭终于团圆了

2021年度十大网络用语发布

北京天文馆向未成年人免费开放

2021北京百个网红打卡地发布

环球新消息丨AI最佳实践｜用腾讯云录音文件识别让无字幕视频自动生成字幕

一、分析调研

二、代码开发

1.借助ffmpeg从视频中提取音频

2.识别音频文件

3.处理识别结果生成srt字幕文件

4.得到有字幕的视频。

附录

资源

课程

百科词典 中国与马尔代夫的时差

知识 籍贯是什么意思是出生地还是老家

仓储物流“成渝圈”如何乘势而上？

时隔三千年的再次相遇！两件西周青铜簋成功配对

“医保砍价”不是一个人在战斗

“购物成瘾”真的是一种病……何种程度算成瘾？

稻城海拔4000多米无人区 辅警通宵搜救失联男子

追凶15年！成都警方破获部督特大命案积案

一批反映南京大屠杀历史的新书发布

电影《亲爱的》里面没有的结局，在我眼前“上映”

睡眠障碍成现代人健康隐患 57%失眠人听助眠音乐

老年教育面临缺口：老年大学常常“一座难求”

孙海洋被拐14年儿子如何找到的？线索来自另一起案件

北京天文馆、圆明园将对未成年人免费开放

今年全国粮食总产量再创新高 连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类 赶快学起来！

没人应该被放弃！医保目录公布那天，好多家长哭了

抖音“窗花剪剪”特效遭抄袭 被判获赔20万元

失散十几年 3组家庭终于团圆了

2021年度十大网络用语发布

北京天文馆向未成年人免费开放

2021北京百个网红打卡地发布

百科词典中国与马尔代夫的时差

知识籍贯是什么意思是出生地还是老家

稻城海拔4000多米无人区辅警通宵搜救失联男子

今年全国粮食总产量再创新高连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类赶快学起来！

抖音“窗花剪剪”特效遭抄袭被判获赔20万元