真快!几分钟就把视频语音识别为文本了,不到10行代码


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大家好,我是风筝

两年前,将音视频文件转换为文字内容的需求难以实现,但是如今只需几分钟便可轻松解决。

据说一些公司为了获取训练数据,已经对抖音、快手等短视频平台上的视频进行了全面爬取,然后将视频中的音频提取出来转换成文本形式,用作大数据模型的训练语料。

如果您需要将视频或音频文件转换为文字,可以尝试今天提供的这个开源解决方案。例如,可以搜索*节目的对话出现的具体时间点。

话不多说,进入正题。

Whisper

这个方案就是 OpenAI 开源的 Whisper,当然是用 Python 写的了,只需要简单安装几个包,然后几行代码一写,稍等片刻(根据你的机器性能和音视频长度不一),最终的文本内容就出来了,就是这么简单。

GitHub 仓库地址:https://github.com/openai/whisper

Fast-Whisper

尽管已经相当简化,但对于程序员而言仍不够精简。毕竟,程序员们往往偏爱简洁高效。虽然安装和调用Whisper已经相对容易,但仍需要单独安装PyTorch、ffmpeg,甚至Rust。

因此,Fast-Whisper应运而生,它比Whisper更快速、更简洁。Fast-Whisper并非仅仅是对Whisper进行简单封装,而是通过采用CTranslate2重新构建了OpenAI的Whisper模型。CTranslate2是Transformer模型的一种高效推理引擎。

总结一下,也就是比 Whisper 更快,官方的说法是比 Whisper 快了 4-8 倍。不仅能支持 GPU ,还能支持 CPU,连我这台破 Mac 也能用。

GitHub 仓库地址:https://github.com/SYSTRAN/faster-whisper

使用起来就两步。

  1. 安装依赖包
pip install faster-whisper
  1. 写代码,
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

没错,就是这么简单。

能做什么呢

正好有个朋友想做短视频,发一些鸡汤文学的视频,鸡汤就来自于一些名家访谈的视频。但是,他又不想把完整的视频看一遍,就想用最快的方式把文本内容弄下来,然后读文字,因为读文字要比看一篇视频快的多,而且还可以搜索。

我就说,连完整的看一篇视频的虔诚之心都没有,能经营好账号吗。

于是我给他做了一个,就是用的 Fast-Whisper。

客户端

客户端用 Swift ,只支持 Mac 端。

  1. 选则一个视频;
  2. 然后点击「提取文本」,这时会调用 Python 接口,需要等待一段时间;
  3. 加载解析出的文本以及出现的开始、截止时间;
  4. 选了一个开始时间和一个结束事件;
  5. 点击「导出」按钮,视频片段就导出了;

,时长00:10

服务端

服务端当然就是 Python ,然后用 Flask 包装一下,对外放开接口。

from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segments_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)


# ffmpeg  # 还可以  # 有个  # 几个  # 我是  # 客户端  # 服务端  # 开源  # 音视频  # 这么简单  # 转换为  # whisper  # pytorch  # https  # transformer  # github  # 事件  # 接口  # 封装  # flask  # rust  # swift  # Python  # 抖音 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: DeepSeek V3 本地部署对硬件要求的详细说明  C3.ai深度解析:投资者必知的关键洞察  ClickUp AI Agents:项目管理的革命性突破  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  AI绘图工具测评:告别复杂流程,高效创作流程图  Straico团队案例研究:AI赋能,效率提升的秘诀  一键生成PPT工具怎么用_一键生成PPT工具使用方法详细指南【教程】  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】  动态规划解题:攀登楼梯的独特方法与技巧  Vidu AI:使用Q1模型轻松创建电影级短片  深入解析音视频转录:全面指南与实践技巧  AI威胁论:超人工智能ASI时代来临,人类如何应对?  普通人如何用DeepSeek月入过万?2026最新赚钱路径全解析!  如何用AI根据职位描述(JD)定制你的求职信?  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  终极游戏工作站:帝王蝎椅沉浸式体验评测  千问如何切换回答风格_千问风格选择正式口语等【实操】  ChatGPT 4.0赋能室内设计:20+实用技巧提升工作效率  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  AI电影制作:颠覆传统,引领未来*新纪元  谷歌 Nano Banana:免费AI图像生成的强大工具  lovemo网页版直接进入 lovemo官网在线登录  宗教领袖影响力反思:警惕精神控制与信仰危机  看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误  Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】  百度AI助手在线体验入口 最新版免费试用入口  MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式  Gemini怎样用快捷指令_Gemini快捷指令使用教程【步骤】  AI图像识别如何减少保险欺诈和加速理赔  蚂蚁阿福官方网站入口_网页版在线解读体检报告  如何用文心一言写简历 快速生成高含金量求职简历方法  Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图  XRAI Glass:AI赋能的增强现实眼镜,对话新体验  提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置  揭秘颜值真相:社交实验的背后,你是几分?  AI音频增强和视频背景替换终极指南  DeepSeek 辅助进行硬件描述语言 Verilog 调试  ChatGPT怎么设置中文界面_ChatGPT中文设置步骤【方法】  揭秘面部和谐:打造完美脸型的终极指南  AI赋能副业:五大掘金机会,轻松开启智能创收时代  ChatGPT 提示词工程:结构化指令编写指南  研究学者如何利用现有资源提升学术影响力  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  韵律分析:为什么理解音乐歌词的韵式至关重要?  轻松生成二维码:免费AI工具终极指南  PixianAI抠图怎么修复瑕疵_PixianAI瑕疵修复与手动涂抹工具【步骤】  AI合同提取指南:利用智能实现高效采购和节省成本  如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】  寻宝者的发现:古董探测与文物挖掘揭秘  AI Vibe Coding: 快速打造落地页,低代码平台实战教程 

 2024-02-27

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.