☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
大家好,我是风筝
两年前,将音视频文件转换为文字内容的需求难以实现,但是如今只需几分钟便可轻松解决。
据说一些公司为了获取训练数据,已经对抖音、快手等短视频平台上的视频进行了全面爬取,然后将视频中的音频提取出来转换成文本形式,用作大数据模型的训练语料。
如果您需要将视频或音频文件转换为文字,可以尝试今天提供的这个开源解决方案。例如,可以搜索*节目的对话出现的具体时间点。
话不多说,进入正题。
这个方案就是 OpenAI 开源的 Whisper,当然是用 Python 写的了,只需要简单安装几个包,然后几行代码一写,稍等片刻(根据你的机器性能和音视频长度不一),最终的文本内容就出来了,就是这么简单。
GitHub 仓库地址:https://github.com/openai/whisper
尽管已经相当简化,但对于程序员而言仍不够精简。毕竟,程序员们往往偏爱简洁高效。虽然安装和调用Whisper已经相对容易,但仍需要单独安装PyTorch、ffmpeg,甚至Rust。
因此,Fast-Whisper应运而生,它比Whisper更快速、更简洁。Fast-Whisper并非仅仅是对Whisper进行简单封装,而是通过采用CTranslate2重新构建了OpenAI的Whisper模型。CTranslate2是Transformer模型的一种高效推理引擎。
总结一下,也就是比 Whisper 更快,官方的说法是比 Whisper 快了 4-8 倍。不仅能支持 GPU ,还能支持 CPU,连我这台破 Mac 也能用。
GitHub 仓库地址:https://github.com/SYSTRAN/faster-whisper
使用起来就两步。
pip install faster-whisper
from faster_whisper import WhisperModelmodel_size = "large-v3"# Run on GPU with FP16model = WhisperModel(model_size, device="cuda", compute_type="float16")# or run on GPU with INT8# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")# or run on CPU with INT8# model = WhisperModel(model_size, device="cpu", compute_type="int8")segments, info = model.transcribe("audio.mp3", beam_size=5)print("Detected language '%s' with probability %f" % (info.language, info.language_probability))for segment in segments:print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
没错,就是这么简单。
正好有个朋友想做短视频,发一些鸡汤文学的视频,鸡汤就来自于一些名家访谈的视频。但是,他又不想把完整的视频看一遍,就想用最快的方式把文本内容弄下来,然后读文字,因为读文字要比看一篇视频快的多,而且还可以搜索。
我就说,连完整的看一篇视频的虔诚之心都没有,能经营好账号吗。
于是我给他做了一个,就是用的 Fast-Whisper。
客户端用 Swift ,只支持 Mac 端。
,时长00:10
服务端当然就是 Python ,然后用 Flask 包装一下,对外放开接口。
from flask import Flask, request, jsonifyfrom faster_whisper import WhisperModelapp = Flask(__name__)model_size = "large-v2"model = WhisperModel(model_size, device="cpu", compute_type="int8")@app.route('/transcribe', methods=['POST'])def transcribe():# Get the file path from the requestfile_path = request.json.get('filePath')# Transcribe the filesegments, info = model.transcribe(file_path, beam_size=5, initial_prompt="简体")segments_copy = []with open('segments.txt', 'w') as file:for segment in segments:line = "%.2fs|%.2fs|[%.2fs -> %.2fs]|%s" % (segment.start, segment.end, segment.start, segment.end, segment.text)segments_copy.append(line)file.write(line + '\n')# Prepare the responseresponse_data = {"language": info.language,"language_probability": info.language_probability,"segments": []}for segment in segm
ents_copy:response_data["segments"].append(segment)return jsonify(response_data)if __name__ == '__main__':app.run(debug=False)
# ffmpeg
# 还可以
# 有个
# 几个
# 我是
# 客户端
# 服务端
# 开源
# 音视频
# 这么简单
# 转换为
# whisper
# pytorch
# https
# transformer
# github
# 事件
# 接口
# 封装
# flask
# rust
# swift
# Python
# 抖音
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
DeepSeek V3 本地部署对硬件要求的详细说明
C3.ai深度解析:投资者必知的关键洞察
ClickUp AI Agents:项目管理的革命性突破
AI猫咪视频创作指南:轻松打造百万级YouTube Shorts
AI绘图工具测评:告别复杂流程,高效创作流程图
Straico团队案例研究:AI赋能,效率提升的秘诀
一键生成PPT工具怎么用_一键生成PPT工具使用方法详细指南【教程】
lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】
动态规划解题:攀登楼梯的独特方法与技巧
Vidu AI:使用Q1模型轻松创建电影级短片
深入解析音视频转录:全面指南与实践技巧
AI威胁论:超人工智能ASI时代来临,人类如何应对?
普通人如何用DeepSeek月入过万?2026最新赚钱路径全解析!
如何用AI根据职位描述(JD)定制你的求职信?
AI聊天机器人:朋友还是谄媚者?深度解析与实用建议
终极游戏工作站:帝王蝎椅沉浸式体验评测
千问如何切换回答风格_千问风格选择正式口语等【实操】
ChatGPT 4.0赋能室内设计:20+实用技巧提升工作效率
暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活
AI电影制作:颠覆传统,引领未来*新纪元
谷歌 Nano Banana:免费AI图像生成的强大工具
lovemo网页版直接进入 lovemo官网在线登录
宗教领袖影响力反思:警惕精神控制与信仰危机
看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误
Midjourney怎么用一键生成壁纸_Midjourney壁纸生成教程【教程】
百度AI助手在线体验入口 最新版免费试用入口
MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式
Gemini怎样用快捷指令_Gemini快捷指令使用教程【步骤】
AI图像识别如何减少保险欺诈和加速理赔
蚂蚁阿福官方网站入口_网页版在线解读体检报告
如何用文心一言写简历 快速生成高含金量求职简历方法
Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图
XRAI Glass:AI赋能的增强现实眼镜,对话新体验
提升Fortnite OG游戏性能:NVIDIA控制面板最佳设置
揭秘颜值真相:社交实验的背后,你是几分?
AI音频增强和视频背景替换终极指南
DeepSeek 辅助进行硬件描述语言 Verilog 调试
ChatGPT怎么设置中文界面_ChatGPT中文设置步骤【方法】
揭秘面部和谐:打造完美脸型的终极指南
AI赋能副业:五大掘金机会,轻松开启智能创收时代
ChatGPT 提示词工程:结构化指令编写指南
研究学者如何利用现有资源提升学术影响力
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
韵律分析:为什么理解音乐歌词的韵式至关重要?
轻松生成二维码:免费AI工具终极指南
PixianAI抠图怎么修复瑕疵_PixianAI瑕疵修复与手动涂抹工具【步骤】
AI合同提取指南:利用智能实现高效采购和节省成本
如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】
寻宝者的发现:古董探测与文物挖掘揭秘
AI Vibe Coding: 快速打造落地页,低代码平台实战教程
2024-02-27
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。