Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。
Deepfakes Creator,可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。
VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。
谷歌研究院开发的基于空间时间的文本到视频扩散模型。采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,确保了生成视频的连贯性和逼真度。
EasyPhoto是一个用于生成AI肖像的Webui UI插件,可以用来训练与你相关的数字化替身。
Comflowy社区开箱即用的 Comfy UI 整合包 一键安装,小白也能轻松上手。
有了 Notebook CoPilot,开发笔记本的过程变得更加容易。这个简单的工具可以毫不费力地根据您的输入生成代码和 Markdown 单元格,从而显着简化您的工作流程。
一个充满无限可能的AI互动世界。在这里,您将体验到前所未有的智能对话伙伴,他们不仅能够与您进行深入的交流,还能在您的生活、工作和娱乐中扮演重要角色。
Video Enhance AI是一款专门针对视频的增强工具,采用深度学习算法,支持用户轻松的将所有低分辨率视频转换成8K分辨率的高质量视频。
ChatMart,为您的数据构建AI聊天机器人,只需提供您的数据即可获得个性化的GPT聊天机器人可实时响应并从互动中获得洞察生成营销策略提高转化率。
淘宝抖音直播领域专业可视化数据分析监测云平台,为商家、播主及机构提供精准、可靠、高效的直播数据分析服务
Mirageml是一家使用人工智能 (AI) 帮助创意人员设计 3D 资源和场景的公司,Mirage 的 AI 可以根据自然语言提示或草图生成逼真且高质量的 3D 模型。
Firefly 是 Adobe 的生成 AI内容创作工具。
计算美学Nolibox,高品质AI平面设计及创意生成平台。
Quizbot.Ai是一个可帮助学生或学习者创建测验的网站。您可以使用 Quizbot 来测试学生对各种主题的知识、技能掌握和兴趣程度。
Deepfakes Creator,可以通过文本输入生成逼真的会说话的真人视频。用户只需要上传想要化身模仿的人的照片,并写一个剧本,工具就能创建出逼真的人物化身视频,模拟人物说话。