Multimodal · 多模态

文字之外,图、声、影
都从一次划词开始

选中小说里的一句话,或者聊天里的一条回复——配图、配音、配视频在原地生成、原地嵌入:Imagen 与 gpt-image 出插画,TTS 音色朗读成有声书,Veo 把场景变成动态画面。媒体不打断叙事,而是长在叙事里。

  • 插画嵌进正文
  • 整章朗读 · 选区配音
  • 每种模态独立默认模型

在这台 iPad 上点「配图」试试

下面是真实交互原型:点选区工具栏里的「配图」看 Imagen 进度条出图,点「续这里」看流式续写,点「配音」看波形朗读。所有生成都会进入 API 请求记录,token 和费用可追溯。

iPad · 现场生成
9:41
群星档案「正文」· 第 28 章 · 灯塔求救

洛闻抬头望向穹顶,旧星港的导航灯一盏接一盏熄灭,像有人把夜空折进了掌心。

她终于明白那句警告:每一条航线都不只是路,也是回声。

今晚消失的那艘船,会在某个分支里重新靠岸。

选区工作台

选中任意一句话,续写、配图、配音、新建分支都从这里出发。

正文
第 28 章 / 共 36 章 · 78%

一段文字的三种新形态

Image · 配图插画长在书页里
插画长在书页里

按选区上下文出图,插画直接嵌进正文锚点;长按可保存、重新生成或删除。

Imagen 3gpt-image-1Doubao SeedDream
把长篇读成有声书

选区即时朗读,整章可缓存离线;倍速、定时、上一段下一段,通勤即听书。

Qwen TTSGrok VoiceMiMo Speech
Video · 配视频场景动起来
场景动起来

把名场面交给视频模型,生成几秒钟的动态画面,直接在阅读页内播放。

Google VeoKlingHailuo

每种模态,各配各的模型

  • 按模态设默认文本、图像、语音、视频各自有默认模型;阅读器和聊天页可分别覆盖。
  • 按场景换模型言情场景一个模型、战斗场景另一个——per-world 生成设置随时调。
  • 能力过滤模型选择器只显示客户端真正实现的模态,不会选到「声称支持」的空头能力。
  • 全链路入账每次生成都写入 API 请求记录:模型、token、缓存命中、费用,一条不落。

FAQ

常见问题

配图用的是什么模型?效果可控吗?

默认支持 Imagen 3、gpt-image-1、SeedDream 等;prompt 由选区上下文自动构建,也可以编辑提示词模板,生成前可改尺寸与风格。

朗读支持哪些声音?

接入你自己的 TTS 供应商:Qwen TTS、Grok Voice、MiMo Speech 等,音色可选;整章缓存后离线可听。

视频生成要等多久?

取决于模型,一般几十秒到几分钟。任务在后台跑,生成完成后自动嵌回原文锚点,期间可以继续阅读。

媒体生成的费用怎么算?

BYOK 模式下直接按你供应商的价格计费,应用不加价;每次请求的 token、费用与缓存命中都记录在「API 请求记录」里。

预约名额

让下一章自己长出插画、声音和画面。

下一批测试名额开放时,我们只发送一封简短邮件。也可以直接联系 [email protected].

Early access

预约内测邮箱

只发送一次内测开放通知。不发订阅邮件,不接第三方追踪,可随时退订。

不会发送垃圾邮件,可随时退订。

直接发邮件
多模态生成 — 选区配图、配音朗读、配视频 · Foreverse · 新梦