Multimodal · 多模态

文字之外，图、声、影
都从一次划词开始

选中小说里的一句话，或者聊天里的一条回复——配图、配音、配视频在原地生成、原地嵌入：Imagen 与 gpt-image 出插画，TTS 音色朗读成有声书，Veo 把场景变成动态画面。媒体不打断叙事，而是长在叙事里。

去 Google Play 下载看自定义 API

插画嵌进正文
整章朗读 · 选区配音
每种模态独立默认模型

在这台 iPad 上点「配图」试试

下面是真实交互原型：点选区工具栏里的「配图」看 Imagen 进度条出图，点「续这里」看流式续写，点「配音」看波形朗读。所有生成都会进入 API 请求记录，token 和费用可追溯。

iPad · 现场生成

9:41

群星档案「正文」· 第 28 章 · 灯塔求救

洛闻抬头望向穹顶，旧星港的导航灯一盏接一盏熄灭，像有人把夜空折进了掌心。

她终于明白那句警告：每一条航线都不只是路，也是回声。

“别点亮第七盏灯。”她轻声说，“那不是信号，是有人在向过去求救。”

今晚消失的那艘船，会在某个分支里重新靠岸。

选区工作台

选中任意一句话，续写、配图、配音、新建分支都从这里出发。

正文

第 28 章 / 共 36 章 · 78%

一段文字的三种新形态

Image · 配图插画长在书页里

插画长在书页里

按选区上下文出图，插画直接嵌进正文锚点；长按可保存、重新生成或删除。

Imagen 3gpt-image-1Doubao SeedDream

把长篇读成有声书

选区即时朗读，整章可缓存离线；倍速、定时、上一段下一段，通勤即听书。

Qwen TTSGrok VoiceMiMo Speech

Video · 配视频场景动起来

场景动起来

把名场面交给视频模型，生成几秒钟的动态画面，直接在阅读页内播放。

Google VeoKlingHailuo

每种模态，各配各的模型

按模态设默认文本、图像、语音、视频各自有默认模型；阅读器和聊天页可分别覆盖。
按场景换模型言情场景一个模型、战斗场景另一个——per-world 生成设置随时调。
能力过滤模型选择器只显示客户端真正实现的模态，不会选到「声称支持」的空头能力。
全链路入账每次生成都写入 API 请求记录：模型、token、缓存命中、费用，一条不落。

生图和视频用的官方提示词模板全文公开：图片与视频风格包、视频包装（按 Veo / 可灵公式写）都在提示词模板库里，免费复制，也可以在 App 社区整包导入。

FAQ

常见问题

配图用的是什么模型？效果可控吗？

默认支持 Imagen 3、gpt-image-1、SeedDream 等；prompt 由选区上下文自动构建，也可以编辑提示词模板，生成前可改尺寸与风格。

朗读支持哪些声音？

接入你自己的 TTS 供应商：Qwen TTS、Grok Voice、MiMo Speech 等，音色可选；整章缓存后离线可听。

视频生成要等多久？

取决于模型，一般几十秒到几分钟。任务在后台跑，生成完成后自动嵌回原文锚点，期间可以继续阅读。

媒体生成的费用怎么算？

BYOK 模式下直接按你供应商的价格计费，应用不加价；每次请求的 token、费用与缓存命中都记录在「API 请求记录」里。

Android 已上架

让下一章自己长出插画、声音和画面。

Android 版已上架 Google Play；iOS 抢先体验名额开放时，我们只发送一封简短邮件。也可以直接联系 [email protected].

去 Google Play 下载 →

文字之外，图、声、影都从一次划词开始