Skip to content

Doc2X 常见问题 - FAQ

Doc2X 是一个强大的文档解析和翻译工具,支持多种格式的文档识别、转换和翻译。本指南将帮助您快速了解和使用 Doc2X 的各项功能。

翻译-积分规则

Doc2X 已更新网页与客户端的翻译积分规则,详情请参考 Doc2X 积分规则

目前支持的功能

核心识别功能

  • 多元素识别:支持文字、公式、表格、图像的识别
  • 多栏识别:支持多栏文档的识别,并还原正确的阅读顺序
  • 多语言支持:支持中文(简体/繁体)、英文、西欧国家语言、日语、韩语等
    • 更多语言正在支持中

高级功能(迭代中)

以下功能已支持,但效果仍在不断优化:

当前限制

  • 不支持超长图/超宽图:需要手动分割为正常页面大小
  • 不支持空白边框过大的文档:需要手动裁剪空白边框
  • 不支持旋转的 PDF:请手动转正 PDF 后再识别

处理速度与并发

处理速度

  • 网页和 API:单个 PDF 平均速度约 10 页/秒
  • 具体速度:取决于文档复杂程度
  • API 加速:需要更快处理速度请联系我们

并发限制

  • API 默认并发:10 个 PDF 同时处理
  • 提升并发:如果需要更大并发联系微信客服

大批量数据处理

企业级服务

  • 大量处理:有大量 PDF 需要处理可联系获取折扣价格
  • 已服务客户:多家知名大模型厂商、金融和教育机构
  • 基础设施:自建数百卡算力池和多机房冗余,保障稳定性
  • 处理能力:每天能处理数千万页文档,累计处理数十亿

为什么选择 Doc2X

核心优势

  1. 公式识别领先:市面上同类产品在公式识别(特别是行内和复杂公式)方面表现不佳,Doc2X 处于领先水平
  2. 表格识别优秀:支持识别表格内图片和跨页表格合并等高级功能
  3. 多栏识别精准:多栏文档的阅读顺序还原效果优异
  4. 适配范围广泛:支持财研报、论文、教辅、专利等多种文档类型

数据安全

  • 网页端存储:有效期为 30 天(包括图床)
  • API 存储:过期时间为 24 小时
  • 自动删除:过期后自动删除,请放心使用

PPT 生成功能 FAQ

1. PPT 生成器的标准使用流程是什么?

结合当前网页端界面和截图流程,推荐使用顺序是:输入创意 -> 编辑大纲 -> 编辑 Prompt -> 生成全部图片 -> 预览 -> 进入编辑(整批解析) -> 在预览页手动打开画板编辑或直接导出

如果你只需要快速出图,可以停留在 预览 页面;如果你还需要精修文字和版式,再从预览页手动打开某一张幻灯片进入 PPT 画板编辑

2. 为什么当前“PPT 生成配置”里只有图片 AI 配置,但仍然能生成大纲和 Prompt?

这里要区分“界面上暴露给用户的配置”和“前端内部实际使用的配置”。

当前 PPT 生成配置 弹窗里,界面实际只提供了图片 AI 相关配置项:

  • Provider
  • API Key
  • Base URL
  • 图片尺寸
  • 图片质量
  • 并发数

也就是说,普通用户在当前页面上看不到单独的 Text AI 表单。

但前端内部仍然保留了 textProvidertextApiKeytextApiBaseURLtextModel 这些字段,用于兼容已有本地数据。文本阶段真正取配置时,逻辑是:

  • 如果本地已经存在有效的 textApiKey + textModel,就优先使用这一组 Text AI 配置
  • 如果没有,就回退复用当前图片 Provider 的 API KeyBase URL
  • 同时自动选择内置推荐文本模型
  • 当前图片 Provider 为 OpenAI 时,默认文本模型是 gpt-4o-mini
  • 当前图片 Provider 为 Gemini 时,默认文本模型是 gemini-2.5-flash-lite

所以对当前大多数用户来说,虽然设置页只配置了图片 AI,但“一句话生成大纲”“粘贴大纲解析”“AI 优化大纲”“生成图片 Prompt”这些文本阶段仍然可以正常工作。

3. 当前支持哪些图片 Provider、比例和尺寸?

当前网页端支持两类图片 Provider:

  • OpenAI
  • Gemini

默认图片模型分别为:

  • OpenAIgpt-image-1
  • Geminigemini-3-pro-image-preview

当前内置比例和尺寸支持如下:

  • OpenAI1:13:22:3,对应常用尺寸如 1024x10241536x10241024x1536
  • Gemini1:13:216:9,对应常用尺寸如 1024x10241536x10241792x1024

4. 为什么我切换 Provider 后,比例或尺寸会自动变化?

这是当前代码里的正常逻辑,不是异常:

  • 不同 Provider 支持的比例集合不同
  • 当你切换 Provider 时,系统会自动把尺寸对齐到该 Provider 支持的最近比例
  • 如果当前比例在新 Provider 中不存在,页面会自动切到该 Provider 可用的默认选项

因此,OpenAIGemini 之间切换时,比例和分辨率出现自动调整是预期行为。

5. “并发数”是什么意思,建议设置多少?

并发数 表示同一时间并发生成图片的数量。当前网页端限制范围是 1~8,界面文案推荐值为 2~4

并发数越高,理论上整体速度越快,但越容易触发接口限流、失败重试或网关压力问题。一般个人使用建议先从 23 开始。

6. 为什么重新点击“生成全部图片”后,旧图和旧解析记录会被清空?

这是系统有意为之。当前实现会在每次重新生图前,先清理这一页旧的图片缓存,并清空旧的画板解析关联,再开始新一轮生成。

这样做是为了避免以下问题:

  • 预览中混入上一轮旧图
  • 旧图和新 Prompt 错位
  • 旧的画板解析记录误绑定到新的幻灯片内容

如果你改了大纲或 Prompt,又重新执行 生成全部图片,看到旧结果被覆盖,属于正常行为。

7. 为什么图片生成时会提示“请勿刷新页面”?

当前前端在图片生成阶段会显示实时进度,并对页面刷新做离开提醒。原因是这一步的进度状态保存在当前会话中,刷新后可能导致:

  • 当前进度显示丢失
  • 用户误以为任务失败
  • 预览页与本地缓存状态不同步

因此在 生成全部图片 期间,建议等待本轮任务完成后再离开页面。

8. 为什么“全部导出”按钮是灰色的,或者只能导出部分幻灯片?

全部导出 的前提不是“已经生成图片”,而是“已经生成画板解析记录”。

也就是说:

  • 仅生成了图片,但还没执行 进入编辑(整批解析) 时,全部导出 会不可用
  • 如果只有部分幻灯片完成了解析,那么系统只会导出已经解析成功的那一部分

因此,如果你希望整套 PPT 都支持导出,建议先在预览页执行一次 进入编辑(整批解析)

9. “可编辑 PPT”和“纯图 PPT”有什么区别?

当前导出菜单提供两种模式:

  • 可编辑 PPT:按画板中的文本块和页面信息导出,适合后续继续修改
  • 纯图 PPT:按页面图像导出,更接近当前预览效果,适合快速交付

如果你更看重后续编辑灵活性,用 可编辑 PPT;如果你更在意当前视觉效果尽量保持一致,用 纯图 PPT

10. 为什么点击“进入编辑(整批解析)”时会要求登录?

当系统发现当前项目里还有“未解析到画板”的幻灯片时,整批解析需要创建新的画板关联记录。此时如果未登录,系统会引导登录后继续。

但如果当前项目里已经存在可用的解析记录,未登录状态下也可能直接打开已有编辑结果。所以是否强制登录,取决于你当前项目有没有现成的解析记录可复用。

11. 为什么我在画板里修改过内容后,预览图和导出结果也跟着变了?

这是当前产品的设计行为。预览页和导出功能会优先读取画板中的最新编辑快照;如果本地存在可用的编辑历史,就优先使用编辑后的文字块和处理后的图片。

因此,当你在 PPT 画板编辑 中改过标题、正文或版式后:

  • 预览页会尽量展示最新编辑结果
  • 可编辑 PPT纯图 PPT 导出也会优先使用最新状态

12. 项目列表和生成图片存在哪里?清除缓存会有什么影响?

当前 PPT 生成器会把项目列表和图片缓存保存在浏览器本地的 IndexedDB 中,单独使用 doc2x_ppt_generator 数据库保存:

  • 项目数据
  • 幻灯片图片缓存

同时,画板编辑历史还有独立的画板缓存。

如果你在网页端执行“清除本地缓存”:

  • 清除 PPT项目缓存 会删除项目列表和图片缓存
  • 清除 画板缓存 会删除本地画板记录和历史步骤

清理之后,如果本地没有缓存、又没有登录可用账号,预览和导出都可能无法恢复到之前的编辑状态。

13. 为什么会提示“关联的画板记录已失效”?

这说明当前幻灯片保存的 parseId 已经失效,或者关联的画板记录已经不可用。系统会自动清理这条旧关联,并提示你重新执行 进入编辑(整批解析)

遇到这种情况时,最直接的处理方式就是:

  1. 回到 预览 页面
  2. 重新点击 进入编辑(整批解析)
  3. 等待系统重新建立新的画板关联

14. 可以自定义风格和 AI 提示词吗?

可以。当前 设置 面板中已经提供两类可自定义能力:

  • 风格自定义:修改预设风格的名称和描述
  • AI 提示词自定义:修改大纲生成、图片 Prompt 生成、大纲优化的 System Prompt

如果留空,系统会继续使用内置默认配置;只有在你明确知道想调整输出风格或模型行为时,才建议覆盖默认提示词。