Doc2X 常见问题 - FAQ
Doc2X 是一个强大的文档解析和翻译工具,支持多种格式的文档识别、转换和翻译。本指南将帮助您快速了解和使用 Doc2X 的各项功能。
快速链接
- 网站:doc2x.noedgeai.com
- API 接入:open.noedgeai.com(与网页额度不互通)
- API v2 文档:Doc2x API v2 接口文档
- Zotero 插件教程:Doc2X Zotero 插件使用指南
- 墨墨词本教程:Doc2X客户端-滑词助手墨墨词本相关
- 功能介绍:https://noedgeai.com
翻译-积分规则
Doc2X 已更新网页与客户端的翻译积分规则,详情请参考 Doc2X 积分规则。
目前支持的功能
核心识别功能
- ✅ 多元素识别:支持文字、公式、表格、图像的识别
- ✅ 多栏识别:支持多栏文档的识别,并还原正确的阅读顺序
- ✅ 多语言支持:支持中文(简体/繁体)、英文、西欧国家语言、日语、韩语等
- 更多语言正在支持中
高级功能(迭代中)
以下功能已支持,但效果仍在不断优化:
- 🔄 跨页表格合并(API)
- 🔄 手写识别
- 🔄 竖排文字
- 🔄 多级标题支持
当前限制
- ❌ 不支持超长图/超宽图:需要手动分割为正常页面大小
- ❌ 不支持空白边框过大的文档:需要手动裁剪空白边框
- ❌ 不支持旋转的 PDF:请手动转正 PDF 后再识别
处理速度与并发
处理速度
- 网页和 API:单个 PDF 平均速度约 10 页/秒
- 具体速度:取决于文档复杂程度
- API 加速:需要更快处理速度请联系我们
并发限制
- API 默认并发:10 个 PDF 同时处理
- 提升并发:如果需要更大并发联系微信客服
大批量数据处理
企业级服务
- 大量处理:有大量 PDF 需要处理可联系获取折扣价格
- 已服务客户:多家知名大模型厂商、金融和教育机构
- 基础设施:自建数百卡算力池和多机房冗余,保障稳定性
- 处理能力:每天能处理数千万页文档,累计处理数十亿页
为什么选择 Doc2X
核心优势
- 公式识别领先:市面上同类产品在公式识别(特别是行内和复杂公式)方面表现不佳,Doc2X 处于领先水平
- 表格识别优秀:支持识别表格内图片和跨页表格合并等高级功能
- 多栏识别精准:多栏文档的阅读顺序还原效果优异
- 适配范围广泛:支持财研报、论文、教辅、专利等多种文档类型
数据安全
- 网页端存储:有效期为 30 天(包括图床)
- API 存储:过期时间为 24 小时
- 自动删除:过期后自动删除,请放心使用
PPT 生成功能 FAQ
1. PPT 生成器的标准使用流程是什么?
结合当前网页端界面和截图流程,推荐使用顺序是:输入创意 -> 编辑大纲 -> 编辑 Prompt -> 生成全部图片 -> 预览 -> 进入编辑(整批解析) -> 在预览页手动打开画板编辑或直接导出。
如果你只需要快速出图,可以停留在 预览 页面;如果你还需要精修文字和版式,再从预览页手动打开某一张幻灯片进入 PPT 画板编辑。
2. 为什么当前“PPT 生成配置”里只有图片 AI 配置,但仍然能生成大纲和 Prompt?
这里要区分“界面上暴露给用户的配置”和“前端内部实际使用的配置”。
当前 PPT 生成配置 弹窗里,界面实际只提供了图片 AI 相关配置项:
ProviderAPI KeyBase URL图片尺寸图片质量并发数
也就是说,普通用户在当前页面上看不到单独的 Text AI 表单。
但前端内部仍然保留了 textProvider、textApiKey、textApiBaseURL、textModel 这些字段,用于兼容已有本地数据。文本阶段真正取配置时,逻辑是:
- 如果本地已经存在有效的
textApiKey + textModel,就优先使用这一组 Text AI 配置 - 如果没有,就回退复用当前图片 Provider 的
API Key和Base URL - 同时自动选择内置推荐文本模型
- 当前图片 Provider 为
OpenAI时,默认文本模型是gpt-4o-mini - 当前图片 Provider 为
Gemini时,默认文本模型是gemini-2.5-flash-lite
所以对当前大多数用户来说,虽然设置页只配置了图片 AI,但“一句话生成大纲”“粘贴大纲解析”“AI 优化大纲”“生成图片 Prompt”这些文本阶段仍然可以正常工作。
3. 当前支持哪些图片 Provider、比例和尺寸?
当前网页端支持两类图片 Provider:
OpenAIGemini
默认图片模型分别为:
OpenAI:gpt-image-1Gemini:gemini-3-pro-image-preview
当前内置比例和尺寸支持如下:
OpenAI:1:1、3:2、2:3,对应常用尺寸如1024x1024、1536x1024、1024x1536Gemini:1:1、3:2、16:9,对应常用尺寸如1024x1024、1536x1024、1792x1024
4. 为什么我切换 Provider 后,比例或尺寸会自动变化?
这是当前代码里的正常逻辑,不是异常:
- 不同 Provider 支持的比例集合不同
- 当你切换 Provider 时,系统会自动把尺寸对齐到该 Provider 支持的最近比例
- 如果当前比例在新 Provider 中不存在,页面会自动切到该 Provider 可用的默认选项
因此,OpenAI 与 Gemini 之间切换时,比例和分辨率出现自动调整是预期行为。
5. “并发数”是什么意思,建议设置多少?
并发数 表示同一时间并发生成图片的数量。当前网页端限制范围是 1~8,界面文案推荐值为 2~4。
并发数越高,理论上整体速度越快,但越容易触发接口限流、失败重试或网关压力问题。一般个人使用建议先从 2 或 3 开始。
6. 为什么重新点击“生成全部图片”后,旧图和旧解析记录会被清空?
这是系统有意为之。当前实现会在每次重新生图前,先清理这一页旧的图片缓存,并清空旧的画板解析关联,再开始新一轮生成。
这样做是为了避免以下问题:
- 预览中混入上一轮旧图
- 旧图和新 Prompt 错位
- 旧的画板解析记录误绑定到新的幻灯片内容
如果你改了大纲或 Prompt,又重新执行 生成全部图片,看到旧结果被覆盖,属于正常行为。
7. 为什么图片生成时会提示“请勿刷新页面”?
当前前端在图片生成阶段会显示实时进度,并对页面刷新做离开提醒。原因是这一步的进度状态保存在当前会话中,刷新后可能导致:
- 当前进度显示丢失
- 用户误以为任务失败
- 预览页与本地缓存状态不同步
因此在 生成全部图片 期间,建议等待本轮任务完成后再离开页面。
8. 为什么“全部导出”按钮是灰色的,或者只能导出部分幻灯片?
全部导出 的前提不是“已经生成图片”,而是“已经生成画板解析记录”。
也就是说:
- 仅生成了图片,但还没执行
进入编辑(整批解析)时,全部导出会不可用 - 如果只有部分幻灯片完成了解析,那么系统只会导出已经解析成功的那一部分
因此,如果你希望整套 PPT 都支持导出,建议先在预览页执行一次 进入编辑(整批解析)。
9. “可编辑 PPT”和“纯图 PPT”有什么区别?
当前导出菜单提供两种模式:
可编辑 PPT:按画板中的文本块和页面信息导出,适合后续继续修改纯图 PPT:按页面图像导出,更接近当前预览效果,适合快速交付
如果你更看重后续编辑灵活性,用 可编辑 PPT;如果你更在意当前视觉效果尽量保持一致,用 纯图 PPT。
10. 为什么点击“进入编辑(整批解析)”时会要求登录?
当系统发现当前项目里还有“未解析到画板”的幻灯片时,整批解析需要创建新的画板关联记录。此时如果未登录,系统会引导登录后继续。
但如果当前项目里已经存在可用的解析记录,未登录状态下也可能直接打开已有编辑结果。所以是否强制登录,取决于你当前项目有没有现成的解析记录可复用。
11. 为什么我在画板里修改过内容后,预览图和导出结果也跟着变了?
这是当前产品的设计行为。预览页和导出功能会优先读取画板中的最新编辑快照;如果本地存在可用的编辑历史,就优先使用编辑后的文字块和处理后的图片。
因此,当你在 PPT 画板编辑 中改过标题、正文或版式后:
- 预览页会尽量展示最新编辑结果
可编辑 PPT和纯图 PPT导出也会优先使用最新状态
12. 项目列表和生成图片存在哪里?清除缓存会有什么影响?
当前 PPT 生成器会把项目列表和图片缓存保存在浏览器本地的 IndexedDB 中,单独使用 doc2x_ppt_generator 数据库保存:
- 项目数据
- 幻灯片图片缓存
同时,画板编辑历史还有独立的画板缓存。
如果你在网页端执行“清除本地缓存”:
- 清除
PPT项目缓存会删除项目列表和图片缓存 - 清除
画板缓存会删除本地画板记录和历史步骤
清理之后,如果本地没有缓存、又没有登录可用账号,预览和导出都可能无法恢复到之前的编辑状态。
13. 为什么会提示“关联的画板记录已失效”?
这说明当前幻灯片保存的 parseId 已经失效,或者关联的画板记录已经不可用。系统会自动清理这条旧关联,并提示你重新执行 进入编辑(整批解析)。
遇到这种情况时,最直接的处理方式就是:
- 回到
预览页面 - 重新点击
进入编辑(整批解析) - 等待系统重新建立新的画板关联
14. 可以自定义风格和 AI 提示词吗?
可以。当前 设置 面板中已经提供两类可自定义能力:
风格自定义:修改预设风格的名称和描述AI 提示词自定义:修改大纲生成、图片 Prompt 生成、大纲优化的 System Prompt
如果留空,系统会继续使用内置默认配置;只有在你明确知道想调整输出风格或模型行为时,才建议覆盖默认提示词。