Articles
iThenticate 支持哪些文件格式?Word、PDF、PPT 查重差异说明
整理 iThenticate 常见支持格式,并解释 Word、PDF、PPT 在文本提取、分页和相似度结果上的常见差异。
文件格式这件事,看着小,实际很容易影响结果
很多作者在正式提交前才开始纠结:到底传 Word 还是 PDF?PPT 行不行?是不是只要能打开,系统就都能正常比对?这个问题比想象中更重要,因为 iThenticate 查重服务 本质上还是要先把你文件里的文本提取出来,才能去做相似来源匹配。
官方文档列出的常见支持格式包括 Word、PDF、Plain Text、RTF、HTML、PowerPoint 等,也扩展到部分表格或 OpenOffice 类格式。但“支持上传”不等于“结果一定一致”,因为不同格式的文本提取逻辑并不完全一样。
Word 通常是最省心的选择之一
如果你的稿件本来就是 Word 写的,而且排版不是特别极端,那么 Word 往往是比较稳定的提交格式。因为正文、标题、参考文献、脚注这些结构通常更容易被系统识别。对于多数投稿前自查场景来说,Word 的可读性和可提取性都比较友好。
尤其是在你还需要根据报告继续改稿的时候,Word 也方便你对照 Similarity Report 的高亮内容 一段段处理。所以如果你没有特别的投稿格式约束,Word 往往是一个实用选择。
PDF 不是不能用,但有一个前提:里面必须有可识别文本
很多作者喜欢传 PDF,因为这更接近投稿时的最终排版版本,这个想法没问题。但前提是,这个 PDF 里真的包含可以复制、可以识别的文本。如果它本质上只是扫描图片,或者导出方式把文字弄成了图层,那系统就可能提取不到有效文本,结果自然会出问题。
另外,PDF 里的分页、双栏、脚注、公式、图表位置有时也会影响文本抽取顺序,所以同一篇稿子用 Word 和 PDF 查,结果有轻微差异是很常见的。这个并不神秘,更多是提取逻辑带来的自然偏差。
PPT 也能传,但通常不是投稿论文的主流选择
官方支持格式里包含 PowerPoint,这说明系统并不是只服务于传统论文文档。但如果你现在做的是 SCI 或英文期刊投稿前自查,PPT 通常不是主流选择。原因很简单:幻灯片里的文本往往是碎片化的、分栏的、列表式的,和正式论文那种连续长文本完全不是一回事。
对于会议汇报材料、教学展示文稿、摘要型内容,PPT 当然可以用;但如果你的目标是判断投稿论文的正式相似度风险,还是建议尽量提交和期刊投稿一致的 Word 或 PDF 版本。
为什么同一篇稿子换格式后,重复率可能会变?
因为查重之前先要做的是文本提取,而不是直接“看见版面”。不同格式在处理标题、页眉页脚、脚注、表格、特殊字符和换行时,都会有细微差异。别看只是格式换了,系统拿到的“纯文本版本”可能已经不是完全同一份东西了。
所以更稳的经验其实很朴素:用和正式投稿尽量一致的文稿版本去查。这样你看到的报告,才更接近后续正式流程里可能出现的样子。
最实用的建议
如果你现在是英文论文投稿前自查,优先选内容完整、文字可识别、和投稿版本尽量一致的 Word 或 PDF。不要用受密码保护的文件,不要用扫描版 PDF,也不要拿一份明显删减过的版本来判断正式结果。
说到底,文件格式不是一个纯技术细节,它会直接影响你看到的报告是否有参考价值。格式选对了,后面看 报告样本 和做修改,都会顺很多。
参考方向:iThenticate 官方帮助中心 上传与文件格式相关说明。