字数统计:翻译报价、投稿上限和「Word 里那个数」对不上时怎么办
从 Unicode 字符、汉字、英文词切分差异写起,再说合同里怎么写死统计口径比事后吵架便宜。
·
「字符」不等于「词」,中文尤其如此
Unicode 层面一个汉字通常占一个码位;emoji 可能拆成多个码位。英文词多按空格切,中文没有天然空格,「词数」往往依赖分词规则,平台之间不一致很正常。
翻译报价、小说站、论文检测:三家三套黑箱
有的按原文字符,有的按译文字符;检测系统还会叠加去重与自建分词。签合同前写清「以哪一方工具为准」比事后扯皮便宜。
交稿前自查、平台限字、简历控制篇幅
把汉字、字母、数字、标点拆开看,更容易发现「看起来不长其实符号很多」的稿子。
专用统计页补的是「口径透明度」
Word 与浏览器全选统计可能 quietly 不同;专用页把分类列出来,方便截图给对方确认。
稿费、投标、平台提示:数字差在合同里就是钱
几千字量级上,统计口径差几个点就会触发补款或拒稿;提前对齐比事后仲裁成本低一个数量级。
大模型写作多了,「数人头」仍会留在合同里
原创性检测、信息密度会成为新话题,但行政与商务合同短期内仍会以可核查字符计量为主。
读完可以先做的一件事
打开 字数统计,用正在交付的那篇稿跑一次,把分类结果截屏发给对方确认统计口径。