在税务师行业 AI 竞赛中,使用国产大模型如豆包、通义千问和DeepSeek,需要根据不同的任务需求进行合理的分工,以发挥每个模型的优势。以下是针对您提出的几个关键问题的分析和建议:

一、模型分工假设

1. 拆题模型

任务:从题干里提取主体、税种、期间、金额、资料、问题、业务链条、明显矛盾。

建议使用:DeepSeek。DeepSeek在中文长文本理解和结构化输出方面表现较好,适合进行题干的结构化拆解。

2. 红队反证模型

任务:专门找 AI 初稿里的错误,包括政策适用错误、税种混淆、生效时间、废止时间、新旧政策衔接、含税/不含税错误、计算公式错误、优惠条件遗漏、程序法、证据链、资料缺口、高级题里的主路径/备选路径/风险路径。

建议使用:DeepSeek。DeepSeek的推理能力强,适合进行红队审查,找出初稿中的错误。

3. 正式报告成稿模型

任务:把人工确认后的事实、政策、计算和风险点,写成正式涉税专业服务报告。

建议使用:豆包。豆包在生成中文公文和专业报告方面表现稳定,适合用于正式报告的撰写。

4. 质检模型

任务:提交前检查报告是否齐全,包括是否有提示词设计、AI初稿、人工纠错、最终报告、政策依据、计算过程、风险提示、是否存在资料不足但结论写死。

建议使用:通义千问。通义千问在检查和复核方面表现较好,适合用于最后的质检工作。

二、我想实测的模型能力

  1. 豆包、千问、DeepSeek 在中文税务、法律、政策类任务中各自强项是什么?

    • 豆包:公文写作、正式报告生成
    • 千问:质检、复核
    • DeepSeek:长文本理解、结构化输出、红队审查
  2. 哪个模型最容易幻觉政策文号、条款、金额?
    建议使用通义千问进行政策文号和条款的复核,以减少幻觉现象。
  3. 哪个模型最适合长题干和多附件分析?
    DeepSeek更适合处理长题干和多附件分析任务。
  4. 哪个模型最适合表格、计算、公式复核?
    通义千问更适合进行表格、计算和公式的复核工作。
  5. 哪个模型最适合

标签: none

评论已关闭