税务师行业 AI 竞赛:如何最稳地使用国产大模型?
在税务师行业 AI 竞赛中,使用国产大模型如豆包、通义千问和DeepSeek,需要根据不同的任务需求进行合理的分工,以发挥每个模型的优势。以下是针对您提出的几个关键问题的分析和建议:
一、模型分工假设
1. 拆题模型
任务:从题干里提取主体、税种、期间、金额、资料、问题、业务链条、明显矛盾。
建议使用:DeepSeek。DeepSeek在中文长文本理解和结构化输出方面表现较好,适合进行题干的结构化拆解。
2. 红队反证模型
任务:专门找 AI 初稿里的错误,包括政策适用错误、税种混淆、生效时间、废止时间、新旧政策衔接、含税/不含税错误、计算公式错误、优惠条件遗漏、程序法、证据链、资料缺口、高级题里的主路径/备选路径/风险路径。
建议使用:DeepSeek。DeepSeek的推理能力强,适合进行红队审查,找出初稿中的错误。
3. 正式报告成稿模型
任务:把人工确认后的事实、政策、计算和风险点,写成正式涉税专业服务报告。
建议使用:豆包。豆包在生成中文公文和专业报告方面表现稳定,适合用于正式报告的撰写。
4. 质检模型
任务:提交前检查报告是否齐全,包括是否有提示词设计、AI初稿、人工纠错、最终报告、政策依据、计算过程、风险提示、是否存在资料不足但结论写死。
建议使用:通义千问。通义千问在检查和复核方面表现较好,适合用于最后的质检工作。
二、我想实测的模型能力
豆包、千问、DeepSeek 在中文税务、法律、政策类任务中各自强项是什么?
- 豆包:公文写作、正式报告生成
- 千问:质检、复核
- DeepSeek:长文本理解、结构化输出、红队审查
- 哪个模型最容易幻觉政策文号、条款、金额?
建议使用通义千问进行政策文号和条款的复核,以减少幻觉现象。 - 哪个模型最适合长题干和多附件分析?
DeepSeek更适合处理长题干和多附件分析任务。 - 哪个模型最适合表格、计算、公式复核?
通义千问更适合进行表格、计算和公式的复核工作。 - 哪个模型最适合
评论已关闭