之前 compile.py 用的是 Gemini 2.5 Flash,摘要经常被截断。一直以为是某个逻辑的锅,今天才发现真凶是 max_output_tokens 设得太小——2000 而已。
改用 Claude Sonnet(通过 Bedrock 的 inference profile ID)同时把上限提到 4096,结果立竿见影。不只是长度增加了,生成质量也明显上去了,摘要的结构感更强,细节保留得更好。
**换模型前先检查参数。有时候问题根本不在模型选择,而在参数没配好。**