执行搜索和评估,支持五种搜索策略:atomic, multi, multi1, hopllm, vector。 展示逻辑和计分逻辑与 pipeline/evaluation/benchmark.py ...