一、背景

爱派(AiPy)是一款基于 LLM 大模型与 Python 生态深度融合的任务型 AI 系统,核心定位是帮用户用 AI 解决实际问题。区别于传统大模型只能提供问答服务,AiPy 通过 “大模型规划 + Python 代码执行” 的独特范式,实现了从 “理解需求” 到 “动手操作” 的全链路闭环,真正让 AI 具备了 “知行合一” 的能力。

昨天爱派(AiPy)v0.1.28 正式上线啦!改进主要包括:联网搜索、分享案例、私密记录、模型配置和新手引导五个方面。博主认为最重要的改进就是引入了混元和Qwen模型。今天我们最主要的任务就是在aipy上配置这两个模型,并且对deepseek-v3,hunyuan-turbos-latest,qwen-plus-latest三个模型完成同一任务进行测评。

至于任务选择,最近端午节到了,粽香四溢的季节那就少不了吃粽子哦正巧赶上618,看看aipy能否能给我们推荐最近网上比较好吃的粽子呢?主要是考查aipy的联网搜索和报告总结的能力啦

二、测试

1. 提示词

端午想买粽子。1.搜集一下网上好评比较多的粽子品牌。2.查看品牌的粽子分类和成分。3、列出618大促的具体购买价格。4.整理以上内容并产出格式特别精美、配色特别炫酷、特别美观的html格式文件

2. deepseek

总体来说,deepseek表现得很不错。

首先在界面上,deepseek整体为白色配色,很简洁明了。

其次,在重要信息呈现上,用了颜色突出的加粗字体,来把信息着重凸显,这样子能够让信息更直观、便读。

再次,在信息选择上,他主要是搜集了淘宝粽子TOP5榜单,信息来源符合我的要求,产品成分和信息选择上都很完善,甚至包含了热量。

唯一不足的就是价格都是参考去年的价格,这一点需要继续改进。

3. 混元

总体来说,混元表现得也是达到了我的预期。

首先总体来看,颜色选择上,特殊的采取了粉蓝渐变的背景,非常特殊。整个界面都很简洁明了,产品名称、成分、价格都很清楚,信息抓取很方便。

再次,观察信息,价格是很贴近目前淘宝的618价格的,没有虚假数据,值得表扬。

唯一的不足就是,信息太过简洁而呈现界面过于宽敞,可能比例有些不协调。

4. Qwen

总体来说,Qwen表现的是一开始最让我惊讶的。

首先,看到报告最直观的一点就是,确实是做的最好看的,并且在信息区分、重点信息抓取上都做了区分度。无论是名称、推荐信息、成分信息、价格,都很清晰完整。

但是,缺点也是显而易见的,就是在信息呈现方面,虽然确实很丰富,价格和成分上都很贴近原文,但是太冗杂了,导致抓不到重点。

5. 总结

最后总结一下,博主不对三者进行排序哦萝卜白菜各有所好哈。哈哈哈

在信息度上,Deepseek在信息搜集上比较全面,但是只呈现了去年原价信息。hunyuan和Qwen都比较贴近真实价格,但是一个太简洁、一个太冗杂。

在美观度上看,三者各有所长。deepseek整体商务风配色,hunyuan背景具有特色,客观上,Qwen是最好看的,还具有配图。

在时间反应上,hunyuan花费最短,其次是Qwen,最后Deepseek花费时间最长。这也是为什么hunyuan和Qwen的信息简短的原因也许是分析提取文字稍快了点?哈哈哈哈,这也是一个蛮有趣的问题。

三、思考

在和aipy打交道的过程中,三个模型都或多或少的出现了不理解我的需求的时刻,但好在我可以继续和aipy补充说明,优化我的prompt,最后产出一份不错的结果。

三个大模型都各有优缺点,大家在使用过程中也要根据自己的需要看情况选择,当然你也可以自己研究一下在你的手中三个模型有什么区别。欢迎大家和我在评论区讨论~

Copyright © Knownsec All rights reserved. 京ICP备10040895号-64