一、背景
爱派(AiPy)是一款基于 LLM 大模型与 Python 生态深度融合的任务型 AI 系统,核心定位是帮用户用 AI 解决实际问题。区别于传统大模型只能提供问答服务,AiPy 通过 “大模型规划 + Python 代码执行” 的独特范式,实现了从 “理解需求” 到 “动手操作” 的全链路闭环,真正让 AI 具备了 “知行合一” 的能力。
昨天爱派(AiPy)v0.1.28 正式上线啦!改进主要包括:联网搜索、分享案例、私密记录、模型配置和新手引导五个方面。博主认为最重要的改进就是引入了混元和Qwen模型。今天我们最主要的任务就是在aipy上配置这两个模型,并且对deepseek-v3,hunyuan-turbos-latest,qwen-plus-latest三个模型完成同一任务进行测评。
至于任务选择,最近端午节到了,粽香四溢的季节那就少不了吃粽子哦正巧赶上618,看看aipy能否能给我们推荐最近网上比较好吃的粽子呢?主要是考查aipy的联网搜索和报告总结的能力啦
二、测试
1. 提示词
端午想买粽子。1.搜集一下网上好评比较多的粽子品牌。2.查看品牌的粽子分类和成分。3、列出618大促的具体购买价格。4.整理以上内容并产出格式特别精美、配色特别炫酷、特别美观的html格式文件
2. deepseek
总体来说,deepseek表现得很不错。
首先在界面上,deepseek整体为白色配色,很简洁明了。
其次,在重要信息呈现上,用了颜色突出的加粗字体,来把信息着重凸显,这样子能够让信息更直观、便读。
再次,在信息选择上,他主要是搜集了淘宝粽子TOP5榜单,信息来源符合我的要求,产品成分和信息选择上都很完善,甚至包含了热量。
3. 混元
总体来说,混元表现得也是达到了我的预期。
首先总体来看,颜色选择上,特殊的采取了粉蓝渐变的背景,非常特殊。整个界面都很简洁明了,产品名称、成分、价格都很清楚,信息抓取很方便。
再次,观察信息,价格是很贴近目前淘宝的618价格的,没有虚假数据,值得表扬。
唯一的不足就是,信息太过简洁而呈现界面过于宽敞,可能比例有些不协调。
4. Qwen
总体来说,Qwen表现的是一开始最让我惊讶的。
首先,看到报告最直观的一点就是,确实是做的最好看的,并且在信息区分、重点信息抓取上都做了区分度。无论是名称、推荐信息、成分信息、价格,都很清晰完整。
但是,缺点也是显而易见的,就是在信息呈现方面,虽然确实很丰富,价格和成分上都很贴近原文,但是太冗杂了,导致抓不到重点。
5. 总结
最后总结一下,博主不对三者进行排序哦萝卜白菜各有所好哈。哈哈哈
在信息度上,Deepseek在信息搜集上比较全面,但是只呈现了去年原价信息。hunyuan和Qwen都比较贴近真实价格,但是一个太简洁、一个太冗杂。
在美观度上看,三者各有所长。deepseek整体商务风配色,hunyuan背景具有特色,客观上,Qwen是最好看的,还具有配图。
在时间反应上,hunyuan花费最短,其次是Qwen,最后Deepseek花费时间最长。这也是为什么hunyuan和Qwen的信息简短的原因也许是分析提取文字稍快了点?哈哈哈哈,这也是一个蛮有趣的问题。
三、思考
在和aipy打交道的过程中,三个模型都或多或少的出现了不理解我的需求的时刻,但好在我可以继续和aipy补充说明,优化我的prompt,最后产出一份不错的结果。
三个大模型都各有优缺点,大家在使用过程中也要根据自己的需要看情况选择,当然你也可以自己研究一下在你的手中三个模型有什么区别。欢迎大家和我在评论区讨论~