1.背景
Aipy是一款结合LLM和Python的工具,工作模式为:用户提供简单的指令,LLM拆解分析指令并撰写响应代码,Python及时相应,在此过程中如果代码出错,LLM就会及时调整代码以满足运行需求,最后达到帮你解决生活中确切的实际问题的效果。
今天爱派(AiPy)v0.1.28 正式上线啦!改进主要包括:联网搜索、分享案例、私密记录、模型配置和新手引导五个方面。博主认为最重要的改进就是引入了混元和Qwen模型。今天我们最主要的任务就是在aipy上配置这两个模型,并且对deepseek-v3,hunyuan-turbos-latest,qwen-plus-latest三个模型完成同一任务进行测评。
至于任务选择,最近618想买平板,但是确实市面上款式太多都挑花眼了,所以就将任务定为618平板攻略吧。
2.任务过程
(1)prompt输入
6.18快到了,我想购买一个平板,需求是追剧、阅读文献、无纸化学习和板绘。你需要完成以下任务:1.找出市面主流的品牌,包括苹果、华为、小米、三星、oppo和vivo出的新款平板,需要列举出他们的参数,包括处理器、内存、相机参数和重量。2、从京东和淘宝给我列举出以上平板的价格。3、计算四川省数码国补之后平板的最低价格。4、按照我的需求,给我推荐三款最适合我的平板,同时还要兼顾性价比。5、将以上内容整理为格式精美的pad.html格式
(2) deepseek-v3
总体来说,DS的任务完成度很高。
首先在界面方面,分成了三个主要的界面:推荐、参数对比和需求分析。在颜色选择上对重要信息加以标红、粗体、emoji等,让报告更加清晰可读,同时将最重要的推荐部分放在了最上面,能够一眼抓到重点,排版布局都很不错。最后,在信息的搜集上,这是唯一一搜集了内存和存储信息并且加以区分的报告。
但是在价格方面,我认为苹果和三星的价格低1k-2k左右,其他款的价格略高300-1k。信息搜集上还是有待提升。
(3)hunyuan-turbos-latest
总体来说,混元任务完成度不高。
在信息搜集上价格差距与平台官网都很大,苹果价格低1k-2k,撒逆行和华为价格高2k-3k。同时没有列举出小米、vivo和oppo的平板数据。最后也没有给我结合我的购买原因进行推荐。
唯一值得一提的是,确实界面看起来很简洁明了。

(4) qwen-plus-latest
总体来说,Qwen表现基本满意。
首先,在界面呈现上主要是采取了4个表格的形式将参数、价格、国补后价格和推荐清晰呈现,但是价格部分和国补价格部分略有冲突,信息冗杂。其次,界面简洁明了,最重要的价格信息标红加粗显示,一眼就可以阅读。同时,在推荐部分也结合了我的需求,最值得一提的是,在推荐部分拆解我的需求中,推荐性价比最高的vivo平板时候没有提到板绘,我觉得这一点很智能(没有推荐我无脑入苹果哈哈哈)
缺点主要有两个,第一个是我要求推荐新款平板,我没有找到vivopadv1的数据。第二就是在价格上都比现价大概高1-2倍左右,数据比较失真。
总结:
从表格中可以看出来,ds耗时最长,完成度是最好的;混元在耗时很短的过程中,基本给出了推荐信息,只是不够完整,需要继续改进prompt调试一下;Qwen耗时使用,基本完成任务。在信息读取,尤其是价格方面,三个模型都有失误且价格不一致,我推测是API不固定,再次进行类似分析活动时可以给出具体API以完成任务。

总的来说,这次Aipy改进还是很大的,比如配置模型时就可以直接导入,去分析失败原因时也可以在work目录里读隐私json文件来查看到底是哪一步出错了。比起上一般来说耗费的时间更短、操作更友好、分析界面也更加友善美观!