开源模型击败GPT-4,小模型更流行
在实验中,VCoder与开源的多模态LLMs(如MiniGPT-4、InstructBLIP、LLaVA-1.5和CogVLM)进行了比较,并在COST验证集上进行了测试。实验结果表明,VCoder在对象识别任务中表现最佳,特别是在对象计数和识别方面优于基线模型。在处理复杂场景中的对象计数和识别任务时,VCoder展现出更高的准确性,尤其是在场景中有许多实体时。
此外,据博主 @数码闲聊站此前爆料,OPPO Find X7标准版机型将采用天玑9300处理器,而 Ultra 机型则搭载骁龙8Gen3处理器。其中,OPPO Find X7Ultra 还支持卫星通讯功能。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
47. 使用ChatGPT进行城市规划和发展研究:协助城市规划者进行研究总结、视觉描述和趋势分析,促进更明智的决策。