OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据

一、OmniParser是什么

OmniParser是微软研究院开发的一款屏幕解析工具,于2024年开源。它主要用于将用户界面(UI)的屏幕截图转换为结构化数据,是一种纯视觉基础的AI工具,旨在提高基于大型语言模型(如GPT – 4V)的UI代理系统的性能。

它的工作不依赖于HTML标签或视图层次结构等额外信息,独立地从视觉截图中提取数据,能很好地克服传统自动化方法在非网络环境应用受限以及现有视觉语言模型解读复杂GUI元素能力不足的问题。通过准确识别可交互图标并理解截图元素的语义,从而增强代理执行任务的能力,如在Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用等多种平台和应用类型的用户界面中进行解析操作。

二、OmniParser的功能特点

  1. 解析UI截图
    • 能够将用户界面的屏幕截图中的元素解析成结构化的元素,包括可交互图标和文本等。它能深入剖析界面截图中的各类内容,对界面布局、图标样式等细节进行分解和归类,为创建易于理解和操作的数据结构奠定基础。
  2. 识别可交互区域
    • 采用基于YOLOv8模型微调训练的专门检测模型。构建大规模可交互图标检测数据集(精心采集流行网页DOM树衍生的67k幅带精确标注的屏幕截图作为数据基础),来识别和标记UI中的可交互区域,像各种按钮和图标等。无论是界面中的明显按钮,还是较为隐蔽的小图标,它都能精准识别并且勾勒出边界框,确定其空间位置与轮廓,在复杂的界面场景下也能可靠工作。
  3. 提取功能语义
    • 利用基于BLIP – v2模型微调优化的描述模型(收集了7000对图标与描述样本集)。该模型能为每个检测到的图标生成贴合功能语境的专属描述,可理解图标背后所代表的功能含义,例如生成针对某个特定图标的功能说明文字,然后再将这些图标描述与通过OCR识别出来的文本相结合,一同整合到提示信息中,减轻下游模型语义处理压力,有助于引导下游模型聚焦精准操作预测,极大地提升决策的准确性。
  4. 结构化整合输出
    • 在完成上述各类信息提取后,OmniParser会施展整合能力,将图标、文字、边界框及语义标签编织成类似DOM(文档对象模型)结构的有序体系。它清晰地展现各元素之间的逻辑关联和隶属关系,并且会在关键元素上叠加功能标注。这样的输出结构有助于智能体高效地理解界面背后的逻辑关系并根据需求生成正确的行动指令,为后续的任务执行提供坚实的依据。
  5. 文字信息智能萃取与整合
    • 内置先进的OCR(光学字符识别)模块。这个模块会对屏幕文本逐行扫描并精准识别,生成对应的文本边界框,再通过精细的算法将这些文本边界框与图标边界框进行交叉比对、去重融合,剔除重叠冗余信息,从而构建一个完整的涵盖图标与文字的边界框体系,实现对界面整体元素布局架构的无遗漏勾勒,完整获取界面的视觉信息。
  6. 跨平台应用
    • 实现了跨平台无缝适配。它以视觉感知为手段,挣脱对HTML标签等底层依赖的限制,能够在桌面(包括Windows、MacOS等)、移动端(如iOS、Android)以及网页浏览器等多元平台生态下工作。无论面对不同操作系统的界面样式差异还是各种应用呈现方式的变化,都能够精准地解析界面元素,拓宽了其使用范围,为智能体跨平台作业提供了基础。

三、OmniParser的使用场景

  1. 智能办公自动化提效
    • 在办公场景中,例如员工需要处理各种办公软件界面的任务。OmniParser可以解析软件界面截图,提高语言模型对办公软件界面的理解能力,从而使员工可以更高效地通过智能代理与办公软件交互,如自动定位文档处理软件中的特定功能图标,准确识别表格中的数据区域,提升办公效率,适用于处理如Word、Excel、PPT等多种办公应用的操作需求。
  2. 无障碍交互贴心助力
    • 对于有视觉障碍或者特殊交互需求的用户而言,OmniParser能够将屏幕界面转换为结构化数据,让辅助设备或者专门的无障碍交互系统可以更好地理解界面元素和功能。例如,在智能手机或者计算机系统中,将屏幕元素结构化后,能转化为语音或者特殊的触觉反馈信息,便于特殊用户准确理解并与设备进行交互。
  3. 智能用户辅助便捷指引
    • 当用户在使用复杂软件或者设备时感到困惑时,OmniParser可以作为底层支持。例如,对于初次使用一款新的图形设计软件的用户,OmniParser可以通过解析界面截图,利用智能代理为用户准确提示不同图标的功能、操作步骤等,就像拥有一个实时的智能助手在旁边给予用户交互提示和操作指导。
  4. 自动化软件测试严谨把关
    • 在软件测试环节中,特别是对于有大量图形用户界面(GUI)交互的软件。OmniParser可以快速分析界面结构和元素,将界面截图转换为结构化数据供测试脚本或者自动化测试工具使用。这样可以更精确地模拟用户操作,发现潜在的界面布局错误、功能交互问题等,提高测试效率和准确性,加快软件的测试周期,保证软件质量。
  5. 虚拟助手效能升级赋能
    • 增强虚拟助手(如手机智能助手、智能音箱等)对设备界面和第三方应用界面的理解能力。当用户通过虚拟助手操作相关应用或者设备功能时,OmniParser可以使虚拟助手更准确地定位和识别界面元素,从而提升执行任务的成功率,如准确识别音乐播放器界面中的播放列表、搜索框等元素,按照用户指令正确操作相关功能。
  6. UI设计验证精准洞察
    • 在UI设计阶段,设计师可以利用OmniParser解析设计原型或者草图的截图。通过获取结构化的界面元素信息,判断界面布局是否合理、元素的可识别性是否足够等。例如,分析不同屏幕尺寸或者设备类型下界面元素的显示情况,确保UI设计在实际使用中符合用户体验原则,优化设计方案,提高设计的可用性和用户满意度。
  7. 跨平台应用开发品质护航
    • 对于跨平台应用开发团队来说,OmniParser可以在不同操作系统和设备类型下测试和分析应用的界面。确保应用在各种平台(如桌面端的不同操作系统、移动端的多种型号设备)上的界面布局、元素交互等方面保持一致的用户体验,及时发现和修正因平台差异导致的界面问题,从而提升跨平台应用开发的整体品质。

四、OmniParser的优势

  1. 解析准确性高
    • 在多个基准测试(如ScreenSpot数据集评测)中表现卓越,相较于传统依赖HTML解析的竞品模型,其界面元素识别准确率有显著的提高,在ScreenSpot数据集中,准确率提高了73%。OmniParser采用独特的模块融合与算法精研,能够精准地解析屏幕上的元素,最后输出的结构化数据保真度高,能够为智能体决策提供坚实的数据基础,有效提高决策的正确性。
  2. 与大型语言模型协作优势明显
    • 与GPT – 4V等大型语言模型协同作业时,OmniParser有很强的助攻实力。以图标正确标记率为观测指标,二者结合使用能使图标正确标记率从70.5%飙升至93.8%。它提供的结构性数据如图标描述、文本信息等有助于大型语言模型克服语义模糊、操作误判等顽疾,提高对GUI交互中界面的理解能力,从而生成更加契合界面场景的操作指令,明显改善智能体在GUI交互中的性能。
  3. 跨平台工作能力强
    • 挣脱对HTML标签、视图层级架构等底层依赖枷锁,能够在桌面(Windows、MacOS等)、移动端(iOS、Android)以及网页浏览器等多元平台上准确无误地工作,无论是在何种操作系统或者应用形式下都能实现高精度界面解析,拓宽了其应用空间,可用于多种设备及平台的界面解析需求,为智能体跨平台作业提供了可靠保障。
  4. 无需额外信息
    • 无需依赖HTML或视图层次结构等额外的上下文数据就能够工作,可以理解更复杂的图形用户界面(GUI),让其在不同环境下使用更加灵活方便。它在复杂的解析任务中不需要其他辅助信息就能够单独从视觉截图中准确提取出必要的数据,体现了其自我独立的特性和数据提取的智能化。景)下的应用范围和效果。

五、OmniParser的市场评价

  1. 技术创新性高
    • 在屏幕解析领域具有突破性的意义,被视为智能GUI自动化领域的一项令人兴奋的进展。它采用了纯视觉的方式进行屏幕解析,填补了当前屏幕解析技术中的多项空白,而传统的自动化方法大多依赖于解析HTML或视图层次结构,OmniParser这种全新的技术思路为屏幕解析技术带来了新的发展方向。
  2. 性能得到认可
    • 在多个基准测试中的优越表现使其备受关注。例如在ScreenSpot数据集含多平台超600个界面截图及手动创建任务指令的测试中,OmniParser远超GPT – 4V基线性能,在各平台均有显著准确率提升,还超越了SeeClick、CogAgent和Fuyu等专门微调模型。这表明OmniParser在实际的界面解析任务中有很强的稳定性和准确性,能够为后续相关应用提供可靠的输入数据基础,在市场中建立了较高的性能信誉。
  3. 应用潜力巨大
    • 它的跨平台特性、与大型语言模型协同工作时的高效性以及提升UI代理系统性能等多种优点,使其在多个领域都有很大的应用潜力。例如在自动化测试、虚拟助手、智能办公自动化、无障碍交互、UI设计验证等多个应用场景下都能够发挥重要的作用,被视为是助力创建更智能、更高效的用户界面驱动智能体的强大工具。对于企业和开发者来说,可以根据自己的业务需求在不同的领域挖掘其潜在的应用价值,从而提高产品或服务的智能性和竞争力。
  4. 开源优势
    • 微软将OmniParser开源发布在Hugging Face上。开源的做法让更多的开发者和研究人员能够接触和研究这个工具,有助于推动整个行业对屏幕解析技术的研究和探索,加速相关技术的进步和创新。例如,其他的开发者可以根据自己的项目需求对OmniParser进行改进或者定制,或者将其与自己开发的其他模块或工具进行集成,进一步拓展其功能和应用范围,也有利于发现工具存在的潜在问题并及时完善。