多模态科学大模型Uni-Finder，深势科技发布，用于提升科学文献阅读分析效率！

AIGC行业资讯1年前 (2023)发布管理员

近日，深势科技推出多模态科学大模型Uni-Finder，旨在进一步提升科学文献的阅读和分析效率。这一智能文献数据库平台，不仅提供高效的多模态检索功能，还能通过先进的自然语言交互技术灵活提取关键数据，大大优化了科学文献的理解和分析过程。Uni-Finder 现已开放更大范围的测试，感兴趣的用户可申请试用。

自研多模态科学文献大模型Uni-Finder

在科研活动中，科学文献的阅读和分析是一个至关重要但极为耗时的步骤。传统的科学文献数据库，尽管提供了检索功能，却依旧让研究人员不得不人工筛选和阅读大量文献。此外，当下流行的大型语言模型在处理自然语言方面表现出色，但面对含有分子结构图、化学反应式等多模态元素的科学文献时，它们却显得力不从心。

多模态科学大模型Uni-Finder，深势科技发布，用于提升科学文献阅读分析效率！

针对科学文献阅读和分析中面临的挑战，深势科技推出了革命性的智能科学文献数据库平台Uni-Finder。该平台不仅具备传统数据库（例如 SciFinder）的多模态检索功能，还能通过自然语言交互，在筛选结果中灵活且自动化地提取所需信息，如多个专利的共同中间体或与特定靶点相关的小分子活性数据。此外，由于其对科学多模态元素的精确理解，Uni-Finder 在科学文献的内容理解和问答方面的性能也优于其他大型语言模型。

据了解，Uni-Finder的核心技术是深势科技自研的科学多模态大模型Uni-SMT（Universal Science Multimodal Transformer）。不同于之前仅关注纯文本的大型语言模型，Uni-SMT综合考虑了科学文献中的多模态元素，如图表、数学方程、分子结构表示和化学反应方程式等。它运用多模态对齐技术，实现了对科学文献的更全面和精确理解。例如，对于某些专利，Uni-SMT能够通过多模态对齐技术同时理解markush式（带有可变基团的化学分子式）和文本中对可变基团的描述，从而精确地识别和解析专利的保护范围。

通过与市场上流行的基于大型语言模型的文献分析工具对比，结果显示Uni-Finder在分子结构图的识别、综合多模态信息的文献理解，以及判断特定分子是否受到专利中的Markush结构保护等几个关键功能上表现更为出色，表明其在处理和理解这些多模态元素方面具有显著优势。

Uni-Finder助力药物研发取得突破

在科研活动中，科学文献的阅读和分析非常繁琐。以药物研发为例，研究人员需要阅读大量文献来分析特定靶点的关键作用区域，收集活性小分子的数据等。这一过程虽关键，却往往需要耗费大量的时间和人力资源。

Uni-Finder融合先进的多模态文献理解和灵活的自然语言处理技术，提高了文献检索和分析效率。借助Uni-Finder，科研人员可更高效处理科学文献，节省宝贵时间，集中精力解决科研难题。

在一个模拟药物研发场景中，研究人员关注SOS1靶点时，可通过Uni-Finder查询SOS1相关疾病和结直肠肿瘤信息。这为他们提供了关键科学知识，为后续研发工作打下了坚实基础。研究人员还可利用Uni-Finder的高级检索功能深入探索。选择“SOS1”靶点标签后，Uni-Finder快速展示相关专利，证明了其在精准检索和信息筛选上的卓越性能。接着，研究人员对市场和科研趋势进行了全面分析。他们查看过去10年SOS1靶点的专利趋势，获取了市场动态和竞争环境的深刻洞察，辅助研发策略制定。通过Uni-Finder的跨文献分析，如骨架聚类，他们了解了该领域的最新进展和创新方向，为新药设计和开发提供了科学指引。最后，研究人员可深入分析特定专利。他们可以方便地审视保护的分子结构，提取高活性的实施例，并详细查看了特定实施例的信息。值得一提的是，通过上传分子结构图，并与Uni-Finder进行互动式对话，研究人员能够准确判断特定分子是否受当前专利保护。这一系列复杂分析突显了Uni-Finder在药物研发领域的强大实用性。

一名药物研发领域的内测用户在试用了两周后表示，Uni-Finder基于便捷的对话式交互，能够在不超过10秒的时间内，就能够精准提供专利实施例中所使用的共有中间体，或者是活性最佳的实施例的编号及其结构；在一些复杂的专利和文献调研任务中，Uni-Finder在几分钟内给出的信息，甚至堪比两名博士生调研一周的工作成果。