近日,深势科技推出多模态科学大模型Uni-Finder,旨在进一步提升科学文献的阅读和分析效率。这一智能文献数据库平台,不仅提供高效的多模态检索功能,还能通过先进的自然语言交互技术灵活提取关键数据,大大优化了科学文献的理解和分析过程。Uni-Finder 现已开放更大范围的测试,感兴趣的用户可申请试用。
自研多模态科学文献大模型Uni-Finder
在科研活动中,科学文献的阅读和分析是一个至关重要但极为耗时的步骤。传统的科学文献数据库,尽管提供了检索功能,却依旧让研究人员不得不人工筛选和阅读大量文献。此外,当下流行的大型语言模型在处理自然语言方面表现出色,但面对含有分子结构图、化学反应式等多模态元素的科学文献时,它们却显得力不从心。
针对科学文献阅读和分析中面临的挑战,深势科技推出了革命性的智能科学文献数据库平台Uni-Finder。该平台不仅具备传统数据库(例如 SciFinder)的多模态检索功能,还能通过自然语言交互,在筛选结果中灵活且自动化地提取所需信息,如多个专利的共同中间体或与特定靶点相关的小分子活性数据。此外,由于其对科学多模态元素的精确理解,Uni-Finder 在科学文献的内容理解和问答方面的性能也优于其他大型语言模型。
据了解,Uni-Finder的核心技术是深势科技自研的科学多模态大模型Uni-SMT(Universal Science Multimodal Transformer)。不同于之前仅关注纯文本的大型语言模型,Uni-SMT综合考虑了科学文献中的多模态元素,如图表、数学方程、分子结构表示和化学反应方程式等。它运用多模态对齐技术,实现了对科学文献的更全面和精确理解。例如,对于某些专利,Uni-SMT能够通过多模态对齐技术同时理解markush式(带有可变基团的化学分子式)和文本中对可变基团的描述,从而精确地识别和解析专利的保护范围。
通过与市场上流行的基于大型语言模型的文献分析工具对比,结果显示Uni-Finder在分子结构图的识别、综合多模态信息的文献理解,以及判断特定分子是否受到专利中的Markush结构保护等几个关键功能上表现更为出色,表明其在处理和理解这些多模态元素方面具有显著优势。
Uni-Finder助力药物研发取得突破
在科研活动中,科学文献的阅读和分析非常繁琐。以药物研发为例,研究人员需要阅读大量文献来分析特定靶点的关键作用区域,收集活性小分子的数据等。这一过程虽关键,却往往需要耗费大量的时间和人力资源。
Uni-Finder融合先进的多模态文献理解和灵活的自然语言处理技术,提高了文献检索和分析效率。借助Uni-Finder,科研人员可更高效处理科学文献,节省宝贵时间,集中精力解决科研难题。
在一个模拟药物研发场景中,研究人员关注SOS1靶点时,可通过Uni-Finder查询SOS1相关疾病和结直肠肿瘤信息。这为他们提供了关键科学知识,为后续研发工作打下了坚实基础。研究人员还可利用Uni-Finder的高级检索功能深入探索。选择“SOS1”靶点标签后,Uni-Finder快速展示相关专利,证明了其在精准检索和信息筛选上的卓越性能。接着,研究人员对市场和科研趋势进行了全面分析。他们查看过去10年SOS1靶点的专利趋势,获取了市场动态和竞争环境的深刻洞察,辅助研发策略制定。通过Uni-Finder的跨文献分析,如骨架聚类,他们了解了该领域的最新进展和创新方向,为新药设计和开发提供了科学指引。最后,研究人员可深入分析特定专利。他们可以方便地审视保护的分子结构,提取高活性的实施例,并详细查看了特定实施例的信息。值得一提的是,通过上传分子结构图,并与Uni-Finder进行互动式对话,研究人员能够准确判断特定分子是否受当前专利保护。这一系列复杂分析突显了Uni-Finder在药物研发领域的强大实用性。
一名药物研发领域的内测用户在试用了两周后表示,Uni-Finder基于便捷的对话式交互,能够在不超过10秒的时间内,就能够精准提供专利实施例中所使用的共有中间体,或者是活性最佳的实施例的编号及其结构;在一些复杂的专利和文献调研任务中,Uni-Finder在几分钟内给出的信息,甚至堪比两名博士生调研一周的工作成果。