生物序列

用通式序列搜索为您的专利FTO和查新增色

2023-07-11
阅读时长 2分钟

在生物技术行业,生物序列的重要性不可小觑,它们是创新的核心。因为用传统的关键字搜索可能会漏掉关键信息,从而增加研发风险。因此,用序列来搜索常常被用于进行专利FTO和查新。


现今的生物序列搜索主要依赖于同源序列比对法,通过在序列库中找寻相似序列以获得全面的结果。然而,有一种特殊的序列不容忽视,我们称之为通式序列。


所谓的通式序列,是指那些在描述生物序列(如核酸序列、蛋白序列)时,使用特殊符号表示一类或多类碱基或氨基酸的序列。例如,在核酸中的'N'表示任一碱基,'R'表示嘌呤(AG),'Y'表示嘧啶(CT)等等。在蛋白序列中,'X'表示任一氨基酸,'B'表示天冬氨酸(D)或酰胺氨酸(N)等等。

由于这种通式序列的存在,使得在进行生物信息学的搜索匹配时,增大了匹配的难度和复杂性。因为我们需要将搜索的序列与目标序列的每一种可能性进行比对,这样才能确保不遗漏任何可能的匹配情况。


对于序列FTO来说,如果在其中存在通式序列,可能会增加其匹配的风险。因为需考虑多种可能性,增加了实验的难度和不确定性。因此,如果我们只是使用传统的序列同源性检索算法,在遇到这种通式序列时,我们可能会错过许多潜在的目标序列,因为这些算法通常只能识别和比较具体的序列,而不能理解和处理这种具有通配符或简并符的通式序列。换句话说,通式序列是一种以更抽象、更通用的方式来描述和保护生物序列信息的策略,可以广泛用于生物医学、生物工程、生物学等领域的专利申请和保护中。


为了解决通式序列带来的漏检风险,智慧芽的算法工程团队使用了他们自主研发的NLPCV、实体识别和指代消解技术等手段,创建了一个深度学习模型。此模型可以解析和识别序列表和专利全部文本中的通式序列以及其相关的替代信息,并以此来构建通式序列的搜索库。

(点击图片立即申请使用通式序列库)

此库利用特别设计的序列比对算法,不仅可以进行通式序列搜索,而且能够提供真正的相似度返回。这将更进一步减轻专利FTO和查新工作的疏漏风险。

(点击图片立即申请使用通式序列库)

考虑到通式序列可能存在的变化规模估计超过了一百亿,传统的对齐序列算法不能满足实时搜索的需求。因此,智慧芽提供了深度定制的对齐算法,它可以在搜索过程中动态加载通式序列的替代信息,以实现精确搜索并控制搜索时间在合理的范围内。在扫描阶段,智慧芽开发了压缩算法,以创建用于启发式搜索的词表,从而极大地降低了无义的比较,提高了搜索效率。在比对查询序列与目标序列时,智慧芽的专家级算法通过加入通式替代信息,使得比对和查询结果更加准确,结果简洁明了,直接显示查询序列与目标序列在不同变体下的最佳比较结果。


智慧芽生物序列的Bio数据库新添通式序列检索的强大功能,标志着专利领域的巨大转型。对于研究人员和检索人员来说,这是一款极其强效的工具,点击图片立即使用。

 
AXS-05 or氯胺酮,谁是抑郁症更优选择?
热点聚焦
阅读时长 11分钟
AXS-05 or氯胺酮,谁是抑郁症更优选择?
2023-07-07
对于大多数重度抑郁症患者而言,单胺为靶点的一线或二线治疗往往无法达到足够的治疗效果。
阅读 →
研发热潮势不可挡——KRAS G12D抑制剂
行业报告
阅读时长 4分钟
研发热潮势不可挡——KRAS G12D抑制剂
2023-07-06
AMG 510的出现彻底颠覆了人们对于KRAS不可成药的观念,引导着国内外对KRAS G12C/D小分子抑制剂的研发热潮。
阅读 →
首款非激素靶向药,更年期潮热迎来新突破
药物解读
阅读时长 5分钟
首款非激素靶向药,更年期潮热迎来新突破
2023-07-06
全球首款治疗绝经导致的中重度血管舒缩症的非激素类靶向药。
阅读 →
聚焦小核酸药物:探索下的闪耀之光
前沿技术
阅读时长 6分钟
聚焦小核酸药物:探索下的闪耀之光
2023-07-06
小核酸药物是什么?为何受到巨头的青睐?国内的研究进展如何?
阅读 →
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。