第三届小核酸药物2026盛会详情请点击图片了解,招商热线188 0194 0589
siRNA定义
小干扰RNA(small interfering RNA,siRNA),是一个长20到25个核苷酸的双链RNA,由双链RNA在细胞内被RNase III(核糖核酸酶,催化RNA降解为小分子核苷酸,如Dicer)主要参与RNA干扰(RNA interfering, RNAi)现象,以带有专一性的方式调节基因的表达(如基因敲落)。
通常,siRNA是一段21nt的双链RNA,每条链各有一个5'磷酸基末端和3'羟基末端,分别在RNA的两端有单链延伸(或未配对)的2个核苷酸。
siRNA作用机制
长dsRNA被Dicer切割形成siRNA。
siRNA进入细胞后,整合到蛋白中形成沉默复合物(RNA-induced silencing complex,RISC)。
由AGO2选择其中的引导链(guide strand)与其靶向mRNA结合(另一条乘客链(passenger strand)被降解),诱导mRNA切割并导致其降解,从而使其沉默。
解离的RISC诱导更多的mRNA被沉默。
siRNA设计
1、目标区域
a. siRNA通常以mRNA的CDS序列为靶点——因为相对于非编码序列而言,CDS序列容易成为RNA干扰的靶点,且多态性更低
翻译起始位点下游50~100nt开始
避开起始密码子附近50nt(核糖体保护)
避开终止密码子上游50nt
b. 当CDS不容易找到合适的siRNA结合位点,3‘UTR也可以利用(但需要注意区域内可能存在的调控元件)
c. 5’UTR和剪接点通常不被考虑,因为它们可能被细胞内蛋白复合体所包裹,同时,5‘UTR一般具有强二级结构的特征。
2、 经典设计规则
Reynolds规则(侧重siRNA的序列位置和结构优化)
基于19nt的siRNA双链(不含3'悬挂端),正义链(passenger strand)5'->3',位置编号1-19
GC含量在30%~50%之间
正义链(passenger strand)15~19号位之间至少有3个A/U碱基——这使得与之配对的另一端(即引导链的5'端)相对更不稳定,从而有利于引导链被RISC选择
避免出现链内重复序列
双链末端稳定性差异,要求正义链(passenger strand)的5'端的A/U数量多于3'端——确保正确的链被选中
正义链(passenger strand)第3位为A/U
正义链(passenger strand)第10位为A/U
正义链(passenger strand)第13位不是G
正义链(passenger strand)第19位为A/U
Ui-Tei规则(侧重双链末端的热力学不对称性和引导链的组成)
反义链(guide strand)5'端第1位为A/U
反义链(guide strand)5'端第19位为G/C
反义链(guide strand)5'端第1~7位富含A/U(>=4个)
序列中不含连续GC延伸(>=9个连续GC)
其他常用规则
seed区(反义链guide strand的第2~7位(或2~8位),常与靶mRNA 3'UTR互补配对)同源性和脱靶效应控制
化学修饰,如在反义链第2位引入2'-O-甲基修饰。
等等
3、常用工具
siDirect 2.0(https://sidirect2.rnai.jp/)
特点:整合Ui-Tei规则和脱靶预测
Sfold(https://sfold.wadsworth.org)
特点:考虑靶RNA二级结构可及性
RNAhybrid(脱靶分析,热力学计算siRNA-mRNA杂交)
RNAhybrid -s 3utr_human -t sirna_guide.fa -c -f 2,7 -e -10
4、人工智能siRNA序列设计
4.1 核心数据库
siRNAEfficacyDB
包含:
Huesken数据集(ML siRNA领域最重要的基准数据集):Huesken等人使用高通量荧光报告基因系统,收集了针对34种mRNA的2182条随机选取的siRNA作为训练集,249条作为独立测试集,共计2431条。
其它数据集:Reynolds数据集(180条)、Vickers数据集(76条)、Haborth数据集(44条)、Takayuki数据集(702条,靶向单一EGFP ORF全部位点)、Ui-Tei数据集(62条)。
化学修饰siRNA数据库
siRNAmod
收录了4894条经实验验证的化学修饰siRNA条目,涵盖128种独特化学修饰类别,提供siRNA序列、修饰位置、修饰类型的SMILES表示,以及修饰siRNA的效能数据。
CMsiRNAdb
整合了来自90项专利的43153条经实验验证的序列和沉默效率数据,涵盖36种修饰类型和13个治疗靶基因,并内置了ModMapper修饰位点识别工具和Cm-siRPred效能评估模型。
4.2 机器学习模型
4.2.1 传统机器学习模型
DSIR(LASSO 线性回归模型)
数据集:Huesken数据集(2431个siRNA、靶向34种mRNA,其中2182个siRNA用于训练模型,249个用于独立测试)
模型:LASSO linear regression
使用特征:
1、“siRNA序列每个位置的核苷酸”——每个位置的核苷酸以四种碱基的存在与否定义二进制向量
2、“短基序(1~3nt)的含量”——siRNA序列的谱表示定义为每种短基序的含量,为一个整数值向量
模型评估指标:皮尔逊相关系数(PCC)
4.2.2 深度学习模型
siRNADiscovery(图神经网络GNN模型)
特点:利用siRNA和mRNA的非经验和经验规则特征,有效地捕捉基因沉默的动态规程。
数据集:2816个siRNA-mRNA数据集(来自Huesken、Harborth、Ui-Tei、Vickers 和 Khovorova的原始研究,并将数据集随机划分为训练集、评估集和测试集,比例为70:15:15)、包含322个siRNA-mRNA对的进一步验证集(来自Simone数据集)、102个siRNA-mRNA对的内部数据集
模型:图神经网络GNN
使用特征:
1、非经验特征:one-hot序列编码、位置编码、碱基配对概率、RNA-蛋白质相互作用概率;
2、经验特征:热力学稳定性、核苷酸频率、GC百分比、siRNA每个位置的规则编码
模型评估指标:皮尔逊相关系数(PCC)、斯皮尔曼相关系数(SPCC)、AUC
OligoFormer(Transformer)
特点:使用 RNA 语言模型 RNA-FM 为 siRNA 和 mRNA 生成嵌入向量,作为附加特征;提供了脱靶效应预测。
数据集:Huesken数据集、Takayuki数据集以及其余数据集的合并数据集(Mixset,来自Amarzguioui、Harborth、Hsieh、Reynolds、Vickers和Ui-Tei等数据集),共包含3714个siRNA和75个mRNA
模型:以Transformer Encoder为主
使用特征:
1、热力学参数:稳定性、结合亲和力、ΔG等
2、RNA-FM嵌入:siRNA:19×640维,mRNA:57×640维
3、Transformer自注意力编码的位置相关序列特征
模型评估指标:AUC(ROC 曲线下面积)、PRC(精确率-召回率曲线下面积)、F1 score、PCC(Pearson 相关系数)
参考资料:
Reynolds A, Leake D, Boese Q, Scaringe S, Marshall WS, Khvorova A. Rational siRNA design for RNA interference. Nat Biotechnol. 2004;22(3):326-330. doi:10.1038/nbt936
Ui-Tei K, Naito Y, Takahashi F, et al. Guidelines for the selection of highly effective siRNA sequences for mammalian and chick RNA interference. Nucleic Acids Res. 2004;32(3):936-948. Published 2004 Feb 9. doi:10.1093/nar/gkh247
Huesken D, Lange J, Mickanin C, et al. Design of a genome-wide siRNA library using an artificial neural network. Nat Biotechnol. 2005;23(8):995-1001. doi:10.1038/nbt1118
Harborth J, Elbashir SM, Vandenburgh K, et al. Sequence, chemical, and structural variation of small interfering RNAs and short hairpin RNAs and the effect on mammalian gene silencing. Antisense Nucleic Acid Drug Dev. 2003;13(2):83-105. doi:10.1089/108729003321629638
Vickers TA, Koo S, Bennett CF, Crooke ST, Dean NM, Baker BF. Efficient reduction of target RNAs by small interfering RNA and RNase H-dependent antisense agents. A comparative analysis. J Biol Chem. 2003;278(9):7108-7118. doi:10.1074/jbc.M210326200
Katoh T, Suzuki T. Specific residues at every third position of siRNA shape its efficient RNAi activity. Nucleic Acids Res. 2007;35(4):e27. doi:10.1093/nar/gkl1120
He S, Chen C, Pan X, et al. CMsiRNAdb: a database of chemically modified SiRNA silencing efficiency for nucleic acid drug design. BMC Bioinformatics. 2026;27(1):33. Published 2026 Jan 3. doi:10.1186/s12859-025-06359-y
Dar SA, Thakur A, Qureshi A, Kumar M. siRNAmod: A database of experimentally validated chemically modified siRNAs. Sci Rep. 2016;6:20031. Published 2016 Jan 28. doi:10.1038/srep20031
Zhang Y, Yang T, Yang Y, et al. siRNAEfficacyDB: An experimentally supported small interfering RNA efficacy database. IET Syst Biol. 2024;18(6):199-207. doi:10.1049/syb2.12102
Vert JP, Foveau N, Lajaunie C, Vandenbrouck Y. An accurate and interpretable model for siRNA efficacy prediction. BMC Bioinformatics. 2006;7:520. Published 2006 Nov 30. doi:10.1186/1471-2105-7-520
Long R, Guo Z, Han D, et al. siRNADiscovery: a graph neural network for siRNA efficacy prediction via deep RNA sequence analysis. Brief Bioinform. 2024;25(6):bbae563. doi:10.1093/bib/bbae563
Yilan Bai, Haochen Zhong, Taiwei Wang, Zhi John Lu, OligoFormer: an accurate and robust prediction method for siRNA design, Bioinformatics, Volume 40, Issue 10, October 2024, btae577, https://doi.org/10.1093/bioinformatics/btae577
END
免责声明:本文仅作知识交流与分享及科普目的,不涉及商业宣传,不作为相关医疗指导或用药建议。文章如有侵权请联系删除。
第三届小核酸药物2026盛会详情请点击图片了解,招商热线188 0194 0589
戳“阅读原文”立即抢占小核酸药物论坛免费参会名额!