实用工具

统计数据集序列信息

介绍：

计算数据集中序列的信息（序列长度的最大值｜最小值｜总和｜平均值，序列条数，序列之间的相似度）
作出序列长度分布图和序列相似度分布图

用法：

python dataInfo.py input.fasta mafft datasetName

参数描述：

input.fasta: 待计算相似度的数据集，必须为fasta格式
mafft: mafft路径，用于两两序列比对
datasetName: 数据集名称，用于命名序列信息文件

datasetName.txt 序列基本信息（序列条数和长度）
datasetName_Distri.png 序列长度分布图
similarity_datasetName.txt 两两序列相比的相似度值
similarity_datasetName.png 序列相似度分布图

处理非法字符的脚本

介绍：

用于处理多序列比对后的fasta文件
该脚本将RNA序列文件中的碱基“U”替换为“T”，并将非法字符（如“:”）替换为“N”
处理后的文件存储在 resultName_processed.fasta

用法：

python preprocess.py filepath resultName

参数描述：

filepath: 要处理的fasta文件的路径
resultName: 处理后的Fasta文件名

处理N的脚本

介绍：

在比对核苷酸的序列时，N的存在影响比对的难度。同时，不同的比对软件对于N的处理各不相同，得到的比对结果有的包含N，有的将N删掉了，难以比较软件的精度。该脚本处理数据后，可以降低比对的难度并统一比对后的结果，方便比较软件优劣。

比对前删除N
比对后插回N

用法：

# 使用前先编译
g++ deal_N.cpp -o xxx

# 以下内容是Unix系统的使用方法，在Windows系统下使用时仅将./xxx替换为xxx.exe即可

# 1 删除文件中的N并记录N的位置
./xxx -1 in_original.fasta out_removeN.fasta recordN.tmp

# 2 将N插入到比对结果中
./xxx -2 in_ans_withoutN.fasta out_ans_withN.fasta recordN.tmp

# 3 从源文件和结果文件中生成带有N的最终结果文件
./xxx -3 in_original.fasta in_ans_withoutN.fasta out_ans_withN.fasta

参数描述：

-1｜-2｜-3: 选择的功能号
in_original.fasta: 带N的比对前的数据
out_removeN.fasta: 删掉N的比对前的数据
recordN.tmp: 记录N的位置信息文件
in_ans_withoutN.fasta: 没有N的比对结果
out_ans_withN.fasta: 将N插回原位的比对结果