使用rsync进行数据同步

发表于2015 年 8 月 25 日由chenlianfu

1. rsync 命令作用

rsync 主要用于同步 2 台机器的文件。这里，同步的意思是：

1. 若目的端文件的源端的文件内容不一致，则使目的端文件和源端的文件内容一致。默认下，程序会比较两端文件的时间戳和大小，如果一致，则不会同步。
2. 默认下，若两端都有的文件，不会修改rwx权限和modify time。
3. 源端的路径必须有读权限，目的端必须有写权限，才能正常同步。

2. rsync 常用命令和参数

常用命令示例：
$ rsync -vrP -e 'ssh -p 22' SRC USER@HOST:DEST
可以使用 rsync 替代 scp。因为 scp 不能断点续传。

常用参数：
-v
    输出日志信息，-vvv (多个v)则会输出更多的信息。
-r
    递归，传输文件夹需要加此参数。
-P
    相当同时使用 --partial（断点续传） --progress（显示传输进度）这2个参数。
-e  default： ssh
    设置传输方式。如果ssh端口是 1234，则需要使用参数 -e 'ssh -p 1234' 。
--delete
    删除在目的端删存在而源端不存在的文件，配合 -r 使用。
-z
    使用gzip压缩后传输。
-t
    将源端文件的modify time同步过去。
-p
    将源端文件的rwx权限同步过去。
-I
    程序会比较文件内容是否一致来进行同步，速度慢。

使用PacBioToCA修正Pacbio数据

发表于2015 年 8 月 25 日由chenlianfu

1. PacBioToCA 简介

PacBioToCA 是 Celera Assembler 的一个模块，用于Pacbio数据的校正。因此，使用 PacBioToCA 需要安装 Celera Assembler。
利用 PacBioToCA 进行校正时：如果 Pacbio 数据量 > 20x 时，可以进行自我校正，而不需要其它更为精确的数据；推荐 Pacbio 数据量 > 50x 时进行自我校正；通常 > 15x 的 Pacbio 数据即可得到很好的组装结果。

2. 安装 Celera Assembler

推荐使用源码安装，直接下载二进制版本，可能提示错误：/lib64/libc.so.6: version `GLIBC_2.14′ not found

$ wget http://sourceforge.net/projects/wgs-assembler/files/wgs-assembler/wgs-8.3/wgs-8.3rc2.tar.bz2
$ tar jxf wgs-8.3rc2.tar.bz2 -C /opt/biosoft/
$ cd /opt/biosoft/wgs-8.3rc2/kmer
以下使用 make，不要使用 -j 参数进行多线程编译，会出错。
$ make && make install && cd ..
$ cd src && make && cd ..
$ echo 'PATH=$PATH:/opt/biosoft/wgs-8.3rc2/Linux-amd64/bin/' >> ~/.bashrc

如果进行 Pacbio 数据的自我校正，则需要 JAVA 1.8 版本
$ wget http://javadl.sun.com/webapps/download/AutoDL?BundleId=106240 -O jre1.8.0_45.tar.gz
$ tar zxf jre1.8.0_45.tar.gz -C /opt/biosoft
$ echo 'PATH=/opt/biosoft/jre1.8.0_45/bin/:$PATH' >> ~/.bashrc
$ source ~/.bashrc

3. PacBioToCA 的使用

3.1 将错误率低的测序数据转换为 FRG 数据

Celera Assembler 软件输入的测序数据的文件格式是 FRG 格式。PacBioToCA 输入的错误率低的数据需要 FRG 格式。
1. 使用 fastqToCA 将 fastq 数据转换为 FRG 格式
一般情况下是利用错误率较低的 Illumina 数据来对 Pacbio 数据进行校正。因此需要将 Illumina 的 Fastq 文件转换成 FRG 格式。 FRG 文件是文本文件，其中包含有 fastq 文件的路径和一些测序信息，比如插入片段长度、测序方向和碱基质量格式等。
fastqToCA 的常用示例和常用参数：

$ fastqToCA -insertsize 500 50 -libraryname pe500 -mates reads.1.fastq,reads.2.fastq > pe500.frg

-insertsize
    设置插入片段长度，为2个值，前者为插入片段长度，后者为标准差。
-libraryname
    文库的ID
-reads
    单端测序的 fastq 文件路径。
-mates
    双端测序的 fastq 文件路径。若双端数据交叉在一个文件中，则该参数后只有一个路径；若双端数据在2个fastq文件中，则2个路径用逗号分割。
-technology  default:illumina
    测序技术。可选的值有：none, sanger, 454, illumina(读长 < 160bp), illumina-long(任意读长), moleculo, pacbio-ccs, pacbio-corrected, pacbio-raw。
-type  default:sanger
    碱基质量格式。可选的值有：sanger, solexa, illumina。
-innie
    测序方向为 5'-3' <-> 3'-5'，适合小片段测序文库。
-outtie
    测序方向为 3'-5' <-> 5'-3'，适合大片段文库。

2. 使用 sffToCA 将 SFF 数据为 FRG 格式
Roche/454 数据格式为 SFF。
sffToCA 的常用示例和常用参数：

$ sffToCA  -libraryname LIB -output NAME IN.SFF ...

-insertsize
    设置插入片段长度，为2个值，前者为插入片段长度，后者为标准差。
-libraryname
    文库的ID。
-output
    输出文件的前缀。

3.2 使用 pacBioToCA/PBcR 进行 Pacbio 数据的修正

pacBioToCA 能对 Pacbio 数据进行校正，也能进行调用 runCA 进行基因组组装。
pacBioToCA 的输入文件为：

1. pacbio.spec   该文件包含一些参数信息，以 参数=值 表示。必须提供该文件，该文件内容为空，则全部使用默认参数。
2. pacbio.fastq  Pacbio测序的fastq文件，对该文件中的数据进行校正。
3. seq.frg        Illumina或454数据由 fatsqToCA 转换得到的 FRG 格式文件。如果不提供该文件，则进行自我校正。

pacBioToCA 的常用例子(示例数据)和参数：

$ pacBioToCA -libraryname out_prefix -s pacbio.spec -fastq pacbio.fastq seq1.frg seq2.frg

必须参数：
-libraryname STRING
    设定输出文件的前缀。
-s FILE
    从指定的参数文件获取额外的参数。若该文件内容为空，则使用默认的参数。
-fastq FILE
    输入需要校正的 Pacbio 数据。

可选参数：
-length INT    default:500
    pacBioToCA 对长度大于此值的测序 reads 进行修正。
-partitions INT    default:200
    将用于校正的数据分成指定份数，进行计算。内存不够，则需要增大该值。若内存足够，减小该值，可以减少计算时间。若该值太小(< 总线程数)，软件会中途运行runCorrection.sh报错并停止运行。
-threads INT    default：max
    使用的线程数。默认为所有可用的线程数。
-shortReads
    如果用于辅助校准的序列长度都 <= 100bp，则使用该参数。
-genomeSize INT    default:0
    设置基因组大小。设置改值后，在其它默认条件下，如果校正后的数据量 >25x，则会进行基因组组装。不设置该值，可能等同于设置该值为 5000000 （从软件输出信息中查知）。
-maxCoverage INT    default:40
    默认下，最多校正 40x 的数据量。
-maxGap INT
    默认下，如果有一段 pacibo-read 区域没有 short-read 覆盖，则会打断 pacbio-read。此值设定所能允许的没有 short-read 覆盖的最大长度。当然，若此段区域没有其它 pacbio-reads 重叠，则也会进行打断。

此外，在 pacbio.spec 文件中常设置的参数为：

若不进行基因，则需要设置：
assemble=0

软件默认设置最大内存使用量设置为系统最大可使用的内存量，若设定最大使用内存为 64G，则设置：
ovlMemory=64

使用 CA 8 版本对大基因组（>100Mbp）进行校正，设置：
maxGap=1500
ovlHashBlockLength=1000000000
ovlRefBlockLength=1000000000
使用Illumina数据进行校正：
blasr=-noRefineAlign -advanceHalf -noSplitSubreads -minMatch 10 -minPctIdentity 70 -bestn 24 -nCandidates 24
自我校正：
blasr=-minReadLength 200 -maxScore -1000 -maxLCPLength 16 -bestn 24 -nCandidates 24
ovlThreads=16
下面一个参数设置并行数。其值推荐设置为 总线程数 / ovlThreads值 。设置为2，表示每个 blasr 程序运行消耗 16 线程，并行运行 2 个 blasr 程序。
ovlConcurrency=2

若进行基因组组装。默认参数适用于单倍体数据或近亲杂交数据。对于大基因组或双倍体基因组，则需要设置：
asmUtgErrorRate=0.10
asmCnsErrorRate=0.10
asmCgwErrorRate=0.10
asmOBT=1
asmObtErrorRate=0.08
asmObtErrorLimit=4.5
utgGraphErrorRate=0.05
utgMergeErrorRate=0.05
ovlHashBits=24
ovlHashLoad=0.80

linux下测试磁盘的读写IO速度

发表于2015 年 8 月 25 日由chenlianfu

转载于：http://blog.chinaunix.net/uid-24250828-id-3239100.html

有时候我们在做维护的时候，总会遇到类似于IO特别高，但不能判定是IO瓶颈还是软件参数设置不当导致热盘的问题.这时候通常希望能知道磁盘的读写速度，来进行下一步的决策.

下面是两种测试方法：
(1)使用hdparm命令
这是一个是用来获取ATA/IDE硬盘的参数的命令,是由早期Linux IDE驱动的开发和维护人员 Mark Lord开发编写的( hdparm has been written by Mark Lord , the primary developer and maintainer of the (E)IDE driver for Linux, with suggestions from many netfolk).该命令应该也是仅用于Linux系统,对于UNIX系统，ATA/IDE硬盘用的可能比较少，一般大型的系统都是使用磁盘阵列的.

使用方法很简单
# hdparm -Tt /dev/sda

/dev/sda:
Timing cached reads: 6676 MB in 2.00 seconds = 3340.18 MB/sec
Timing buffered disk reads: 218 MB in 3.11 seconds = 70.11 MB/sec

可以看到,2秒钟读取了6676MB的缓存,约合3340.18 MB/sec;
在3.11秒中读取了218MB磁盘(物理读),读取速度约合70.11 MB/sec

(2)使用dd命令
这不是一个专业的测试工具，不过如果对于测试结果的要求不是很苛刻的话,平时可以使用来对磁盘的读写速度作一个简单的评估.
另外由于这是一个免费软件,基本上×NIX系统上都有安装,对于Oracle裸设备的复制迁移,dd工具一般都是首选.

在使用前首先了解两个特殊设备
/dev/null 伪设备,回收站.写该文件不会产生IO
/dev/zero 伪设备,会产生空字符流,对它不会产生IO

测试方法:
a.测试磁盘的IO写速度
# time dd if=/dev/zero of=/test.dbf bs=8k count=300000
300000+0 records in
300000+0 records out
10.59s real 0.43s user 9.40s system
# du -sm /test.dbf
2347 /test.dbf

可以看到,在10.59秒的时间里，生成2347M的一个文件,IO写的速度约为221.6MB/sec;
当然这个速度可以多测试几遍取一个平均值,符合概率统计.

b.测试磁盘的IO读速度
# df -m
Filesystem 1M-blocks Used Available Use% Mounted on
/dev/mapper/VolGroup00-LogVol00
19214 9545 8693 53% /
/dev/sda1 99 13 82 14% /boot
none 506 0 506 0% /dev/shm

# time dd if=/dev/mapper/VolGroup00-LogVol00 of=/dev/null bs=8k
2498560+0 records in
2498560+0 records out
247.99s real 1.92s user 48.64s system

上面的试验在247.99秒的时间里读取了19214MB的文件,计算下来平均速度为77.48MB/sec

c.测试IO同时读和写的速度
# time dd if=/dev/sda1 of=test.dbf bs=8k
13048+1 records in
13048+1 records out
3.73s real 0.04s user 2.39s system
# du -sm test.dbf
103 test.dbf

上面测试的数据量比较小，仅作为参考.

相比两种方法:
前者是linux上专业的测试IDE/ATA磁盘的工具,但是使用范围有局限性;(此试验仅仅使用了测试磁盘IO的参数,对于其他参数及解释参考man手册)
后者可以通用,但不够专业,也没有考虑到缓存和物理读的区分，测试的数据也是仅作参考，不能算是权威.

CentOS 6.5 无故自动重启解决方案

发表于2015 年 8 月 25 日由chenlianfu

有服务器安装CentOS 6.5后，无故自动重启。并再 /var/log/message 中有记录：

/usr/sbin/bmc-watchdog[14521]: fiid_obj_get: 'present_countdown_value': data not available

解决方法：安装 CentOS 6.4 或卸载 freeipmi-bmc-watchdog 软件包

# rpm -e freeipmi-bmc-watchdog-1.2.1-3.el6.x86_64

/usr/bin/ld: cannot find -lxxx 的解决办法

发表于2015 年 8 月 25 日由chenlianfu

在软件编译过程中，经常会碰到类似这样的编译错误：

/usr/bin/ld: cannot find -lhdf5

这表示找不到库文件 libhdf5.so，若是其它库文件，则是 cannot find -lxxx 了，其中 xxx 是库文件的名字。

解决方法有：

1. 安装此库文件和相关软件

一般库文件属于某个软件，google搜索该软件并安装，或者使用 yum 安装。

2. 将库文件所在路径添加到gcc的搜索路径

使用以下命令查询gcc能否搜寻到指定的库文件:

$ gcc -lhdf5 --verbose

查询库文件 libhdf5.so 是否能在搜索路径中找到。

若安装了软件，找到了库文件的路径。但是依然会提示上述错误。则表示gcc的搜索路径不包含该库文件所在的路径。将库文件所在的路径加入到搜寻路径中的方法为：

2.1 使用 /etc/ld.so.conf 配置文件

将库文件所在的路径加入到 /etc/ld.so.conf 尾部，并使之生效：

$ sudo echo '/opt/biosoft/hdf5-1.8.15-patch1/lib/' >> /etc/ld.so.conf
libhdf5.so 在路径 /opt/biosoft/hdf5-1.8.15-patch1/lib/ 下，将该路径加添加到配置文件中
$ sudo ldconfig
运行该命令，重新载入 /ext/ld.so.conf 中的路径，使修改生效。

2.2 修改环境变量

$ export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/biosoft/hdf5-1.8.15-patch1/lib/
修改环境变量 LD_LIBRARY_PATH，加入库文件所在路径。使用 export 命令使修改生效。

$ echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/biosoft/hdf5-1.8.15-patch1/lib/' >> ~/.bashrc
$ source ~/.bashrc
将上述 export 命令加入到配置文件 ~/.bashrc，使之永久生效。

$ export LIBRARY_PATH=/opt/biosoft/hdf5-1.8.15-patch1/lib/:$LIBRARY_PATH
若修改变量 LD_LIBRARY_PATH 不奏效，则修改变量 LIBRARY_PATH 。

陈连福的生信博客

第22期培训班将于2024.01.27-2024.02.05期间在武汉市举办！

日度归档：2015 年 8 月 25 日

使用rsync进行数据同步

1. rsync 命令作用

2. rsync 常用命令和参数

使用PacBioToCA修正Pacbio数据

1. PacBioToCA 简介

2. 安装 Celera Assembler

3. PacBioToCA 的使用

3.1 将错误率低的测序数据转换为 FRG 数据

3.2 使用 pacBioToCA/PBcR 进行 Pacbio 数据的修正

linux下测试磁盘的读写IO速度

CentOS 6.5 无故自动重启解决方案

/usr/bin/ld: cannot find -lxxx 的解决办法

1. 安装此库文件和相关软件

2. 将库文件所在路径添加到gcc的搜索路径

2.1 使用 /etc/ld.so.conf 配置文件

2.2 修改环境变量

2015年 8月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31