CentOS系统安装RStudio

发表于2022 年 7 月 29 日由chenlianfu

1. 安装RStudio软件

在官网下载RStudio的rmp安装包并进行安装。以CentOS8系统为例：

wget https://download2.rstudio.org/server/rhel8/x86_64/rstudio-server-rhel-2022.07.1-554-x86_64.rpm
sudo yum install rstudio-server-rhel-2022.07.1-554-x86_64.rpm

2. 安装最新版本R软件

dnf -y install readline readline-devel libcurl libcurl-devel gcc-gfortran libXt* readline* bzip2* xz* pcre* curl-devel *ltdl* libpng-devel libtiff-devel libjpeg-turbo-devel pango-devel libpng-devel

wget https://cran.r-project.org/src/base/R-4/R-4.2.1.tar.gz
tar zxf R-4.2.1.tar.gz
cd R-4.2.1/
./configure --prefix=/opt/sysoft/R-4.2.1 --enable-R-shlib --with-tcltk
make -j 8
make install

ln -s /opt/sysoft/R-4.2.1/bin/* /usr/bin/

3. 开放防火墙端口8787，启动RStudio服务

firewall-cmd --add-port=8787/tcp --permanent
firewall-cmd --reload

systemctl restart rstudio-server.service
systemctl enable rstudio-server.service

4. 使用RStudio

在浏览器中访问 IP:8787，再输入系统用户和密码登录即可。

5. RStudio服务的配置文件

高级用法：可以通过修改配置文件/etc/rstudio/rserver.conf来指定RStudio使用的R命令和相应端口。例如：

rsession-which-r=/opt/sysoft/R-4.2.1/bin/R
www-port=8787

argument list too long报错处理方法

发表于2021 年 12 月 24 日由chenlianfu

在Linux系统中输入命令，当命令后输入的字符数量超过阈值时，会导致程序运行失败，出现提示：argument list too long。常见于rm、ls、cp、mv和tar等命令对大量文件进行处理时。

1. 查看命令后字符长度阈值

ARG_MAX（maximum length of arguments for a new process）参数用来设置进程的参数字符长度。

# getconf ARG_MAX                
2621440
# ulimit -s
10240

前者是命令后输入的字符数2.6M。后者设置堆栈空间大小，单位是KiB，该值 * 1024 / 4 = 前者。

2. 提高ARG_MAX 阈值

通过ulimit命令提高 ARG_MAX 阈值。

# ulimit -s 102400
# getconf ARG_MAX       
26214400

修改配置文件/etc/security/limits.conf，设置limits参数：

# cat <<EOF >> /etc/security/limits.conf
*	soft	nproc	10240
*	hard	nproc	102400
*	soft	nofile	10240
*	hard	nofile	102400
*	soft	stack	10240
*	hard	stack	102400
EOF

3. 使用循环执行文件操作

使用perl循环删除文件

# perl -e 'while (<*key_word*>) { print "rm -rf $_\n"; }' | sh

得到文件列表后，tar命令使用参数-T输入列表文件进行打包

# perl -e 'while (<*key_word*>) { print "$_\n"; }' > file.list
# tar zcf file.tar.gz -T file.list

绘制GO气泡图

发表于2021 年 12 月 21 日由chenlianfu

（1）打开网站https://hiplot.com.cn/basic/bubble，导入GO气泡图的数据文件，推荐使用纯文本文件，内容示例如下：

Term	Count	Ratio	PValue
GO:0046873~metal ion transmembrane transporter activity	25	0.0399361022364217	0.00001043522
GO:0098655~cation transmembrane transport	33	0.0527156549520767	0.00001818934
GO:0006812~cation transport	42	0.0670926517571885	0.00001818934
GO:0006811~ion transport	56	0.0894568690095847	0.00001818934

若表头和上述示例不一致，则需要再导入按钮下方的四个选择框中浏览对应的数据列。

（2）在设置参数处，设置参数：Title填入相应的标题信息；Image Export选择pdf和svg；Width选择10，height选择8，这两者用于设置整个图片的宽度和高度；点击向下的三箭头图标，打开更多参数设置；Title Size设置14，Legend Title Size设置12；Legend Text Siz设置12；Axis Title Size设置14；Axis Font Size设置12；Show Top Items设置20；注意设置Legend of Transformed Color为FDR；推荐设置Show Percent（X ais）。

（3）最后提交，会看到结果，再下载图片。

藏龙岛湿地公园

发表于2021 年 12 月 6 日由chenlianfu

1. 简介

藏龙岛国家级湿地公园规划面积为401公顷，位于江夏区藏龙岛科技园，包括杨桥湖、上潭湖、下潭湖、玉叶滩、明星林场等区域，有“藏龙八景”、“杨桥湖二十四桥”等景观。园区生活着黑斑蛙、中华大蟾蜍、乌梢蛇、豹猫等省级保护动物，八哥、家燕、黑水鸡、灰喜鹊、大山雀等省级保护鸟类。

2. 自然资源

园区生活着黑斑蛙、中华大蟾蜍、乌梢蛇、豹猫等省级保护动物，八哥、家燕、黑水鸡、灰喜鹊、大山雀等省级保护鸟类。

3. 发展历史

2011年1月，武汉市新添两个省级湿地公园——后官湖湿地公园和藏龙岛湿地公园。至此，武汉市省级湿地公园达3个。武汉已建有东湖国家湿地公园，以及杜公湖、后官湖、藏龙岛等3个省级湿地公园，总面积为5207.3公顷。藏龙岛湿地公园拟用8年建设，由武汉江夏经济开发区藏龙岛办事处承建，规划投资1.5亿多元。2013年4月份藏龙岛省级湿地公园升级为国家湿地公园，与东湖比肩，将按高标准进行植被恢复等保护性建设。

4. 主要景点

藏龙岛湿地公园主要建设内容为喷泉景观改造工程、芦苇荡建设和改造工程、驳岸改造工程、码头建设和服务中心改造工程、新建鱼鲜饮食街、高尔夫球场堤坝景观改造工程、藏龙号周边景观改造和地标性水景建设、玉叶滩开发及明星林场改造工程、桥梁重建及藏龙号广场建设等工程。

后官湖湿地公园及其绿道

发表于2021 年 12 月 6 日由chenlianfu

1. 简介

后官湖湿地公园是国家级湿地公园，面积达3186.3公顷，是东湖湿地公园的3倍，为武汉建设的最大的湿地公园。位于三环线以西、蔡甸中北部，包括百镰湖、皮泗湖、筲箕湖、王家湖、高湖、知音湖及沿岸用地。该湿地公园建成后，将再现“青山隐隐曲水绕，草滩深处白鹭飞”的原生态自然景观。

后官湖绿道位于武汉市蔡甸区后官湖畔。总长度110公里，占地总面积约530公顷，带有骑行专用自行车道和步道，是武汉首条郊野绿道，也是全国第二条郊野绿道。

2. 地理和气候

后官湖湿地公园位于蔡甸区中北部，高湖水域沿岸，地理坐标为：东经113°58′-114°05′，北纬30°30′-30°34′之间。区域内山水资源丰富，属浅水型淡水湖泊，具有底平、水浅、水生生物资源丰富、湖泊功能显著等特征。

后官湖主体由知音湖、皮泗海、白莲湖、天鹅湖、高湖组成。区域内自然形成的岬、屿、岛、湾、洲星罗棋布，湖泊岸线自然曲折，湖光山色交相辉映，既有完整的湿地生态系统，又有湖区渔耕的人文风貌。

公园内风光旖旎，群山环绕，俊俏靓丽，主要包括玉笋山、横山、马鞍山、笔架山、天子山、伏牛山、凤凰山等十多座山。区域内最高景观眺望点是马鞍山，高程为88.3米。临近后官湖南岸的天子山，高程为66.5米，是最佳观园赏景视点。

后官湖属于属亚热带过渡性季风气候，具有热丰、水富、光足的特点。

3. 自然资源

后官湖湿地生物多样性丰富，动植物种类繁多。共有维管束植物69科，131属，158种，其中有国家重点保护野生植物莲和野菱2种。有脊椎动物33目81科258种，其中，鱼类8目15科80种，两栖动物1目4科10种，爬行动物2目7科24种，鸟类15目43科149种，兽类7目12科23种。在258种脊椎动物中，国家重点保护动物24种，其中，国家Ⅰ级有白头鹤1种，Ⅱ级有河麂、白琵鹭、灰鹤、黑鸢、赤腹鹰、普通鵟、红角鸮、斑头鸺鹠等23种。有浮游藻类7门30科52属78种，浮游动物20种，底栖动物42种。优越的自然地理环境，使后官湖湿地成为大武汉不可多得的一个天然野生动植物园。

4. 发展历史

2010年，武汉市将后官湖列入新建湿地公园的行列。同年，湖北省林业厅以鄂林护函〔2010〕545号文件批准建立后官湖省级湿地公园。为了进一步加强后官湖湿地公园的建设和管理，2012年，蔡甸区委区政府决定，将后官湖湿地申报为国家湿地公园。湖北省野生动植物保护总站、中国科学院武汉植物园等单位专家对后官湖湿地公园本底资源进行了系统调查，在此基础上，编制了总体规划。后官湖湿地公园拟用8年建设，由武汉蔡甸现代农业投资有限公司承建，规划投资4.44亿多元。

国家林业局发布了2016年试点国家湿地公园验收结果：蔡甸区后官湖国家湿地公园（试点）顺利通过验收，正式成为“国家湿地公园”。

5. 神话传说

有人说，因为湖水的形状像“官”字而得名。

也有人说，因为姜子牙的传说而得名“候官湖”。

相传，姜子牙年轻时文武双全，武功盖世，但生不逢时，一直没得到朝廷重用。47岁那年，天下大旱，父亲为寻水源劳累而死，母亲也奄奄一息。姜子牙背着母亲一边乞讨，一边寻找水源。

终于，母子俩找到蔡甸的一个大湖，并在湖边定居下来，靠砍柴捕鱼苦度生计。这天，来了一位脚穿草鞋、头戴破帽的乞讨老人，姜母见其可怜，毫不犹豫将自家仅有一块面饼递给老人。老人说，“我家还有老伴重病在床，请你们帮帮忙，送我老伴去治病，你们望着北极星向北翻过三座山就到了。”

次日，姜子牙翻过三座山，看到一座宫殿。从宫殿中走出一人，原来就是昨天乞讨的那位老人。经过老人举荐，姜子牙在朝庭做了官。后来，姜子牙封官为侯，先后辅佐六位周王。因此，当地人将他出仕前生活过的那片大湖叫“候官湖”。凡蔡甸地区学子进京赶考，必得从候官湖走水路去汉口。而京城放榜的喜讯，从京城传到汉口，也再沿水路传到蔡甸。那些一心想走仕途的学子们，常常会在京城放榜之日，站在候官湖畔等待喜讯。

大家干脆将这片湖称为“候官湖”，后来口口相传，就演变成“后官湖”。

“自古以来，许多朝代的名人高官都诞生于这片湖区，如明代兵部尚书戴金，清康熙帝师熊伯龙等，因此民间还有一种说法，古时候蔡甸地区的学子进京赶考，必得从今天的后官湖畔走水路先往武昌，再去京城，而京城放榜的日子，喜报也会沿水路传到蔡甸。于是，那些一心想走仕途的学子们，常常会在京城放榜的日子里，站在湖畔等候京官送来喜报”。

这种说法在普通老百姓那里的另一个理解是，这些在此等候的人，从此之后便为官人了，而且“候”和“后”同音，所以渐渐把这个地方叫作“后官湖”。

王汉伟介绍，在蔡甸古地方志里，有关后官湖的记载，一直有“候官湖”和“后官湖”两种提法，但“后官湖”的提法居多，后来约定俗成，使用了“后官湖”。

王汉伟感慨，20多年前，大后官湖水域还是一片“野湖汊”，伴随着国家级经济开发区沌口车都的打造，汉阳王家湾的崛起，汉阳黄金口工业园的建设，经开区城市化进程等，如今环湖四周已形成现代工业集聚区和都市生活居住区相融合的“产城一体”城市格局。而随着城市化进程，以前湖汊众多的后官湖，已成为大水网，使武汉西部的后官湖，一跃成为武汉境内的第四大湖。

6. 主要景点

后官湖绿道所经之地有亮丽的湖光山色、丰富的人文景观、充满活力的玩乐项目。据了解，后官湖郊野绿道将生态资源保护和知音文化传承相结合，以“山水相融、田园相映、林城相依、知音文化”为指导思想，打造韵律田园风光、雅乐知音故事、静谧莲花水乡三大主题；形成隔离系统、绿化系统、慢行系统、标识系统、服务系统五大系统，具备湖泊修复、生态保护、休闲游憩、旅游经济四大功能。绿道规划兴建Ⅰ级驿站24个、Ⅱ级驿站48个、自行车道110千米、人行步道60千米、游艇码头10座。

高山流水、夜泊枫桥、雨打芭蕉、渔舟唱晚等24个诗意景点。

沿湖周边的羊谷山、虎头山、马鞍山、龙头山等形成“十二生肖”系列。

使用PANDAseq连接重叠的Paired-End Illumina数据

发表于2021 年 11 月 15 日由chenlianfu

PANDAseq（https://github.com/neufeld/pandaseq）用于将Paired-End测序且有重叠的双末端reads连接成一条较长的read。该软件2021年发表于BMC Bioinformatics，并在2017年3月更新到2.11版本。PANDseq软件先检测双端reads重叠再连接，使用时默认使用simple_bayesian算法，也还可以选择FastqJoin in ea-utils, FLASH (Fast Length Adjustment of SHort reads)或PEAR (Paired-End AssembleR)算法。此外，PANDAseq将双末端数据连接时，能根据重叠结果，修正不匹配碱基（选择碱基质量高的碱基）和未知碱基。

1. 软件下载和安装

wget https://github.com/neufeld/pandaseq/archive/refs/tags/v2.11.tar.gz -O pandaseq-2.11.tar.gz
tar zxf pandaseq-2.11.tar.gz
cd pandaseq-2.11/
./autogen.sh
./configure --prefix=/opt/biosoft/pandaseq-2.11
make -j 4 && make install 
cd .. && rm -rf pandaseq-2.11
echo 'PATH=$PATH:/opt/biosoft/pandaseq-2.11/bin/' >> ~/.bashrc
source ~/.bashrc

2. 软件的使用

常用示例：

pandaseq -f illumina.1.fastq -r illumina.2.fastq -k 5 -o 5 -F  > out.fastq 2> out.tab

常用参数：

-6    default: None
	添加该参数，表示输入数据是Phred64碱基质量格式。程序默认识别Phred33碱基质量格式。
-A <string>    default: simple_bayesian
	设置软件的算法。simple_bayesian[:error_estimation]，默认使用PANDAseq软件发表文章中的算法，可以输入错误率；ea_util，使用FastqJoin算法；flash，使用FLASH算法；pear[:random_base]，使用PEAR算法，可以输入一个随机碱基的概率；rdp_mle，使用RDP算法；stitch，使用Sitch算法；uparse[:error_estimation]，使用UPARSE/USEARCH算法，可以输入错误率。
-f <string>    default: None
	输入reads1的FASTQ文件，支持gzip或bzip2格式的文件。
-r <string>    default: None
	输入reads2的FASTQ文件，支持gzip或bzip2格式的文件。
-F    default: None
	程序默认输出FASTA的结果。若添加该参数则输出Phred33碱基质量格式的FASTQ格式文件。即使输入的FASTQ文件是Phred64碱基质量格式，也输出Phred33格式的结果；重叠区域输出两条reads的平均碱基质量，非重叠区域输出各自原本的碱基质量。
-k <int>    default: 2
	设置k-mer序列记录的位置个数。程序通过k-mer序列进行比对，记录k-mer序列出现在reads序列的位置信息。若reads有重复，则k-mer可能出现在一条read的多个地方，程序默认仅记录2个位置信息。该参数设置不能超过10，该值越大越消耗内存和计算，但是应该结果也更准确。最好推荐提高该值，直到FML的错误提示变少。
-o <int>    default: 1
	设置首尾reads最小的重叠碱基长度。作者在软件说明中表示：默认最少有1个碱基重叠，但后续回根据打分能去除重叠较少的结果。实际测试结果中则保留最少有3个碱基重叠的数据。个人推荐根据数据的平均重叠长度设置为5或更高。
-O <int>    default: read length
	设置首尾reads最长的重叠碱基长度。
-t <float>    default: 0.6
	设置最低得分阈值，该参数值在0~1之间。具体的计分方法软件说明书中没有。
-T <int>    default: max
	设置线程数，默认为计算机的最大CPU线程数。若编译PANDAseq软件时使用了pthreads，则支持该参数设置更大的值。由于计算速度可能受到I/O瓶颈，即使设置了很高的参数值，真实可能仅能利用8~16个CPU线程。
-l <int>    default: None
	设置最短序列长度。去除连接后长度低于该值的序列，默认保留所有序列。
-L <int>    default: None
	设置最长序列长度。去除连接后长度高于该值的序列，默认保留所有序列。
-N    default: None
添加该参数，则表示去除连接后含有碱基N的序列。

程序默认在标准输出中给出FASTA或FASTQ的结果数据，在标准错误输出中给出各reads对的重叠信息和统计信息。

统计信息显示每个计算的CPU线程结果，若仅用1个CPU线程，则能直接看到所有数据的统计结果，示例如下，可以看到消耗的时间(ELAPSED)、重叠碱基长度及数量(OVERLAPS，按顺序表示重叠长度为1,2,3…bp的reads对个数)和各reads对数量：输入(READS)、未能找到重叠(NOALGN)、重叠得分低(LOWQ)、多长或过短(BADR)、计算较费时(SLOW)和输出(OK)。

0x1471a80:0     STAT    TIME    Mon Nov 15 09:40:09 2021
0x1471a80:0     STAT    ELAPSED 277
0x1471a80:0     STAT    READS   10220063
0x1471a80:0     STAT    NOALGN  455052
0x1471a80:0     STAT    LOWQ    754593
0x1471a80:0     STAT    BADR    0
0x1471a80:0     STAT    SLOW    2077539
0x1471a80:0     STAT    OK      9010418
0x1471a80:0     STAT    OVERLAPS        0 0 0 0 0 143771 155071 166920 167346 211873 218965 219605 224772 224272 229920 231389 232102 …

常见reads的重叠信息中第三列：

INFO BESTOLP	最优重叠参数。
ERR LOWQ	得分低设定的最低阈值。
DBG FML	k-mer出现在read中的次数超过了指定的阈值，表示找的重叠可能不准确。

在windows系统下用sshfs挂载服务器目录

发表于2021 年 10 月 14 日由chenlianfu

1. 安装winfsp和sshfs-win软件

在Linux系统上可以使用sshfs命令通过ssh挂载远程服务器的目录。而在windows系统上也可以使用同样的方式挂载。这时，需要在windows系统上安装sshfs命令即可。需要安装sshfs-win软，该软件需要依赖winfsp软件。这两个软件是同一个作者写的，属于Cygwin软件系列。在GitHub上下载这winfsp和sshfs-win两个软件的最新版本，按顺序安装即可。

2. 挂载远程服务器的路径到Windows系统中

sshfs-win软件安装完毕后，使用如下方法挂载远程服务器的目录：在windows10系统中按windows+e打开我的电脑，左键点击此电脑，点击窗口左上角的计算机，点击映射网络驱动器，弹出一个窗口；在输入框中输入远程服务器的信息，点击完成，输入用户密码，即可永久将远程服务器的目录挂载成windows系统的Z盘。

关键的远程服务器的信息书写格式为

\\sshfs\用户名@IP地址!端口\路径

示例：
\\sshfs\chenlianfu@122.205.95.116!22\relative_path

relative_path是相对于用户家目录的相对路径

重装CentOS8系统要点

发表于2021 年 10 月 14 日由chenlianfu

设置sudo权限
关闭SeLinux安全机制
配置网络
开启防火墙端口
做好SSH配置
恢复网站配置
恢复用户和hosts信息
设置好磁盘配额
恢复perl模块和系统软件
配置本地源
设置NFS文件系统共享和网络共享
关闭服务器图形化桌面

CentOS8系统中开启NFS文件共享和网络共享

发表于2021 年 10 月 11 日由chenlianfu

1. 设置NFS文件共享

由于在安装CentOS8系统带GUI界面服务器版本时勾选了所有软件包，默认已经包含了nfs-util软件，能用于NFS共享。首先，开启软件和相应防火墙设置：

开启防火墙设置
firewall-cmd --add-service=nfs --permanent
firewall-cmd --reload

使用root用户运行程序，开启nfs服务并设置开机启动：
systemctl restart rpcbind.service
systemctl restart nfs-server.service
systemctl enable rpcbind.service
systemctl enable nfs-server.service

再设置共享的目录并生效：

cat << EOF >> /etc/exports
/disk   12.12.12.0/24(rw,sync,no_root_squash,no_subtree_check)
/opt    12.12.12.0/24(rw,sync,no_root_squash,no_subtree_check)
EOF

exportfs -rv

当前服务器ip为12.12.12.1，在另外一台ip为12.12.12.2服务器的服务器上挂载共享目录：

mkdir /disk

一次性临时挂载：
mount -t nfs 12.12.12.1:/disk /disk

永久挂载：
cat << EOF >> /etc/fstab
12.12.12.1:/disk /disk  nfs  defaults  0  0
12.12.12.1:/opt  /opt   nfs  defaults  0  0
EOF
mount -a

2. 设置网络共享

将带有外网管理服务器的网络共享给内部局域网的其它计算服务器，则在管理节点上使用root用户进行操作：

防护墙设置：
firewall-cmd --add-port=53/tcp --permanent
firewall-cmd --permanent --add-masquerade
firewall-cmd --permanent --direct --passthrough ipv4 -t nat -I POSTROUTING -o ens6 -j MASQUERADE -s 12.12.12.0/24
注意ens6是连接外网的网卡名称，12.12.12.0/24是内部局域网的IP段。
firewall-cmd --reload

echo 'net.ipv4.ip_forward=1' >> /etc/sysctl.conf
sysctl -p

在管理服务器上的内网ip是12.12.12.1，则在其它内网计算节点的服务器ip设置相同的ip段和不同ip编号，子网掩码为255.255.255.0，网关为共享因特网的服务器内网ip地址12.12.12.1。再设置好DNS，则能让内网服务器连接因特网。

Windows10激活

发表于2021 年 8 月 8 日由chenlianfu

在新安装的Windows10专业版系统中，按Windows+x，再按a，可以打开管理员Windows PowerShell界面，输入如下命令来导入密钥并激活Windows10专业版系统。

slmgr.vbs /ipk W269N-WFGWX-YVC9B-4J6C9-T83GX
slmgr.vbs /skms zh.us.to
slmgr.vbs /ato

以上命令能导入产品密钥，设置KMS服务器IP地址，并进行在线激活（联网状态下需要等待约一分钟）。然后使用如下命令检测激活状态。

slmgr.vbs -xpr
slmgr.vbs -dli
slmgr.vbs -dlv

清除产品密钥信息操作为：

slmgr.vbs -cpky

此外，若用于激活的域名并能正常连接，可以使用其他域名：

zh.us.to
kms.03k.org
kms.chinancce.com
kms.shuax.com
kms.dwhd.org
kms.luody.info
kms.digiboy.ir
kms.lotro.cc
ss.yechiu.xin
www.zgbs.cc
cy2617.jios.org

陈连福的生信博客

第22期培训班将于2024.01.27-2024.02.05期间在武汉市举办！

CentOS系统安装RStudio

1. 安装RStudio软件

2. 安装最新版本R软件

3. 开放防火墙端口8787，启动RStudio服务

4. 使用RStudio

5. RStudio服务的配置文件

argument list too long报错处理方法

1. 查看命令后字符长度阈值

2. 提高ARG_MAX 阈值

3. 使用循环执行文件操作

绘制GO气泡图

藏龙岛湿地公园

1. 简介

2. 自然资源

3. 发展历史

4. 主要景点

后官湖湿地公园及其绿道

1. 简介

2. 地理和气候

3. 自然资源

4. 发展历史

5. 神话传说

6. 主要景点

使用PANDAseq连接重叠的Paired-End Illumina数据

1. 软件下载和安装

2. 软件的使用

在windows系统下用sshfs挂载服务器目录

1. 安装winfsp和sshfs-win软件

2. 挂载远程服务器的路径到Windows系统中

重装CentOS8系统要点

CentOS8系统中开启NFS文件共享和网络共享

1. 设置NFS文件共享

2. 设置网络共享

Windows10激活

2026年 6月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30