027-87860098

作物育种中大数据分析、可视化和共享的开源分析流程

2022/8/24
想要从数据中提取有意义的信息从而做出更好的育种决策,开发系统化的表型数据分析流程、增强可视化以及结果挖掘是至关重要的。在这里,作者概述了基于IRRI的旱作水稻育种(RRB)计划,以及其如何利用 R 计算能力和R Markdown、plotly、LaTeX 和 HTML 等开源资源工具来开发开源和端到端的数据分析工作流程和方法,将其重新设计为可复制的文档,以便提高数据解释和结果可视化的能力,并实现轻松与合作者共享。

在当前报告中采用的数据分析工作流程的示意图。分析工作流程过程中涉及的四个主要步骤是 a 数据导入、b 数据预处理、c 数据建模和 d 结果生成。主要步骤分为开发全面而强大的分析管道所需的各个组件。


作者报告了将表型数据分析管道和工作流程嵌入到表现良好的文档中的最新进展。开发的分析管道是开源的,展示了如何分析作物育种计划中的表型数据并分步解释。分析管道展示了如何预处理和检查表型数据的质量,使用现代统计工具和方法执行稳定的数据分析,并将其转换为可复制的文档。带有 R 代码的解释性文本、表格或图形的输出以及结果的解释都集成到统一的文档中。该分析具有高度可重复性,并且可以随时重新生成。分析管道源代码和演示数据可在 https://github.com/whussain2/Analysis-pipeline 获得。

从 MET 分析中提取的结果。A.使用第一因子估计载荷的前 10 个基因型的潜在回归图。 蓝色实线和灰色阴影分别对应于潜在回归线和 95% 的置信区间。 b 基于因子分析协方差结构在所有环境中调整的预测育种值,绘制选定基因型(蓝色)和未选定基因型(黄色三角形)的双标图。 带箭头的蓝线显示环境及其相关性

所提供的分析工作流程和文件不仅限于 IRRI 的 RRB 计划,还适用于任何拥有成熟育种计划的组织或机构。作者相信这是一项使 IRRI 的 RRB 项目数据分析现代化的伟大举措。此外,植物育种者或研究人员可以轻松运用该方法,帮助和指导他们以最佳方式分析育种试验数据。

来源:Plant Methods.Open-source analytical pipeline for robust data analysis, visualizations and sharing in crop breeding.Waseem Hussain, Mahender Anumalla, Margaret Catolos, Apurva Khanna, Ma. Teresa Sta. Cruz, Joie Ramos & Sankalp Bhosale
https://plantmethods.biomedcentral.com/articles/10.1186/s13007-022-00845-7#Abs1