利用 BIOVIA Pipeline Pilot 及其集合,用户可以在 Pipeline Pilot 中编写数据管道或协议,以提供集成的、数据驱动的解决方案,并可能将其与其他 BIOVIA 应用程序结合起来,以增强开箱即用的功能。
在科学界,对能够实时操作和分析大量数据的信息技术的需求日益增长。研发过程的各个方面都正在工业化,对自动化方法的依赖极大地改变了研究环境。研究数据量每 12 个月就会翻一番,从内部和外部来源产生大量新数据。这给这些有价值的数据的集成、管理和分析带来了巨大的挑战,并导致了数据的严重利用不足。
Pipeline Pilot Client 的设计愿景是可以通过处理和分析研究数据的新方法来应对这些挑战。这种方法被称为“数据流水线”,使用数据流框架来描述数据的处理。
数据流水线是通过计算步骤的分支网络对数据点进行快速、独立的处理。与传统技术相比,它具有多种优势,包括:
- 灵活性:每个数据点都是独立处理的,允许根据每个记录进行定制处理。
- 速度:高度优化的方法可以快速、实时地分析数千(或数百万)个数据点。
- 效率:数据点的单独处理限制了内存使用,因此可以同时执行许多协议。
- 易于使用:协议易于构建,并通过可视化显示关键数据处理步骤。
- 集成:数据管道是连接各种科学企业所需的不同数据源、数据库和应用程序的强大工具。
Pipeline Pilot 提供了设计、测试和部署称为协议的数据处理过程的环境。协议由一组执行数据读取、计算、合并和过滤等操作的组件组成。组件之间的连接定义了数据处理的顺序。根据协议的逻辑,对来自文件、数据库和网络的数据进行合并、比较和处理。
通过图形拖放界面可以轻松构建协议。工作环境分为窗口。左侧的资源管理器窗口显示可用组件和预构建协议的数据库内容。右侧的工作区提供了一种通过删除和连接组件来创建新协议的方法。
可视化表示可以让您轻松理解潜在复杂程序中的关键数据处理步骤。组件显示为特定功能的图标,并通过描述性标签清楚地标识。数据记录通过灰线表示的管道在组件之间传递。
您可以从数据库或文件中读取数据、计算新属性、过滤记录以及查看结果。您可以将新协议保存在组件数据库中并发布它们以供企业范围内共享和重用。
当您的领域专家在日常工作中使用 Pipeline Pilot 时,系统会自动捕获他们的最佳实践。
实施数据驱动和基于人工智能的工作流程
数据已经变得无处不在。然而,许多科学和工程组织仍然难以有效地利用他们掌握的数据。团队使用不同的工具和流程来访问数据、清理数据、建模并交付结果,但这些结果通常缺乏推动创新所需的领域深度。这种分析科学和工程数据并提供见解的脱节且往往过于笼统的方法降低了对结果的信任,阻碍了进展并扼杀了协作。为了充分受益于潜在的数据科学优势,组织需要一种端到端的方法来利用整个科学和工程企业的数据。
主要优点
-民主化数据 – 最大限度地发挥人工智能和机器学习对每个人的价值。
-利用科学知识和专有技术 – 将最佳实践标准实践捕获为可分发、模块化、可共享的协议.
– 部署数据驱动的研发运营 – 帮助您的团队更智能地工作,而不是更辛苦。
– 支持端到端数据科学工作流程 – 部署在需要的时候、在需要的地方提供服务。所有这些都在一个工作流程中。
专门为科学和工程打造的解决方案
科学家和工程师面临着不同的挑战。 BIOVIA Pipeline Pilot,特别是其集合,提供开箱即用的垂直和水平领域特定功能,支持用户解决从化学信息学到序列分析、从图像分析到文档和文本搜索、从实验室信息学到机器学习和分析。探索下面我们的系列。
简化您的数据科学工作流程
数据有各种形状和大小,但有效地释放可操作的洞察力需要对数据科学技术的深入了解。 BIOVIA Pipeline Pilot 机器学习和分析集合提供了一套全面的机器学习和数据建模功能,可简化您的数据科学计划。
分析数据、训练和再训练模型,并将自动化解决方案部署到有用的企业应用程序。
开发机器学习解决方案通常需要复杂的软件架构和深厚的统计知识。借助 BIOVIA Pipeline Pilot Analytics 和机器学习集合,开发人员和最终用户只需点击几下即可将最新的机器学习技术融入到他们的工作流程中。无需编码。
关键能力
-合并、连接、表征和清理您的数据集
– 将超过 15 种机器学习 (ML) 方法中的任何一种应用于您的科学和工程数据
– 使用基于 R 的 ML 方法,例如支持向量机、神经网络和 XGBoost,无需编写 R 脚本
-使用Python ML库,包括scikit-learn和TensorFlow
-快速应用统计分析
-使用回归和分类模型评估查看器来评估和比较模型测试集性能
-构建快速、可扩展的贝叶斯分类模型
-使用GFA方法的遗传算法进行变量选择并建立回归集成模型
-构建准确、易于使用的 RP Forest 回归和分类模型
-策划模型性能
-部署模型适用性域(MAD)方法和交叉验证
– 采用 ML 框架对任何类型的模型进行交叉验证、超参数调整和变量重要性评估
– 灵活工作
-支持Jupyter Notebook、R、JMP、SAS等第三方统计平台和工具
-读取特定学科的数据
– 专门用于支持各种数字、化学、生物、文本和图像数据类型
-使用内置的适用性域测量和误差模型来评估特定于样本的预测置信度
-优化预测
-并行训练多个试验模型以识别表现最好的模型或将多个模型组合成单个集成模型
-简化多目标优化
-采用帕累托优化等方法来解决多目标优化问题
-在工作流程中可视化结果
– 使用 ROC 图、富集图和其他可视化技术生成交互式报告
-执行探索性分析,包括PCA、聚类和多维数据可视化
系统要求
操作系统:Windows 10/Windows Server 2019/Windows Server 2016
CPU:Intel兼容的x86_64架构
RAM:每核 4 GB
空间:70 至 80 GB