什么是 BAM?
它能够提供对业务流程的端对端的可见性,还能够给出有关各种操作、流程和交易的状态和结果的精确信息,以便您可以找出问题所在并在企业内解决问题。 BAM 框架提供了一种用于监视各种不同业务应用程序,并显示 SQL 查询数据和聚合报告数据 (OLAP) 的实时方式,这种方式对于各种交易是一致的,并且非常简单。通过使用查询和聚合,您不仅可以得到在运行业务流程过程中出现的数据,还可以得到运行的业务流程的状态信息和其动态状态,而不论该业务是如何自动执行的。 BAM 将商业运营智慧和应用程序集成技术应用到自动流程中,以便基于直接来自运营活动知识的反馈不断改进这些自动流程。除了审核业务流程和业务流程管理系统外,BAM 还可发送事件驱动的警报,这些警报可用于提示那些可能需要采取某些行动的业务的决策者做出相应调整。为什么要使用 BAM?目前,企业通常会使用各种各样的业务应用程序,如客户关系管理 (CRM)、SAP 以及随时间而不同的内部订单管理、采购或开发应用程序。这些应用程序经常是使用完全不同的技术,运行于五花八门的操作系统上,包括使用 COM 和 COM+ 的 COBOL 程序、C# 和 Java。 同时,典型企业的很多方面要基于人员手工操作,如电话、传真和电子邮件。在如此复杂的环境中,要知道“企业正在做什么”变得日益困难。然而,随着市场节奏的不断加快,企业能够快速做出决策以利用市场机会或防止损失这一点显得前所未有的重要。如果IT 经理希望降低其分布式 IT 环境的成本,同时提高服务质量,可以将 BAM 用作监视解决方案。BAM 提供关于整个企业中的业务关键服务器和应用程序的、用于管理的概览,同时还提供工程、设计和产品部门中高性能工作站和应用程序的工作状况的详细情况。BAM 揭示了端对端业务流程的可见性需求。通过了解业务中的各种角色如何与业务流程交互,以及这种交互过程中的数据要求,业务分析员可以通过 BAM 向导在 Microsoft Office Excel 中与 BAM 设计时图面进行交互,以便创建活动和查看定义,从而支持各种角色的这些可见性需求。更具体地说,BAM 通过以下方式来处理企业所面对的挑战: 通过BAM 门户使业务最终用户能够获得更多功能业务警报和通知更好的可见性形成机制和使用体验业务流程的端对端可见性支持管道,并间接支持适配器和 Web Services即时活动更改侦听器和跟踪配置文件指南
bam文件的理解
做生信分析的小伙伴们,相信大家对bam文件都不陌生,但具体到如何get到bam文件提供给我们的信息,却少有人真正的理解,最近我做了相关的学习,和大家分享以下我的理解,具体的可参考黄树嘉的知乎分享 二代测序获得的是bcl格式的原始下机数据,通过bcl2fastq软件 可将bcl文件转换成每个样本的fq格式文件,也就是我们常理解的数据拆分。bam文件是由比对软件将质控后的fq格式文件与参考基因组进行比对后的比对信息存储文件。 接下来我们理解下bam文件的内容。参考原文提出的一张经典图片: 上图格式的查看方法为: samtools的header信息每一行都用‘@’ 符号开头,一般大家不会太关注,但其中的信息对于我们有些生信分析还是很重要的。这里需要重点提一下的是header中的@RG也就是Read group信息,这是在做后续数据分析时专门用于区分不同样本的重要信息。比如测序多条lane获得的bam的合并:如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。这个合并当然也可以在数据拆分后对rawdata进行cat合并,然后再生成bam文件。 接下来是bam的主体内容record(有时候也叫alignment section,即,比对信息),每 一行代表一条reads,每条reads的信息用tab键进行分隔: 对于每列的解释如下表所示: 比如十进制数据77 = = 1 + 4 + 8 +64,这样就得到了这个FLAG包含的意思:PE read,read比对不上参考序列,它的配对read也同样比不上参考序列,它是read1。 二进制的质量描述见下表: - MAPQ:比对质量值,这个是大家最为熟悉的比对质量值了。比如说Q30(错配率为0.001),Q20(错配率为0.01),计算公式为:-10logP{错比概率} 。一般结果是这一列的数值是从0到60,且0和60这两个数字出现次数最多。 - CIGAR:该标签采用数字和几个字符的组合形象记录了read比对到参考序列上的细节情况,读起来要比FLAG直观友好许多,只是记录的是不同的信息。比如,一条150bp长的read比对到基因组之后,假如看到它的CIGAR字符串为:33S117M,其意思是说在比对的时候这条read开头的33bp在被跳过了(S),紧接其后的117bp则比对上了参考序列(M)。这里的S代表软跳过(Soft clip),M代表匹配(Match)。N表示可变剪接位置,常见于RNA-seq。H只出现在一条read的前端或末端,但不会出现在中间,S一般会和H成对出现,当有H出现时,一定会有一个与之对应的S出现。CIGAR的标记字符有“MIDNSHP=XB”这10个,分别代表read比对时的不同情况: