数据库升级到11g的应急方案

通过对数据库初始化参数进行调整来对出现的故障或者性能问题进行处理。

参数：_subquery_pruning_enabled

默认值：true

推荐值：false

动态修改：推荐在session修改

说明：enable the useof subquery predicates to perform pruning

解决问题：Bug 14469756：

执行“insert select”查询会花费大量时间生成执行计划，进行trace可以看到大量对TBL$OR$IDX$PART$NUM的等待。

解决办法：

alter session set"_optimizer_table_expansion"=false;

2.alter session set "_and_pruning_enabled"=false;

3.alter session set "_subquery_pruning_enabled"=false;

Bug 14458214：select复合分区表遇到ORA-1008

解决办法：

alter session set"_and_pruning_enabled"=false;

2.alter session set "_subquery_pruning_enabled"=false;

3.alter session set "_optimizer_table_expansion"=false;

Bug 15902104：从10.2.0.5升级到11.2.0.3，merge语句可能遇到ORA-904错误

解决办法：

_subquery_pruning_enabled=false

$NEW_HOME/crs/install/rootcrs.pl -downgrade -force

在OCR node执行：

$NEW_HOME/crs/install/rootcrs.pl -downgrade -force -lastnode -oldcrshome$OLD_HOME -version $OLD_VERSION

清理各个节点gpnp profile

rm -rf$NEW_HOME/gpnp/*

mkdir -p$NEW_HOME/gpnp/profiles/peer $NEW_HOME/gpnp/wallets/peer$NEW_HOME/gpnp/wallets/prdr $NEW_HOME/gpnp/wallets/pa$NEW_HOME/gpnp/wallets/root

删除各个节点checkpoint file

rm -rf $ORACLE_BASE/Clusterware/ckptGridHA_${nodename}.xml

检查各个节点oratab文件中asm是否指向旧版本位置

启动旧版本集群软件

$OLD_HOME/bin/crsctlstart crs

检查旧版本集群运行是否正常：

exportORACLE_HOME=$OLD_HOME

$OLD_HOME/bin/crsctlquery crs activeversion

$OLD_HOME/bin/crsctlquery crs softwareversion

$OLD_HOME/bin/crsctlcheck crs

$OLD_HOME/bin/crs_stat-t

$OLD_HOME/bin/crs_stat

$OLD_HOME/bin/oifcfgiflist -p -n

$OLD_HOME/bin/oifcfggetif

$OLD_HOME/bin/ocrcheck

cat/etc/oracle/ocr.loc /var/opt/oracle/ocr.loc

$OLD_HOME/bin/crsctlget css diagwait

$OLD_HOME/bin/srvctlconfig nodeapps -n hostname | cut -d'.' -f1 | awk '{ print tolower($0); }' -a

$OLD_HOME/OPatch/opatchlsinventory oh=$OLD_HOME

ifconfig ## location and exact syntax innote 1054902.1

unsetORACLE_HOME

设置"CRS=true" for OLD_HOME

/ocw/grid/oui/bin/runInstaller-updateNodeList ORACLE_HOME="/ocw/grid" CRS=true

==>/ocw/grid is current clusterware home

方案评价

Downgrade方案虽然可以进行版本回退，但是在实际当中使用极少，某些企业对此进行了测试，但是当前Oracle ACS未发现国内大型企业客户有采用此种方式进行正式生产系统回退的先例。

这种方式的优点：

l 不占用升级时间，此操作只在确定需要回退是才开始执行

缺点

l 技术本身限制较多，包括COMPATIBLE参数不能升级，很多新功能无法使用

l 影响面大，不仅涉及到数据库，rdbms，甚至包括集群软件都需要downgrade，因为涉及到集群操作，有可能完成downgrade后无法恢复到原来运行的状态

l Downgrade时间长，具体时间需要进行详细测试之后才能确定，但是肯定以小时作为时间计量单位，另外完成downgrade后需要花费额外的时间来验证downgrade是成功的

l 操作复杂需要单独测试，整个操作步骤很多，中间步骤出现问题进行处理难度将更大，所以此种方案必须进行多次多场景测试才可应用于生产环境。

l 风险度高，因为在决定downgrade的时候，仅有11g数据库内有最完整数据，此时如果downgrade出现数据问题，将会导致数据丢失

GoldenGate说明

由于本次升级，对于原有10g数据库不进行变更，那么如果在升级过程中或者校验时发现问题可以回退到原有10g版本数据库系统，对业务影响较小，但是如果校验成功，11g数据库连接应用对外服务后发现问题，由于有新的数据更新，已经无法回退连接到原有10g版本数据库系统，如果在11g版本数据库连接应用之前，可以实施Oracle GoldenGate，将连接应用后的数据变更同步到原有10g版本数据库，那么当运行一段时间后发现11g版本数据库存在问题，也可以切换回原有的10g版本数据库而没有数据丢失。

约束条件

要求11g版本的数据库打开归档，并且打开补充日志，建议开启force logging以防止隐患。

对于RAC环境11g数据库,GoldenGate的相关软件和工作目录需要配置在shared disk环境中,从而保证对所有node都是可用的,从任何一个node都可以启动GoldenGate的进程,当其中一个node出现异常时,可以在剩余的node启动而无须修改任何配置参数。

GoldenGate实施步骤

以下所写步骤请参考，正式实施前请进行测试形成正式文档。

安装Oracle GoldenGate（以下简称OGG）（新系统指11g版本数据库，旧系统指10g版本数据库，以下对新旧系统都执行）

数据库必须打开归档模式（对新系统执行）

Grantsucceeded.

SYS@ora11g>archive log list;

Database logmode Archive Mode

Automaticarchival Enabled

。。。。。。

检查日志记录要求（对新系统执行）

SQL>selectsupplemental_log_data_min from v$database;

结果为NO，表示没有打开附加日志。使用以下命令将数据库附加日志打开：

SQL>alterdatabase add supplemental log data;

切换日志以使附加日志生效：

SQL>ALTERSYSTEM ARCHIVE LOG CURRENT;

建立OGG数据库用户（新旧系统执行）

OGG需要从数据字典读取表结构.OGG数据库用户权限:

CREATE USER goldengate IDENTIFIED BY goldengate DEFAULT TABLESPACE USERS ;

GRANT CONNECT TO goldengate;

GRANT CREATE SESSION TO goldengate;

GRANT ALTER SESSION TO goldengate;

GRANT RESOURCE TO goldengate;

GRANT SELECT ANY DICTIONARY TO goldengate;

GRANT SELECT ANY TABLE TO goldengate;

GRANT FLASHBACK ANY TABLE TO goldengate;

GRANT ALTER ANY TABLE TOgoldengate;

目标端根据需要再额外添加其他权限，例如需要对表做DML：

GRANT INSERT ANY TABLE TO goldengate;

GRANT UPDATE ANY TABLE TO goldengate;

GRANT DELETE ANY TABLE TO goldengate;

在源端OGG命令行模式下为数据库表添加trandata（新系统执行）

a) GGSCI>DBLOGIN USERID xxxxx, PASSWORD xxx

b) GGSCI>ADD TRANDATA<owner>.

a) 在安装目录下运行OGG命令行控制界面：

./Ggsci

b) 在OGG命令行界面下创建子目录：

GGSCI> create subdirs

c) 通过ftp上传参数文件mgr, ext*,dpe*到dirprm文件夹中，后面手工通过edit param <进程名>编辑也可。

配置GOLDENGATE 相关进程

a) 配置mgr进程

GGSCI>edit param mgr

port 7809

–AUTORESTARTER *, RETRIES 3, WAITMINUTES 2, RESETMINUTES 60

–PURGEOLDEXTRACTS./dirdat/*, USECHECKPOINTS, MINKEEPDAYS 7

GGSCI>start mgr

Manager started.

b) 配置源端抽取进程

（注：从此步骤起，请定义自己的extract/data pump/replicat名称，以及exttrail和rmttrail名称。建议抽取日志的进程以extXX命名，在网络上传输数据的data pump进程以dpeXX格式命名，replicat以repXX格式命名；本地队列以./dirdat/tX命名，远程队列以./dirdat/rX命名。）

GGSCI>add ext extXX, tranlog, begin now

EXTRACT added.

GGSCI>add exttrail ./dirdat/tX, extextXX,  megabytes 50

EXTTRAIL added.

GGSCI>edit param extXX

EXTRACT extXX

–setenv (NLS_LANG = AMERICAN_AMERICA.ZHS16GBK )

USERID ogg,PASSWORD ogg

EXTTRAIL./dirdat/tX

dynamicresolution

tablesystem.custcardinfo1;

GGSCI>add ext dpeXX, exttrailsource./dirdat/tX

EXTRACT added.

GGSCI>add rmttrail ./dirdat/rX, extdpeXX, megabytes 50

RMTTRAIL added.

GGSCI>edit param dpeXX

extract dpeXX

–setenv (NLS_LANG = AMERICAN_AMERICA.ZHS16GBK )

passthru

rmthost 旧系统IP,mgrport7809, compress

rmttrail./dirdat/rX

Dynamicresolution

table <owner>.*;

启动源端进程

a) 启动源端抓取进程：

GGSCI>start er *

b) 查看源端进程状态：

GGSCI>info er *

RUNNING

RUNNING

注：若目标端mgr进程未启动，则该步骤无法启动dpe*进程，需等目标端mgr进程启动后再启动。

配置Oracle数据库的目标进程

a) 配置目标端投递进程：

GGSCI>add rep repxx, exttrail ./dirdat/rX,nodbcheckpoint

b) 配置目标参数:

replicatrepXX

USERIDgoldengate, PASSWORD goldengate

–SETENV(NLS_LANG = "AMERICAN_AMERICA.ZHS16GBK")

SETENV(NLS_LANG = "SIMPLIFIED CHINESE_CHINA.ZHS16GBK")

reperrordefault, discard

discardfile./dirrpt/rp02.dsc, append, megabytes 50

grouptransops100

DDL includemapped

DDLERRORDEFAULT IGNORE RETRYOP MAXRETRIES 3 RETRYDELAY 5

DDLOPTIONSreport

MAP<owner>.*, TARGET <owner>.*;

c) 启动目标端投递进程：

GGSCI>start repXX

观察数据是否正确复制到目标端。

方案评价

使用Oracle GoldenGate作为回退方案，保证了再运行过程中存在一份在线数据备份，有效的保护了数据，所有的实施都在应用上线前进行实施，当出现问题时只需要恢复应用对数据库的指向即可。

这种方式的优点：

l 回退速度快操作简单，只需要进行应用数据库指向即可

l 存在在线数据备份，提升了数据安全

l 风险低，即使在OGG同步过程中出现问题，对运行的生产系统是没有直接影响的

缺点

l 需要额外购买软件，Oracle GoldenGate是单独产品，需要额外购买

l 安全风险，需要在新旧数据库分别创建数据库用户，加大安全风险

l 加长升级时间，由于要在应用连接数据库前启动OGG，所以OGG部署应该在UPGRADE之后，应用启动之前，这样就加大了应用停止时间

l 数据库直接性能影响，由于推荐打开数据库的force logging，并且开启补充日志，所以将会增加数据库redo开销，影响数据库性能。

l 数据库间接性能影响，因为主机资源是固定的，虽然OGG可以限制内存的使用量，当存在大事务或者redo量很大时，有可能OGG会消耗较大量系统资源，从而对同样在主机上运行的数据库系统产生影响。.[ ]()[ ]()