<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>Hello,<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I have been able to get a successful cluster started, and even after one or two reboots, but sometimes ungracefully (the cluster is on and I just sudo reboot)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Doing some testing for how it handles that situation. Sometimes the boot just hangs, and I have to manually reset the VM (esxi) I was wondering if its doing something or just literally hanging. The Console shows nothing…<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Regardless, I am e-mailing because my cluster finally started, doesn’t throw any errors that I can see, but now it just stays with everything stopped and the two nodes online.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Can you take a look at my confis? Any logs you might need? What could be the culprit? Much Appreciated!<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b>DRBD Config – NO CLUSTER <o:p></o:p></b></p><p class=MsoNormal><b><o:p> </o:p></b></p><p class=MsoNormal>sed -i 's/\(^SELINUX=\).*/\SELINUX=disabled/' /etc/selinux/config && reboot<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>sestatus<o:p></o:p></p><p class=MsoNormal>systemctl stop firewalld<o:p></o:p></p><p class=MsoNormal>systemctl disable firewalld<o:p></o:p></p><p class=MsoNormal>rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org<o:p></o:p></p><p class=MsoNormal>rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm<o:p></o:p></p><p class=MsoNormal>yum install -y kmod-drbd84 drbd84-utils mariadb-server mariadb<o:p></o:p></p><p class=MsoNormal>systemctl disable mariadb.service<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>fdisk /dev/sdb<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>cat << EOL >/etc/drbd.d/sql.res<o:p></o:p></p><p class=MsoNormal>resource sql {<o:p></o:p></p><p class=MsoNormal> protocol C;<o:p></o:p></p><p class=MsoNormal> meta-disk internal;<o:p></o:p></p><p class=MsoNormal> device /dev/drbd0;<o:p></o:p></p><p class=MsoNormal> disk /dev/sdb1;<o:p></o:p></p><p class=MsoNormal> net {<o:p></o:p></p><p class=MsoNormal> allow-two-primaries;<o:p></o:p></p><p class=MsoNormal> }<o:p></o:p></p><p class=MsoNormal> syncer {<o:p></o:p></p><p class=MsoNormal> verify-alg sha1;<o:p></o:p></p><p class=MsoNormal> }<o:p></o:p></p><p class=MsoNormal> on node1.freesoftwareservers.com {<o:p></o:p></p><p class=MsoNormal> address 192.168.1.216:7788;<o:p></o:p></p><p class=MsoNormal> }<o:p></o:p></p><p class=MsoNormal> on node2.freesoftwareservers.com {<o:p></o:p></p><p class=MsoNormal> address 192.168.1.219:7788;<o:p></o:p></p><p class=MsoNormal> }<o:p></o:p></p><p class=MsoNormal>}<o:p></o:p></p><p class=MsoNormal>EOL<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>drbdadm create-md sql<o:p></o:p></p><p class=MsoNormal>modprobe drbd<o:p></o:p></p><p class=MsoNormal>drbdadm up sql<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal># Node1 <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>drbdadm primary --force sql<o:p></o:p></p><p class=MsoNormal>watch cat /proc/drbd<o:p></o:p></p><p class=MsoNormal>mkfs.xfs /dev/drbd0<o:p></o:p></p><p class=MsoNormal>mount /dev/drbd0 /mnt<o:p></o:p></p><p class=MsoNormal>df -h | grep drbd<o:p></o:p></p><p class=MsoNormal>systemctl start mariadb<o:p></o:p></p><p class=MsoNormal>mysql_install_db --datadir=/mnt --user=mysql<o:p></o:p></p><p class=MsoNormal>umount /mnt<o:p></o:p></p><p class=MsoNormal>systemctl stop mariadb<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><b>Cluster Configs – Post DRBD Configuration<o:p></o:p></b></p><p class=MsoNormal><b><o:p> </o:p></b></p><p class=MsoNormal>yum install -y pcs policycoreutils-python psmisc<o:p></o:p></p><p class=MsoNormal>echo "passwd" | passwd hacluster --stdin<o:p></o:p></p><p class=MsoNormal>systemctl start pcsd.service<o:p></o:p></p><p class=MsoNormal>systemctl enable pcsd.service<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal># Node1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs cluster auth node1 node2 -u hacluster -p passwd<o:p></o:p></p><p class=MsoNormal>pcs cluster setup --force --name mysql_cluster node1 node2<o:p></o:p></p><p class=MsoNormal>pcs cluster start --all<o:p></o:p></p><p class=MsoNormal># Wait 2 seconds<o:p></o:p></p><p class=MsoNormal>pcs property set stonith-enabled=false<o:p></o:p></p><p class=MsoNormal>pcs property set no-quorum-policy=ignore<o:p></o:p></p><p class=MsoNormal>pcs cluster start --all<o:p></o:p></p><p class=MsoNormal># Wait 5 seconds<o:p></o:p></p><p class=MsoNormal>pcs status<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource create sql_drbd_res ocf:linbit:drbd \<o:p></o:p></p><p class=MsoNormal> drbd_resource=sql \<o:p></o:p></p><p class=MsoNormal> op monitor interval=30s<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource master SQLClone sql_drbd_res \<o:p></o:p></p><p class=MsoNormal> master-max=1 master-node-max=1 \<o:p></o:p></p><p class=MsoNormal> clone-max=2 clone-node-max=1 \<o:p></o:p></p><p class=MsoNormal> notify=true<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource create sql_fs Filesystem \<o:p></o:p></p><p class=MsoNormal> device="/dev/drbd0" \<o:p></o:p></p><p class=MsoNormal> directory="/var/lib/mysql" \<o:p></o:p></p><p class=MsoNormal> fstype="xfs"<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource create sql_service ocf:heartbeat:mysql \<o:p></o:p></p><p class=MsoNormal> binary="/usr/bin/mysqld_safe" \<o:p></o:p></p><p class=MsoNormal> config="/etc/my.cnf" \<o:p></o:p></p><p class=MsoNormal> datadir="/var/lib/mysql" \<o:p></o:p></p><p class=MsoNormal> pid="/var/lib/mysql/mysql.pid" \<o:p></o:p></p><p class=MsoNormal> socket="/var/lib/mysql/mysql.sock" \<o:p></o:p></p><p class=MsoNormal> additional_parameters="--bind-address=0.0.0.0" \<o:p></o:p></p><p class=MsoNormal> op start timeout=60s \<o:p></o:p></p><p class=MsoNormal> op stop timeout=60s \<o:p></o:p></p><p class=MsoNormal> op monitor interval=20s timeout=30s<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource create sql_virtual_ip ocf:heartbeat:IPaddr2 \<o:p></o:p></p><p class=MsoNormal> ip=192.168.1.215 cidr_netmask=32 nic=eth0 \<o:p></o:p></p><p class=MsoNormal> op monitor interval=30s<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs constraint colocation add sql_virtual_ip with sql_service INFINITY<o:p></o:p></p><p class=MsoNormal>pcs constraint colocation add sql_fs with SQLClone \<o:p></o:p></p><p class=MsoNormal> INFINITY with-rsc-role=Master<o:p></o:p></p><p class=MsoNormal>pcs constraint order promote SQLClone then start sql_fs<o:p></o:p></p><p class=MsoNormal>pcs constraint colocation add sql_service with sql_fs INFINITY<o:p></o:p></p><p class=MsoNormal>pcs constraint order sql_fs then sql_service<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs resource group add SQL-Group sql_service sql_fs sql_virtual_ip<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>pcs cluster start --all<o:p></o:p></p><p class=MsoNormal>pcs status<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@node1 ~]# pcs status<o:p></o:p></p><p class=MsoNormal>Cluster name: mysql_cluster<o:p></o:p></p><p class=MsoNormal>Last updated: Sun Jun 12 03:04:44 2016 Last change: Sun Jun 12 02:50:16 2016 by root via cibadmin on node1<o:p></o:p></p><p class=MsoNormal>Stack: corosync<o:p></o:p></p><p class=MsoNormal>Current DC: node1 (version 1.1.13-10.el7_2.2-44eb2dd) - partition with quorum<o:p></o:p></p><p class=MsoNormal>2 nodes and 5 resources configured<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Online: [ node1 node2 ]<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Full list of resources:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal> Master/Slave Set: SQLClone [sql_drbd_res]<o:p></o:p></p><p class=MsoNormal> Masters: [ node1 ]<o:p></o:p></p><p class=MsoNormal> Slaves: [ node2 ]<o:p></o:p></p><p class=MsoNormal> Resource Group: SQL-Group<o:p></o:p></p><p class=MsoNormal> sql_service (ocf::heartbeat:mysql): Stopped<o:p></o:p></p><p class=MsoNormal> sql_fs (ocf::heartbeat:Filesystem): Stopped<o:p></o:p></p><p class=MsoNormal> sql_virtual_ip (ocf::heartbeat:IPaddr2): Stopped<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>PCSD Status:<o:p></o:p></p><p class=MsoNormal> node1: Online<o:p></o:p></p><p class=MsoNormal> node2: Online<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Daemon Status:<o:p></o:p></p><p class=MsoNormal> corosync: active/disabled<o:p></o:p></p><p class=MsoNormal> pacemaker: active/disabled<o:p></o:p></p><p class=MsoNormal> pcsd: active/enabled<o:p></o:p></p><p class=MsoNormal>[root@node1 ~]# grep -e ERROR -e WARN /var/log/messages<o:p></o:p></p><p class=MsoNormal>Jun 12 02:07:24 node1 drbd(sql_drbd_res)[3022]: ERROR: meta parameter misconfigured, expected clone-max -le 2, but found unset.<o:p></o:p></p><p class=MsoNormal>Jun 12 02:07:24 node1 drbd(sql_drbd_res)[3051]: ERROR: meta parameter misconfigured, expected clone-max -le 2, but found unset.<o:p></o:p></p><p class=MsoNormal>Jun 12 02:07:51 node1 Filesystem(sql_fs)[4094]: ERROR: Couldn't unmount /var/lib/mysql; trying cleanup with TERM<o:p></o:p></p><p class=MsoNormal>Jun 12 02:12:03 node1 Filesystem(sql_fs)[2019]: WARNING: Couldn't find device [/dev/drbd0]. Expected /dev/??? to exist<o:p></o:p></p><p class=MsoNormal>Jun 12 02:12:03 node1 drbd(sql_drbd_res)[2214]: ERROR: meta parameter misconfigured, expected clone-max -le 2, but found unset.<o:p></o:p></p><p class=MsoNormal>Jun 12 02:12:04 node1 Filesystem(sql_fs)[2248]: ERROR: Couldn't find device [/dev/drbd0]. Expected /dev/??? to exist<o:p></o:p></p><p class=MsoNormal>Jun 12 02:12:04 node1 Filesystem(sql_fs)[2384]: WARNING: Couldn't find device [/dev/drbd0]. Expected /dev/??? to exist<o:p></o:p></p><p class=MsoNormal>Jun 12 02:38:07 node1 drbd: WARN: stdin/stdout is not a TTY; using /dev/console.<o:p></o:p></p><p class=MsoNormal>[root@node1 ~]#<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Note : The cluster stared at some point after 2:12 I am fairly sure, that was my debugging time, I just included this to show the lack of any errors.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>[root@node1 ~]# tail /var/log/cluster/corosync.log<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 43]: Pending pseudo op SQL-Group_running_0 on N/A (priority: 0, waiting: 36 38 40)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 42]: Completed pseudo op SQL-Group_start_0 on N/A (priority: 0, waiting: none)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 37]: Pending rsc op sql_service_monitor_20000 on node1 (priority: 0, waiting: 36)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 36]: Pending rsc op sql_service_start_0 on node1 (priority: 0, waiting: 38)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 39]: Pending rsc op sql_fs_monitor_20000 on node1 (priority: 0, waiting: 38)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 38]: Pending rsc op sql_fs_start_0 on node1 (priority: 0, waiting: 36)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 41]: Pending rsc op sql_virtual_ip_monitor_30000 on node1 (priority: 0, waiting: 40)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: print_synapse: [Action 40]: Pending rsc op sql_virtual_ip_start_0 on node1 (priority: 0, waiting: 38)<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: info: do_log: FSA: Input I_TE_SUCCESS from notify_crmd() received in state S_TRANSITION_ENGINE<o:p></o:p></p><p class=MsoNormal>Jun 12 03:12:31 [2021] node1.freesoftwareservers.com crmd: notice: do_state_transition: State transition S_TRANSITION_ENGINE -> S_IDLE [ input=I_TE_SUCCESS cause=C_FSA_INTERNAL origin=notify_crmd ]<o:p></o:p></p><p class=MsoNormal>[root@node1 ~]#<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Post Reboot :<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#!/bin/bash<o:p></o:p></p><p class=MsoNormal>#/root/drbdstart.sh<o:p></o:p></p><p class=MsoNormal>#This should run on both nodes after post-mortem if unexpected failure<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>modprobe drbd <o:p></o:p></p><p class=MsoNormal>drbdadm up sql <o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#!/bin/bash<o:p></o:p></p><p class=MsoNormal>#/root/clusterstart.sh<o:p></o:p></p><p class=MsoNormal>#This should run on primary node after post-mortem if unexpected failure<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>drbdadm primary --force sql<o:p></o:p></p><p class=MsoNormal>cat /proc/drbd<o:p></o:p></p><p class=MsoNormal>pcs cluster start --all<o:p></o:p></p><p class=MsoNormal>pcs status<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>