Thanks Ryan. Nothing really standing out on the ESXi side.<div><br></div><div>Any suggestions to prevent this in future? </div><div><br></div><div>The VMware KB articles suggest a higher timeout on application side so transient issues and conditions on the VM <span></span>side of things don't negatively impact the application. <br><br>On Friday, January 22, 2016, Ryan Ratliff (rratliff) <<a href="mailto:rratliff@cisco.com">rratliff@cisco.com</a>> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">That's your culprit right there. That 16 second sdlrouter thread timer is one of the few things I bet hadn't changed since 4.x.<br>
<br>
Can you look at esxi stats for that time period to see what the host thought was going on?<br>
<br>
-Ryan<br>
<br>
> On Jan 22, 2016, at 4:45 PM, Erick Bergquist <<a href="javascript:;" onclick="_e(event, 'cvml', 'erickbee@gmail.com')">erickbee@gmail.com</a>> wrote:<br>
><br>
> Normal CPU usage up to core, then a CPU spike right after core when<br>
> things are starting back up. Different hosts, same storage.<br>
><br>
> Only gap in trace file line entries is 23:54:59.957 to 23:55:18.402<br>
> but maybe no activities?<br>
><br>
> 11574290.000 |23:54:59.957 |SdlStat  |Period: 6s #Lines: 19 #Bytes:<br>
> 3701 Total Number of Buffers: 10000 Free LWM: 9989 Free LWM(total):<br>
> 9192<br>
> 11574291.000 |23:55:18.402 |AppInfo<br>
> |SIPSocketProtocol(2,100,14,137)::handleReadComplete send SdlReadRsp:<br>
> size 370<br>
> 11574292.000 |23:55:18.402 |SdlStat  |Period: 19s #Lines: 1 #Bytes:<br>
> 117 Total Number of Buffers: 10000 Free LWM: 9998 Free LWM(total):<br>
> 9192<br>
> 11574293.000 |23:55:18.959 |AppInfo  |CMProcMon - ERROR  !!!!!!!! SDL<br>
> Router Services Dead: timeBeforeSleep: 804509608, currentMontiorTime:<br>
> 804530608, deltaTime: 21000, LoopCount= 19<br>
><br>
> The deltaTime is 21000 which would be more then the 20 seconds for the<br>
> router thread in the previously mentioned document covering 3.x/4.x.<br>
><br>
> Do these services shutdown and restart themselves if over 16 seconds<br>
> (SDL Timer) or 20 seconds (Router Thread) still in 10.x like that<br>
> document states at those same thresholds?<br>
><br>
> VMWare KB suggests the SCSI timeout should be increased to handle<br>
> transient conditions. I would think these timers should be able to<br>
> handle transient issues without failing the service?  Maybe the<br>
> thresholds need to be increased to handle these periods.<br>
><br>
> <a href="http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009465" target="_blank">http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=1009465</a><br>
><br>
> I've only seen this with the ccm and ctimanager service. None of the<br>
> other services.<br>
><br>
> Thanks.<br>
><br>
><br>
> On Fri, Jan 22, 2016 at 2:44 PM, Ryan Ratliff (rratliff)<br>
> <<a href="javascript:;" onclick="_e(event, 'cvml', 'rratliff@cisco.com')">rratliff@cisco.com</a>> wrote:<br>
>> How about CPU usage leading up to the cores?<br>
>> If you have CCM traces from before are there gaps in the timestamps between line numbers?<br>
>><br>
>> If you are virtualized were those two nodes on the same host?  If so did other VMs on that host experience any odd issues at the time?<br>
>> -Ryan<br>
>><br>
>> On Jan 22, 2016, at 3:29 PM, Erick Bergquist <<a href="javascript:;" onclick="_e(event, 'cvml', 'erickbee@gmail.com')">erickbee@gmail.com</a>> wrote:<br>
>><br>
>> Ryan,<br>
>><br>
>> I'm seeing a small spike in IOWait but not for that long, No gaps in<br>
>> the Perfmon logs.  Only the ccm service core dumped on both the call<br>
>> manager nodes on this cluster at the same time.<br>
>><br>
>> Would the system shutdown the CCM and CTI Manager service itself if<br>
>> these timers are to long, like that document from CCM 3.x/4.x days<br>
>> eludes to with the 16 second SDL Timer Thread and 20 Second Router<br>
>> Thread threshold?<br>
>><br>
>><br>
>> The subscriber had a different backtrace, Intentional Abort..<br>
>><br>
>> ====================================<br>
>> backtrace - CUCM<br>
>> ===================================<br>
>> #0  0xf776c430 in __kernel_vsyscall ()<br>
>> #1  0xf697b871 in raise () from /lib/libc.so.6<br>
>> #2  0xf697d14a in abort () from /lib/libc.so.6<br>
>> #3  0x0837609e in IntentionalAbort () at ProcessCMProcMon.cpp:88<br>
>> #4  CMProcMon::verifySdlRouterServices () at ProcessCMProcMon.cpp:748<br>
>> #5  0x083762ca in CMProcMon::callManagerMonitorThread<br>
>> (cmProcMon=0xefc73038) at ProcessCMProcMon.cpp:429<br>
>> #6  0xf6c9c5a8 in ACE_OS_Thread_Adapter::invoke (this=0xe6a5d818) at<br>
>> OS_Thread_Adapter.cpp:103<br>
>> #7  0xf6c5c5f1 in ace_thread_adapter (args=0xe6a5d818) at<br>
>> Base_Thread_Adapter.cpp:126<br>
>> #8  0xf6932b39 in start_thread () from /lib/libpthread.so.0<br>
>> #9  0xf6a33c1e in clone () from /lib/libc.so.6<br>
>> ====================================<br>
>> info registers<br>
>> ====================================<br>
>><br>
>><br>
>> Thanks,<br>
>> Erick<br>
>><br>
>><br>
>> On Fri, Jan 22, 2016 at 1:23 PM, Ryan Ratliff (rratliff)<br>
>> <<a href="javascript:;" onclick="_e(event, 'cvml', 'rratliff@cisco.com')">rratliff@cisco.com</a>> wrote:<br>
>>> That backtrace is usually accompanied by CTIManager crashing due to intentional abort.<br>
>>><br>
>>>> 09465138.001 |23:55:15.448 |AppInfo  |CMProcMon::star_sdlVerification<br>
>>>> - Test Timer exceeded minimum timer latency threshold of 1000<br>
>>>> milliseconds, Actual latency: 54360 milliseconds<br>
>>><br>
>>> That is quite spectacularly bad.  The SDLTimer thread is responsible for _every_ timer the ccm process uses. It has a one-second self-check to make sure it’s getting enough cpu time and in your case it didn’t get to execute it’s one-second check for 54 seconds.<br>
>>><br>
>>> This was definitely performance related so check CPU usage and IOWait at the time (+- a minute or so). Gaps in the RISDC perfmon logs would also indicate performance issues, though leave you with little evidence unless it happened to catch some process at the beginning of a spike.<br>
>>><br>
>>> -Ryan<br>
>>><br>
>>> On Jan 22, 2016, at 1:13 PM, Erick Bergquist <<a href="javascript:;" onclick="_e(event, 'cvml', 'erickbee@gmail.com')">erickbee@gmail.com</a>> wrote:<br>
>>><br>
>>> Brian,<br>
>>><br>
>>> Looked over those and not seeing any processes consuming lots of<br>
>>> memory, memory used was 70-75% during this time.<br>
>>><br>
>>><br>
>>>> On Fri, Jan 22, 2016 at 10:54 AM, Brian Meade <<a href="javascript:;" onclick="_e(event, 'cvml', 'bmeade90@vt.edu')">bmeade90@vt.edu</a>> wrote:<br>
>>>> Did you download Perfmon logs?  Might just be high memory in general causing<br>
>>>> the issue.  I'd use the Perfmon logs to check what processes were using up<br>
>>>> all the memory at that time.<br>
>>>><br>
>>>> On Fri, Jan 22, 2016 at 10:45 AM, Erick Bergquist <<a href="javascript:;" onclick="_e(event, 'cvml', 'erickbee@gmail.com')">erickbee@gmail.com</a>><br>
>>>> wrote:<br>
>>>>><br>
>>>>> This happened on CUCM 10.5.2.10000-7 and I'm not finding a bug for<br>
>>>>> this backtrace info in bug toolkit or the 10.5.2 SU1, SU2, SU3 release<br>
>>>>> notes.<br>
>>>>><br>
>>>>><br>
>>>>> From the core analysis,<br>
>>>>><br>
>>>>> Reading symbols from /lib/libnss_files.so.2...(no debugging symbols<br>
>>>>> found)...done.<br>
>>>>> Loaded symbols for /lib/libnss_files.so.2<br>
>>>>> Reading symbols from /lib/libnss_dns.so.2...(no debugging symbols<br>
>>>>> found)...done.<br>
>>>>> Loaded symbols for /lib/libnss_dns.so.2<br>
>>>>> Core was generated by `/usr/local/cm/bin/ccm'.<br>
>>>>> Program terminated with signal 11, Segmentation fault.<br>
>>>>> #0  0xf6a28b55 in _int_malloc () from /lib/libc.so.6<br>
>>>>><br>
>>>>> ====================================<br>
>>>>> backtrace - CUCM<br>
>>>>> ===================================<br>
>>>>> #0  0xf6a28b55 in _int_malloc () from /lib/libc.so.6<br>
>>>>> #1  0xf6a29d9e in malloc () from /lib/libc.so.6<br>
>>>>> #2  0x09be122c in AlternateSyslogAlarmMonitor::manageLogs<br>
>>>>> (this=0xd7d74f8, severity=6, strBuf=<value optimized out>) at<br>
>>>>> AlternateSyslogAlarmMonitor.cpp:162<br>
>>>>> #3  0x09be13f6 in AlternateSyslogAlarmMonitor::AlarmThreadProc<br>
>>>>> (pParameter=0xd7d74f8) at AlternateSyslogAlarmMonitor.cpp:61<br>
>>>>> #4  0xf6d005a8 in ACE_OS_Thread_Adapter::invoke (this=0xd7d8dc8) at<br>
>>>>> OS_Thread_Adapter.cpp:103<br>
>>>>> #5  0xf6cc05f1 in ace_thread_adapter (args=0xd7d8dc8) at<br>
>>>>> Base_Thread_Adapter.cpp:126<br>
>>>>> #6  0xf6996b39 in start_thread () from /lib/libpthread.so.0<br>
>>>>> #7  0xf6a97c1e in clone () from /lib/libc.so.6<br>
>>>>> ====================================<br>
>>>>> info registers<br>
>>>>> ====================================<br>
>>>>> eax            0x198408<br>
>>>>> ecx            0xf6b483d0-155941936<br>
>>>>> edx            0xf6b483a0-155941984<br>
>>>>> ebx            0xf6b46ff4-155947020<br>
>>>>> esp            0xf5d0ab100xf5d0ab10<br>
>>>>> ebp            0xf5d0ab980xf5d0ab98<br>
>>>>> esi            0xf4bc0b8256622776<br>
>>>>> edi            0x00<br>
>>>>> eip            0xf6a28b550xf6a28b55 <_int_malloc+725><br>
>>>>> eflags         0x10212[ AF IF RF ]<br>
>>>>> cs             0x2335<br>
>>>>> ss             0x2b43<br>
>>>>> ds             0x2b43<br>
>>>>> es             0x2b43<br>
>>>>> fs             0x00<br>
>>>>> gs             0x6399<br>
>>>>> ====================================<br>
>>>>> info threads<br>
>>>>> ====================================<br>
>>>>> 47 Thread 0xe750bb70 (LWP 30608)  0xf6a237f4 in _IO_flush_all_lockp<br>
>>>>> () from /lib/libc.so.6<br>
>>>>> 46 Thread 0xf5effb70 (LWP 29077)  0xf77d0430 in __kernel_vsyscall ()<br>
>>>>> 45 Thread 0xf63ffb70 (LWP 29052)  0xf77d0430 in __kernel_vsyscall ()<br>
>>>>> 44 Thread 0xf67d0b70 (LWP 29048)  0xf77d0430 in __kernel_vsyscall ()<br>
>>>>> 43 Thread 0xf67e0710 (LWP 25984)  0xf77d0430 in __kernel_vsyscall ()<br>
>>>>> 42 Thread 0xe6f2fb70 (LWP 30611)  0xf77d0430 in __kernel_vsyscall ()<br>
>>>>><br>
>>>>><br>
>>>>> No errors/etc in the Syslog at the time other then errors on the call<br>
>>>>> manager service failing.<br>
>>>>><br>
>>>>> However, the SDL CCM traces show of a timer expiring and appears it<br>
>>>>> shuts down services due to the timer issue.<br>
>>>>><br>
>>>>> From the following cisco doc,<br>
>>>>><br>
>>>>> <a href="http://www.cisco.com/c/en/us/support/docs/voice-unified-communications/unified-communications-manager-callmanager/46806-cm-crashes-and-shutdowns.html" target="_blank">http://www.cisco.com/c/en/us/support/docs/voice-unified-communications/unified-communications-manager-callmanager/46806-cm-crashes-and-shutdowns.html</a><br>
>>>>> it looks like the SDL timer thread stopped and service shutdown?<br>
>>>>> This doc is from CCM 3.x and 4.x time frame.  Are the timers mentioned<br>
>>>>> in this doc still true for 10.5 - where it shuts down at 16 seconds<br>
>>>>> for SDL timer thread or 20 seconds for SDL router thread.<br>
>>>>><br>
>>>>><br>
>>>>> 09465137.000 |23:55:15.416 |Stopping |<br>
>>>>>    |                               |SdlTCPConnection(1,100,14,37)<br>
>>>>> |SdlTCPConnection(1,100,14,37)    |<br>
>>>>>    |NumOfCurrentInstances: 39<br>
>>>>><br>
>>>>> 09465138.000 |23:55:15.448 |SdlSig   |SdlVerificationTimer<br>
>>>>>    |monitoring                     |CMProcMon(1,100,234,1)<br>
>>>>> |SdlTimerService(1,100,3,1)       |1,100,234,1.3139616^*^*<br>
>>>>>    |*TraceFlagOverrode<br>
>>>>><br>
>>>>> 09465138.001 |23:55:15.448 |AppInfo  |CMProcMon::star_sdlVerification<br>
>>>>> - Test Timer exceeded minimum timer latency threshold of 1000<br>
>>>>> milliseconds, Actual latency: 54360 milliseconds<br>
>>>>><br>
>>>>> 09465139.000 |23:55:16.135 |AppInfo  |CallManagerFailure - Indicates<br>
>>>>> an internal failure in Unified CM Host Name of Hosting Node:CUCM1 Host<br>
>>>>> Node IP Address:192.168.1.5 Reason code:4 Additional Text: App<br>
>>>>> ID:Cisco CallManager Cluster ID:StandAloneCluster Node ID:CUCM1<br>
>>>>><br>
>>>>> 09465140.000 |23:55:16.135 |AlarmErr |AlarmClass: CallManager,<br>
>>>>> AlarmName: CallManagerFailure, AlarmSeverity: Critical, AlarmMessage:<br>
>>>>> , AlarmDescription: Indicates an internal failure in Unified CM,<br>
>>>>> AlarmParameters:  HostName:CUCM1, IPAddress:192.168.1.5, Reason:4,<br>
>>>>> Text:, AppID:Cisco CallManager, ClusterID:StandAloneCluster,<br>
>>>>> NodeID:CUCM1<br>
>>>>><br>
>>>>> 09465141.000 |23:55:17.465 |AppInfo  |CallManagerFailure - Indicates<br>
>>>>> an internal failure in Unified CM Host Name of Hosting Node:CUCM1 Host<br>
>>>>> Node IP Address:192.168.1.5 Reason code:4 Additional Text:CCM<br>
>>>>> Intentional Abort: SignalName: SdlVerificationTimer, DestPID:<br>
>>>>> CMProcMon[1:100:234:1] App ID:Cisco CallManager Cluster<br>
>>>>> ID:StandAloneCluster Node ID:CUCM1<br>
>>>>><br>
>>>>> 09465142.000 |23:55:17.465 |AlarmErr |AlarmClass: CallManager,<br>
>>>>> AlarmName: CallManagerFailure, AlarmSeverity: Critical, AlarmMessage:<br>
>>>>> , AlarmDescription: Indicates an internal failure in Unified CM,<br>
>>>>> AlarmParameters:  HostName:CUCM1, IPAddress:192.168.1.5, Reason:4,<br>
>>>>> Text:CCM Intentional Abort: SignalName: SdlVerificationTimer, DestPID:<br>
>>>>> CMProcMon[1:100:234:1], AppID:Cisco CallManager,<br>
>>>>> ClusterID:StandAloneCluster, NodeID:CUCM1,<br>
>>>>><br>
>>>>> 09465138.002 |23:55:17.566 |AppInfo  |TimerThreadSlowed - Timer thread<br>
>>>>> has slowed beyond acceptable limits App ID:Cisco CallManager Cluster<br>
>>>>> ID:StandAloneCluster Node ID:CUCM1<br>
>>>>><br>
>>>>> 09465138.003 |23:55:17.566 |AlarmErr |AlarmClass: CallManager,<br>
>>>>> AlarmName: TimerThreadSlowed, AlarmSeverity: Critical, AlarmMessage: ,<br>
>>>>> AlarmDescription: Timer thread has slowed beyond acceptable limits,<br>
>>>>> AlarmParameters:  AppID:Cisco CallManager,<br>
>>>>> ClusterID:StandAloneCluster, NodeID:CUCM1,<br>
>>>>><br>
>>>>> 09465143.000 |23:55:17.566 |SdlSig   |ReapOldTokenRegistrationsTimer<br>
>>>>>    |wait                           |SIPStationInit(1,100,72,1)<br>
>>>>> |SdlTimerService(1,100,3,1)       |1,100,146,1.1^*^*<br>
>>>>>    |[R:H-H:36,N:55,L:1,V:1,Z:0,D:0]<br>
>>>>> _______________________________________________<br>
>>>>> cisco-voip mailing list<br>
>>>>> <a href="javascript:;" onclick="_e(event, 'cvml', 'cisco-voip@puck.nether.net')">cisco-voip@puck.nether.net</a><br>
>>>>> <a href="https://puck.nether.net/mailman/listinfo/cisco-voip" target="_blank">https://puck.nether.net/mailman/listinfo/cisco-voip</a><br>
>>> _______________________________________________<br>
>>> cisco-voip mailing list<br>
>>> <a href="javascript:;" onclick="_e(event, 'cvml', 'cisco-voip@puck.nether.net')">cisco-voip@puck.nether.net</a><br>
>>> <a href="https://puck.nether.net/mailman/listinfo/cisco-voip" target="_blank">https://puck.nether.net/mailman/listinfo/cisco-voip</a><br>
>><br>
</blockquote></div>