Поиск причины повторной передачи TCP в локальной сети

Приветствия пользователей с ошибкой сервера

У меня есть раздражающая проблема с локальной сетью около 100 компьютеров, двумя доменами Windows и 12 VoIP-телефонами. Начиная с их установки примерно год назад, каждую неделю или около того, мы замечаем, что VoIP-телефон сам перезагружается - иногда в середине звонка. Одновременно часто появляются признаки временной потери соединения на компьютерах: зависает в проводнике при доступе к сетевым ресурсам, ошибки в нашем программном обеспечении из-за потери соединения с сервером базы данных.

Я выполнял мониторинг Wireshark по соединению между PBX VoIP и остальной частью сети. Wireshark собирает кучу повторно переданных TCP-пакетов в то время, когда мы записываем перезагрузки телефона. Журнал Wireshark показывает около 2 кластеров повторных передач в день от 5 до сотен. Те, что находятся в каждом кластере, в основном связаны между УАТС и некоторым набором VoIP-телефонов, но не всегда одинаковыми. Часто повторные передачи одновременно относятся к телефонам, подключенным к одному и тому же коммутатору, но иногда повторные передачи происходят вместе с телефонами на противоположных концах сети. Обычно происходит передача совпадений при передаче TCP-трафика, например между клиентскими машинами и файловыми серверами.

Спайки при повторных передачах и сбросах телефонов плохо коррелируют с интенсивностью загрузки сети. Кажется, что они выглядят немного больше в течение дня, но чаще всего вечером, когда движение должно уменьшаться. Они встречаются достаточно часто поздно ночью, когда большинство компьютеров отключены, а трафик должен быть самым низким.

Есть ли у вас какие-либо идеи, которые могли бы помочь диагностировать причину таких проблем? Одна вещь, которую я еще не пробовал, но должен иметь, обновляет прошивку всех коммутаторов.

21 голос | спросил Surreal 21 Mayam10 2010, 01:47:56

6 ответов


13

Повторные передачи TCP обычно происходят из-за перегрузки сети. Ищите большое количество широковещательных пакетов в момент возникновения проблемы. Если процент широковещательного трафика в вашем захвате превышает примерно 3% от общего трафика, то у вас определенно есть перегрузка. Посмотрите на широковещательные передачи как на уровне физического уровня (ARP), так и на сетевом уровне (разрешение имен) в сети. Если вы обнаружите большой объем широковещательного трафика, вы можете отследить его до источника из данных захвата.

ответил joeqwerty 21 Mayam10 2010, 03:02:25
1

Сбор статистики трафика для ваших коммутаторов может показать, что у вас есть периоды, когда вы работаете на уровне или близки к емкости. Это может привести к повторным попыткам, когда ответы не возвращаются в течение основного таймаута (часто 3 секунды). Это увеличивает скопление на мгновение до тех пор, пока не будут задействованы механизмы предотвращения переполнения.

Ищите людей, использующих потоковые медиа, поскольку они могут быстро впитывать полосу пропускания.

Возможно, вы сможете смягчить проблему для телефонов путем формирования трафика. Это просто переместит проблему другим пользователям.

ответил BillThor 21 Mayam10 2010, 05:04:24
1

Звучит как петля остовного дерева или широковещательный шторм, особенно если повторные передачи и проблемы локализованы на одном и том же коммутаторе (который отличается). Когда это произойдет, каковы состояния портов на вашем устройстве L2? Вероятно, это плохой переход или неправильный приоритет корневого моста? Интересная проблема.

ответил McJeff 21 Mayam10 2010, 05:09:50
1

Вероятно, вы решили это, так как это было так долго, но по существу вам нужно включить «порт быстро» в портах с конечными точками (VoIP-телефоны, рабочие станции, серверы). Телефон может отправлять PDU, поэтому, если этот парень перезагрузится, это приведет к сближению STP, что приведет к покраснению таблицы FDB, и все устройства пройдут через 5/5 STP fun. Полагая порты с конечной точкой в ​​«порту быстро», они пропускают ожидание и переходят в режим пересылки.

ответил barak s. 13 AMpFri, 13 Apr 2012 07:28:59 +040028Friday 2012, 07:28:59
0

Надеемся, ваши телефоны находятся в другой подсети и VLAN с других компьютеров?

ответил Greg Askew 21 Mayam10 2010, 03:18:21
0

Это может быть неисправное устройство, такое как неисправный переключатель. Повторяются ли повторные передачи с телефонами /компьютерами на одном конкретном коммутаторе или части сети?

Просто чтобы немного откликнуться. Не все переключатели созданы равными, даже если они имеют одинаковые спецификации. Некоторые из них могут справиться с гораздо большей нагрузкой, чем другие, потому что у них есть более быстрые процессоры внутри. Может быть, ваши коммутаторы не совсем подходят для оценки.

Начну с того, что некоторые ваши самые неприятные телефоны VOIP наденут на их собственный физический коммутатор и посмотрим, продолжатся ли сбрасываемые данные. Если он уйдет, то вы скоро приступите к его решению.

ответил Matt 21 Mayam10 2010, 03:34:49

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132