Конечная точка транспорта не подключена - ведомый /ведущий Mesos

Я пытаюсь подключить раба Mesos к своему хозяину. Всякий раз, когда раб пытается подключиться к мастеру, я получаю следующее сообщение:

I0806 16:39:59.090845   935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384   940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508   940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868   940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031   940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248   939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated

Похоже, ошибка:

E0806 16: 39: 59.091384 940 socket.hpp: 107] Ошибка завершения при fd = 25: конечная точка транспорта не подключена [107]

Хост был запущен с использованием:

./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1

И раб

./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos

Если я запускаю ведомое устройство на той же виртуальной машине, что и хост, оно работает нормально.

Я не смог найти много информации в интернете. Я запускаю два виртуальных ящика (Debian 8.1) на VirtualBox 5. Хост - Windows 7.

Изменить 1:

Ведущий и ведомый работают на выделенной виртуальной машине.

Обе виртуальные машины nextorks настроены с использованием мостовой сети.

ifconfig от master:

eth0      Link encap:Ethernet  HWaddr 08:00:27:cc:6c:6e
          inet addr:10.129.62.61  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:595886271 (568.2 MiB)  TX bytes:362423868 (345.6 MiB)

ifconfig от подчиненного:

eth0      Link encap:Ethernet  HWaddr 08:00:27:56:83:20
          inet addr:10.129.62.49  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:397126834 (378.7 MiB)  TX bytes:354116 (345.8 KiB)

Изменить 2:

Журналы ведомых устройств можно найти на http://pastebin.com/CXZUBHKr

Основные журналы можно найти на http://pastebin.com/thYR1par

19 голосов | спросил benjamin.d 6 PM00000050000000931 2015, 17:49:09

4 ответа


0

У меня была похожая проблема. Мои ведомые журналы будут заполнены

    E0812 15:58:04.017990  2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]

Мой мастер будет иметь

    F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins

И мастер умрет, и произойдут новые выборы, убитый мастер будет перезапущен выскочкой (я на ящике с Centos 6) и добавлен в пул потенциальных мастеров. Таким образом, мой избранный мастер будет последовательно соединять мои мастер-узлы. Многие перезапуски мастеров и рабов ничего не делали, и проблема постоянно возвращалась в течение 1 минуты после избрания мастера.

Решение для меня пришло из вопроса о переполнении стека (спасибо) и подсказки в github заметка Gist .

Суть в том, что /etc/default/mesos-master должен указывать номер кворума (он должен быть правильным для количества мастеров мезо, в моем случай 3)

    MESOS_QUORUM=2

Мне это кажется странным, поскольку у меня есть та же информация в файле /etc/mesos-master/quorum

Но я добавил его в /etc/default/mesos-master, перезапустил mesos-master и slave, и проблема не вернулась.

Надеюсь, это поможет вам.

ответил Rajha.Korithrien 13 AM00000020000001131 2015, 02:23:11
0

Я сталкивался с этой ошибкой в ​​журналах при обновлении версий mesos (например, 0.20.0 -> 0.27.0). Иногда данные из предыдущей версии несовместимы с другими версиями.

Вот как я это исправил:

Сначала убедитесь, что служба mesos-master остановлена ​​на всех узлах:

sudo service mesos-master stop

Затем удалите все потенциальные старые данные:

  1. Удалить $MESOS_WORK_DIR (/var/mesos в мой случай):

    sudo rm -rf /var/mesos
    
  2. Очистить наши данные мезо в ZooKeeper:

    $ zkCli.sh
    WatchedEvent state:SyncConnected type:None path:null
    [zk: localhost:2181(CONNECTED) 0] rmr /mesos
    [zk: localhost:2181(CONNECTED) 0] quit
    Quitting...
    

После выполнения этих шагов я запустил сервис mesos-master на всех узлах, и он вернулся в оперативный режим.

ответил Jay Taylor 17 FebruaryEurope/MoscowbWed, 17 Feb 2016 00:16:24 +0300000000amWed, 17 Feb 2016 00:16:24 +030016 2016, 00:16:24
0
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected

Это подсказка об ошибке.

Ваш раб выставляет неправильный IP.

Добавьте --ip=10.129.62.49 к подчиненной команде, и она работает.

ответил noob 18 PMpMon, 18 Apr 2016 14:51:45 +030051Monday 2016, 14:51:45
0

Запустите ведомое устройство с помощью --ip=10.129.62.49 вместо этого

ответил hartem 10 PM00000090000002531 2015, 21:12:25

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132