Конкурс по оптимизации 2014

921 views
Skip to first unread message

Alexey Sidnev

unread,
Dec 4, 2014, 9:06:15 AM12/4/14
to unn_pro...@googlegroups.com
Каждому студенту необходимо реализовать алгоритм умножения матриц с заданным форматом хранения матриц (плотный формат хранения по строкам или по столбцам).
Подробную постановку можно посмотреть на странице: https://sites.google.com/site/alexeysidnev/studentam/optimization-competition-2014

В ветке можно задавать вопросы. Вся информация о задаче будет предоставлена сегодня вечером по ссылке выше.

Alexey Sidnev

unread,
Dec 4, 2014, 3:20:46 PM12/4/14
to
Основные изменения по сравнению со вторником:
  1. Эксперименты будут проводиться для m=7200, k=4800, n=8192. Для меньшего размера матриц наблюдается существенный разброс времени выполнения.
  2. Все экперименты будут проводиться с использованием утилиты taskset. Т.к. на процессоре включен HyperThreading, то использование всех ядер приводится к сильному разбросу времени выполнения. С помощью taskset выполняется привязка запускаемой программы к заданным ядрам (один поток на вычислительное ядро процессора).
  3. Снижено пороговое значение для оценки "3".

Alexey Sidnev

unread,
Dec 4, 2014, 3:30:27 PM12/4/14
to unn_pro...@googlegroups.com
Полезная информация по интринсикам: https://software.intel.com/sites/landingpage/IntrinsicsGuide/
Message has been deleted

Alexey Sidnev

unread,
Dec 12, 2014, 3:46:18 AM12/12/14
to unn_pro...@googlegroups.com
В шаблоне реализации для столбцового формата функции dgemm передавались неправильные параметры. Исправил файл main.cpp для столбцового варианта задачи.

Alexey Sidnev

unread,
Dec 20, 2014, 6:18:00 AM12/20/14
to unn_pro...@googlegroups.com
Выложены результаты проверки работ 20.12.2014: https://sites.google.com/site/alexeysidnev/studentam/optimization-competition-2014/results

Alexey Sidnev

unread,
Dec 21, 2014, 10:31:47 AM12/21/14
to unn_pro...@googlegroups.com
Провел аналогичные эксперименты на другом узле кластера, получились значительно лучшие резельтаты. Обновил таблицу. Узел кластера заменён.

Alexey Sidnev

unread,
Dec 26, 2014, 4:03:49 AM12/26/14
to unn_pro...@googlegroups.com
Сроки проверки работ для студентов, которым предстоит сдать экзамен, перенесены.

Alexey Sidnev

unread,
Jan 4, 2015, 10:04:35 AM1/4/15
to unn_pro...@googlegroups.com
1. К сожалению, на кластере произошёл сбой обуродования и нет возможности проводить эксперименты на нём.
Я рассчитываю, что кластер станет доступен в течении недели. Учитывая, что последняя проверка работ состоится 27.01.2015, выход из строя кластера не должен повлиять на сдачу работ.
2. Сейчас можете вести разработку на вашем домашнем компьютере.
3. Я сообщу, когда кластер будет полностью функционален.

Alexey Sidnev

unread,
Jan 5, 2015, 3:08:19 AM1/5/15
to unn_pro...@googlegroups.com
Доступ к кластеру восстановлен.
Для выделения узла необходимо вместо команды "salloc -p all --reservation=optimization  -N 1 -t 120" выполнить "salloc -p all  -N 1 -t 120".
Позднее резервация будет восстановлена.

i.seme...@gmail.com

unread,
Jan 7, 2015, 9:37:31 AM1/7/15
to unn_pro...@googlegroups.com
Алексей, добрый вечер.
Нормально ли, что при запуске задачи (7200, 4800, 8192, 666) с помощью указанной команды taskset -c 16-31 на узле, полученном с помощью salloc, производительность параллельной mkl меняется в широких пределах - я наблюдал и 130 гфлопс, и 280. Разброс от 200 до 280 вижу постоянно.
Также сегодня с полудня я не могу получить узел с помощью salloc. Может ли кластер быть полностью загружен?

Alexey Sidnev

unread,
Jan 7, 2015, 10:30:38 AM1/7/15
to unn_pro...@googlegroups.com
MKL устроена таким образом, что первый вызов вычислительной функции может работать значительно медленне, чем последующие. Это может быть связано с определением оптимальных значений внутренних параметров алгоритма. Второй и последующие запуски дают более стабильные результаты. Текущую загрузку кластера можно оценить с помощью команд "sinfo", "salloc". Я попробую сегодня восстановить резервацию, чтобы узлы для экспериментов были доступны всегда.

i.seme...@gmail.com

unread,
Jan 7, 2015, 11:57:51 AM1/7/15
to unn_pro...@googlegroups.com
На данный момент sinfo выводит мне такие данные:

gpu up 3-00:00:00 8 down* node[10,20,24,38,48,81,114,118]
gpu up 3-00:00:00 7 drain node[14-15,22,34,82,119-120]
gpu up 3-00:00:00 85 alloc node[1-9,11-13,16-19,21,23,25-33,35-37,39-47,49-80,83-90,111-113,115-117]
cpu* up 3-00:00:00 10 down* node[101-110]
phi up 3-00:00:00 1 down* node100
phi up 3-00:00:00 1 drain node91
phi up 3-00:00:00 8 alloc node[92-99]
all up 3-00:00:00 19 down* node[10,20,24,38,48,81,100-110,114,118]
all up 3-00:00:00 8 drain node[14-15,22,34,82,91,119-120]
all up 3-00:00:00 93 alloc node[1-9,11-13,16-19,21,23,25-33,35-37,39-47,49-80,83-90,92-99,111-113,115-117]

Я верно понимаю, что на данный момент доступных cpu на кластере нет?

Alexey Sidnev

unread,
Jan 8, 2015, 2:51:33 AM1/8/15
to unn_pro...@googlegroups.com
Да, все узлы заняты. Узлы в свободном состоянии имеют статус "idle".

Alexey Sidnev

unread,
Jan 8, 2015, 3:00:30 AM1/8/15
to unn_pro...@googlegroups.com
Резрвация восстановлена. Для выделения вычислительного узла используйте команду: "salloc -p all --reservation=optimization  -N 1 -t 120".

i.seme...@gmail.com

unread,
Jan 9, 2015, 9:29:54 AM1/9/15
to unn_pro...@googlegroups.com
Алексей, добрый вечер.
При попытке использовать vtune amplifier на узле (node**) получаю след. вывод:

amplxe: Collection started. To stop the collection, either press CTRL-C or enter from another console window: amplxe-cl -r /home/optimization**/gemm/build/collect1 -command stop.
***здесь вывод программы***
amplxe: Collection stopped.
amplxe: Using result path `/home/optimization**/gemm/build/collect1'
amplxe: Executing actions 18 % Resolving information for `libmkl_avx.so'
amplxe: Warning: Cannot locate file `lib64/ld-2.12.so'.
amplxe: Warning: Cannot locate file `lib64/libc-2.12.so'.
amplxe: Executing actions 50 % Saving the result
amplxe: Warning: Skipped generation of report `summary': no valid license can be found (Could not find the Intel product license file. Suggestion: Please check if: (1) the environment variable INTEL_LICENSE_FILE points to the correct Intel license file directory and (2) this directory contains a valid license (.lic) file for this Intel product. Internal error code: `-76'.).
amplxe: Executing actions 50 % done

Значит ли это, что amplifier невозможно использовать ввиду отсутствия лицензии, или же это проблема конфигурации?

При попытке запустить vtune amplifier непосредственно на optimization**@supz получаю следующую ошибку:

amplxe: Error: Cannot enable Hardware Event-based Sampling: problem with the driver (sep*/sepdrv*). Check that the driver is running and the driver group is in the current user group list. See "Building and Managing the Sampling Driver" help topic for further details.

i.seme...@gmail.com

unread,
Jan 9, 2015, 9:52:08 AM1/9/15
to unn_pro...@googlegroups.com
Решил проблему, установив INTEL_LICENSE_FILE на узле равной INTEL_LICENSE_FILE на optimization@supz. Очевидно, имеет место проблема конфигурации.

Alexey Sidnev

unread,
Jan 9, 2015, 11:02:57 AM1/9/15
to
Изначально предполагалось, что компиляция может осуществляться только на головном узле, поэтому конфигурация вычислительных узлов существенно отличается от головного. Большое спасибо за найденную проблему и предложенное решение!

i.seme...@gmail.com

unread,
Jan 11, 2015, 1:11:13 PM1/11/15
to unn_pro...@googlegroups.com
Рад помочь!
Алексей, если Вы помните наш разговор о работе Turbo Boost на e5 2660, я нашёл вот что:

http://www.cpu-world.com/CPUs/Xeon/Intel-Xeon%20E5-2660.html

Здесь мы видим схему работы TB: при загрузке всех 8 ядер, как и указано в презентации, частота 2.7 GHz.

Пока что не удалось найти оф. спек от Интела, но cpu-world - тоже довольно известный и уважаемый сайт. Быть может, пригодится при проведении других экспериментов, чтобы сравнить производительность на одном и нескольких ядрах.

i.seme...@gmail.com

unread,
Jan 11, 2015, 1:14:52 PM1/11/15
to unn_pro...@googlegroups.com
Еще есть документ

http://www.siliconmechanics.com/files/RomleyInfo.pdf

страницы 4, 7, 8

Alexey Sidnev

unread,
Jan 12, 2015, 1:35:07 AM1/12/15
to unn_pro...@googlegroups.com
Спасибо за информацию!
Часть подобных материалов я находил ранее. Думаю, можно остановиться на том, что рабочая частота ядер при проведении экспериментов составляет 2.7 GHz.

i.seme...@gmail.com

unread,
Jan 13, 2015, 5:53:32 PM1/13/15
to unn_pro...@googlegroups.com
Поддерживаю 2.7.
При каком значении ошибки (значение, которое программа выводит как "Error:") алгоритм считается корректным? Изменится ли алгоритм вычисления ошибки (по сравнению с версией в шаблонной реализации) при замене основной функции на проверочный вариант?

Могу ли я узнать, в чём причина перехода от сравнения с заданным delta (в прошлом году было значение 0.001 или 0.0001) к текущему алгоритму? В чём его идея?

Alexey Sidnev

unread,
Jan 14, 2015, 3:19:30 AM1/14/15
to
Я буду считать, что алгоритм корректен, если ошибка меньше чем 10^-6 (однако, если ошибка будет больше, но близка к этому значению, я могу тоже считать реализацию корректной).
Алгоритм вычисления ошибки не изменится.
В данной работе вычисляется относительная ошибка, в предыдущем году вычислялась абсолютная ошибка. Осносительная ошибка не зависит от абсолютного значения элементов матрицы. Для данной работы принципиальной разницы между этими двумя способами вычисления ошибки нет.

Alexey Sidnev

unread,
Jan 15, 2015, 2:50:46 AM1/15/15
to unn_pro...@googlegroups.com
Выложены результаты проверки работ 15.01.2015: https://sites.google.com/site/alexeysidnev/studentam/optimization-competition-2014/results

Agachkin

unread,
Jan 22, 2015, 3:41:03 AM1/22/15
to unn_pro...@googlegroups.com
при попытке выполнения команды:

taskset –c 16-31 ./App.out 7200 4800 8192 666

последние два дня получаю такой результат:

failed to parse cpu mask -c

ранее такого не было. С чем это может быть связанно?

Alexey Sidnev

unread,
Jan 22, 2015, 4:02:43 AM1/22/15
to unn_pro...@googlegroups.com
Скорее всего сивмолы "–c" не те, что требуются (либо не то тире, либо буква "c" русская). Попробуйте набрать "-c" с клавиатуры, а не копировать. Если не поможет, то наберите всю команду с клавиатуры.

Agachkin

unread,
Jan 22, 2015, 1:23:46 PM1/22/15
to unn_pro...@googlegroups.com
Уже пробовал..
и вручную не принимает и copy-past не срабатывает..
попробовал у товарища сделать, у него нормально все. через своего пользователя туже строку пишу выдает ошибку.

Alexey Sidnev

unread,
Jan 22, 2015, 2:30:59 PM1/22/15
to unn_pro...@googlegroups.com
Я успешно выполнил запуск из под аккаунта optimization49.
Приведите последовательность команд, которую вы выполняете после авторизации на кластере. Я её воспроизведу.

Alexey Sidnev

unread,
Jan 23, 2015, 12:22:00 PM1/23/15
to unn_pro...@googlegroups.com
Сегодня со второй половины дня кластер не работает полноценно. Через некоторое время доступ будет полностью восстановлен.

aryab...@gmail.com

unread,
Jan 23, 2015, 12:48:13 PM1/23/15
to unn_pro...@googlegroups.com
Захожу по ssh выдает такое:
Could not chdir to home directory /home/optimization25: No such file or directory
Could not create directory '/home/optimization25/.ssh'.
open /home/optimization25/.ssh/id_rsa failed: No such file or directory.
Saving the key failed: /home/optimization25/.ssh/id_rsa.
cp: cannot stat `/home/optimization25/.ssh/id_rsa.pub': No such file or directory

Прав на запись в home конечно же нет... Соответственно, доступ есть, но файлы я свои на сервер скинуть не могу...

Когда можно будет нормально работать на кластере?

Alexey Sidnev

unread,
Jan 23, 2015, 2:41:26 PM1/23/15
to unn_pro...@googlegroups.com
Как я уже писал ранее, кластер вышел из строя. Когда администраторы восстановят кластер, тогда доступ будет восстановлен. Сроков, увы, назвать не могу. Но как только доступ появится, я напишу.

aryab...@gmail.com

unread,
Jan 24, 2015, 12:04:59 PM1/24/15
to unn_pro...@googlegroups.com
Очень интересно как можно сделать к 27 числу, если, видимо, до понедельника ждать придется ждать пока восстановят наши папки... Возможно Вы дадите нам возможность сдать работы 28 и 29, что бы мы успели хоть что-то сделать?

Alexey Sidnev

unread,
Jan 25, 2015, 6:38:31 AM1/25/15
to unn_pro...@googlegroups.com
Естественно, если кластер в ближайшее время не будет восстановлен, то сроки перенесём. Об этом напишу завтра.
А про то, как можно было сделать работу к 27-му числу, можно писать очень долго :) Если хотите, то можно это обсудить очно.

mkm...@gmail.com

unread,
Jan 25, 2015, 6:54:52 AM1/25/15
to unn_pro...@googlegroups.com
Понятное дело что можно было раньше,но ведь мы студенты такой народ,в самый последние сроки все делаем)) поэтому простите,поймите,перенесите))

aryab...@gmail.com

unread,
Jan 25, 2015, 7:38:57 AM1/25/15
to unn_pro...@googlegroups.com
У нас и другие экзамены есть, по которым тоже нужно делать достаточно чего... И кроме того есть еще такая штука как работа...

Alexey Sidnev

unread,
Jan 26, 2015, 4:09:10 AM1/26/15
to unn_pro...@googlegroups.com
Кластер до сих пор не работает. В лучшем случае он будет введён в эксплуатацию сегодня. Если так, то проверять работы я буду 29-го перед экзаменом, поэтому работы необходимо сдать до 29-го.
По поводу малого количества свободного времени, тяжелой жизни, несправделивости, курса рубля и всего прочего я готов поговорить лично, т.к. тут слишком много писать. Сегодня я нахожусь до 17:30 в 110. В среду буду с утра до 11:00 в 110.

i.seme...@gmail.com

unread,
Jan 26, 2015, 7:21:43 AM1/26/15
to unn_pro...@googlegroups.com
Алексей, добрый день.
Подскажите, пожалуйста, как слинковать программу с openmp так, чтобы можно было скопировать исполняемый файл и файлы библиотеки openmp на флешку и запустить на машине без openmp? Для библиотеки mkl я решил задачу так: слинковал статически и скопировал 3 файла mkl, которые указал link line advisor. А как быть с openmp, для которой теперь (*) недоступно статическое связывание?

(*) https://software.intel.com/en-us/forums/topic/328598# крайний снизу пост

Заранее благодарю! Если мы решим эту задачу, то падение кластера мне не страшно :)

Alexey Sidnev

unread,
Jan 26, 2015, 8:20:36 AM1/26/15
to unn_pro...@googlegroups.com
Добрый день.

Можете привести какую строку вы взяли из Link Line Advisor и какие файлы MKL копировались?
Если OpenMP официально не линкуется статически, то мы ничего сделать не сможем.
В любом случае, я не очень понимаю как это поможет выполнить сборку и запуск на кластере без СХД.

i.seme...@gmail.com

unread,
Jan 26, 2015, 9:01:09 AM1/26/15
to unn_pro...@googlegroups.com
Виноват, не объяснил. Я могу запустить программу на машине с CPU Sandy Bridge (не на кластере), и, хотя это не идеальный эксперимент, я рассчитываю, что при многопоточном запуске и отключенном HT соотношение производительности MKL и моей версии сохранится.

Конкретную строку из Link Line Advisor не назову, но команда целиком такая:

icl ..\main.cpp ..\blockmmult.cpp ..\mkl_core.lib ..\mkl_intel_lp64.lib ..\mkl_sequential.lib /Qmkl:sequential /Fe..\dense_block_avx.exe /QxAVX /Qrestrict

При этом указанные три файла .lib я скопировал на флешку в папку с исполняемым файлом. Этот вариант работал в один поток на машине, где не были установлены какие-либо средства разработки intel и microsoft.

Alexey Sidnev

unread,
Jan 26, 2015, 9:19:21 AM1/26/15
to unn_pro...@googlegroups.com
.lib-файлы не используются при запуске программы, поэтому в их копировании нет смысла.
Однако, вы можете сейчас выполнять разработку на любом процессоре семейства Sandy Bridge и старше. Они архитектурно очень близки к процессорам на кластере.

i.seme...@gmail.com

unread,
Jan 26, 2015, 9:31:00 AM1/26/15
to unn_pro...@googlegroups.com
ОК, понял, благодарю за совет.

Ivy Bridge 3820QM подойдёт? Это единственная машина, где я имею право установить intel parallel studio (раз уж openmp нельзя поместить на флешку).

Alexey Sidnev

unread,
Jan 26, 2015, 9:47:27 AM1/26/15
to unn_pro...@googlegroups.com
Да, 3820QM подойдёт.

Для запуска OpenMP-приложений под Windows достаточно положить рядом с приложением libiomp5m.dll.

iosif....@gmail.com

unread,
Jan 26, 2015, 2:48:02 PM1/26/15
to unn_pro...@googlegroups.com
Коллеги,
К сожалению, выход из строя инфраструктуры прогнозировать почти невозможно.
Прошу сохранять спокойствие. Полагаю, мы найдем разумный вариант и оповестим вас.

Alexey Sidnev

unread,
Jan 27, 2015, 11:57:46 AM1/27/15
to unn_pro...@googlegroups.com
Кластер снова функционирует.

izma...@gmail.com

unread,
Jan 27, 2015, 12:04:05 PM1/27/15
to unn_pro...@googlegroups.com
а когда можно прислать работу-крайний срок?

Alexey Sidnev

unread,
Jan 27, 2015, 12:06:38 PM1/27/15
to unn_pro...@googlegroups.com
Я начну проверять работы в 7:30-8:00 29.01.2015. До этого момента надо прислать работу.

izma...@gmail.com

unread,
Jan 27, 2015, 12:11:02 PM1/27/15
to unn_pro...@googlegroups.com
хорошо,спасибо,а сам экзамен во сколько начнется и надо ли приходить на консультацию?

iosif....@gmail.com

unread,
Jan 27, 2015, 12:21:28 PM1/27/15
to unn_pro...@googlegroups.com
Всем добрый вечер!

На консультацию приходить особого смысла нет, но т.к. она стоит в расписании, я подойду. Могу расписаться в зачетках тех, кто уже сдал программу. Буду доступен с 16-00 до 17-00, далее у меня совещание, прошу не опаздывать.

Экзамен: начало по расписанию в 8-30, в 110 аудитории. Мне неудобно в это время, но раз так положено, будем собладать правила. Я буду ждать с 8-30 до примерно 11-00, наверное это достаточное время, чтобы все желающие подошли с зачетками.

Думаю, в следующем семестре будет интересно провести семинар и заслушать тех, кто показал принципиально лучшие результаты.

samok...@slylamb.com

unread,
Jan 27, 2015, 1:02:08 PM1/27/15
to unn_pro...@googlegroups.com
Добрый вечер. Подскажите пожалуйста. Через putty не создается директория. Выдает "No such process". Решил попробовать через WinSCP создать каталог. Выдает ошибку - "Не могу создать папку "gemm". Общая ошибка (сервер должен предоставить описание ошибки).
Код ошибки: 4
Сообщение ошибки от сервер: Failure"

Спросил у двух своих одногруппников, у них WinSCP выдает те же самые ошибки при попытке положить файлы в папку gemm, или при попытке их заменить. Что делать?

mkm...@gmail.com

unread,
Jan 27, 2015, 1:02:58 PM1/27/15
to unn_pro...@googlegroups.com
+ у всех такая беда..

izma...@gmail.com

unread,
Jan 27, 2015, 1:14:29 PM1/27/15
to unn_pro...@googlegroups.com
у меня не подходит логин и пароль к VPN серверу, мне нужно снова перерегистрероваться?

Alexey Sidnev

unread,
Jan 27, 2015, 1:17:22 PM1/27/15
to unn_pro...@googlegroups.com
Действительно, файловая система сейчас работает в режиме Read Only. Разбираемся.

Сейчас можно поступить так:
[h] 1. Скопировать ваши файлы в директорию /tmp.
Например, я скопировал через SCP файл test.txt в /tmp/sidnev_test/test.txt.
[h] 2. Собрать программу в директории /tmp/sidnev_test/
[h] 3. Выделить вычислительный узел.
  salloc -p gpu -N 1 -t 120
[w] 4. Создать на узле директорию /tmp/sidnev_test/.
  mkdir /tmp/sidnev_test/
[h] 5. Скопировать собранную программу на узел.
  scp /tmp/sidnev_test/a.out node27:/tmp/sidnev_test/a.out
[w] 6. Запустить программу.

[h] - узел компиляции на который вы попадаете после авторизации
[w] - вычислительный узел (выделяется с помощью salloc)

Alexey Sidnev

unread,
Jan 27, 2015, 1:22:35 PM1/27/15
to unn_pro...@googlegroups.com
Логин/пароль для доступа к VPN общий.  Перерегистрироваться не надо.
Я успешно подключился под указанными логином и паролем. Проверьте, что вы делаете все так, как указано в инструкции. Если не получается, то пишите подробное описание ваших действий и возникающую ошибку.

Agachkin

unread,
Jan 27, 2015, 1:29:11 PM1/27/15
to unn_pro...@googlegroups.com
Это нормально то что по vpn соединение перестало устанавливаться?
log/pass все те же?

Agachkin

unread,
Jan 27, 2015, 1:32:24 PM1/27/15
to unn_pro...@googlegroups.com
Делал как было в инструкции, и более того подключение было, до 21 числа точно.
а вот сегодня уже не удается подключиться.
изменений ни каких не вносил.
win8 в центре управления сетями показывает подключение по vpn как подключение без доступа к интернету.
putty выдает timeout

Alexey Sidnev

unread,
Jan 27, 2015, 1:38:28 PM1/27/15
to unn_pro...@googlegroups.com
Это странно. За последние 10 минут было установлено успешно 5 VPN-соединений. Создайте соединение заново. Приведите порядок ваших действие. Покажите ошибку.

egor...@gmail.com

unread,
Jan 27, 2015, 1:39:02 PM1/27/15
to unn_pro...@googlegroups.com
думаю подключений по vpn ограниченное количество ;)

Alexey Sidnev

unread,
Jan 27, 2015, 1:46:57 PM1/27/15
to unn_pro...@googlegroups.com
Действительно, оно ограничено величиной 100. Сейчас активно около 20 сессий.

egor...@gmail.com

unread,
Jan 27, 2015, 2:05:49 PM1/27/15
to unn_pro...@googlegroups.com
Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
[optimization47@supz mc-optimization47]$ salloc -p gpu -N 1 -t 120
salloc: Pending job allocation 58
salloc: job 58 queued and waiting for resources
salloc: Nodes node43 are ready for job
open /home/optimization47/.ssh/id_rsa failed: No such process.
Saving the key failed: /home/optimization47/.ssh/id_rsa.
cp: cannot stat `/home/optimization47/.ssh/id_rsa.pub': No such file or directory
[optimization47@supz mc-optimization47]$ ssh node43
optimization47@node43's password:

Какой пароль?

samok...@slylamb.com

unread,
Jan 27, 2015, 2:11:57 PM1/27/15
to unn_pro...@googlegroups.com
+1 - в точности то же самое. Пароль тот же, что вводишь при входк в putty. Но почему то не пускает. Алексей, в чем может быть проблема?

samok...@slylamb.com

unread,
Jan 27, 2015, 2:28:22 PM1/27/15
to unn_pro...@googlegroups.com
У других людей после ввода комманды ssh node, не запрашивается пароль. Это может быть связано с ошибкой

open /home/optimization30/.ssh/id_rsa failed: No such process.
Saving the key failed: /home/optimization30/.ssh/id_rsa.
cp: cannot stat `/home/optimization30/.ssh/id_rsa.pub': No such file or directory

?

Alexey Sidnev

unread,
Jan 27, 2015, 2:36:36 PM1/27/15
to unn_pro...@googlegroups.com
По всей видимости, данная ошибка связана с тем, что нет домашних директорий, которые создаются при первом заходе на кластер. Сейчас директорию создать не получается и возникает подобная ошибка.

samok...@slylamb.com

unread,
Jan 27, 2015, 2:41:58 PM1/27/15
to unn_pro...@googlegroups.com
И на узел я не могу попасть тоже по всей видимости из-за этой ошибки?

Alexey Sidnev

unread,
Jan 27, 2015, 3:43:25 PM1/27/15
to unn_pro...@googlegroups.com
Да, верно.
Можете попробовать воспользоваться логинами коллег, либо подождать до завтра.

i.seme...@gmail.com

unread,
Jan 27, 2015, 11:36:28 PM1/27/15
to unn_pro...@googlegroups.com
Алексей, доброе утро.
При попытке скомпилировать программу на головном узле у меня зависает icc. ps показывает, что icc находится в состоянии Sl+. Это происходит независимо от того, дана ли перед этим команда module load intel. Также я заметил, что про запуске icc в списке моих профессов появляется процесс mpccom. При этом команда "icc" без аргументов работает корректно и выдаёт сообщение об ошибке "no file specified".

i.seme...@gmail.com

unread,
Jan 27, 2015, 11:39:27 PM1/27/15
to unn_pro...@googlegroups.com
Вывод ps:
10083 15633 0.0 0.0 170536 23396 ? D 07:21 0:00 /common/intel/composer_xe_2013_sp1.2.144/bin/intel64/mcpcom @/tmp/iccargdqi9Af
10083 15706 0.1 0.0 170536 23500 pts/0 D 07:37 0:00 /common/intel/composer_xe_2013_sp1.2.144/bin/intel64/mcpcom @/tmp/iccargbQ7TKw
10083 15764 0.3 0.0 127084 4020 pts/2 Sl+ 07:38 0:00 icc main.cpp file.cpp -mkl=parallel -xHost -openmp
10083 15773 0.6 0.0 169992 23284 pts/2 D+ 07:38 0:00 /common/intel/composer_xe_2013_sp1.2.144/bin/intel64/mcpcom @/tmp/iccargt4byWL
10083 15775 0.0 0.0 103248 864 pts/3 S+ 07:38 0:00 grep icc

Alexey Sidnev

unread,
Jan 28, 2015, 12:08:59 AM1/28/15
to
Я успешно выполнил команду "icc /tmp/optim35/main.cpp -o /tmp/optim35/main.out" под вашим аккаунтом.
Приведите полный лог действий, которые вы выполняете.

aryab...@gmail.com

unread,
Jan 28, 2015, 1:02:04 AM1/28/15
to unn_pro...@googlegroups.com
Как то так себе функционирует....
Нода не выделяется:
[optimization24@supz ~]$ salloc -p all --reservation=optimization -N 1 -t 120
salloc: error: Job submit/allocate failed: Requested reservation is invalid

При копировании файлов на сервер выдает:

Общая ошибка (сервер должен предоставить описание ошибки).
Код ошибки: 4
Сообщение ошибки от сервер: Failure

Что делать?

Alexey Sidnev

unread,
Jan 28, 2015, 1:07:07 AM1/28/15
to unn_pro...@googlegroups.com
Во первых, обязательно прочитайте сообщения за последний день. Кластер действительно не до конца функционирует, но работать на нём можно.
1. Надо использовать строку: salloc -p gpu -N 1 -t 120
2. Работать можно только в директории /tmp.

Если возникают проблемы, то сообщайте подробную информацию о них.

aryab...@gmail.com

unread,
Jan 28, 2015, 1:11:40 AM1/28/15
to unn_pro...@googlegroups.com
А сейчас вообще пошло такое:
В Putty залогиниться дает, но командная строка работать не начинает.
В winscp проходит ауткентификацию, а потом
Не получается использовать SFTP. На сервере вообще запущен SFTP?

Alexey Sidnev

unread,
Jan 28, 2015, 1:17:43 AM1/28/15
to unn_pro...@googlegroups.com
Про SFTP сейчас ничего не могу сказать, но вы всегда можете воспользоваться SCP.
На кластере действительно ситуация поменялась буквально несколько минут назад. Возможно администраторы занимаются восстановлением кластера. Если у меня появятся новости, то я сообщу.

aryab...@gmail.com

unread,
Jan 28, 2015, 1:33:47 AM1/28/15
to unn_pro...@googlegroups.com
sftp вроде восстановилось...
Но проблема такая:

[optimization24@supz ~]$ salloc -p gpu -N 1 -t 120
salloc: Granted job allocation 114
salloc: Waiting for resource configuration
salloc: Nodes node5 are ready for job
[optimization24@supz ~]$ scp /tmp/opt24/App.out node5:/tmp/opt24/a.out
И все подвисло.

PS.
Как запускать на ноде? ssh node5 тоже подвисает.

aryab...@gmail.com

unread,
Jan 28, 2015, 2:04:07 AM1/28/15
to unn_pro...@googlegroups.com
Админы опять поудаляли наши папки. Теперь невозможно перейти на узел...

Could not chdir to home directory /home/optimization24: No such file or directory
Could not create directory '/home/optimization24/.ssh'.
open /home/optimization24/.ssh/id_rsa failed: No such file or directory.
Saving the key failed: /home/optimization24/.ssh/id_rsa.
cp: cannot stat `/home/optimization24/.ssh/id_rsa.pub': No such file or directory
-bash-4.1$ cd /tmp/opt24
-bash-4.1$ pwd
/tmp/opt24
-bash-4.1$ salloc -p gpu -N 1 -t 120
salloc: Granted job allocation 118
salloc: Waiting for resource configuration
salloc: Nodes node45 are ready for job
bash-4.1$ ssh node45
Could not create directory '/home/optimization24/.ssh'.
The authenticity of host 'node45 (10.0.3.45)' can't be established.
RSA key fingerprint is 53:89:79:3e:89:c4:29:72:1f:44:1a:8f:4d:24:9c:d2.
Are you sure you want to continue connecting (yes/no)?

iosif....@gmail.com

unread,
Jan 28, 2015, 3:27:38 AM1/28/15
to unn_pro...@googlegroups.com
Коллеги,

В связи с тем, что инфраструктура не функционирует должным образом, а время истекает, разумное решение - перенос формальной даты экзамена на 2 февраля, последний день сессии. Срок сдачи переносим на 1 февраля.
Сегодня мы оценим перспективы ремонта и примем решение по поводу того, где смогут запускаться те, кто не успел сдать свою программу.

У меня просьба довести информацию до всех заинтересованных лиц.

P.S. Если кому-то жизненно необходимо, чтобы его программу запустили раньше 1 февраля (командировка, отпуск и т.д.), напишите.

andor...@gmail.com

unread,
Jan 28, 2015, 4:54:59 AM1/28/15
to unn_pro...@googlegroups.com
Уезжаю в Москву с 30.01 по 02.02, если это не критично, то заняться тестами я могу в логине коллег, а зачетку на экзамен они могут принести вместо меня.

andor...@gmail.com

unread,
Jan 28, 2015, 5:38:50 AM1/28/15
to unn_pro...@googlegroups.com
Небольшие проблемы:
при команде
module load intel
выдается сообщение об ошибке
module: command not found
Коллег под рукой нет - спросить не у кого.

Agachkin

unread,
Jan 28, 2015, 7:04:09 AM1/28/15
to unn_pro...@googlegroups.com
В связи с текущими изменениями, я так понимаю сегодня и завтра(28.1 и 29.1) ни консультации, ни экзамена не будет?

ryabenko

unread,
Jan 28, 2015, 9:41:31 AM1/28/15
to unn_pro...@googlegroups.com
Уезжаю в командировку до 10 февраля. Завтра (29-го) - последний день, как я буду в Нижнем Новгороде. Большая просьба, проверить мою работу не позднее, чем завтра=)

Alexey Sidnev

unread,
Jan 28, 2015, 1:05:55 PM1/28/15
to unn_pro...@googlegroups.com
1. Завтра примерно в 7:30 я проверю все работы, которые мне прислали.
2. Сегодня я постраюсь предоставить доступ к Windows-сегменту. Процессоры там аналогичны тем, которые были на Linux-сегменте.
3. Иосиф Борисович будет завтра в 9:00. Если кто-то хочет получить оценку в зачётке или задать вопрос, то может подойти.

Alexey Sidnev

unread,
Jan 28, 2015, 1:07:41 PM1/28/15
to unn_pro...@googlegroups.com
Администраторы кластера продолжают заниматься его восстановлением. Сроков, увы, назвать не могу.
Однако я постараюсь за сегодня предоставить доступ к Windows-сегменту для проведения экспериментов.

Alexey Sidnev

unread,
Jan 28, 2015, 3:41:46 PM1/28/15
to
Для работы на Windows-сегменте необходимо:
  1. Подключиться по VPN (этот пункт не изменился).
  2. Подключиться по RDP к 85.143.2.188. Стандартный клиент Remote Desktop Connection (mstsc). Логин/пароль остались прежними.
  3. Собрать на голове программу, используя Microsoft Visual Studio 2010 с интегрированным компилятором Intel. Рабочая директория: D:\optimization\. Проекты-шаблоны прикреплены ниже.
  4. Зайти на один из свободных узлов (используя RDP): node40,node41,node42,node43,node47,node48,node52,node54. Скопировать на него собранную программу (через буфер обмена, например) и выполнить запуск. Запуск необходимо выполнять от имени администратора (Run as administrator). Рекомендую запускать консоль cmd в режиме Run as administrator и уже из неё запускать приложение.

Проверяйте, что вы работаете на узле одни через Task Manager (загрузка процессора без запуска вашей программы должна быть 0).
col.zip
row.zip

egor...@gmail.com

unread,
Jan 28, 2015, 3:55:42 PM1/28/15
to unn_pro...@googlegroups.com
А можно более подробную инструкцию о том как запускать на узле из под Windows сегмента?

Alexey Sidnev

unread,
Jan 28, 2015, 4:16:32 PM1/28/15
to unn_pro...@googlegroups.com
На вычислительный узел надо заходить по RDP с головы кластера (85.143.2.188). Запуск осуществляется стандартным образом, т.к. у вас будет доступ к ужаленному рабочему столу.

samok...@slylamb.com

unread,
Jan 28, 2015, 4:19:00 PM1/28/15
to unn_pro...@googlegroups.com
При запуске проекта в VS2010 выпало сообщение, что не приконнектилась библиотека Intel Advisor XE 2013. Соответственно в проекте ругается на #include "mkl.h" Что делать?

i.seme...@gmail.com

unread,
Jan 28, 2015, 4:23:59 PM1/28/15
to unn_pro...@googlegroups.com
Алексей, подскажите, пожалуйста, возможно ли скопировать скомпилированный бинарник на узел или на голову с домашнего компьютера и как это сделать?

Кроме того, я не могу зайти на голову с помощью mstsc: your credentials did not work. Под тем же логином и паролем я успешно захожу на linux-голову. Возможно, мой роутер блокирует опред. порты?

samok...@slylamb.com

unread,
Jan 28, 2015, 4:37:45 PM1/28/15
to unn_pro...@googlegroups.com
Я подключился к удаленному рабочему столу. Скомпилил своб программу. Как запустить узел? Видимо через коммандную строку. Но какими именно коммандами? ssh node не работает.

samok...@slylamb.com

unread,
Jan 28, 2015, 6:19:11 PM1/28/15
to unn_pro...@googlegroups.com
Я разобрался с тем, как запустить узел. Я скопировал на него скомпилированный col.exe, пытаюсь запустить его в коммандной строке start col.exe 7200 4800 8192 666 - но приложение выдает ошибку unable to start correctly. Так происходит не только у меня, но и еще у двух человек. Как запустить программу?

krasnoyar...@gmail.com

unread,
Jan 29, 2015, 1:01:47 AM1/29/15
to unn_pro...@googlegroups.com
После захода с ремоута на какой либо вычислительный узел наблюдается такая проблема - при попытке открыть консоль от имени администратора логин/пароль, которые указываешь при заходе на главный узел не подходят и соответственно запустить с правами администратора не представляется возможным. В чем может быть проблема?

Alexey Sidnev

unread,
Jan 29, 2015, 1:37:16 AM1/29/15
to unn_pro...@googlegroups.com
Я выполнил проверку работ на Windows-сегменте.
1. Часть работ не скомпилировалась. Понятно, что смена ОС может на это повлиять. Если это не катастрофическая ошибка, то исправлю и обновлю. Сейчас "-".
2. Сравнивать время работы под Linux и Windows тяжело. Предлагается из-за смены ОС повысить оценку на одну градацию (балл/полбалла). Если такой вариант не устраивает, то есть возможность прислать работу до 2-го числа. Кроме того, я проверю присланные работы на Linux-сегменте, как он станет доступен.

Alexey Sidnev

unread,
Jan 29, 2015, 1:49:55 AM1/29/15
to unn_pro...@googlegroups.com
Работы с ошибками:
 1. Слишком большая ошибка вычислений:
    Agachkin
    Loginova
    Sharov
  2. Runtime Exception (APPCRASH):
    Samokhvalov
3. Ошибка компиляции:
Pandhla

Alexey Sidnev

unread,
Jan 29, 2015, 1:57:15 AM1/29/15
to unn_pro...@googlegroups.com
Через некоторое время я испралю ошибку доступа на вычислительные узлы и предоставлю более подробную инструкцию.

Agachkin

unread,
Jan 29, 2015, 4:05:37 AM1/29/15
to unn_pro...@googlegroups.com
возможно ли что причиной увеличения погрешности является смена архитектуры?
просто на linux сегменте в пределах погрешности было

Alexey Sidnev

unread,
Jan 29, 2015, 5:24:44 AM1/29/15
to unn_pro...@googlegroups.com
Ошибка запуска консоли от имени администратора исправлена.
Видео, демоснтрирующее работу с Windows-сегментом (шаги 2-4): https://drive.google.com/file/d/0B-W6XTyb1bPuNlpwRFVhX2R6TDQ/view?usp=sharing

Alexey Sidnev

unread,
Jan 29, 2015, 5:34:30 AM1/29/15
to unn_pro...@googlegroups.com
Изменение программного окружения может повлиять на точность вычислений, но незначительно. Аппаратная платформа не менялась.

aryab...@gmail.com

unread,
Jan 29, 2015, 9:00:23 AM1/29/15
to unn_pro...@googlegroups.com
Вы написали:

"Сравнивать время работы под Linux и Windows тяжело. Предлагается из-за смены ОС повысить оценку на одну градацию (балл/полбалла). Если такой вариант не устраивает, то есть возможность прислать работу до 2-го числа. Кроме того, я проверю присланные работы на Linux-сегменте, как он станет доступен."

А как в таком случае мы сможем рассчитывать на корректность своих экспериментов?
Ведь делать мы будем под Windows, а проверять Вы будете потом на Linux?

aryab...@gmail.com

unread,
Jan 29, 2015, 9:37:03 AM1/29/15
to unn_pro...@googlegroups.com
Конекчусь к серверу через Remote Desktop Connection Manager 2.2 под пользователем optimization24. Выдает "Недопустимые учетные данные"...
Подскажите, пожалуйста, в чем проблема?

Agachkin

unread,
Jan 29, 2015, 9:42:57 AM1/29/15
to unn_pro...@googlegroups.com
как заполняешь поля?

Agachkin

unread,
Jan 29, 2015, 9:44:41 AM1/29/15
to unn_pro...@googlegroups.com
вот так должно быть

http://dropmefiles.com/xK55v

Alexey Sidnev

unread,
Jan 29, 2015, 10:24:44 AM1/29/15
to unn_pro...@googlegroups.com
На мой взгляд, странно подозревать нас в предвзятости или непрофессионализме. Мы всегда в спорных ситуациях идём на уступки студентам.
В данной ситуации возникла форс-мажорная ситуация - вышла из строя тестовая система. Мы постарались разрешить проблему так, чтобы не ущемлять права студентов.
1. Процитированный пост касался только работ, которые я проверял сегодня. Их я дополнительно проверю под Linux, т.к. часть работ разрабатывались под Linux и у студентов не было возможности её проверить под Windows.
2. 2-го числа я буду проверять работы под той ОС, в которой вы выполняли разработку. Если это была Windows, то я проверю под Windows. Если Linux-сегмент будет восстновлен, то можно будет работать на нём и прислать работу для проверки под Linux.

Anna Ryabusheva

unread,
Jan 29, 2015, 11:03:30 AM1/29/15
to unn_pro...@googlegroups.com
Извините, если сочли это обвинениями. Просто ситуация не очень понятная... Не очень понятно, как будет происходить проверка и как будут выставляться оценки в данной ситуации. И по этому такие вопросы.
PS
Не могли бы вы назначить еще одну дату проверки работ?
It is loading more messages.
0 new messages