Perturbations sur le cluster

Bonjour à toutes et tous,

Suite à une intervention non prévue sur l'infrastructure hébergeant le stockage (faisant suite à la coupure d'électricité de la semaine passée), le cluster est inaccessible pour le moment.

Nous nous excusons pour la gène occasionnée, et reviendrons vers vous dès un retour à la normale.

L'équipe BiRD

Hello everyone,

Due to an unplanned intervention on the infrastructure hosting the storage (following last week's power cut), the cluster is inaccessible for the moment.

We apologize for the inconvenience caused, and will get back to you as soon as things are back to normal.

The BiRD team

By pf-bird on 2021-03-24 12:14:55

Remise en service du cluster

Bonjour,

les services techniques du campus nous ont apporté la précision que la coupure d'hier était liée au réseau ENEDIS et a donc touché l'intégralité du campus de l'UFR sciences.

La coupure n'a duré que quelques minutes, mais a arrêté le routeur qui nous permet d'accèder au stockage pendant quelques temps.

Tout est maintenant rentré dans l'ordre, mais si vous constatez des comportements anormaux, merci de nous en faire part.

Merci de votre patience et nos excuses pour la gêne occasionnée.

Cordialement,
L'équipe BiRD

Hello,

The technical services of the campus have informed us that yesterday's power cut was linked to the ENEDIS network and therefore affected the entire campus of the UFR sciences.

The blackout only lasted a few minutes, but it stopped the router that allows us to access the storage for a while.

Everything is now back to normal, but if you notice any abnormal behaviour, please let us know.

Thank you for your patience and we apologize for the inconvenience.

Kind regards,
The BiRD team

By pf-bird on 2021-03-19 17:35:11

Coupure de courant sur le site de sciences

Bonjour,

Nous venons de subir une coupure de courant complète sur le campus.
Les noeuds de calculs étants ondulés ils n'ont pas été impactés, nous avons cependant perdu le routeur qui nous permet d'accèder au stockage.
Nous avons également un incident complet sur la salle où se situent une partie des serveurs de stockage pour /LAB-DATA/BiRD et pour /home.

Nous vous tenons au courant au fur et à mesure du déroulement et ferons le bilan de l'incident.

Cordialement,
L'équipe BiRD

Hello,

We just had a complete power failure on campus.
The compute nodes were ondulated and were not impacted, however we lost the router that allows us to access the storage.
We also have a complete incident on the room where some of the storage servers for /LAB-DATA/BiRD and /home are located.

We will keep you informed as the incident unfolds and will report on it.

Sincerely,
The BiRD team

By pf-bird on 2021-03-18 14:42:15

Maintenance sur le réseau le 18 mars 2021 après-midi

--- in english below ---

Bonjour à tous,

Nous avons découvert avec la DSIN de l'université de Nantes un soucis sur notre lien réseau vers et depuis le noeud de login.
Nous allons devoir effectuer une maintenance le 18 mars 2021 en début d'après-midi ce qui va entrainer de problèmes d'accès (voir des pertes de connexions) au cluster.
Cependant, cette intervention concerne un équipement réseau externe au cluster, les jobs en cours ne seront donc pas inpactés.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Greetings everyone,

We discovered with the DSIN of the University of Nantes a problem on our network link to and from the login node.
We will have to perform a maintenance on March 18, 2021 in the early afternoon which will cause access problems (even loss of connections) to the cluster.
However, this intervention concerns a network equipment external to the cluster, so the jobs in progress will not be impacted.

We apologize for the inconvenience.

Sincerely,
The BiRD team

By pf-bird on 2021-03-17 12:05:52

Crash du master et reboot complet du cluster

--- in english below ---
Bonjour à tous,

Nous avons rencontré ce matin un crash complet du serveur qui gère le cluster de calcul, cela à induit des erreurs notamment au niveau du /home et du /SCRATCH-BiRD .

Pour résoudre ces soucis nous avons du redémarrer l'ensemble du cluster, les jobs en cours ont donc été perdus.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Greetings everyones,

This morning we had a complete crash of the server that manages the computing cluster, this has induced errors especially in the /home and /SCRATCH-BiRD.

To solve these problems we had to restart the whole cluster, so the jobs in progress were lost.

We apologize for the inconvenience caused.

Sincerely,
The BiRD team

By pf-bird on 2021-03-17 08:36:52

IMPORTANT : Effacement de la partition sandbox - Sauvegarder vos données

Bonjour à tous,

Nous espérons vous trouver tous en bonne santé.

Nous avons quelques bonnes nouvelles !

Nous avons installé plusieurs serveurs dans l’architecture Ceph, ce qui a permis de doubler l’espace disponible sur la partition /ceph-recherche (500To au total), espace de stockage sécurisé.

Dans le but d’améliorer les performances du cluster, nous devons effacer la partition /sandbox. Cette opération est prévue pour FIN JANVIER 2021.

/!\ Attention TOUTES LES DONNEES PRESENTES SUR /SANDBOX SERONT SUPPRIMEES /!\

Nous vous demandons donc de sauvegarder vos données importantes qui sont actuellement sur /sandbox d'ici la fin Janvier 2021 (la date exacte vous sera transmise dans un prochain mail).

Si vous disposez d’un espace suffisant vous pouvez faire un transfert de vos données pérennes sur la partition ceph-recherche (quota individuel à 200Go), ou alors utiliser le système de sauvegarde de votre choix.

Vous trouverez ici les informations :

décrivant la procédure pour le transfert de vos données et environnements :

https://bird2cluster.univ-nantes.fr/page/sandbox-migration

décrivant les nouveaux espaces de stockage à partir du mois de Février :

https://bird2cluster.univ-nantes.fr/page/storage

Dear all,

We have some good news!

We have installed several servers in the Ceph architecture, doubling the space available on the /ceph-recherche partition (500TB in total), a secure storage space.
To improve the cluster's performance, we need to delete the /sandbox partition. This operation is planned for END OF JANUARY 2021.

/Attention ALL DATA ON /SANDBOX WILL BE DELETED /!\

We therefore ask you to back up your important data currently on /sandbox by the end of January 2021.

If you have enough space you can transfer your important data to the ceph-recherche partition (individual quota at 200GB, or space shares), or use the backup system of your choice.

You will find information here:

describing the procedure for transferring your data and environments:
https://bird2cluster.univ-nantes.fr/page/sandbox-migration
describing the new storage spaces from the month of February:
https://bird2cluster.univ-nantes.fr/page/storage

By pf-bird on 2020-12-17 18:05:42

Redémarrage du noeud de login

--- In english below ---

Bonjour à tous,

Nous rencontrons actuellement un problème avec le montage ceph-recherche sur le noeud de login, ceci est lié à un plantage de la machine qui permet aux noeuds d'accèder au ceph-recherche dans de bonnes conditions.

Nous allons redémarrer le login à 10h.

Afin d'éviter tout problèmes, veuillez couper vos sessions sur le login qui ont des fichiers ouverts sur le ceph-recherche.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Hello to all,

We are currently encountering a problem with the ceph-recherche mount on the login node, this is related to a crash of the machine that allow our compute nodes to access to ceph-recherche in good conditions.

We will restart the login at 10am.

In order to avoid any problems, please cut your sessions on the login that have files open on the ceph-search.

We apologize for the inconvenience.

Cordially,
The BiRD team

By pf-bird on 2020-11-03 10:03:34

Perturbation sandbox

--- in english below ---
-- Edit - 26/10/2020 --

Bonjour à tous,

Les divers mises à jours se déroulées sans soucis, le stockage devrait être revenu dans un état normal.
Vous pouvez dès à présent réutiliser le cluster pour vos calculs.

Veuillez revenir vers nous si vous rencontrez des soucis.

Cordialement,
L'équipe BiRD

Hello to all,

The various updates are running smoothly, the storage should be back in a normal state.
You can now reuse the cluster for your calculations.

Please come back to us if you encounter any problems.

We apologize for the inconvenience.

Yours sincerely,
The BiRD team

-- Edit - 23/10/2020 --

Bonjour à tous,

Pour tenter de régler les problèmes rencontrés nous allons effectuer ce week-end une mise à jour du firmware des cartes réseaux infiniband ainsi qu'un mise à jour du logiciel beegfs.
Nous couperons le cluster ce soir à partir de 20h, pensez à sauvegarder tous vos travaux ouvert.

Ces mises à jour impliquent de couper totalement le stockage et de redémarrer plusieurs serveurs et nœuds de calculs, les calculs en cours seront perdus.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Hello to all,

To try to solve the problems encountered we will perform this weekend a firmware update of the infiniband network cards as well as an update of the beegfs software.
We will shut down the cluster tonight from 8pm, remember to save all your open jobs.

These updates imply to completely cut the storage and to restart several servers and compute nodes, the current calculations will be lost.

We apologize for the inconvenience.

Yours sincerely,
The BiRD team

-- Original message - 22/10/2020 --

Bonjour à tous,

Nous recontrons actuellement un problème avec un des serveurs de notre infrastructure beegfs (/sandbox).
Ce dernier se fige complètement et ne répond plus, sans aucune indication dans les logs ni dans l'interface de gestion.

Nous sommes en train d'investiguer les différentes solutions possibles et nous reviendrons vers vous lorsque nous aurons plus d'informations.

Nous excusant de la gène occasionnée.

Cordialement,
Jean-François GUILLAUME

Hello to all,

We are currently experiencing a problem with one of the servers in our beegfs (/sandbox) infrastructure.
This server is completely frozen and no longer responds, without any indication in the logs or in the management interface.

We are currently investigating the different possible solutions and we will come back to you when we have more information.

We apologize for the inconvenience.

Sincerely yours,
Jean-François GUILLAUME

By pf-bird on 2020-10-26 09:17:56

Problèmes réseaux et accès au ceph-recherche

--- in english below ---

Re-bonjour,

Le soucis est maintenant résolu. Le problème était situé sur un des liens qui relie un des switchs du CCIPL que nous utilisons pour accéder au ceph-recherche.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Greetings again,

The problem is now solved. The problem was located on one of the links connecting one of the CCIPL switches we use to access the ceph-search.

We apologize for the inconvenience caused.

Sincerely,
The BiRD team

--- in english below ---

Bonjour à tous,

Nous rencontrons actuellement des perturbations réseau sur une partie du cluster qui impact l'accès au ceph-recherche sur les noeuds concernés. L'accès à ces noeuds a été désactivé le temps de résoudre les soucis.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Greetings everyone,

We are currently encountering network disturbances on part of the cluster that impact access to the ceph-recherche on the nodes concerned. The access to these nodes has been disabled while we were trying to solve the problems.

We apologize for the inconvenience caused.

Sincerely,
The BiRD team

By pf-bird on 2020-09-29 15:06:52

Espace disponnible faible sur ceph-recherche

-- In English Below --

Bonjour à tous,

Nous atteignons actuellement les 98% de taux de remplissage du stockage ceph-recherche.

Nous attendons de recevoir les machines qui vont nous permettre d'étendre l'espace disponnible.

Pendant ce temps, pourriez vous être particulièrement vigilant sur la quantité de données que vous générez et en profiter pour faire un peu de ménage si possible dans vos espaces personnels et projets. (respectivement /ceph-recherche/users/<login> et /ceph-recherche/shares/<project_name>)

L'idée étant de ne pas saturer complètement l'espace le temps que les machines arrivent.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

Hello to all,

We are currently reaching the 98% fill rate of the ceph-recherche storage.

We are waiting to receive the machines that will allow us to expand the available space.

In the meantime, could you please be particularly vigilant about the amount of data you generate and take advantage of this time to do some cleaning if possible in your personal spaces and projects. (respectively /ceph-recherche/users/<login> and /ceph-recherche/shares/<project_name>)

The idea being not to completely saturate the space while the machines arrive.

We apologize for the inconvenience caused.

Yours sincerely,
The BiRD team

By pf-bird on 2020-09-09 16:19:26

Reboot des noeuds de calculs et du login

-- in english below --

Bonjour à tous,

Nous avons identifié un soucis avec le noyau actuellement utilisé sur les noeuds de calculs et le login de BiRD qui affecte l'utilisation du ceph-recherche.

Le soucis est corrigé dans la dernière version disponible. Nous avons installé le nouveau noyau et il ne reste plus qu'à redémarrer les différents serveurs pour qu'il soit pris en compte.

Nous avons désactivé la soumission de nouveaux jobs le temps que le cluster se vide de la plupart des jobs (au moins ceux qui sont sur la file 24h). Pour les jobs sur les files 72h, 7d, 1m et 2m, si vous aviez la possibilité des les interrompres proprement ça serait la meilleure solution, dans tous les cas les noeuds seront redémarré durant le week-end au plus tard.

Nous excusant pour la gène occasionnée.

Cordialement,
L'équipe BiRD

Greetings everyones,

We have identified a problem with the kernel currently used on the computation nodes and the BiRD login that affects the use of the ceph-recherche.

The problem is fixed in the latest available version. We have installed the new kernel and we just have to reboot the different servers to take it into account.

We have disabled the submission of new jobs while the cluster empties itself of most of the jobs (at least those on the 24h queue). For the jobs on the 72h, 7d, 1m and 2m queues, if you had the possibility to interrupt them cleanly it would be the best solution, in any case the nodes will be restarted during the weekend at the latest.

We apologize for the inconvenience.

Cordially,
The BiRD team

By pf-bird on 2020-09-03 16:27:02

Problème de climatisation et perturbation sur le stockage ceph-recherche

-- in english below --

Bonjour à tous,

Nous continuons dans la série des problèmes.

Cette nuit, une des salles serveurs qui héberge une partie des serveurs du ceph-recherche a vu sa climatisation s'arrêter et la salle machine a enclenchée sa mesure de sécurité liée à la température : couper l'alimentation électrique de la salle.

Le prestataire de maintenance a été contacté et il ne pourra intervenir que cet après-midi au plus tôt.

En fonction des diagnostiques, la salle pourrait n'être remise en fonction qu'à partir de lundi prochain.

Pendant cette période, le ceph-recherche peut rencontrer des perturbations (grosses lenteurs notamment), les fichiers sont toujours là et non corrompus mais difficilement accessible.

Nous excusant pour la gène occasionnée.

Cordialement,
L'équipe BiRD

-----

Good morning everyone,

We are continuing with the series of problems.

Last night, one of the server rooms that hosts some of the ceph-recherchech servers saw its air conditioning stop and the machine room activated its temperature-related safety measure: cutting off the room's power supply.

The maintenance service provider has been contacted and will only be able to intervene this afternoon at the earliest.

Depending on the diagnostics, the room may not be operational again until next Monday.

During this period, the ceph-rechercheche may encounter some disturbances (especially big slowness), the files are still there and not corrupted but not easily accessible.

We apologize for the inconvenience.

Sincerely,
The BiRD team

By pf-bird on 2020-08-13 11:25:46

Fin d'interruption du circuit electrique du datacenter mercredi 12.08.2020 a partir de 8h

-- in english below --

Bonjour à tous,

Le site d l'Université de Nantes situé à Lombarderie est de nouveau alimenté en électricité et ce de manière optimale. Les équipes d'Enedis continuent de surveiller les lignes pour s'assurer que tout fonctionne comme prévu mais nous sommes de retour à un état normal.

Nos différents stockages devraient eux aussi être revenu à un état nominal et ce sans perte de données. Merci de revenir vers nous si jamais vous constatez des problèmes avec vos fichiers.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

----

Greetings everyone,

The site of the University of Nantes in Lombardy is once again supplied with electricity in an optimal way. Enedis teams continue to monitor the lines to ensure that everything is working as planned, but we are back to normal.

Our various storage sapces should also have returned to a nominal state without any loss of data. Please come back to us if you find any problems with your files.

We apologize for the inconvenience.

Sincerely,
The BiRD team

By pf-bird on 2020-08-12 16:38:33

Interruption du circuit electrique du datacenter mercredi 12.08.2020 a partir de 8h

-- in english below --

Bonsoir,

Nous venons de recevoir un mail d'information de la part de l'université nous annonçant une coupure électrique totale du site où est hébergé notre cluster de calcul.

Bonsoir,

Nous revenons vers vous dans le cadre de la coupure électrique du campus Lombarderie.

Suite aux interventions réalisées par Enedis, les opérations de réalimentation du campus pourront débuter demain, à partir de 8h. Pour cela, les groupes électrogènes devront être arrêtés, entrainant une coupure électrique de l'ensemble du site (hors Ceisam). Cette coupure durera 2h environ.

L'alimentation électrique sera rétablie bâtiment par bâtiment, en commençant par le Data Center. Un retour progressif à la normale est attendu pour le début d'après-midi. Une fois la situation rétablie, nous vous informerons de la fin des opérations de réalimentation.

A l'issue de celles-ci, nous vous inviterons à vérifier le bon fonctionnement de vos installations et équipements.

En cas de problème, vous pouvez contacter M. Denis Perruchas ou Mme Soline Konieczny.

Le campus de Lombarderie est sans électricité depuis lundi matin vers 3h, le datacenter tourne actuellement sur groupe électrogène.

En plus du groupe électrogène, le datacenter dispose d'onduleurs. Ces derniers devraient nous permettre de continuer à fonctionner pendant la période de l'intervention mais il est aussi possible que nous devions couper le cluster afin d'éviter les pertes de données.

Il faut en tous cas s'attendre à des perturbations sur cette période.

Nous excusant pour la gène occasionnée.

Cordialement,
L'équipe BiRD

----

Good evening, sir,

We have just received an information email from the university announcing a total power failure of the site where our computing cluster is hosted.

Good evening, sir,

We're coming back to you in connection with the power outage on the Lombardy campus.

Following the interventions carried out by Enedis, the operations to replenish the campus will be able to start tomorrow, from 8am. To do this, the generators will have to be stopped, resulting in a power cut for the whole site (excluding Ceisam). This cut will last about 2 hours.

The power supply will be restored building by building, starting with the Data Center. A gradual return to normal is expected in the early afternoon. Once the situation has been restored, we will inform you of the end of the resupply operations.

At the end of these operations, we will invite you to check the proper functioning of your installations and equipment.

In case of problems, you can contact Mr Denis Perruchas or Mrs Soline Konieczny.

Translated with www.DeepL.com/Translator (free version)

The Lombarderie campus has been without electricity since Monday morning around 3am, the datacenter is currently running on a generator.

In addition to the generator, the datacenter has inverters. These should allow us to continue to operate during the period of the intervention but it is also possible that we may have to shut down the cluster to avoid data loss.

In any case, disruptions are to be expected during this period.

We apologize for the inconvenience caused.

We apologize for the inconvenience,
The BiRD team

Translated with www.DeepL.com/Translator (free version)

By pf-bird on 2020-08-11 22:50:10

Bug sur le stockage ceph-recherche

UDPATE 15-06-2020

Bonjour à tous,

Après une (très) longue période de vérification / reconstruction qui s'est terminée ce week-end, le ceph-recherche est de nouveau disponible sur le cluster.

Nous en avons profité pour appliquer de nouveaux paramètres et peaufiner la configuration afin de limiter le risque que cela se reproduise.

Il ne devrait pas y avoir de perte ou corruption de données hormis si vous aviez un transfert en court au moment de la coupure.

Nous excusant de la gène occasionnée.

Cordiallement,
L'équipe BiRD

---

Good morning, everyone,

After a (very) long period of verification / reconstruction that ended this weekend, the ceph-search is available again on the cluster.

We took the opportunity to apply new settings and fine-tune the configuration to limit the risk of this happening again.

There should be no data loss or corruption unless you had a transfer in progress at the time of the shutdown.

We apologize for the inconvenience.

Yours sincerely,
The BiRD team

UDPATE 12-06-2020

Bonjour à tous,

Petite mise à jour sur le stockage ceph-recherche.

Le cluster est actuellement en train de vérifier et mettre à jour si besoin les metadatas. C'est une opération qui est malheureusement extrêmement longue et nous n'avons pour l'instant pas la visibilité sur le temps que cela va prendre.

Nous excusant de la gène occasionnée.

Cordiallement,
L'équipe BiRD

---

Good morning, everyone,

Small update on the ceph-recherche storage.

The cluster is currently checking and updating the metadatas if needed. It is an operation which is unfortunately extremely long and we don't have yet the visibility on how long it will take.

We apologize for the inconvenience.

Yours sincerely,
The BiRD team

(Erratum: correction des fautes de français liées à l'heure tardive)

Bonsoir à tous,

Nous rencontrons actuellement un problème sur notre stockage lié à un bug qui était censé être corrigé dans la version que nous utilisons.
Actuellement le serveur de metadatas du cluster de stockage se retrouve à utiliser toute la mémoire qui lui est disponible et fini par planter.
Afin de lui permettre de se relancer, nous devons démonter le ceph-recherche des noeuds.
Nous avons dû couper les jobs utilisant le ceph-recherche.

Nous excusant de la gène occasionnée.

Cordiallement,
L'équipe BiRD

----

Good evening, everyone,

We are currently experiencing a problem on our storage due to a bug that was supposed to be fixed in the version we are using.
Currently the metadatas of the storage cluster find themselves using all the memory available to it and ended up crashing.
In order to allow them to restart, we have to unmount the ceph-recherche of the nodes.
We had to shut down the jobs using the search ceph-recherche.

We apologize for the inconvenience.

Yours sincerely,
The BiRD team

By pf-bird on 2020-06-15 10:39:47

Fin d'incident - Probleme sur le stockage

Bonsoir à tous,

Les problèmes du stockage sont maintenant résolus. Il n’y a normalement eu aucune perte ni corruption de donnée liée à ce plantage. Les jobs en cours on malheureusement dû être stoppés afin d’éviter tout soucis supplémentaire.

Les problèmes sont survenus suite à une opération de la DSIN suite à une surconsommation de la RAM par le serveur de métadatas du ceph-recherche qui pénalisait les autres cluster ceph de l’université.

Nous excusant de la gène occasionnée.

Cordialement,
L’équipe BiRD

----

Good evening, everyone,

Storage problems are now solved. There was normally no loss or corruption of data related to this crash. The running jobs unfortunately had to be stopped in order to avoid any further problems.

The problems occurred following a DSIN operation due to an over-consumption of RAM by the ceph-recherche's metadata server which penalized the other ceph clusters of the university.

We apologize for the inconvenience caused.
Sincerely,The BiRD team

By pf-bird on 2020-05-27 23:28:18

Probleme sur le stockage

Bonjour à tous,

Nous rencontrons actuellement un problème sur notre stockage, pour prévenir de toutes perte de données, nous devons couper les accès le temps de récupérer le stockage.

Nous excusant de la gène occasionnée.

Cordiallement,
L'équipe BiRD

----

Hello everyone,

We are currently experiencing some issue with our storage, to prevent any data loss we need to shutdown all access during the maintenance.

We are sorry for the inconvenience.

Cordially,
BiRD Team

By pf-bird on 2020-05-27 16:30:10

[Postponed] - /sandbox formatting

Bonjour à tous,

Nous espérons que vous trouver tous en bonne santé.

Vu les circonstances, nous sommes contraints de repousser la date de formatage de la partition /sandbox (prévue initialement au 30 Avril 2020). Nous avons besoin de nouveaux équipements pour lesquels les commandes ont été interrompues.

Nous vous communiquerons dès que possible une nouvelle date pour cette opération.

Néanmoins, pourquoi ne pas profiter de ces temps troublés pour faire un peu de ménage dans vos données ?

Nous vous rappelons que si vous souhaitez conserver vos données, vous pouvez les transférer sur la partition /ceph-recherche. Les informations sont disponibles sur le portail dans la news du 2020-02-25.

Nous vous communiquerons dans les prochaines semaines une aide pour le transfert de vos environnements sur le nouvel espace de stockage.

L'équipe BiRD

Hello, everybody,

We hope you are all in good health.

Under the circumstances, we are forced to postpone the date for formatting the /sandbox partition (originally scheduled for April 30, 2020). We need new equipment for which orders have been interrupted.

We will inform you as soon as possible of a new date for this operation.

Nevertheless, why not take advantage of these troubled times to clean up your data?

We remind you that if you wish to keep your data, you can transfer them to the /ceph-recherche partition. The information is available on the portal in the news dated 2020-02-25.

We will provide you in the next few weeks a help for the transfer of your environments on the new storage space.

BiRD team

By pf-bird on 2020-04-17 10:33:27

BiRD et le COVID19

In english below.

Bonjour,

En raison de l'évolution récente de l'épidémie de COVID-19, tout le personnel de la plate-forme est désormais en télétravail. Nous faisons de notre mieux pour maintenir la plateforme en activité, veuillez excuser à l'avance notre manque de disponibilité.

L'équipe BiRD

Hello,

Due to recent developments in the COVID-19 epidemic, all platform staff is now teleworking. We are doing our best to keep the platform up and running, please excuse in advance our lack of availability.

BiRD Team

By pf-bird on 2020-03-17 13:12:08

Crash du noeud de login du 10.03.2020

Bonjour à tous,

Hier soir un job a été lancé sur le noeud de login entrainant une saturation de sa ram suivit d'un crash complet.

Nous vous rapellons que le noeud de login ne doit servir qu'à lancer des jobs qlogin ou qsub.

Cordialement,
L'équipe BiRD

By pf-bird on 2020-03-11 08:39:39

[Save-the-Date] - Formatage de /sandbox

Bonjour à tous,

Tout d'abord une bonne nouvelle : 6 nouveaux noeuds ont été ajoutés au cluster, ce qui porte les ressources totales à 832 threads.

Concernant le stockage, nous avons fixé la date formatage de la partition /sandbox au 30 Avril 2020. Un nouvel espace /sandbox vierge sera ensuite disponible à partir du 4 Mai.

Nous vous rappelons que si vous souhaitez conserver vos données, vous pouvez les transférer sur la partition /ceph-recherche.

Nous vous communiquerons dans les prochaines semaines une aide pour le transfert de vos environnements sur le nouvel espace de stockage.

Toutes les informations sont disponibles sur le portail : https://bird2cluster.univ-nantes.fr/news/

L'équipe BiRD

Hello everyone,

Good news: 6 new nodes have been added to the cluster, bringing the total resources to 832 threads.

Regarding storage, we have set the formatting date of the /sandbox partition to April 30, 2020. A new blank space /sandbox will then be available from May 4th.

We remind you that if you wish to keep your data, you could transfer them to the /ceph-recherche partition.

In the coming weeks, we will guide you in transferring your environments to the new storage space.

All information is available on the portal: https://bird2cluster.univ-nantes.fr/news/.

BiRD team

By pf-bird on 2020-02-25 16:07:46

Rappel important transfert de données sur BiRD

[In english below]

Bonjour à tous,

Si vous souhaitez transférer vos données sur la partition ceph-recherche, nous vous proposons la marche à suivre suivante :

IMPORTANT - Faites du ménage dans vos données.
Transférez les données pérennes sur le nouveau point de montage /ceph-recherche :

module load fpart

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/users/mon_dossier /ceph-recherche/users/mon_dossier

ET/OU

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/shares/mon_dossier /ceph-recherche/shares/mon_dossier

Une fois les données transférées, nous coupons le /sandbox
Nous réinstallons le /sandbox avec les nouveaux serveurs
Nous ré-ouvrons le /sandbox avec un usage pour les données temporaires uniquement (avec un nettoyage automatique)

La réinstallation prévue entrainera la suppression définitive des données présentes sur le /sandbox.

POUR RAPPEL :
Sur ces les partitions (/sandbox et /ceph_recherche), il existe 2 sous-espaces :

users qui est un espace personnel avec quota gratuit :
- 200 Go pour /ceph-recherche/users
- 1 To pour /sandbox/users
shares qui est un espace projet (qui peut-être partagé).Les quotas sur les espaces shares sont dimensionnés sur demande et soumis à facturation annuelle (de Juin à Mai à prorata des quotas mensuels).
Pour faire une demande d'un espace shares, merci de suivre ce lien.

Tarifs académiques externes (hors SFR) :
- ceph_recherche: 208€/To/yr
- sandbox : 127€ HT/To/Yr

Les tarifs SFR vous ont été communiqués en décembre et seront bientôt disponibles sur l'intranet (merci de nous contacter au besoin).
Tarifs privés : nous contacter.

Nous comptons sur votre coopération et votre diligence. Nous restons bien-entendu à votre disposition si vous avez des questions.

Pensez également si besoin à récupérer les données de vos anciens étudiants qui seraient dans leur répertoire personnel.

Bien cordialement

L'équipe BiRD

Hello,

We remind you that we need to delete and reconfigure the sandbox partition to improve cluster performance.
We therefore ask you to back up your important data that is currently on /sandbox by the end of February. Among other things, you can transfer your important data to the ceph-recherche partition.

If you wish to transfer your data to the ceph-recherche partition, we suggest the following procedure:

IMPORTANT - Clean up your data.
Transfer the data to the new mount point /ceph-recherche :

module load fpart

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/users/mon_dossier /ceph-recherche/users/mon_dossier

AND/OR

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/shares/mon_dossier /ceph-recherche/shares/mon_dossier

Once the data has been transferred, we shut down the /sandbox.
We reinstall the /sandbox with the new servers
We re-open the /sandbox with a use for temporary data only (with an automatic cleanup)

The planned re-installation will lead to the definitive deletion of the data present on the /sandbox.

REMINDER :

On these 2 partitions (/sandbox et /ceph_recherche), there are 2 sub-spaces :

users which is a personal space with free quota :
200 Go for /ceph-recherche/users
1 TB for /sandbox/users
shares which is a project space (which can be shared).
The quotas on the shares spaces are sized on request and subject to annual invoicing (from June to May in proportion to the monthly quotas).
To ask for a share space, please follow this link.

External academic fees (except SFR) :
- ceph_recherche: 208€/To/yr
- sandbox : 127€ HT/To/Yr

SFR rates were communicated to you in December and will soon be available on the intranet (please contact us if necessary).
Private rates: please contact us.

We count on your cooperation and diligence. Of course, we will be happy to answer any questions you may have.

BiRD team.

By pf-bird on 2020-01-31 11:30:06

Rappel important : transfert de données sur BiRD

[In english below]

Bonjour à tous,

Si vous souhaitez transférer vos données sur la partition ceph-recherche, nous vous proposons la marche à suivre suivante :

IMPORTANT - Faites du ménage dans vos données.
Transférez les données pérennes sur le nouveau point de montage /ceph-recherche :

module load fpart

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/users/mon_dossier /ceph-recherche/users/mon_dossier

ET/OU

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/shares/mon_dossier /ceph-recherche/shares/mon_dossier

Une fois les données transférées, nous coupons le /sandbox
Nous réinstallons le /sandbox avec les nouveaux serveurs
Nous ré-ouvrons le /sandbox avec un usage pour les données temporaires uniquement (avec un nettoyage automatique)

La réinstallation prévue entrainera la suppression définitive des données présentes sur le /sandbox.

POUR RAPPEL :
Sur ces les partitions (/sandbox et /ceph_recherche), il existe 2 sous-espaces :

users qui est un espace personnel avec quota gratuit :
- 200 Go pour /ceph-recherche/users
- 1 To pour /sandbox/users
shares qui est un espace projet (qui peut-être partagé).Les quotas sur les espaces shares sont dimensionnés sur demande et soumis à facturation annuelle (de Juin à Mai à prorata des quotas mensuels).
Pour faire une demande d'un espace shares, merci de suivre ce lien.

Tarifs académiques externes (hors SFR) :
- ceph_recherche: 208€/To/yr
- sandbox : 127€ HT/To/Yr

Les tarifs SFR vous ont été communiqués en décembre et seront bientôt disponibles sur l'intranet (merci de nous contacter au besoin).
Tarifs privés : nous contacter.

Nous comptons sur votre coopération et votre diligence. Nous restons bien-entendu à votre disposition si vous avez des questions.

Bien cordialement

L'équipe BiRD

Hello,

If you wish to transfer your data to the ceph-recherche partition, we suggest the following procedure:

IMPORTANT - Clean up your data.
Transfer the data to the new mount point /ceph-recherche :

module load fpart

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/users/mon_dossier /ceph-recherche/users/mon_dossier

AND/OR

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/shares/mon_dossier /ceph-recherche/shares/mon_dossier

Once the data has been transferred, we shut down the /sandbox.
We reinstall the /sandbox with the new servers
We re-open the /sandbox with a use for temporary data only (with an automatic cleanup)

The planned re-installation will lead to the definitive deletion of the data present on the /sandbox.

REMINDER :

On these 2 partitions (/sandbox et /ceph_recherche), there are 2 sub-spaces :

users which is a personal space with free quota :
200 Go for /ceph-recherche/users
1 TB for /sandbox/users
shares which is a project space (which can be shared).
The quotas on the shares spaces are sized on request and subject to annual invoicing (from June to May in proportion to the monthly quotas).
To ask for a share space, please follow this link.

External academic fees (except SFR) :
- ceph_recherche: 208€/To/yr
- sandbox : 127€ HT/To/Yr

SFR rates were communicated to you in December and will soon be available on the intranet (please contact us if necessary).
Private rates: please contact us.

We count on your cooperation and diligence. Of course, we will be happy to answer any questions you may have.

BiRD team.

By pf-bird on 2020-01-20 18:03:14

Crash du noeud de login

Bonjour,

Ce matin vers 7h30 le noeud de login a planté et nous avons été obligé de le redémarrer vers 8h30.

Le problème a été identifié et est le suivant :

Hier soir vers 21h00 le switch principal qui assure la liaison avec la salle "historique" du CCIPL a été victime d'une panne matérielle. Il s'agit d'un switch important dans l'architecture de la DSIN, notamment sur la partie ceph-recherche. Le problème est survenu lorsque Thomas Boudard de la DSIN a pu procéder , vers 7H30 ce matin, au remplacement de la pièce défectueuse. Le noeud de login s'est mis à logger de manière incontrollé des problèmes concernant la liaison au ceph recherche pour finalement planté sans aucune autre raison.

Les jobs en cours n'ont PAS été impactés (au delta des qlogin / screen / tmux / programmes qui tournaient sur le login à ce moment là).

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD.

By pf-bird on 2020-01-14 09:32:44

Informations importantes sur le stockage des données sur BiRD / Important informations about data storage policy on BiRD

[In English Below]

Bonjour,

Voici des informations importantes concernant la nouvelle politique de stockage de données sur BiRD.

Il existe maintenant 2 types d'espace de stockage :

une partition scratch (actuellement /sandbox) pour les données temporaires et non critiques. Cette partition est moins sécurisée mais plus performante. Elle doit donc servir de tampon pour la génération des données lors des calculs mais ne pas stocker de la donnée sur le long terme.
Une politique de nettoyage régulier sera mise en place prochainement.
une partition de données (actuellement /ceph-recherche) pour le stockage pérenne. Cette partition est basée sur un système de fichier sécurisé et répliqué en 3 points, ce qui le rend tolérant aux pannes (disques durs ou réseau). En contrepartie, elle est moins performante.
Attention, cet espace n'est pas pour autant sauvegardé (il n'est pas possible de récupérer des données supprimées par erreur). Une solution de sauvegarde est à l'étude et sera mise en place dans l'année.

Sur ces 2 partitions, il existe 2 sous-espaces :
- users qui est un espace personnel avec quota gratuit :
  - 200 Go pour /ceph-recherche/users
  - 1 To pour /sandbox/users
- shares qui est un espace projet (qui peut-être partagé).Les quotas sur les espaces shares sont dimensionnés sur demande et soumis à facturation annuelle (de Juin à Mai à prorata des quotas mensuels).
  Pour faire une demande d'un espace shares, merci de suivre ce lien.
  
  Tarifs académiques externes (hors SFR) :
  - ceph_recherche: 208€/To/yr
  - sandbox : 127€ HT/To/Yr
  
  Les tarifs SFR vous ont été communiqués en décembre et seront bientôt disponibles sur l'intranet (merci de nous contacter au besoin).
  Tarifs privés : nous contacter.

Nous vous rappelons que nous avons besoin d'effacer et de reconfigurer la partition sandbox pour améliorer les performances du cluster.
Nous vous demandons donc de sauvegarder vos données importantes qui sont actuellement sur /sandbox d'ici la fin Février. Vous pouvez entre autre faire un transfert de vos données pérennes sur la partition ceph-recherche.

Nous profitons de ce mail pour joindre également la présentation que nous avons faite lors de la journée Biogenouest du 19 Décembre sur les plans de gestion des données.

N'hésitez à revenir vers nous si vous avez des questions.

Bien cordialement
L'équipe BiRD

Here are some important informations about the new data storage policy on BiRD.

There are now 2 types of storage space:

a scratch partition (currently /sandbox) for temporary and non-critical data. This partition is less secure but more performant. It must therefore be used as a buffer for data generation during calculations but not to store data on the long term.
A regular cleanup policy will be implemented soon.
a data partition for long-term storage (currently /ceph-recherche). This partition is based on a secure and replicated 3-point file system, which makes it fault tolerant (hard disks or network). On the other hand, it is less efficient.
Be careful, this space is not backed up (it is not possible to recover data deleted by mistake). A backup solution is under study and will be implemented within the year.

On these 2 partitions, there are 2 sub-spaces :

users which is a personal space with free quota :
200 Go for /ceph-recherche/users
1 TB for /sandbox/users
shares which is a project space (which can be shared).
The quotas on the shares spaces are sized on request and subject to annual invoicing (from June to May in proportion to the monthly quotas).
To ask for a share space, please follow this link.

External academic fees (except SFR) :
- ceph_recherche: 208€/To/yr
- sandbox : 127€ HT/To/Yr

SFR rates were communicated to you in December and will soon be available on the intranet (please contact us if necessary).
Private rates: please contact us.

We remind you that we need to delete and reconfigure the sandbox partition to improve the cluster performance.
We therefore ask you to back up your important data currently on /sandbox by the end of February. Among other things, you can transfer your important data to the ceph-recherche partition.

We also take advantage of this email to give you the presentation we made during the Biogenouest day on December 19th on the data management plans.

Do not hesitate to come back to us if you have any questions.

Yours sincerely
The BiRD team

By pf-bird on 2020-01-09 10:38:04

Retour sur l'opération maintenance

Bonjour à toutes et à tous,

Tout d'abord l'équipe BiRD vous présente ses voeux pour cette nouvelle année 2020 qui commence.

Faisons maintenant un point sur l'opération de maintenance qui a eu lieu du 20/12/2019 au 06/01/2020.
Malheureusement nous avons rencontré les mêmes problèmes que lors de la première tentative avec le même résultat : nous n'avons pas pu transférer les metadata sur les nouveaux serveurs. En effet la copie est extrêmement lente du fait de l'utilisation des attributs étendus, et nécessiterait une coupure de plusieurs mois ce qui n'est pas raisonnable.

Plutôt que de s'acharner sur cette migration de metadata, nous préférons nous diriger vers une autre solution.
Jusqu'ici, faute d'alternative, l'espace /sandbox n'est pas utilisé de la bonne manière. Il contient des données pérennes, alors qu'il ne devrait contenir que des données temporaires (pour le calcul).

Nous venons de mettre en place un nouvel espace de stockage pour les données pérennes (espace /ceph-recherche).

Nous vous proposons la marche à suivre suivante :

IMPORTANT - Vous faites du ménage sur vos données

Vous transférez les données pérennes sur le nouveau point de montage /ceph-recherche :

```
module load fpart
```

fpsync -v -n 4 -o "-aAXWxh" -t /ceph-recherche/__tmp /sandbox/shares/mon_dossier /ceph-recherche/shares/mon_dossier

Une fois les données transférées, nous coupons le /sandbox
Nous réinstallons le /sandbox avec les nouveaux serveurs
Nous ré-ouvrons le /sandbox avec un usage pour les données temporaires uniquement (avec un nettoyage automatique)

La réinstallation entrainera la suppression définitive des données présentes sur le /sandbox.

Nous proposons de faire cette opération de transfert d'ici la fin Janvier. Nous comptons sur votre coopération et votre diligence.
Nous restons bien-entendu à votre disposition si vous avez des questions.

Cordialement,
L'équipe BiRD

By pf-bird on 2020-01-06 16:52:42

Maintenance du 20 décembre 2019 au 7 janvier 2020

Bonjour à tous,

Pour rappel une maintenance du cluster est prévue du 20 décembre 2019 au 7 janvier 2020. L'accès au cluster ne sera pas possible durant cette période et les jobs en cours seront coupés à partir du 20 décembre au matin.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-12-17 11:14:53

Micro coupure mercredi 06/11/2019

==== MAJ 06/11/2019 17:40 ====

Bonjour à tous,

Lors de l'installation de la nouvelle carte, le serveur a redémarré sur un système d'installation pour notre infrastructure cloud et s'est réinstallé comme noeud dedans.

Nous avons dû réinstaller le noeud de login dans sa bonne configuration.

Lors de la réinstallation les clefs d'identification du serveur ont été regénérées, vous devriez avoir un message du style

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@    WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY!
Someone could be eavesdropping on you right now (man-in-the-middle attack)!
It is also possible that a host key has just been changed.
The fingerprint for the RSA key sent by the remote host is
57:45:28:f8:b0:8b:b3:a4:86:9c:40:80:33:56:c5:7d.
Please contact your system administrator.
Add correct host key in ~/.ssh/known_hosts to get rid of this message.
Offending RSA key in ~/.ssh/known_hosts:1
RSA host key for bird2login.univ-nantes.fr has changed and you have requested strict checking.
Host key verification failed.

Ce message est normal, il suffit de retirer la ligne dans ledit fichier et de se reconnecter.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

==== MAJ 06/11/2019 16:30 ====

Bonjour à tous,

Nous rencontrons acutellement un problème avec notre noeud de login, ce dernier ne monte plus l'espace de stockage /sandbox .

Nous somme actuellement en train de résoudre le soucis.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

==== MESSAGE INITIAL ====

Bonjour à tous,

Mercredi matin aura lieu une petite coupure du noeud de login pour lui ajouter une nouvelle carte réseau. Cette carte nous permettra d'utiliser un nouvel espace de stockage sur lequel nous communiquerons une fois que cela sera complètement en place.

Les jobs autre que les qlogin ne seront pas impactés par cette coupure.

Nous restons à votre disposition pour plus d'informations.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-11-06 17:38:38

Reboot du noeud de login

Bonsoir à tous,

Nous rencontrons actuellement un soucis sur le noeud de login qui empêche la soumission de qlogin. La soumission de jobs par qsub fonctionne pour sa part.

Pour régler cela nous allons redémarrer le noeuds de login cette nuit.

Cela impactera toutes les sessions screen en cours sur le login.

Cela n'impactera pas les jobs en cours.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-10-04 18:26:37

Maintenance week-end du 20-21 septembre 2019 - Compte rendu

Bonjour à tous,

Voici un petit compte-rendu de l'opération de maintenance de ce week-end.

La migration vers les nouveaux serveurs est malheureusement un échec, en effet le transfert n'a pas pu s'effectuer dans la fenêtre de temps allouée à l'opération.

Nous avons identifié l'origine du problème et nous prévoyons une nouvelle opération de maintenance du 20 décembre 2019 au 7 janvier 2020.

La lenteur de ce transfert est du au fait que la volumétrie et le nombre de fichiers est très (trop) important sur l'espace sandbox. Cet espace devrait être utilisé uniquement pour les opérations de calcul sur les données.
Nous travaillons actuellement sur la mise en place d'un nouvel espace de stockage sécurisé pour les données volumineuses qui permettra de délester une partie du volume sandbox.

Nous reviendrons vers vous prochainement pour que vous réalisiez une opérations sur vos données avant cette nouvelle date.

Nous excusant de la gène occasionnée.

Cordialement,
L’équipe BiRD.

Pour ceux voulant plus d’explications sur les problèmes rencontrés lors de cette migration :

Nous devions réaliser les opérations suivantes :

L'arborescense des metadata est la suivante :

??? buddymir
?   ??? dentries
?   ??? inodes
??? dentries
?   ??? 0
?   ??? 1
?   ??? 10
?   ??? 11
?   ??? 12
?   ??? 13
?   ??? 14
?   ??? 15
?   ??? 16
?   ??? 17
?   ??? 18
?   ??? 19
?   ??? 1A
?   ??? 1B
?   ??? 1C
?   ??? 1D
?   ??? 1E
?   ??? 1F
?   ??? 2
...
?   ??? F
??? format.conf
??? inodes
?   ??? 0
?   ??? 1
?   ??? 10
?   ??? 11
?   ??? 12
?   ??? 13
?   ??? 14
?   ??? 15
?   ??? 16
?   ??? 17
?   ??? 18
?   ??? 19
?   ??? 1A
?   ??? 1B
?   ??? 1C
?   ??? 1D
?   ??? 1E
?   ??? 1F
?   ??? 2
...
?   ??? F
??? lock.pid
??? nodeNumID
??? originalNodeID

Les dossiers qui nous intéressent tout particulièrement sont inodes et dentries . Ces dossiers contiennent l'ensemble des informations sur les fichiers présents dans le répertoire /sandbox.

Il y a des millions de petits fichier avec énormément d'attributs étendus à transférer dans ces dossiers, ce qui est la pire chose à avoir pour un transfert.

Malgrès une parallélisation des trasferts, nous avons copié seulement 72 Go sur les 495 Go en 2 jours et demi...

Pour réduire le temps de transfert, la seule solution est de diminuer le nombre de fichiers dans /sandbox ce qui réduira par extension le nombre de fichiers dans les metadata.

By pf-bird on 2019-09-24 13:48:00

Maintenance week-end du 20-21 septembre 2019

Bonjour à tous,

Pour rappel nous réaliserons donc une maintenance le week-end du 21 et 22 septembre 2019. L’accès sera coupé le vendredi 20 au soir et sera réouvert le lundi 23 au matin (ou plus tôt si tout s’est bien passé).

Nous excusant de la gène occasionnée.

Cordialement,
L’équipe BiRD.

================

Bonjour à tous,

Comme vous avez pu le constater, ces derniers temps le stockage de BiRD subit des lenteurs plus ou moins importantes selon sa charge d’utilisation.

Nous avons réussi à identifier la source du problème et nous travaillons à sa résolution (plus de détails à la fin). Nous avons pour cela besoin de couper le cluster sur un week-end afin de réaliser l’opération.

Nous réaliserons donc une maintenance le week-end du 21 et 22 septembre 2019. L’accès sera coupé le vendredi 20 au soir et sera réouvert le lundi 23 au matin (ou plus tôt si tout s’est bien passé).

Nous excusant de la gène occasionnée.

Cordialement,
L’équipe BiRD.

Pour ceux voulant plus d’explications sur les problèmes rencontrés :

Notre espace de stockage principal utilise BeeGFS comme technologie sous-jacente pour fonctionner. C’est un stockage en mode fichier et distribué. Qu’est-ce que cela veut dire concrètement ?

Considérons le schéma suivant :

archiBeeGfs

Lorsqu'un client (un programme) veut lire ou écrire un fichier, il va demander au service de metadata où se trouve ledit fichier. Le service de metadata lui répond et le client va intérroger les services de stockage pour obtenir le fichier et réaliser les opérations dessus. A chaque opération, le client informe le service de metadata qui va alors mettre à jour sa base d'information.

Notre soucis actuel vient de ce fameux service de metadata. Actuellement, ce dernier se trouve sur notre serveur master qui gère aussi beaucoup d'autres services (l'authentification et le portail web notamment) et qui se trouve avoir de simple disques dur. Les disques n’arrivent plus à suivre toutes les opérations à réaliser au niveau de l’enregistrement des metadatas et le service mets donc plus de temps que prévu à répondre les informations nécessaires au client, ce qui induit une sensation de lenteur au niveau de l’expérience utilisateur.

Pour corriger ce problème nous avons lancé la commande de deux nouveaux serveurs avec des SSD pour sortir le service de metadata du master. Les SSD étant nettement plus rapides que des disques durs, le service répondra plus vite au clients ce qui devrait faire disparaître cette lenteur.

L’opération de septembre sera la suivante :

Coupure de l’accès au cluster
Migration des metadata du master vers un des serveurs
Démarrage du service sur le serveur
Vérification de l’intégrité des informations
Activation du mirroring des metadatas sur le deuxième serveur
Vérification du bon déroulé de l’opération
Réouverture de l’accès au cluster

Les metadatas étant au coeur de BeeGFS, il ne doit y avoir aucune modification lors de la migration sinon ces dernières ne seront pas reportée et donc perdues.

J’espère que cela a été clair, je reste à disposition pour plus d’informations.

By pf-bird on 2019-09-13 09:44:41

Problème SGE et accès au cluster ce week-end

Bonjour à tous,

Nous avons rencontré ce week-end un problème avec la soumission de jobs sur SGE et d'accès au cluster de calcul. Cela était dû à un soucis d'espace disque sur notre noeud de controle suite à une application qui s'est mise à énormément écrire dans son fichier de log car elle avait planté.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-06-24 08:54:41

Opération de maintenance le 09/05/2019

Bonjour à tous,

Petit rappel concernant l'opération de migration qui aura lieu le jeudi 9 mai prochain.

Comme précisé avant, cette migration ne devrait avoir comme impact qu'une coupure temporaire de l'accès au cluster, les calculs en cours ne devraient pas être impactés.

Cordialement,
L'équipe BiRD

============

Bonjour à tous,

Afin d'optimiser la connectivité réseau de nos infrastructures avec celles de la DSI de l'université de Nantes nous allons procéder à un réadressage de la partie frontale de nos services.
Cette opération devrait entrainer une micro coupure au niveau de l'accès au cluster mais ne devrait pas impacter les calculs en cours.
Sauf problème majeur, l'opération ne devrait prendre qu'une partie de la matinée, le retour à un état normal et optimal est prévu pour midi.

Nous restons à votre disposition pour plus d'informations.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-05-07 18:04:19

Opération de maintenance le 03/04/2019

========== MAJ 03/04/2019 ==========

Bonjour,

L'opération de maintenance s'est bien déroulée et est maintenant terminée.

Nous vous laissons revenir vers nous si vous rencontrez des problèmes.

Nous excusant pour la gêne occasionnée.

Cordialement,
L'équipe BiRD

====================

========== MAJ 02/04/2019 ==========

Bonjour,

Petit mail de rappel de l'opération de maintenance du 3 avril 2019.

Cordialement,
L'équipe BiRD

====================

Bonjour,

Nous allons effectuer une opération de maintenance le mercredi 3 avril 2019 prochain afin d'améliorer les performances du login et du master.
Les sessions tmux / screens seront perdues, les jobs en cours seront impactés (le stockage ne sera plus accessible le temps de l'opération).
L'opération devrait se dérouler à partir de 8h30 et devrait durer au maximum 2h.

Afin d'éviter les problèmes, nous couperons la soumissions des jobs la veille à 21h et tous les jobs en cours au début de l'opération seront coupés.

Nous excusant pour la gêne occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-04-03 13:53:51

Modification des Files SGE

Bonjour,

Nous avons procédé à des modifications sur les files SGE :

Ajout d'une file max-72h.q avec support du qlogin
Ajout d'une file max-3m.q sans support du qlogin
Retrait du support du qlogin sur la file max-1m.q

Les qlogin déjà lancés sur la file max-1m.q ne seront pas coupés avant le 3 avril 2019 (date de la prochaine intervention de maintenance).

Si vous essayez de lancer un job sur ces files vous obtiendrez un message un peu criptique

$ qlogin -q max-1m.q
Your job 1932701 ("QLOGIN") has been submitted
waiting for interactive job to be scheduled ...timeout (3 s) expired while waiting on socket fd 4
Your "qlogin" request could not be scheduled, try again later.

Cela signifie juste que le qlogin n'est plus permis.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-03-19 09:32:48

Problèmes sur le cluster

========== MAJ 07/03/2019 ==========

Bonjour,

Le cluster devrait être de nouveau complètement opériationnel. N'hésitez pas à nous remonter si vous rencontrez encore des soucis à l'utilisation.

Nous excusant de la gène occasionnée.

Cordialement,
L'équipe BiRD

====================

Bonjour,

Comme vous avez pu le remarquer nous rencontrons actuellement des soucis sur le cluster notamment avec la commande qlogin qui ne fonctionne plus.

Le reste des commandes fonctionne (il est toujours possible d'envoyer des jobs avec un qsub par exemple).

Nous sommes actuellement en train d'investiguer le problème et restons à votre disposition pour plus d'informations.

Cordialement,
L'équipe BiRD

By pf-bird on 2019-03-07 10:14:35

Coupure de courant le 20/02/2019

Bonjour,

Une coupure de courant est prévue dans le batiment IRS-UN demain mercredi 20 Février de 8h à 10h. Les switchs permettant l'accès au cluster seront arrêtés. Cela rendra l'accès au cluster impossible durant cette période. Les jobs en cours ne seront pas impactés. Seuls les terminaux connectés en qlogin directs (hors sessions screen) et les transferts de données en cours seront coupés.

Nous nous excusons de la gène occasionnée indépendante de notre volonté.

Cordialement.

L'équipe BiRD

By pf-bird on 2019-02-19 15:58:38

Perturbation et opération de maintenance du cluster

========== MAJ 30/01/2019 ==========

Bonjour à tous,

Le redémarrage du login s'est effectué sans problèmes. La connexion devrait être revenue à sa vitesse normale.
Comme prévu seuls les qlogin ont été impactés.

Le cluster devrait retrouver son état nominal dans le courant de la semaine.

Nous excusant de la gène occasionnée.

L'équipe BiRD

====================

Bonjour à tous,

Comme vous avez pu le constater le cluster rencontre actuellement des perturbations et n'est pas à son niveau de fontionnement optimal.
Ceci est lié à un effet de bords d'une mise à jour d'un des composants de notre noeud master.

Pour résoudre une partie des soucis rencontrés nous allons procéder au redémarrage du login mercredi 30 janvier au matin. L'opération ne devrait durer que quelques minutes tout au plus et ne devrait pas impacter les jobs en cours autre que les sessions qlogin.

Nous excusant de la gène occasionnée.

L'équipe BiRD

By pf-bird on 2019-01-30 08:57:12

[Fin d'incident] Problème de connexion au cluster

Re-bonjour à tous,

Le problème de connexion venait d'un soucis de connexion entre notre noeud et login et le master du cluster. Ce problème était lié à un service sur notre master qui ne démarrait plus suite à un changement de sa configuration induit par sa mise à jour.

Nous excusant de la gène occasionnée.

L'équipe BiRD

By pf-bird on 2019-01-25 10:01:23

Problème de connexion au cluster

Bonjour à tous,

Nous rencontrons des problèmes de connexion au cluster ce matin. Nous essayons de régler le problème au plus vite et revenons vers vous.

L'équipe BiRD

By pf-bird on 2019-01-25 09:36:16

[Erratum] Premier atelier usage du cluster BiRD

Bonjour,

Compte-tenu du nombre de réponses pour cet atelier, nous allons prévoir une salle plus grande : l'atelier se tiendra dans le hall 4 de l'IRS UN à partir de 10h.

Nous souhaitons vous préciser que cet atelier est orienté vers les utilisateurs débutants.

L'équipe BiRD.

By pf-bird on 2019-01-14 10:14:26

Premier atelier usage du cluster BiRD

La plateforme BiRD organise un atelier de formation à l'utilisation de son cluster, ayant comme objectifs de :

passer en revue les principales commandes nécessaires pour une utilisation optimale du
mieux comprendre l'infrastructure BiRD et découvrir comment s'en servir efficacement

Le nombre de places étant limité à 20 personnes, ne tardez pas à nous répondre sur pf-bird@univ-nantes.fr au plus vite si vous êtes intéressé (e).

N'oubliez pas de venir avec votre portable !

Au programme de cette journée:

10h - 12h : Utilisation du Cluster (connexion, transferts, conda, sge, module)
14h - 16h : Outils de développement (git, gitlab, snakemake)

Rendez-vous le 22 Février en salle 246 du 2ème étage de l'IRS UN.

By pf-bird on 2019-01-09 08:14:17

Fin maintenance du 10 octobre 2018

Bonjour,

L'opération de maintenance s'est déroulée sans encombre, le noeud de stockage a sa nouvelle barrette de ram et les noeuds de calculs ont tous démarrés avec leur configuration mise à jour.

Comme expliqué dans la lettre d'information précédente, les jobs ont dû être coupés et les noeuds ont dû être redémarrés ce qui a eu pour effet de nettoyer tout ce qui se trouvait dans /tmp .

L'accès au cluster est désormais de nouveau possible.

Nous sommes désolé de la gêne occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2018-10-10 14:42:07

Maintenance du 10 octobre 2018

Bonjour,

Suite au problème matériel (barrette de RAM défectueuse) survenu le 3 octobre dernier nous allons procéder au remplacement de ladite barrette ce mercredi 10 octobre 2018 après midi.
Cette intervention concerne un des serveurs de stockage qui héberge le /sandbox et nécessite donc une interruption totale de l'activité du cluster.

Afin de faciliter l'intervention nous couperons la soumission de job sur le cluster le matin à partir de 10h00 et nous couperons l'accès au cluster à partir de 12h00. Les jobs en cours seront tous coupés afin de prévenir tout souci de cohérence des données.

Nous profiterons de cette coupure pour mettre à jour les lames du cluster.

Nous vous tiendrons au courant lorsque l'accès sera à nouveau possible.

En nous excusant pour la gêne occasionnée.

Cordialement,
L'équipe BiRD

By pf-bird on 2018-10-09 18:08:00

Maintenance Aout 2018

Nous planifions une maintenance du cluster afin de mettre à jour les espaces de stockage entre le 10 et 17 aout.

Aucun nouveau job ne pourra être envoyé à partir du vendredi 10 matin et tous les jobs en cours seront coupés le 10/08 à 12h.

Pour rappel :
Cette maintenance va permettre de mettre à nouveau à disposition un espace de stockage sauvegardé.

Information importante : Suite à cette opération, nous prévoyons un changement dans notre politique de stockage :
- Quotas:

il y aura un quota de 1To appliqué pour chaque utilisateur sur l'espace de travail /sandbox
et un quota de 250Go sur l'espace sauvegardé /save

- il est possible de faire une demande d'espace supplémentaire par l'intermédiaire d'un dépôt de projet en ligne : http://www.pf-bird.univ-nantes.fr/acces-rapide/demande-de-stockage/
Après étude de votre demande nous reviendrons ensuite vers vous pour discuter des éventuelles modalités économiques ou collaboratives.

Nous sommes conscients des désagréments engendrés par cette coupure de service, mais elle est nécessaire pour garantir l'intégrité des données. Nous nous efforçons de trouver le meilleur compromis entre sécurisation des données et interruption de service.

Nous restons bien-entendu à votre disposition si vous avez des questions.

La plateforme BiRD

Perturbations sur le cluster

By pf-bird on 2021-03-24 12:14:55

Remise en service du cluster

By pf-bird on 2021-03-19 17:35:11

Coupure de courant sur le site de sciences

By pf-bird on 2021-03-18 14:42:15

Maintenance sur le réseau le 18 mars 2021 après-midi

By pf-bird on 2021-03-17 12:05:52

Crash du master et reboot complet du cluster

By pf-bird on 2021-03-17 08:36:52

IMPORTANT : Effacement de la partition sandbox - Sauvegarder vos données

/!\ Attention ***TOUTES LES DONNEES PRESENTES SUR /SANDBOX SERONT SUPPRIMEES*** /!\

/Attention ***ALL DATA ON /SANDBOX WILL BE DELETED*** /!\

By pf-bird on 2020-12-17 18:05:42

Redémarrage du noeud de login

By pf-bird on 2020-11-03 10:03:34

Perturbation sandbox

By pf-bird on 2020-10-26 09:17:56

Problèmes réseaux et accès au ceph-recherche

By pf-bird on 2020-09-29 15:06:52

Espace disponnible faible sur ceph-recherche

By pf-bird on 2020-09-09 16:19:26

Reboot des noeuds de calculs et du login

By pf-bird on 2020-09-03 16:27:02

Problème de climatisation et perturbation sur le stockage ceph-recherche

By pf-bird on 2020-08-13 11:25:46

Fin d'interruption du circuit electrique du datacenter mercredi 12.08.2020 a partir de 8h

By pf-bird on 2020-08-12 16:38:33

Interruption du circuit electrique du datacenter mercredi 12.08.2020 a partir de 8h

By pf-bird on 2020-08-11 22:50:10

Bug sur le stockage ceph-recherche

By pf-bird on 2020-06-15 10:39:47

Fin d'incident - Probleme sur le stockage

By pf-bird on 2020-05-27 23:28:18

Probleme sur le stockage

By pf-bird on 2020-05-27 16:30:10

[Postponed] - /sandbox formatting

By pf-bird on 2020-04-17 10:33:27

BiRD et le COVID19

By pf-bird on 2020-03-17 13:12:08

Crash du noeud de login du 10.03.2020

By pf-bird on 2020-03-11 08:39:39

[Save-the-Date] - Formatage de /sandbox

By pf-bird on 2020-02-25 16:07:46

Rappel important transfert de données sur BiRD

By pf-bird on 2020-01-31 11:30:06

Rappel important : transfert de données sur BiRD

By pf-bird on 2020-01-20 18:03:14

Crash du noeud de login

By pf-bird on 2020-01-14 09:32:44

Informations importantes sur le stockage des données sur BiRD / Important informations about data storage policy on BiRD

By pf-bird on 2020-01-09 10:38:04

Retour sur l'opération maintenance

By pf-bird on 2020-01-06 16:52:42

Maintenance du 20 décembre 2019 au 7 janvier 2020

By pf-bird on 2019-12-17 11:14:53

Micro coupure mercredi 06/11/2019

By pf-bird on 2019-11-06 17:38:38

Reboot du noeud de login

By pf-bird on 2019-10-04 18:26:37

Maintenance week-end du 20-21 septembre 2019 - Compte rendu

By pf-bird on 2019-09-24 13:48:00

Maintenance week-end du 20-21 septembre 2019

By pf-bird on 2019-09-13 09:44:41

Problème SGE et accès au cluster ce week-end

By pf-bird on 2019-06-24 08:54:41

Opération de maintenance le 09/05/2019

By pf-bird on 2019-05-07 18:04:19

Opération de maintenance le 03/04/2019

By pf-bird on 2019-04-03 13:53:51

Modification des Files SGE

By pf-bird on 2019-03-19 09:32:48

Problèmes sur le cluster

By pf-bird on 2019-03-07 10:14:35

Coupure de courant le 20/02/2019

By pf-bird on 2019-02-19 15:58:38

Perturbation et opération de maintenance du cluster

By pf-bird on 2019-01-30 08:57:12

[Fin d'incident] Problème de connexion au cluster

By pf-bird on 2019-01-25 10:01:23

/!\ Attention TOUTES LES DONNEES PRESENTES SUR /SANDBOX SERONT SUPPRIMEES /!\

/Attention ALL DATA ON /SANDBOX WILL BE DELETED /!\