lundi 29 août 2016

Sécurite - Vol 1 : définitions

L'utilisation croissante d'outils informatiques divers, et les données de plus en plus sensibles que nous leur confions, font de la sécurité une problématique de plus en plus prégnante. Pour autant c'est un sujet souvent mal compris par les utilisateurs qui sont pourtant régulièrement impactés dans leurs usages par les procédures mises en oeuvre, sans nécessairement comprendre le pourquoi ni le comment.

Le sujet est complexe et nécessite d'être abordé progressivement. Nous allons tenter de donner un premier niveau de compréhension des problèmes et solutions. Comme d'habitude sur ce blog, notre objectif n'est pas de tenir des propos d'experts mais de vulgariser le sujet et donner les informations clés pour faciliter un éventuel travail complémentaire du lecteur intéressé.

Dans ce premier article nous expliquons les enjeux. Les articles suivants exploreront divers aspects des solutions usuelles et expliqueront les bases techniques requises (cryptographie en particulier).

La donnée au cœur de la problématique : DICP

Tout d'abord il est important de préciser ce qu'un professionnel de l'informatique entend par "sécurité" car ce n'est pas nécessairement la même chose que le grand public qui se focalise généralement sur la confidentialité.

Tout le monde a entendu parler du vol de données par d'audacieux pirates qui s'emparent des données de tel ou tel site web. Récemment, un site organisant des rencontres extra-conjugales s'est fait voler ses données et ces dernières ont été mises en ligne publiquement, conduisant à au moins deux suicides de personnes ne supportant pas de voir leurs infidélités, avérées ou non, dévoilées sur la place publique. Des "people" se sont fait voler des photos intimes dénudées qui ont fait la joie des voyeurs. Wikileaks est à l'origine de crises diplomatiques. Les exemples ne manquent pas. Ici, on est face à des problèmes de confidentialité de la donnée.

Egalement dans l'actualité récente, des pirates travaillant pour le compte de l'Etat Islamique ont mené des attaques de types DDOS (Distributed Deny Of Service) sur des sites de l'état afin de les rendre indisponibles. Rappelons qu'une attaque de ce type vise à solliciter un site en le bombardant de requêtes de façon à dépasser ses capacité de traitement et le faire tomber en panne. Ici, on est face à un problème de disponibilité de la donnée (le site étant indisponible, il ne peut plus délivrer la donnée).

Les mêmes pirates après les attentats du 13 novembre à Paris ont modifié les pages d'accueil de sites destinés au grand public, comment par exemple le site de France 5, afin de remplacer les contenus initialement publiés par des messages de propagande. Ici, on est face à un problème d'Intégrité de la donnée (l'information publiée "les terroristes ont commis un attentat abominable" est devenue un bullshit du genre "les héros du jihad ont puni les infidèles" ce qui bien sur n'est pas le message que voulait délivrer le rédacteur).

Plus récemment, après cette fois les attentats de Nice, l'application "alerte attentat" que l'état avait fait développer afin d'envoyer des messages d'alerte au public (enfin pour ceux équipés d'un smartphone Apple ou Android, ayant une couverture réseau pour les data, et ayant activé l'application... ) a totalement foiré : les messages d'alerte sont arrivés très longtemps après la bagarre car l'application était indisponible le moment venu. Encore un problème de disponibilité (de la donnée "une attaque est en cours à Nice, allez vous mettre à l'abri, évitez la zone") mais qui cette fois ci n'est pas lié à une attaque du système informatique.

Au travers de quelques exemples, nous avons mis en exergue les 3 aspects de la sécurité :
  • D pour Disponibilité de la donnée
  • I pour Intégrité de la donnée
  • C pour Confidentialité de la donnée

Auxquels il faut en ajouter un quatrième : P pour Preuve. Il s'agit ici de tout ce qui touche, en gros, aux logs qui permettent après la survenue d'un problème (comme la corruption ou l'indisponibilité d'une donnée) de déterminer
  • comment il est survenu, donc pour permettre d'analyser le problème et faire les corrections nécessaires
  • qui est responsable (notion de preuve) et qui doit éventuellement supporter les conséquences, financières et/ou judiciaires, du problème survenu
Les logs c'est le jargon informatique pour désigner les traces que laisse tout programme, principalement dans des fichiers dits de journalisation, sur ce qui se passe en interne, ou sur les actions sensibles menées par des opérateurs humains.

La sécurité du système d'information c'est la bonne prise en compte de ces 4 aspects, résumés dans l'acroyme DICP, à tous les niveaux (conception, exploitation, utilisation).

Firewall, antivirus etc.

Nous venons de définir ce qu'est la sécurité d'un système d'information et pour autant nous n'avons aucunement cité les premiers sujets qui viennent à l'esprit de nombreuses personnes quand on aborde le sujet. 

Le firewall a été popularisé par les conneries débitées dans les films et séries, et tout le monde a entendu parler des méchants virus informatiques et des antivirus qui les combattent.

Firewall comme antivirus ne sont que des moyens. Ce sont des éléments, certes importants, de la politique de sécurité (qui vise à garantir DICP des données) mais ce ne sont que des éléments parmi d'autres.

Pourquoi installons nous des antivirus (et les maintenons nous à jour, nous assurons nous que les utilisateurs ne peuvent les désactiver etc.) ? > Pour nous prémunir contre des virus. 

Pourquoi nous prémunissons nous des virus ? > Car les virus vont avoir une action malveillante qui impactera le DICP. Ils vont surveiller vos frappes au clavier et vous voler vos identifiants et mots de passe, ce qui compromet la Confidentialité et fausse les Preuves, ou mettre en place divers mécanismes pour atteindre ce même objectif. Ils vont supprimer ou modifier vos fichiers ce qui compromet l'Intégrité. Ils vont utiliser votre ordinateur pour faire des actions malveillantes (attaque ddos, spam, diffusion de virus ...) et ce faisant le priver d'une partie de sa capacité de traitement et compromettre la Disponibilité.

Quel est le rôle d'un firewall ? Interdire l'accès au réseau interne aux personnes non autorisées et donc, entre autre, garantir la Confidentialité et l'Intégrité des données.

Politique de Sécurité de l'Information

Nous avons parlé jusque ici de sécurité du système d'information (ou du système informatique, c'est la même chose).

Mais le système d'information n'est qu'un outil, qui sert à gérer de l'information, et ce qu'on cherche à protéger in-fine c'est l'information. Et il faut donc commencer par définir une politique de sécurite de l'information. Un simple exemple : à quoi bon dépenser des millions pour sécuriser à outrance les données stockées dans votre SI vis à vis du monde extérieur, si tout le monde ou peu s'en faut dans l'entreprise y a accès et sans avoir conscience des enjeux économiques associés ni être responsabilisé ?

La politique de sécurité du SI n'est qu'un élément de la politique de sécurité de l'information (un élément essentiel de nos jours mais pas le seul élément).

La politique de sécurité de l'information doit définir les informations importantes et leur sensibilité en terme de DICP. En effet, ce sont ces exigences qui vont guider la construction de la politique de sécurité du système d'information et elles ont un impact majeur en matière de coût.

Par exemple, si le besoin de disponibilité est très important, il va falloir mettre en place des solutions de haute disponibilité avec de la redondance sur tous les éléments, un site de secours informatique permettant de redémarrer très rapidement en cas de sinistre majeur, impliquant de la réplication en temps réel entre les deux sites et donc la location de liens réseaux à très haut débit etc.

Nul besoin d'être un expert pour comprendre que deux sites informatiques, ça coûte grosso modo le double d'un seul site... Votre société préfère peut être se trouver sans outil informatique pendant quelques jours, que supporter en permanence le coût d'une capacité de redémarrage en 1 Heure pour un sinistre dont la probabilité de survenance est somme toute assez faible. Des procédures manuelles dégradées et un processus de reprise progressif sur quelques jours sont sans doute suffisants. Mais si vous gérez un aéroport ou une base de missile nucléaire les choses sont différentes...

Je vous suggère la lecture de l'article en lien qui donne un très bon exemple et une très bonne explication des DICP de façon très amusante et en Français tant qu'à faire.

Quelques données clés au sujet de la sécurité

La sécurité est l'affaire de tous, à commencer par les utilisateurs des systèmes qui en constituent le principal maillon faible. L'ingénierie sociale est un des principaux moyens utilisés par les pirates pour détourner les mesures de sécurité mises en place par les organisations.


La sécurité ne relève pas que des informaticiens et de la mise en oeuvre de moyens technique ; il y a aussi et entre autre des aspects organisationnels ou de gestion RH. Par exemple, il faut penser à désactiver les comptes des collaborateurs quittant la société, sensibiliser les utilisateurs, identifier les responsables de la sécurité et les former, organiser les locaux ...


La sécurité maximale du SI est la sécurité de son élément le plus faible. Imaginez un SI super sécurisé au niveau réseau et pour lequel on permettrait un accès administrateur depuis un poste hébergé dans un local dont la porte ne fermerait pas a clé.

Il existe des méthodologies pour vérifier la prise en compte des contraintes DICP sur lesquelles s'appuient les consultants en sécurité pour mener des audits. Les formations relatives à la sécurité se développent, il y a un marché en plein essor en la matière.

Il existe des certifications qualité pour garantir que les organisations ont le souci et sont organisées d'une façon satisfaisante au regard du DICP. Le respect de telle ou telle certification est une exigence de plus en plus courante pour des grands contrats.

Il y a une prise de conscience forte de l'état sur l'importance de la sécurité compte tenu de la digitalisation croissante de l'économie et des risques de cyber-attaques pouvant gravement déstabiliser un état ou une économie. L'état s'est doté d'une agence de sécurité et embauche à tour de bras. Des opérateurs d'importance vitale (OIV) sont identifiés et se voient imposés par la loi des normes et règles en matière de sécurité.

Focus sur l'exemple "Alerte attentat"

La raison du dysfonctionnement était que suite à des travaux de génie civil (un bien grand mot pour parler d'ouvrier qui ont fait une tranchée dans le sol) le câble réseau raccordant le datacenter où était hébergée l'application a été coupé, ce qui a entraîné un dysfonctionnement de l'application.

Les sondes surveillant le bon fonctionnement de l'application et sur lesquelles s'appuyait la supervision (la surveillance du bon fonctionnement) ont données de mauvaises informations et laissé croire que l'application fonctionnait correctement après rétablissement de la connexion réseau.

Quand on a eu besoin de l'application, à priori dans les minutes qui ont suivi l'attentat de Nice (supposition, il y a peut être ici aussi eu des dysfonctionnements et des retards dans l'activation du système d'alerte) on s'est rendu compte du problème et il a fallu un long moment pour redémarrer le système (ce qui en soit n'est pas normal non plus).

Une première remarque : un datacenter digne de ce nom doit disposer de deux accès réseaux redondés de façon à ce que ce type d'incident, pas si rare, n'ait pas d'incidences. Ensuite, pour une application aussi critique, le bon sens aurait voulu qu'elle soit installée sur deux sites (deux datacenters) distincts et suffisamment distants géographiquement. Ces deux mesures de simple bon sens auraient permis d'apporter ce qu'on appelle la Haute Disponibilité (voir mon article sur la HD disponible ici), et ce d'autant plus facilement que la solution s'appuie sur une couche de virtualisation (voir mes articles sur la virtualisation ici, ici et ici). La Haute Disponibilité est un moyen au service de la politique de sécurité (plus particulièrement de l'aspect Disponibilité).

Ensuite, j'estime qu'une application bien conçue doit être capable de supporter une perte et un rétablissement de la connexion réseau. Il suffit de prendre cette considération en compte dans la phase de conception technique, les solutions existent. Enfin, la supervision a manifestement été bien mal conçue puisqu'elle affichait un voyant vert où on aurait du avoir des alertes en rouge clignotant partout. Bref, un amateurisme bien difficile à accepter s'agissant d'une application qui est censée protéger des vies humaines et qui doit être financée, conçue et exploitée en conséquence.  Ici aussi on est sur un problème de disponibilité et on voit que cette problématique de sécurité doit être prise en compte dans la conception, et donc en amont dans la spécification et l'expression du besoin qui en est à l'origine. La sécurité doit être prise en compte à tous les étages.

Face à cet échec, des corrections sont à apporter (et ont à priori été apportées). Mais au delà, il peut être intéressant d'établir les responsabilités respectives des différents intervenants du projet :

  • la MOA (l'état qui a rédigé le cahier des charges, défini le planning, financé l'opération, validé la solution) a elle exprimé le besoin de Haute Disponibilité, suffisamment financé l'opération pour permettre cette mise en oeuvre, vérifié le bon fonctionnement ? N'a elle pas imposé ou accepté un planning ne prévoyant cette mise en HD qu'ultérieurement (voire pas du tout) ?
  • la MOE (le prestataire qui a conçu et réalisé l'opération) a elle bien fait son travail, a elle rempli son devoir de conseil en alertant la MOA sur un besoin de HD non exprimé ou non financé, a elle bien sélectionné l'hébergeur (si ce n'est pas l'état qui l'a imposé ce qui est tout à fait probable dans le cas présent) ?
  • l'hébergeur (la société qui est en charge des serveurs physiques sur lesquels est installée l'application, et de leur connexion Internet) offrait il le niveau de sécurité requis ?
  • l'exploitant (la société en charge de la supervision applicative c'est à dire de surveiller le bon fonctionnement et de rétablir la situation en cas de problème, ici la même que l'hébergeur à priori). A priori il semble hors du coup car le mauvais fonctionnement des sondes ne peut guère lui être opposé, un exploitant  ne fait qu'utiliser les outils qu'on lui fournit en suivant des procédures qu'on lui fournit. Si ces outils ou procédures sont défaillants, il ne peut pas en être responsable, sauf dysfonctionnement manifeste qu'il n'aurait pu que constater et qu'il n'aurait pas signalé.
Ici on voit l'importance de bien contractualiser et de disposer des logs permettant de comprendre l'origine d'un problème afin de pouvoir se retourner contre le responsable et obtenir des dédommagements ou le faire condamner en cas de conséquence condamnable au civil ou au pénal. La sécurité doit être prise en compte à tous les étages.

Conclusion (temporaire)

La sécurité est un sujet d'actualité et qui ne cesse de prendre de l'importance.

Tout utilisateur régulier de site internet ou d'applications mobiles a pu voir apparaître de nouveaux usages en lien avec la sécurité, même si ils n'ont pas forcément fait le lien :
  • généralisation de techniques de double authentification : par exemple envoi de sms sur votre portable avec un mot de passe temporaire
  • possibilité d'utiliser ses identifiants de réseaux sociaux (FaceBoox, LinkedIn, Google+...) sur de multiples sites sans devoir se créer à chaque fois de nouveaux identifiants
  • demande d'autorisation pour autoriser à des applications d'accéder à certaines données personnelles gérées pour vous par diverses applications (réseaux sociaux ou autre)


Cette rapide  introduction visait à préciser que la sécurité du SI s'inscrivait dans un cadre plus global visant à la sécurité de l'information, qu'elle ne relevait pas uniquement des informaticiens et des moyens informatiques, et que son champ d'application était bien plus développé que ne l'imaginent probablement les néophytes sur le sujet.

Dans les prochains articles nous expliquerons rapidement les quelques principes de base en cryptographie dont la compréhension est requise, et nous mettrons un focus sur les problématiques d'authentification et d'habilitation.

dimanche 22 mai 2016

Docker, tour d'horizon rapide

Une précédente série d'articles a introduit la virtualisation, ses usages, et son rôle dans le développement de l'offre Cloud, en particulier IAAS et PAAS.

Vous êtes maintenant armés pour aborder le nouveau sujet qui fait le buzz depuis 2 ans et qui ne cesse de monter : Docker !

Si la virtualisation, les termes IAAS PAAS SAAS, la gestion de configuration, sont des termes abstraits, je vous recommande de commencer par lire ces articles précédents qui introduisent toutes ces notions :



Déjà une précision : Docker est une technologie de conteneurisation, et au delà de Docker nous allons nous intéresser à cette notion de container. Docker est le produit phare dans ce domaine mais il n'est pas le seul et l'offre est probablement amenée à se diversifier fortement

On peut aborder Docker et la notion de container sous différents angles. Un angle très technique consisterait à expliquer comment ça fonctionne, ce qui nous amènerait inévitablement à devoir aborder des notions systèmes avancées, avec un pré-requis important sur le fonctionnement interne d'un système d'exploitation Linux. Nous n'allons pas prendre ce chemin, j'aborderais quelques points mais tant mes compétences en la matière que le vocation de ce blog me font privilégier une approche plus axée sur les usages.

L'idée de base du container

Comme le nom l'indique, un container est une espèce de boite logique, virtuelle, dans laquelle on enferme certains éléments pour les isoler du reste du monde.

Pensez à une boite fermée dans laquelle vous stockez des aliments dans votre cuisine. Remplacez la boite physique par une boite virtuelle, les aliments par des fichiers stockant des données binaires représentant des programmes et des données, et la cuisine par un serveur et vous devez comprendre à peu près l'idée. 

On parle bien sur de serveur physique ici, un ordinateur sur lequel on fait tourner un système d'exploitation, Linux dans le cas de Docker.

Vous pouvez donc avoir plusieurs containers sur votre serveur, de la même façon que vous pouvez avoir plusieurs boites dans votre cuisine. L'avantage est que les aliments d'une boite n'iront pas, par exemple, imprégner de leur odeur les éléments d'une autre boite. Et dans le serveur l'objectif est le même, les données et programmes d'un container n'iront pas interagir avec ceux d'un autre container.

L'intérêt est que comme vos boites se partagent la cuisine, ses étagères et son frigo, les containers se partagent un certain nombre de ressources à commencer par le système d'exploitation. Imaginez un peu si deviez avoir un placard ou un frigo distincts pour chaque aliment, ça vous coûterait cher et ça vous prendrait plein de place. Mais grâce aux boites hermétiques, vous pouvez tout ranger côte à côte.

J'arrête là les métaphores culinaires, je pense que l'idée de base est posée.

En terme informatique, on obtient la possibilité pour un serveur physique de fournir davantage de services grâce à la mutualisation de ses ressources entre divers containers fournissant chacun un service. Sans cette technologie, si on a 10 containers et donc 10 services, il nous faudrait 10 serveurs avec chacun un système d'exploitation supportant un service. Ou encore, un serveur physique avec un hyperviseur et 10 machines virtuelles chacune hébergeant un système d'exploitation supportant un service.

Et bien sur comme vous l'aurez deviné, 10 serveurs et 10 licences d'OS ou encore 1 gros serveur de VM, 1 licence pour un hyperviseur, et 10 licences d'OS ça coûte plus cher que la solution où on a un seul serveur, qui a bien moins besoin de puissance que le serveur de VM, avec 1 seul OS et 10 containers.

Pourquoi le serveur qui héberge 10 containers a il moins besoin de puissance qu'un serveur qui héberge 10 VM ?

Point besoin d'être un grand crack en informatique pour comprendre. L'hyperviseur consomme des ressources, et 10 VM ça veut dire 10 OS qui chacun consomment des ressources (et en outre elles émulent le matériel ce qui a aussi un coût), alors que dans le cas du container on n'a ni hyperviseur, ni émulation, et un seul OS qui tourne (qui embarque un démon Docker, c'est à dire un service en tâche de fond qui tourne en permanence).

Alors bien sur, toutes choses étant égales par ailleurs, cet avantage se paye ailleurs par des inconvénients, mais nous y viendrons plus loin.

J'en termine sur cette introduction sur la notion de container pour parler des usages qui sont faits de cette technologie :
  • exploiter des plateformes multi-utilisateur : un seul système d'exploitation qui est partagé par un grand nombre d'utilisateurs (bien sur connectés à distance, avec par exemple le bureau à distance Windows, ou avec une solution de DAAS comme le propose Citrix par exemple). On a un container par utilisateur qui isole ses données et programmes de ceux des autres utilisateurs simultanés.
  • exploiter de nombreux programmes sur un seul ordinateur de façon à limiter les coûts matériel

C'est ce second usage qui va nous intéresser, et en particulier sa mise en perspective avec les solutions de virtualisation qui permettent également de répondre à ce même besoin.

Container vs Machine virtuelle

La technique de conteneurisation a certaines similitudes avec la virtualisation au niveau des usages ; elle permet d'atteindre de façon différente, avec des avantages et des inconvénients, certains des avantages clés procurés par la virtualisation.

Du fait des ces similitudes, on qualifie souvent Docker, la solution phare, de solution de virtualisation légère pour l'opposer aux hyperviseurs qualifiés de virtualisation lourde. C'est à mon sens un abus de langage, Docker n'étant pas une solution de virtualisation. Simplement, il entre en concurrence avec la virtualisation sur certains cas d'usages.


L'isolation des environnements est un point important. Il ne serait pas acceptable de faire tourner de multiples services sur une même machine physique si ils pouvaient se perturber mutuellement. Cette isolation est assurée par l'hyperviseur dans le cas de la virtualisation et par le logiciel de conteneurisation, disons Docker, dans le cas des containers. Et ici la virtualisation gagne la manche sans aucune discussion possible, l'isolation est bien plus sure et le risque d'avoir un service qui fait dysfonctionner les autres bien moins grand.

La consolidation de multiples serveurs sur un seul serveur physique. C'est l'avantage économique majeur qui a permis à la virtualisation de s'installer depuis 10 ans comme une technologie incontournable. Ici le match est plus serré et dépend fortement des besoins à satisfaire. Comme nous l'avons déjà vu, la conteneurisation est plus optimale en terme de ressources requises et permet donc de consolider davantage de serveurs et donc de réaliser des économies plus importantes. Mais il y a une contrainte forte ; alors qu'avec un hyperviseur vous pouvez faire tourner à peu près n'importe quel système d'exploitation courant, tous les containers se partagent le même OS et donc doivent impérativement tourner sous le même OS, Linux en l’occurrence pour Docker.

Automatisation

La conteneurisation n'est en rien une idée nouvelle et diverses technologies, essentiellement propriétaires, existent depuis bien longtemps, notamment au niveau des systèmes Unix.

En fait, on peut même faire le rapprochement avec un style d'architecture logicielle qu'on appelle le multi-tenant (multi-tenancy) et qui vise à permettre la mutualisation d'un élément utilisé pour rendre un même service dans différents contextes d'utilisation. Simplement ici, l'élément factorisé au lieu d'être un logiciel serveur quelconque ou une application métier commercialisée en PAAS (contexte le plus fréquent de mise en oeuvre du principe) est l'OS lui même.

Linux a des capacités en la matière depuis longtemps, inspirées des Unix propriétaires, mais elles ont été étendues de façon astucieuse par les auteurs de Docker. En particulier, ils ont ajouté la capacité de gérer des modèles de container qu'on peut stocker, référencer, mettre à disposition ... et les outils permettant de les déployer avec une grande facilité et une très grande vitesse. Et ainsi procuré à l'outil un avantage important par rapport aux solutions de virtualisation.

Ainsi, en couplant un repository (un endroit où on stocke des définitions de container) avec un outil simple d'utilisation disponible sur un système Linux équipé du logiciel Docker, on obtient la possibilité d'automatiser le déploiement des environnements avec une grande facilité (chaque environnement étant un container).

De la même façon qu'un développement logiciel bien organisé s'appuie sur un repository de composants (librairies de code, frameworks) et des outils de build automatisant leur téléchargement et leur déploiement (ici le déploiement c'est l'intégration du composant dans le produit final issu du build), on a des repository Docker et les outils Docker associés. Pour faire le parallèle avec le monde du développement Web Java, Docker fournit à la fois le repository Maven et l'outil Maven avec le plugin qui va bien (ou encore un équivalent npm ou bower côté développement front). 

On utilise parfois le terme terme Infrastructure As A Code pour désigner cette capacité. Cette capacité est très importante en ingénierie logicielle car elle améliore la gestion de configuration en permettant de gérer les versions de l'environnement d'exécution d'un programme (la définition d'un container, ce qui est quelque chose de léger) avec ou en parallèle du code du programme proprement dît. Toujours pour faire un parallèle avec le développement Java/Web c'est l'équivalent du stockage du pom.xml Maven avec le code source (pour ceux à qui ça parle).

Un des articles sur la virtualisation cité en préambule détaille l'intérêt de la capacité à reproduire de façon automatisée un environnement et cite un certain nombre d'outils existants et utilisés conjointement avec les solutions de virtualisation (Vagrant and co). Docker apporte les mêmes capacités mais de façon plus simple et mieux intégrée. Et surtout... déployer et démarrer un container Docker est une affaire de secondes, là où la même opération pour une machine virtuelle est infiniment plus lourde.

DevOps

La démarche DevOps est à la croisée de nombreuses tendances (en matière d'organisation des DSI, d'architecture logicielle, d'outils, de démarche agile ...) et on ne saurait la résumer en quelques mots tant elle impacte de nombreux aspects du métier. 

Un de ses aspects clés est de casser la barrière existant entre les équipes de développement d'une part (Devs), et les équipes d'exploitation d'autre part (Ops). Les premières travaillent à fabriquer les logiciels utilisés dans l'entreprise, les secondes à les mettre à disposition des utilisateurs et à s'assurer qu'elles fonctionnent correctement et avec des coûts de fonctionnement maîtrisés. 

Je détaillerais ceci dans un article futur sur le sujet mais pour le moment ce qui nous intéresse est de savoir que ces équipes travaillent chacune sur des environnements différents qui sont, dans une DSI correctement organisée selon les cadres méthodologiques de référence, totalement étanches. Or, il est essentiel que ces environnements soient identiques afin d'éviter des différences de comportement des logiciels entre par exemple le serveur de test utilisé par les développeurs pour le test et la mise au point des programmes, et le serveur de qualification utilisée par la maîtrise d'ouvrage pour qualifier le bon fonctionnement, ou encore le serveur de production utilisé par les vrais utilisateurs.

Et ici Docker apporte une vraie plus value en permettant le partage des environnements (de la définition des containers stockée dans un repository commun par exemple) entre les deux équipes. C'est une autre des raisons de son succès.

Docker peut donc être cité comme un des outils favorisant l'adoption d'une démarche DevOps dans une DSI.

Cloud

Les capacités natives d'automatisation du déploiement des environnements, la forte capacité de consolidation de nombreux environnement sur un serveur physique, et le fort intérêt de la profession envers Docker ont amené tous les grands acteurs du Cloud à mettre en place des offres basées sur Docker, en particulier pour les offres de PAAS.

Et les choses choses vont au delà. Pour offrir de la haute disponibilité, il s'avère nécessaire de gérer des clusters de containers, c'est à dire des ensembles de containers coordonnés sur des machines physiques différentes. Ceci est indispensable pour le support de la tolérance de panne par exemple, mais également utile pour permettre l'ajustement dynamique des capacités de traitements aux besoins ce qui est une caractéristique essentielle du Cloud.

La gestion de repository de container est également un autre aspect, tant pour permettre aux organisation de gérer leurs containers, que fournir des containers "clés en mains" (ce qu'on appelle des appliances) pour répondre aux besoins courants.

Signe de l'intérêt pour Docker et de son adoption, divers outils sont apparus :
  • Google a mis à disposition Kubernetes qui a reçu un accueil très favorable
  • Docker fournit Swarm
  • La fondation Apache (acteur incontournable de l'open source) a étendu son offre Mesos pour prendre en compte Docker

Le temps et la place me manquent pour entrer plus dans le détail de ces sujets passionnants. Si vous devez retenir une chose, c'est que ces outils permettent à Docker de passer à une dimension supérieure et le signe indubitable du grand intérêt de la profession pour cette solution. Pour le reste, Google is your friend ;-)

Adoption de la technologie

Il semble indéniable que la technologie Docker est plus qu'un effet de mode. Elle est soutenue par tous les acteurs majeurs de l'industrie qui investissent.

Quelques éléments à l'appui de cette affirmation.

Un consortium a été créé ce qui est un signe favorable car la mise en place d'une gouvernance autour du sujet est essentielle pour éviter l'apparition de multiples chapelles et d'incompatibilité qui peuvent conduire une belle idée à l'échec.

Microsoft met les bouchées doubles pour le support de Docker, dans son offre Cloud Azure bien sur, mais également dans son offre de systèmes d'exploitation ce qui est déjà plus surprenant. Il y a également des rumeurs de rachat de la société Docker par Microsoft.

Le support de Google s'exprime de diverses façons, nous avons déjà cité Kubernetes, IBM en fait la pierre angulaire de son offre BlueMix, nous avons déjà parlé du support de Microsoft, nous pourrions continuer longtemps ainsi.

La fin de la virtualisation ?

Je tue d'entrée le suspense.

L'intérêt grandissant pour Docker ne va pas mettre un terme à la prééminence actuelle des solutions de virtualisation, et pour de nombreuses raisons.

Détaillons.


Déjà, les entreprises ont lourdement investi sur la virtualisation ; il a fallut recruter, former, monter en compétences... Tout ceci prend du temps et coûte cher et ces investissements ne vont pas être jeté aux orties tout de suite. L'accélération du rythme des innovations technologiques et des ruptures majeures est en décalage avec les capacités des organisations à les intégrer (et la question se pose de leur intérêt d'un point de vue purement économique).

Docker est encore trop jeune, insuffisamment éprouvé, et présente des défauts. Les choses progressent vite, il y a des exemples de sites importants en production mais on n'en est pas encore au stade de l'adoption générale. Même si on a largement dépassé le stade du buzz, il ne faut pas confondre vitesse et précipitation.

La société Docker, qui a développé le produit éponyme, doit faire face à l'émergence de nouveaux acteurs sur ce marché, facilitée par le modèle open source des produits, ce qui peut créer de l'incertitude (mais aussi stimuler l'innovation). Je pense en premier lieu à CoreOS (la société). 

La virtualisation et Docker ont des cas d'usages distincts. Du fait de leurs avantages et inconvénients respectifs, ces technologies sont adaptées à des besoins différents. Docker est par exemple adapté en cas de très nombreuses instances d'un même service unique, tandis que la virtualisation est indispensable pour supporter une multitude d'OS hétérogènes, et recommandée dans le cas où un noeud (une VM ou un container) doit exécuter plusieurs services (encore qu'à titre personnel je sois moins affirmatif sur ce point). 

La combinaison des deux technologies est possible et présente des intérêts certains. On a aujourd'hui trois possibilités :
  • un serveur physiques avec un hyperviseur et des VM (virtualisation classique)
  • un serveur physique avec Linux et Docker (ou un concurrent équivalent), approche qualifiée de "bare-metal"
  • et une architecture mixte : un serveur physique avec un hyperviseur hébergeant des VM Linux/Docker.
Chaque architecture a ses avantages et inconvénients mais on peut simplement noter que l'architecture mixte présente ses intérêts propres et permet de s'appuyer sur l'existant tout en bénéficiant des dernières innovations.

VMWare, le plus gros acteur de la virtualisation, a senti le vent et promeut l'architecture mixte, notamment au travers du projet Photon. Il a tout simplement fait une version de Linux/Docker optimisée pour fonctionner avec son hyperviseur ESX. A noter, d'autres acteurs développent (ou participent dans le cadre d'un projet open source) sur des noyaux Linux spécialisés pour une large utilisation de Docker comme par exemple CoreOS (sur lequel s'appuie Kubernetes de Google).

Conclusion

J'espère que cet article vous permettra d'avoir les idées claires sur ce qu'est Docker et pourquoi tous les geeks ont le zizi tout dur dès qu'on aborde le sujet ;-)

Ce qui me semble le plus important à comprendre est d'une part l'écosystème autour de la solution de conteneurisation proprement dite (dépôts de containers, format standard de container  non lié à un éditeur, outils de gestion de clusters évolués Kubernetes and Co), et le fait que la technologie ne remplacera pas la virtualisation mais sera une possibilité supplémentaire et éventuellement complémentaire. Du pain sur la planche pour les architectes système, et des décisions compliquées pour les directeurs informatique en vue ...

Pour un développeur, au sens large, c'est la vision "infrastructure as a code" et l'appui de la démarche DevOps qui me semble la plus importante.

samedi 2 avril 2016

Le javascript dans tous ses états

Javascript est incontournable tout simplement car c'est le seul langage utilisable pour exécuter des applications directement dans un navigateur. Et le navigateur tend à devenir de plus en plus omniprésent et ubiquitaire.

On m'aurait dit ça il y a 15 ans je ne l'aurais pas cru  : "quoi ce machin immonde pour bidouilleurs du dimanche ?" me serais je écrié. Comme quoi, parfois on peut bien se planter (et en outre sur le jugement de valeur du langage faussé par une incompréhension initiale, mais bon faut savoir reconnaître ses erreurs). 

Il faut dire que l'histoire a quand même failli me donner raison ; il y a quelques années on pariait beaucoup sur le succès de diverses solutions techniques basées sur des plugins de navigateurs exécutant des machines virtuelles et supportant des langages plus évolués : Flex d'Adobe, SilverLight de Microsoft ont connu le succès avant de disparaître brutalement. Google a même proposé un nouveau langage pour supplanter javascript (DART), mais sans succès.

Désormais les dés en sont jetés, c'est ainsi : les grands acteurs de l'informatique ont tous fait le choix de javascript et investi des sommes colossales en R&D pour en améliorer l'usage, avec succès. 

Mais le javascript d'aujourd'hui est bien différent de celui d'hier. Le langage, si il conserve toujours un grand nombre de ses défauts de jeunesse, a évolué dans le bon sens. La normalisation du cœur du langage et de ses principales APIS, bien qu'incomplète, a permis d'améliorer la compatibilité cross-navigateur. Et diverses techniques se sont développées pour permettre de vivre du mieux possible avec et contourner ses défauts et limitations. De nombreuses initiatives visant à continuer les améliorations sont toujours en cours et avancent rapidement.

Je dresse un petit tour d'horizon rapide du sujet. Les premiers paragraphes sont là plus pour rappel car ils abordent des sujets déjà un peu ancien et assez largement connus, les deux derniers s'intéressent à des aspects bien plus novateurs.

Pour le lecteur qui ne serait pas familiarisé avec les bases techniques indispensables, la série d'article suivante donne les pré-requis, en particulier le dernier épisode qui explique le rôle du javascript et son fonctionnement au sein du navigateur :
Cette autre série d'article introduit également les bases nécessaires pour comprendre ce que sont un programme, un compilateur, une machine virtuelle, au cas où


Petit rappel rapide sur les architecture web

Pour bien comprendre pourquoi le js est aussi important aujourd'hui, il faut bien avoir en tête les architectures actuelles. Je résume grossièrement et rapidement le sujet.

Initialement, les applications web étaient construites en mode page à page : un navigateur émettait une requête http, le serveur web la passait au serveur d'application (ou moteur de script dans le cas de php par exemple) qui fabriquait une page html et la renvoyait. Toute la logique était gérée côté serveur (back-end), toute action de l'utilisateur côté client impliquait ce cycle complet. Avec a la clé, une ergonomie insatisfaisante et une charge serveur importante.

Avec la standardisation du XHR (XmlHttpRequest), une fonctionnalité du langage javascript permettant de faire des requêtes http asynchrones, la programmation AJAX s'est popularisée et a permis l'apparition du web 2.0. Il devenait possible de rafraîchir partiellement une page sans devoir la recharger : le programme js fait une requête au serveur http, qui renvoie des données et non une page html, données qui sont utilisées par le programme js pour manipuler le DOM de la page et modifier les données à l'écran (technique autrefois appelée DHTML, D pour Dynamic).

Voici l'étape suivante qui est l'état de l'art actuel, et une tendance lourde pour les nouveaux développements : on télécharge une application client javascript dans le navigateur (elle peut être développée dans un autre langage, cf les explications plus loin, mais le code qui s'exécute est du js), cette application gère toute la logique de navigation (ce qui n'est donc plus fait côté serveur) et d'affichage (plus du tout, ou beaucoup moins, selon le type d'application et les choix d'architecture, de génération de code html côté serveur), et elle fait appel aux services implémentant les règles métier (par exemple un calcul de devis) et l'accès aux bases de données, qui eux s'exécutent toujours côté serveur. 

Tout ceci nous ramène donc à l'architecture client serveur d'il y a 20 ans, hormis le fait qu'on s'appuie sur des standards ouverts alors que les architectures client/serveur s'appuyaient quasiment toutes sur des standards propriétaires et fermés : on a donc une application client (en js), une application serveur (java, ruby, groovy, C#, php, js, perl, python etc.), des appels client/serveur de procédures distantes (RPC Remote Procedure Call) comme il y a 20 ans, mais avec un protocole de transport standard (HTTP), un format de donnée JSON standard (un standard javascript, en lieu et place de divers formats binaires spécifiques à chaque éditeur). Ajoutons que les serveurs ont désormais la possibilité d'envoyer directement des données aux clients sans que ceux ci aient à le solliciter (websockets ou version 2 de la norme HTTP), et on est de retour à l'époque pré-internet.

Des conventions établies sur la syntaxe d'appel aux services donnent son nom à cette architecture : REST. REST est un style architectural qui définit notamment la sémantique des différents verbes du protocole HTTP (tel verbe pour une création, tel autre pour une lecture, tel autre pour une suppression, tel autre pour une mise à jour) et la forme que doivent prendre les url (chaque appel RPC étant une requête http, il est bien entendu défini par une url).

L'émergence de ce modèle a pour origine et pour conséquence les améliorations des technologie js.

Librairies 

Le premier pas a été l'apparition de librairies permettant d'améliorer le niveau d'abstraction du langage, la productivité des développeurs, et la compatibilité cross-navigateurs. Je pense bien sur à JQuery en premier lieu.
Un petit mot sur le sujet de la compatibilité cross-navigateur.

Le langage javascript a été inventé par un chercheur de la société qui éditait le navigateur Netscape Navigator, un des tout premiers navigateurs ayant existé. C'était donc à l'origine une initiative privée, hors de tout contexte normatif. L'idée de base étant bonne, elle a été reprise par les autres éditeurs de navigateurs qui ont fait leur propre version du langage, compatible pour une grande part mais avec chacun diverses extensions (des capacités supplémentaires du langage) qui leur étaient propres, et des syntaxes parfois un peu différentes.

Il faut bien comprendre qu'à l'époque il y avait une guerre féroce entre les acteurs du marché pour essayer d'imposer leur navigateur qui devenait, du fait de l'importance prise en entreprise et chez les particuliers par ce logiciel, un enjeu majeur. En sortant le premier une extension adoptée par les développeurs, on captait le marché.

Du coup, un site web développé en faisant usage d'une extension propre à un navigateur ne pouvait fonctionner que sur un navigateur, celui de l'éditeur ayant inventé ladite extension, et pas sur les autres navigateurs (du moins le temps qu'il s'alignent). Autant dire que ça allait à l'encontre des principes même ayant conduit à l'adoption du web. La conséquence est que les développeurs devaient faire plusieurs versions d'un même site, en détectant le navigateur sur lequel le code s'exécutait, ce qui posait de nombreux problèmes, à commencer par une majoration significative des coûts de développement. Notons que ce problème se posait également pour le langage CSS (et HTML dans une moindre mesure).

Un mot rapide encore sur la technique utilisée pour détecter le navigateur. Elle peut se faire côté serveur car une requête HTTP émise par un navigateur embarque certaines informations dont une donnée appelée USER-AGENT qui permet de savoir à quel navigateur on a affaire. Il suffit alors de renvoyer un code js spécifique au navigateur utilisé. Mais la technique probablement la plus utilisée est bien plus ennuyeuse ; il s'agit d'une série d'astuces de programmation empiriques qui consistent à exécuter un bout de code et à voir ce que ça donne et deviner le navigateur en fonction du résultat constaté. On appelle ça un hack et c'est une technique assez risquée : comme elle résulte de comportement pas forcément spécifié, sa connaissance est empirique et rien ne garantit sa pérennité dans le temps (quand c'est basé sur des comportements non spécifiés). L'usage fréquent de ces techniques faisait de la programmation web un art plus qu'une science ...

Il y a eu une prise de conscience des éditeurs et le langage js a été normalisé et est devenu ECMAScript (javascript étant une implémentation de la norme, d'autres implémentations existant par ailleurs). Les API telles que DOM permettant de manipuler le contenu des pages ont également été standardisées. Mais le mal était fait et il a fallu beaucoup de temps pour que les navigateurs implémentent correctement les normes officielles ; voilà pourquoi il est préférable, et de plus en plus souvent obligatoire, d'avoir un navigateur récent sur son poste de travail (pour Internet Explorer au minimum une version 10, et de préférence la 11 ou encore Edge son successeur sous Windows 10, une version à jour de Chrome ou Firefox).

Bref, l'utilisation de JQuery a permis de masquer toute cette complexité (les hacks sont implémentés dans la librairie et le développeur n'a pas a en avoir conscience) et d'améliorer la productivité et la qualité des développements (par exemple pour manipuler le DOM d'une page).

Frameworks

En introduction à cette section, le lecteur peu familiarisé avec la notion de framework et de design pattern peut lire cet article : Mythes et légendes de la POO 1/2. La lecture du second volet n'est pas indispensable. L'article traite des concepts qui nous intéressent dans le cadre plus spécifique de la programmation selon le paradigme objet, mais peu importe.


Après JQuery, de véritables frameworks sont apparus ces dernières années, rendant disponible côté client un grand nombre des techniques d'ingénierie logicielle éprouvées côté serveur (injection de dépendance, structuration du code par le pattern MVC, tests unitaires ...)

A la clé, amélioration de la productivité, testabilité, maintenabilité accrue.

Ce domaine est en pleine effervescence et le développeur qui veut gagner plein de pepettes aujourd'hui à tout intérêt à se spécialiser là-dessus. Je pense bien sur à Angular et consorts.


De nouvelles normes sont en maturation au sein des éditeurs et du w3c. Quand elles seront enfin disponibles, elle représenteront un progrès considérable. Je pense en particulier à "l'arlésienne" WebComponents qui semble avoir bien du mal à sortir. Cette spécification permettra de modulariser les développements sous formes de composants d'IHM réutilisables ce qui sera un grand pas en avant. Elle est très attendue mais sa mise au point semble poser un grand nombre de difficultés, comme d'habitude liées au poids de l'existant, à savoir en l’occurrence les spécifications initiales de HTML / CSS et bien sur js (modularisation non prévue bien que possible via certaines conventions et design pattern).

Le projet CommonJS devrait également apporter des avancées significatives, d'autant que selon certaines rumeurs le w3c s'intéresse de près à cette initiative. Ce projet apporte par exemple un système de module utilisé par exemple par Node.js (plateforme d'exécution javascript totalement décorrélée du navigateur permettant le développement d'applications serveur ou standalone) qui a inspiré la spécification de la version 6 du langage Ecmascript.

Tout un tas d'autres APIS sont standardisée, ou en voie de l'être, dans de nombreux domaines (persistence des données, accès au matériel, ...). Le plus simple pour les personnes intéressées est de jeter un oeil ici.

Interpréteurs, JIT, Environnement d'exécution

Google a lancé la course avec V8 voici 6 ou 7 ans. Cet interpréteur javascript de nouvelle génération a explosé tous les records de performance, notamment grâce à l'usage de la compilation à la volée (JIT). Rappelons que les techniques JIT permettent de compiler en code binaire natif des portions de code javascript (sous réserve qu'il soit écrit de manière qui le permette).

Les autres acteurs ont suivi, Microsoft longtemps à la traîne a enfin réagi avec Edge (le navigateur par défaut de Windows 10) et une nouvelle version de Chakra (son moteur js). Tellement performant qu'il y a désormais une version de Node.js animée par ce moteur (V8 de façon classique). SpiderMonkey de Mozilla n'est pas en reste non plus.

On doit également citer Node.js un environnement d'exécution Javascript implémentant le pattern Reactor grâce à une libraire C++ d'I/O asynchrone ultra-performante.

Ce produit a permis à Javascript de quitter le seul univers du navigateur pour devenir une solution plus que crédible pour le développement back-end (développement serveur par opposition au développement client dît front-end) ou d'applications standalone.

Transpileurs

Malgré les améliorations apportées au langage, le javascript reste un langage qui n'est pas très adapté pour des programmes de taille importante. Il n'apporte pas les mécanismes requis de façon simple et native. La version 6 de la norme EcmaScript (sortie mi 2015) apporte des améliorations significatives mais elle ne sera pas supportée tout de suite. Il faudra en outre du temps pour que les développeurs se l'approprient. Notons toutefois que cette version apporte enfin un mécanisme de modules standardisé.

La transpilation (ou compilation source à source) est un procédé qui consiste à lire un code source et à le transformer pour produire en sortie un seconde code source exprimé dans un autre langage (ou dans une autre version du langage source). Le transpiler est l'outil qui réalise l'opération. La technique est utilisée pour améliorer, simplifier, enrichir divers langages : CSS est ainsi amélioré par SASS (par exemple), et Javascript par toute une famille de langages.

Il est ainsi possible de développer dans un langage plus évolué et de transpiler le code en javascript qui s'exécutera dans la navigateur.  Le langage de départ peut être un langage très proche de javascript pour faciliter la transition aux développeurs déjà formés, ou être totalement différent.
Microsoft qui investit beaucoup sur la technologie javascript fournit TypeScript qui permet de faire du développement selon le paradigme objet (javascript le permet nativement mais c'est extrêmement complexe). Nul doute que ce soit une solution appelée à prendre de l'importance dans le futur. Le support apporté par Microsoft au sujet n'est pas neutre et témoigne de l'importance du sujet.

Il existe d'autres solutions plus anciennes comme CoffeeScript par exemple.

Il est également possible d'écrire du code en EcmaScript 6 et de le compiler (transpiler pour être précis, cet abus de langage est fréquent) en EcmaScript 5. L'intérêt est que quand les navigateurs supporteront la dernière version du langage, on pourra simplement supprimer cette phase de transpilation et continuer à utiliser le même code (ainsi on peut développer dès aujourd'hui en profitant des apports au langage de la dernière version et exécuter dans les navigateurs actuels qui ne la supportent pas encore, ou incomplètement).

Outillage des développeurs

On ne peut décemment pas parler du js d'aujourd'hui sans dire deux mots sur l'outillage actuel.

Initialement, on avait un éditeur de texte dans lequel on tapait son js, puis on l'exécutait dans un navigateur en le faisant charger par une page html. Ca marchait ou pas, et quand ça marchait pas on avait juste un message d'erreur généralement incompréhensible et inexploitable. La mise au point était un vrai cauchemar d'autant que les mauvaises pratiques autorisées, voire encouragées, par le langage (portée des variables globale par défaut) étaient vecteurs de production de bugs. Sans parler du manque de normalisation de l'API DOM utilisée pour interagir avec le contenu de la page, de la difficulté à modulariser le code, et diverses autres joyeusetés.

Ce temps est révolu. Tous les navigateurs modernes embarquent des débugueurs puissants. Ce sont des outils qui permettent de visualiser le code au moment de son exécution, le contenu des variables, de stopper une programme et de le dérouler pas à pas etc. Bien plus facile de faire la mise au point.

L'introduction du mode strict dans le langage a permis de supprimer certaines mauvaise pratiques, et des analyseurs de code (Lint, JsLint) sont apparus qui permettent d'alerter le développeur sur une suspicion ou erreur avérée de programmation.

Les IDE ont progressé et proposent de la coloration syntaxique et diverses assistances pour vérifier la conformité de son code au fur et à mesure du développement. On limite ainsi les erreurs de programmation. Bien sur la nature dynamique du langage js, et le fait qu'il soit interprété ne permettent pas d'avoir le même niveau de contrôle en amont qu'avec un langage compilé, mais ce qu'on perd en rigueur on le gagne en souplesse et en facilité pour les non professionnels. On a aujourd'hui des IDE spécialisés très performants (Webstorm par exemple), ou des bons plugins pour des outils plus généralistes (par exemple pour NetBeans, Eclipse est à la traîne).

Puis progressivement on a vu apparaître, depuis disons 2 ou 3 ans, les mêmes outils que ceux utilisés depuis très longtemps côté serveur pour booster la productivité et la qualité des développements. Nous allons citer rapidement les principaux et donner leur équivalent côté back-end pour les développeurs java (le langage le plus utilisé). Mais en préalable je dois me plaindre... Pourquoi nom de dieu, les développeurs ont ils encore ressenti le besoin de réinventer la roue et redévelopper de zéro de nouveaux outils au lieu de simplement faire évoluer les outils existant côté serveur ? A tous les coup pour des raisons à la con (ego des développeurs, volonté de tout faire en js, concurrence ...) mais bref c'est comme ça.



Alors, commençons par les gestionnaires de package... kesako ? Tout projet un tant soit peu important fait usage de nombreuses librairies externes. L'approche traditionnelle qui consiste à les télécharger manuellement depuis le site web du projet est source de nombreux problèmes qui sont résolus par les gestionnaires de packages. Ces derniers se chargent de faire le boulot automatiquement en s'appuyant sur un repository centralisé sur Internet où toutes les librairies sont proprement rangées et versionnées.

Il existe deux solutions concurrentes : Bower et Npm (issu du projet Node.js).
L'équivalent principal côté back-end Java est Maven.




Continuons par les outils de build automatisé. Ces outils automatisent le processus de build et évitent une gestion manuelle fastidieuse et hasardeuse (source d'erreurs). Le build est l'ensemble des phases nécessaires pour passer d'un code source à une application prête à être délivrée.

Ici aussi, on a deux solutions qui se tirent la bourre : Grunt et Gulp.
L'équivalent principal côté back-end Java est encore Maven (ou Ant si on veut).




Passons ensuite sur les outils de test automatisés. On est à la frontière entre le framework (composant logiciel) qui facilite le développement des programmes de test (des programmes qui testent des programmes, oui je sais les informaticiens sont des gens bizarres), et l'outillage qui permet d'exécuter automatiquement ces tests et vérifier qu'il n'y a pas d'erreur (dans le processus de build).

Deux solutions ont le vent en poupe à ma connaissance : Karma et Jasmine.
L'équivalent principal côté back-end Java est JUnit ou TestNG.



Ensuite, un outil de scaffolding. Hein scaquoi ? Le scaffolder est un outil qui génère automatiquement le squelette et une partie du code d'une application. C'est un outil qui permet de gagner du temps car il automatise certains travaux qu'on ferait sinon manuellement sur tout nouveau projet. Il apporte un gain de qualité car il fait les choses selon les meilleures pratiques, ce que ne ferait pas nécessairement le développeur pas toujours au fait des choses. Et il standardise la façon de faire ce qui est bon aussi.

Je connais une solution : Yeoman
L'équivalent principal côté back-end Java ? Il en existe pas mal, disons que les archetypes Maven sont le mécanisme le plus répandu.

Voilà un tour d'horizon rapide et sans doute incomplet. Mon idée est surtout de montrer qu'il y a une forte évolution de l'outillage, qui accompagne logiquement l'adoption massive de l'architecture REST, qui renforce l'importance du js (et donc la nécessité de gains de qualité et de productivité).

Asm.js

Accrochez vous à vos slips, ça devient un poil plus compliqué.

Pour ceux qui n'auraient pas les idées très claires sur ce qu'est une architecture processeur, du code binaire, la compilation, et les machines virtuelles, je préconise de lire ces deux articles :
Mozilla a développé un outillage qui permet de compiler du code C ou C++ en javascript tellement optimisé qu'il s'exécute à peu près aussi vite qu'un code C# ou Java (c'est donc un progrès considérable). Des démos de jeux en 3D portés selon cette technique et s'exécutant sous Mozilla Firefox sont totalement bluffantes.

Cet article en anglais explique parfaitement la technique.  J'en résume les idées clés.

Le code source (C ou C++) est dans un premier temps compilé, via un compilateur spécial (clang) dans un format de bytecode (code binaire virtuel) générique (non spécifique à une architecture particulière de VM). Tout cet outillage est fourni par le projet LLVM. Il est prévu le support d'autres langages.

Ce code binaire virtuel est ensuite transformé en un code javascript bien particulier via un outil développé par la fondation Mozilla (emscripten). Ce code est du code javascript mais il est généré d'une façon très particulière, respectant la spécification asm.js ; le résultat est que ce code javascript est directement traductible en binaire par un compilateur JIT spécialement optimisé ; Mozilla a optimisé le sien, et comme cette optimisation n'est pas très complexe et apporte des gains de performances extraordinaires, les autres acteurs ont suivis.



A priori tous les principaux navigateurs sont aujourd'hui optimisés pour asm.js, à l'exception d'Opera.

Un navigateur dont le compilateur javascript n'aurait pas été optimisé spécifiquement pourra également faire fonctionner le code, puisque c'est du javascript, mais il ne bénéficiera pas des gains de performance.

WebAssembly (wasm de son petit nom)

Tout nouveau, tout chaud.

WebAssembly est un format binaire censé être supporté par tous les navigateurs et destiné à être standardisé par le w3c (organisme qui normalise entre autre html, css, javascript) afin d'être totalement portable entre navigateurs (plus précisément entre interpréteurs js)

On est dans la prolongation du principe asm.js mais alors que le code asm.js est exprimé en javascript (donc en texte), on a ici un format binaire. 


WebAssembly est un format binaire mais ce n'est pas du tout du bytecode destiné à être exécuté par une machine virtuelle. Les informations exprimées par les 0 et les 1 ne sont pas des instructions destinées à une architecture de processeur (qu'elle soit virtuelle comme dans le cas d'une JVM Java par exemple, ou réelle en cas de code natif pour processeur Intel x386 par exemple) mais des structures de données.

Pour comprendre le principe, il faut connaître le fonctionnement des compilateurs. En simplifiant, une première étape consiste à analyser le code source et à écrire une représentation mémoire abstraite de son comportement. Ce qu'on appelle un AST Abtract Syntax Tree. Dans une seconde étape, cet AST est lu pour produire le code binaire correspondant à la plateforme cible. L'existence de l'AST découple les deux phases ce qui est très pratique car le code source peut ainsi être exprimé dans divers langages sources (il faut écrire un analyseur syntaxique pour chaque langage, et ils construisent tous un AST avec les mêmes conventions), et que ce code source peut être utilisé pour produire du code binaire pour différentes architectures processeurs physiques ou virtuelles (il suffit d'écrire un générateur de code binaire pour chaque plateforme). Ce principe est très souple et explique par exemple comment Microsoft permet d'exécuter divers langages sur une même machine virtuelle (CLR Common Language Runtime), ou comment un même code source peut servir à produire des exécutables pour des architectures processeurs différentes.

Dans le cas qui nous intéresse, la partie finale, qui consomme un AST pour produire du code binaire, est toujours la même : c'est le compilateur JIT (ou AOT, peu importe la nuance ici) embarqué par l'environnement d'exécution javascript, c'est à dire le navigateur (ou Node.js).

Dans le mesure où la structure de l'AST est normalisée, tout AST est portable entre environnements. Et c'est précisément le chantier en cours chez tous les éditeurs de navigateur : se mettre d'accord sur une structure normalisée et implémenter dans leurs moteurs respectifs (chakra, V8, spiderMonkey) la capacité de le lire pour générer directement du code binaire sur cette base (qui bien sur s'exécute bien plus vite, disons 10X plus vite, que le code interprété).

Il nous manque encore la partie avant, c'est à dire la capacité de générer cet AST depuis différents langages sources. De nouveaux langages vont peut être apparaître à cette occasion, le langage javascript va peut être évoluer pour se prêter plus facilement à cet usage, l'avenir nous le dira, le chantier est en cours. Mais d'ores et déjà, une partie du travail effectué pour  le support de asm.js est exploitable et adaptable. Les outils qui compilent du code source C ou C++ en bytecode LLVM existent déjà. Modifier emscripten qui sait déjà lire ce format pour générer un binaire wasm au lieu d'un texte asm.js n'est probablement pas très compliqué...

wasm est donc une possibilité en cours de développement, complémentaire et distincte de asm.js.

Premier avantage, elle évite la phase de parsing du code asm.js qui est coûteuse en temps d'exécution (en particulier sur les devices peu performants comme les smartphones), et complique la maintenance des runtime javascript (qui doivent implémenter deux parsers, un pour le code "régulier" et un pour le code "asm.js").

Second avantage, un format binaire est plus compact qu'un format texte et le temps de transport du code par le réseau sera également  fortement réduit.

Donc en conclusion, au lieu de faire voyager du bytecode par le réseau ce qui obligerait à implémenter une machine virtuelle sur chaque environnement (ce qui existe depuis 20 ans avec les applets java), on a choisi de faire voyager une représentation binaire d'une phase intermédiaire de la compilation qui est achevée sur l'environnement client. Le choix a été fait pas des très grands esprits de l'informatique, on peut donc supposer qu'ils ont leurs raisons, même si il n'est pas impossible que des motivations d'ordre tactico-économiques aient pesées dans la balance. 

Je vous invite à lire cette interview de Brendan Eich (l'ignoble individu qui a créé Javascript, et le pire c'est qu'il en est fier).

Pour finir, on peut quand même penser, bien que Brendan Eich s'en défende, que ce choix signifiera à terme la mort du javascript ou du moins la fin de sa prévalence. En effet, n'importe quel langage accompagné d'un analyseur syntaxique capable de produire un AST au format wasm pourra être utilisé. Et ce sera un très grand progrès pour les développeurs de la prochaine décennie.

Conclusion

Le poids de l'existant... en informatique ça a toujours été quelque chose de très lourd.

Javascript est un langage plein d'inconvénients et de défauts mais on doit faire avec. Ces inconvénients étant en bonne partie liés au fait que l'usage qu'on en fait aujourd'hui est très différent de ce pour quoi il était apparu à l'origine (un langage de scripting accessible aux non professionnels pour dynamiser des pages web et écrire des programmes courts).

Du coup, on (ré)invente des tas de technologies complexes, et envisageables uniquement car les processeurs actuels en ont sous le pied, pour faire de façon compliquée ce qu'on aurait pu faire mille fois plus simplement en reprenant les choses à la base.

Enfin quoi qu'il en soit, les choses vont dans le bon sens et n'ont manifestement pas fini de progresser.

Ha oui, dernier point, on constate que le sujet est complexe, riche, et en perpétuelle évolution. Pour cette raison je ne peux que conseiller à tout société qui investirait sur le développement d'applications en javascript, de se faire accompagner par des vrais spécialistes du sujet. Comme côté back-end, la fonction d'architecte prend tout son sens, ce n'est pas qu'une invention des SSII pour facturer plus chers des prestations... Même si bien entendu il n'est pas inutile de vérifier que le profil qu'on vous place comme architecte a bien la large culture technique et le côté pragmatique indispensables pour ce poste clé dans une équipe de production (fuyez les geeks).

samedi 19 mars 2016

Formes et intérêts du Cloud computing

Le Cloud Computing ou "informatique dans les nuages" prend diverses formes ayant toutes des aspects communs mais également chacune leur spécificité et intérêt. Nous allons expliquer tout ça de la façon la plus simple possible.

Nous avons abordé un certain nombre de sujets préliminaires dans les deux articles listés ci-après ; il peut être utile d'en prendre connaissance en préalable :

Les formes de Cloud Computing

Les 3 formes les plus connues sont, par ordre d'apparition, SAAS, PAAS, IAAS. Une forme plus récente est DAAS.

Dans les 4 formes courantes, AAS signifie "As A Service". Il s'agit donc d'offrir (enfin de vendre, faut pas déconner non plus) un service dont la nature, on l'aura deviné, est précisé par la première lettre. 

S pour Software, logiciel en Français : ici on offre un logiciel répondant à un certain besoin. Nous sommes déchargés du besoin d'acheter, installer, et administrer un ordinateur (plusieurs si on veut de la Haute Disponibilité), un OS, un logiciel. On a juste à utiliser le logiciel accessible via une url dans son navigateur.

P pour Platform : ici on offre une plateforme d'exécution, c'est à dire un logiciel serveur ou un ensemble de logiciels serveurs, sur lequel on peut déployer ses propres applications grâce à une console d'administration accessible via une url dans son navigateur. On est déchargé du besoin d'acheter, installer, et administrer un ordinateur (plusieurs si on veut de la Haute Disponibilité), un OS, un ou des logiciels serveurs (un serveur web, un serveur d'application, un serveur de base de données ...) et selon les offres d'intégrer des composants à ces serveurs (plugins, frameworks de développement intégrés, fonctions optionnelles ...).

I pour Infrastructure : ici on offre une plateforme de virtualisation sur laquelle on pourra créer autant de machines virtuelles que nécessaire (dimensionnées selon ses choix, avec l'OS de son choix), selon ses besoins du moment, voire selon les offres bénéficier de fonctionnalités de provisionning automatique (installation automatique de logiciels serveurs). On est déchargé de l'achat, installation, administration etc. de la plateforme de virtualisation.

Illustration des différents modèles de Cloud
Ce diagramme montre les différentes couches d'un SI virtualisé, avec en gris les parties dont il est possible de se décharger selon le mode de Cloud pratiqué. La première pile "on premise" correspond au cas où il n'y a pas de recours au cloud, donc tout est en bleu pour montrer qu'on gère chacune des briques. La dernière pile "SAAS" correspond au cas où on loue le logiciel et donc tout est en gris puisqu'on ne gère plus aucune brique.


D pour Desktop (bureau en Français): ici on offre un environnement de bureau (tel que vous l'obtenez en installant par exemple Windows sur un PC chez vous) accessible via Internet. On peut ainsi trouver son environnement de bureau où qu'on soit, pour peu qu'on ait un accès Internet, et sur n'importe quel système d'exploitation, pour peu qu'il soit supporté (c'est le cas de tous les systèmes courants) et qu'on ai installé un petit logiciel localement. Cette forme est plus récente et fait appel à des technologies un peu différentes des 3 précédentes, nous la détaillerons plus loin. Une bonne présentation en Français est disponible sur le site de la société virtuelbureau.com

Le PAAS connait de multiples déclinaisons selon la nature de la plateforme proposée en location, ce qui amène certains à créer diverses déclinaisons où le P est remplacé par l'initiale du type de serveur proposé.

Les aspects communs, avantages

Le premier aspect est l'utilisation d'Internet comme infrastructure réseau. D'où le terme de "Cloud Computing". Les informaticiens ont en effet l'habitude de représenter Internet sous la forme d'un nuage dans les diagrammes d'architecture réseau ; le nom vient de là.


Le second aspect est qu'il s'agit d'un modèle économique basé sur la location au lieu de l'achat, et dont les coûts sont corrélés à l'usage qu'on fait du service : plus on les utilise, plus on paye, moins on les utilise, moins on paye (mais il y a toujours un montant fixe minimum).

Ce second aspect est essentiel : 
  • il permet d'ajuster les coûts au niveau de l'activité
  • il permet de démarrer une activité (nécessitant un logiciel, ou une plateforme d'exécution, ou encore de la puissance de traitement) sans investissement initial important
  • il permet de tester des idées : en effet puisque l'investissement initial n'est plus obligatoire, on peut lancer quelque chose, et si ça ne fonctionne pas, tout simplement arrêter sans grande conséquence (pas de matériel coûteux à revendre à perte, pas de personnel à recaser ou licencier ...).

Autre point essentiel de nos jours et toujours lié au modèle de location : on remplace des investissements par des charges d'exploitation, ce qui a pour effet de changer la structure du bilan (moins de capital immobilisé), et d'offrir une rentabilité financière à court terme plus attrayante pour des investisseurs (on parle bien ici de la nature financière du capitalisme "moderne", opposée à l'approche patrimoniale classique). C'est la même logique qui pousse les grandes entreprises à vendre leur bâtiments et à louer des locaux. 

Un autre aspect essentiel est que ces mécanismes offrent la possibilité aux PME d'accéder à des technologies auxquelles elles ne pourraient prétendre pour la plupart. Les technologies modernes impliquent en effet des coûts élevés notamment du fait de la multitude de spécialistes coûteux requis pour faire tourner une infrastructure informatique de pointe, et ces coûts cumulés constituent une barrière d'entrée infranchissable sans un solide portefeuille.

Enfin dernier aspect très important de nos jours : la réduction du "time to market". Le temps nécessaire entre une idée et sa concrétisation est très fortement diminué ce qui permet de réagir plus vite aux tendances, avant ses concurrents, et de prendre des parts de marché. Au lieu d'acheter et/ou recruter matériel, logiciel et personnel, on va sur une console d'administration, on fait 3 clics de souris et c'est bon (en réalité c'est un poil plus compliqué mais c'est l'idée générale).

Les aspects communs, inconvénients

Parlons maintenant des inconvénients, car bien sur toute médaille à son revers.

Le premier est lié à la prédictibilité des dépenses : il est en effet très difficile parfois d'estimer à l'avance combien va coûter le service. Si dans le cadre du SAAS c'est assez simple (par exemple, vous allez payer un forfait annuel par utilisateur, et vous connaissez votre nombre d'utilisateur), c'est moins vrai dans le cas du PAAS et surtout du IAAS. Les modèles de facturation proposés par les opérateurs sont très complexes et les opérandes délicates à évaluer. Le recours à des prestataires spécialisés est ici plus que recommandé. Dans tous les cas, la facilité de mise en oeuvre des services implique une grande rigueur dans le suivi qui en est fait, pour éviter d'exploser les compteurs.

Un second est lié à la complexité de la contractualisation avec les opérateurs. En effet, il va falloir définir des niveaux de services garantis (SLA : Service Level Agreement) et des mécanismes de pénalités associés en cas de non respect. En effet, si vous faîtes reposer votre business sur une plateforme exploitée par des tiers, vous voulez être rassuré sur le fait que vous n'allez pas rester sans site de vente en ligne pendant 48H car la femme de ménage a débranché la prise électrique de votre serveur le samedi matin (bien sur aucun risque mais l'image est belle). Et non seulement ce n'est pas simple, tant du point de vue technique que juridique, mais le rapport est déséquilibré car vous avez en face de vous des opérateurs de très grande taille opérant à l'échelle mondiale (Google, IBM, Amazon, Microsoft etc.).

Un autre inconvénient encore est lié au fait que vos données vont être hors de vos murs, et stockées quelque part hors de votre contrôle... 

Outre le côté psychologique de la chose, certaines données sensibles font l'objet de réglementations qui interdisent par exemple qu'elles sortent du pays ou de l'union européenne. Par ailleurs, certaines entreprises sont bizarrement très attachées à la confidentialité de leur fichier client (dingue non !). Si il existe aujourd'hui des acteurs nationaux, force est de reconnaître que tous les plus grands acteurs sont américains... (ils déploient aujourd'hui des datacenter en Europe, encore un point à vérifier avant de contractualiser). Ce dernier point, en ces périodes marquées par les espionnages de la NSA, n'est pas à négliger.

Dernier inconvénient : l'utilisation d'Internet comme infrastructure réseau amène des limitations techniques qui interdisent certains usages, en particulier dans le cas où on a des échanges de données entre le SI interne et une partie externalisée dans le cloud (problème de latence ou de bande passante insuffisante ou non garantie).

Focus SAAS

Le modèle n'est pas nouveau. Il était auparavant appelé ASP (Application Service Provider) mais il a été rebaptisé suivant les tendances marketing du moment.

Les premiers domaines concernés ont été les services tels que la messagerie et les agendas partagés. 

En effet, il n'y a aucune plus-value pour une petite entreprise à financer la gestion de ce type de plateforme en interne ; les moyens étant généralement limités,  il est préférable de les concentrer sur des outils plus orientés cœur de métier. En outre, le petit nombre de boites mails à gérer rapporté au coût de gestion de l'infrastructure ne permet pas nécessairement d'atteindre le point mort en terme de rentabilité (bref, ça coûte moins cher de payer pour un service dans le cloud).



Aujourd'hui on trouve une offre importante en matière de CRM (Customer Relationship Management, GRC Gestion de la Relation Client en Français), de gestion RH, de logiciels comptables, d'ERP (Enterprise Resource Planning, PGI Programme de Gestion Intégrée en bon Français), de suite bureautique plus récemment (Office 365 chez Microsoft par exemple qui propose la suite Office en mode SAAS).

La plupart des éditeurs proposent aujourd'hui leur offre dans le mode SAAS (à la location donc) en alternative à la vente de licence traditionnelle (souvent rebaptisé "on premise").

De nombreux particuliers utilisent des services SAAS sans le savoir pour le stockage de leur photos de vacances ou de leurs fichiers sur Internet : DropBox, GoogleDrive, OneDrive pour ne citer que les plus connus sont des services SAAS.

Focus PAAS

C'est probablement l'offre la moins hétérogène ce qui est assez logique vu la multitude d'environnement serveurs et de stacks applicatives (empilement de frameworks, librairies, technologies) qui existent de nos jours.

Les offres PAAS sont à examiner de près car elles imposent toujours des contraintes importantes en matière d'architecture logicielle et de pratique de développement ; ici encore c'est assez logique, afin de garantir un certain niveau de service les opérateurs doivent s'assurer que les logiciels développés par vos soins et hors de leur contrôle respectent certains principes (afin de pouvoir être load-balancés par exemple, ou encore ne pas effondrer les moteurs de base de données, ou tout simplement s'intégrer harmonieusement dans leur infrastructure).

Focus IAAS

Certaines solutions techniques utilisées par les grands opérateurs de domaine pour leur offre sont accessibles en Open Source.

Elle sont notamment utilisées par des sociétés nationales qui peuvent ainsi élargir leur offre d'hébergement traditionnel (location de matériel dédié ou de m2 dans leurs datacenter) ; ce marché est en plein développement (OVH, Ikoula, Gandi etc.).

Il existe également de nombreux acteurs de plus petite taille à considérer : spécialisés sur certaines domaines d'activité (le réseau des ARSOE dans le cas de l'informatique agricole par exemple), ou hébergeurs visant les PME, ils présentent l'avantage d'être plus souples, adaptables, réactifs, et de proposer des prestations complémentaires liées à l'exploitation des plateformes (les grands acteurs du Cloud ont des offres totalement industrialisées et ne font pas d'exploitation au delà bien sur du minimum de supervision système requis).

Elles sont également utilisées par des grands groupes, qui ont des moyens financiers importants et des DSI très développées, pour exploiter des clouds privés. Rappelons qu'un cloud privé est la même chose que ce qui est proposé par les fournisseurs de solutions IAAS pour leur offre de cloud public, mais installé par l'entreprise dans son datacenter privé et administré par ses soins. Le modèle économique change mais les avantages techniques subsistent (flexibilité, time to market, élasticité, support de la haute disponibilité etc). 

Un Cloud privé hébergé et exploité en externe par un sous traitant est une autre option possible. La différence avec un Cloud public est alors que les serveurs de VM utilisés pour héberger l'infrastructure de virtualisation sont totalement dédiés, ce qui peut rassurer certaines entreprises.

Les deux solutions phares sont CloudStack et OpenStack

Nos inénarrables technocrates Français (rappelez vous Coluche : "donnez leur le Sahara à gérer, dans 5 ans ils achètent du sable") ont voulu créer une offre de Cloud Public National (avec plein de majuscules partout, ça fait plus Français, Meussieur !). L'idée n'était pas mauvaise, il s'agissait de ne pas dépendre d'acteur Américains et de favoriser l'économie Française. Mais bien évidemment ils ont géré l'affaire comme des branques et après avoir  claqué quelques dizaines ou centaines de millions dans le vide, ont fini par abandonner le projet... de toute façon à chaque fois que l'état veut se mêler d'informatique ... Pour plus de détail, voir ce lien sur le projet Andromède.

Focus DAAS

Revenons à la préhistoire de l'informatique : toute la puissance de calcul était centralisée sur un ordinateur unique (mainframe) et les utilisateurs disposaient d'un simple terminal passif (un écran et un clavier).

Dans ce type d'architecture, chaque action de l'utilisateur au niveau de son terminal (appui sur le clavier, action avec la souris) est transmise côté serveur et c'est le serveur qui traite le signal. Si l'action utilisateur implique une modification du contenu affiché à l'écran, alors le serveur envoie un message à l'écran côté client (en fait à un petit programme qui s'exécute côté client et qui gère l'écran) qui se rafraîchit en conséquence.  Le message décrit simplement les zones de l'écran à mettre à jour.

Ce type d'infrastructure est toujours présent dans l'informatique distribuée moderne (serveur X11 sous Linux/Unix, bureau distant Windows etc.). La société Citrix qui commercialise des solutions spécialisées dans ce domaine reste un acteur très important car ce type de solutions, bien que très minoritaire aujourd'hui, présente des avantages indéniables et est irremplaçable dans certains contextes.

Le DAAS est en fait une utilisation de ces solutions d'infrastructure au travers d'Internet. Au lieu d'installer un serveur capable de gérer ce type d'interactions, l'entreprise (ou le particulier) utilise simplement un service localisé quelque part sur Internet (dans le cloud) et bâti sur la virtualisation des postes clients. Côté client, l'installation d'un petit logiciel peu gourmand en ressources est nécessaire. Ce logiciel étant disponible pour de nombreux OS et matériels, on peut retrouver son bureau Windows et exploiter des logiciels lourds sur des machines très peu puissantes et fonctionnant sous d'autres OS (rappelez vous, les traitements sont exécutés côté serveur, ce sont donc les ressources du serveur qui sont sollicitées, pas celle du client qui ne fait qu'envoyer les frappes clavier, et analyser les messages de mise à jour d'écran reçus en retour pour rafraîchir l'affichage).

Comme toujours ce type de solution a des avantages et inconvénients mais sa combinaison avec les technologies de virtualisation en étend encore l'intérêt, en particulier pour les TPE et PME.

Pour finir, le DAAS c'est comme le SAAS sauf que le service consommé, au lieu d'être une simple application en interface web, est un bureau graphique classique avec toutes ses fonctionnalités (installation de logiciels, paramétrage personnalisé etc.). 

Ce type de solution est encore peu connu mais le marché semble amené à se développer. En plus des acteurs traditionnels sur ce marché, Amazon a lancé une offre, et Microsoft a un projet dans les cartons.

Conclusion

Voilà, j'espère que les choses sont claires. 

L'économie du Cloud est encore quelque chose de relativement récent, le taux d'adoption est sans doute moins rapide que le souhaiteraient les grands acteurs du marché mais vu les milliards qu'ils investissent dans ce domaine, et les avantages de la technologie, on peut difficilement douter que ce soit une tendance lourde.

L'usage interne de la virtualisation et la consommation d'applications en mode SAAS ont mis pas mal d'années à entrer dans les mœurs ; mais aujourd'hui c'est devenu très courant. Nul doute pour moi que PAAS et IAAS suivront le même chemin.