Mathieu_D Posté 7 juin 2019 Signaler Posté 7 juin 2019 Comment ça me pête les couilles de déboguer du Sparklyr. J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.
cedric.org Posté 7 juin 2019 Signaler Posté 7 juin 2019 Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.
Mathieu_D Posté 7 juin 2019 Auteur Signaler Posté 7 juin 2019 21 minutes ago, cedric.org said: Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose. Le truc qui buzz sur ce segment : https://databricks.com/blog/2019/06/06/announcing-the-mlflow-1-0-release.html
Noob Posté 7 juin 2019 Signaler Posté 7 juin 2019 1 hour ago, Mathieu_D said: Comment ça me pête les couilles de déboguer du Sparklyr. J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs. Tell me more. Je connais très peu spark, mais en principe tout ce qui concerne la parallélisation touche surtout au nombre d'opération à effectuer sur chaque donnée (parce que ça entraine tout un tas de problèmes dès que ta tâche ne peux pas être redémarrée rapidement). Dans un cas extrême tu pourrais bénéficier de spark dès que tu as deux inputs, si ton pipeline est long, tu peux déjà être gagnant, non ? Après si le pipeline est court que t'as peu de donnée et qu'en plus il y a pas de passage à l'échelle en vue, effectivement ça n' pas vraiment d'intérêt.
Mathieu_D Posté 20 juin 2019 Auteur Signaler Posté 20 juin 2019 On 6/7/2019 at 11:52 PM, Noob said: Tell me more. Là on travaille sur une migration SAS vers R/Sparklyr. Les programmes SAS impliquent beaucoup de boucles et de créations de tables intermédiaires, ce que Spark n'aime pas. On n'avait pas de spec' pour refactoriser le code intelligemment en partant de la fin et donc on a dû coller à la pensée du code originelle qui était optimisée pour de toutes autres contraintes. (+ l'aspect 10 générations de prestas...) On travaille en Sparklyr l'api de référence pour faire du Spark en R. L'Api converti du code R/Dplyr en SparkSQL. Si on écrit trop de code avant de faire un point d'étape on se retrouve avec une requête monstrueuse et monstrueusement pas optimisée. Donc il faut tâtonner, sachant que Spark est susceptible sur la gestion des blocs. (paradoxalement on a eu des erreurs out of memory sur des tables "small data", - ce qui apparemment est un symptôme de Spark qui n'arrive pas à paralléliser et fait n'importe quoi, sauf si on charge ces données dans la mémoire de Spark au départ plutôt que de partir d'un Parquet. (Pour tout vous dire on a fait estimation*2 et on s'était engagé au forfait \o/ ) 1
Mathieu_D Posté 20 juin 2019 Auteur Signaler Posté 20 juin 2019 On 6/7/2019 at 11:05 PM, cedric.org said: Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose. Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?
cedric.org Posté 20 juin 2019 Signaler Posté 20 juin 2019 14 minutes ago, Mathieu_D said: Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ? Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.
Mathieu_D Posté 20 juin 2019 Auteur Signaler Posté 20 juin 2019 1 minute ago, cedric.org said: Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance. Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?
cedric.org Posté 20 juin 2019 Signaler Posté 20 juin 2019 37 minutes ago, Mathieu_D said: Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ? J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.
Mathieu_D Posté 25 juin 2019 Auteur Signaler Posté 25 juin 2019 Personne pour commenter le rachat d'Altran par Cap Gemini ? On 6/21/2019 at 12:55 AM, cedric.org said: J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser. Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?
Liber Pater Posté 25 juin 2019 Signaler Posté 25 juin 2019 il y a 17 minutes, Mathieu_D a dit : Personne pour commenter le rachat d'Altran par Cap Gemini ? A part que j'ai doublé ma plus-value sur Altran ? Je pense qu'il y a évidemment des synergies qui sont possibles, donc plutôt une bonne nouvelle pour les deux entreprises. On peut d'ailleurs s'attendre à une hausse de Capgemini. Altran est quasi à son prix d'achat (14€), et après le dividende qui arrive dans 2 jours elle va revenir à 14€. Par contre en prenant le total des capi Capgemini + Altran, on a une évolution des cours globale de 10% alors qu'ils annoncent un impact relutif de 15%.
cedric.org Posté 25 juin 2019 Signaler Posté 25 juin 2019 10 hours ago, Mathieu_D said: Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ? Ce n'est pas la mentalité de la boîte, on staffe une grosse équipe en interne pour avoir toute la connaissance et monter tout nous meme.
Mathieu_D Posté 28 juin 2019 Auteur Signaler Posté 28 juin 2019 Repris d'un collègue : Quote Quel peut être l'avenir de la programmation? Chacun a ses desiderata , mais en voici quelques uns : un langage simple déclaratif un langage où tout est symbolique et universel (on peut mélanger des objets de touts genres , ie lettres, images, chiffres, concepts, ...) un langage où les données sont dans un espace logique accessible de partout, eg je veux accéder aux données de twitter, aux données meteo, aux données de la ratp, de mon cpu, ... , en une ligne de code un langage qui offre des api pour presque tout, y compris la data science un langage où il n'y a a rien à installer, juste ouvrir un notebook et c'est tout un langage rapide Ce langage existe déjà, et est un avant-goût de ce que l'on aura peut-être dans un avenir proche : c'est le Wolfram language , langage créé par le créateur de Mathematica. Je vous laisse le découvrir avec les liens suivants : le notebook symbolique : https://develop.open.wolframcloud.com/objects/wpc-welcome/ThingsToTryComputationalNotebook.nb le langage et ses bibliothèques : https://reference.wolfram.com/language/
Liber Pater Posté 28 juin 2019 Signaler Posté 28 juin 2019 il y a 6 minutes, Noob a dit : Mathematica rapide ? Wolfram
Noob Posté 28 juin 2019 Signaler Posté 28 juin 2019 1 hour ago, Liber Pater said: Wolfram Par rapport à python ça donne quoi ? (dsl je découvre)
Liber Pater Posté 28 juin 2019 Signaler Posté 28 juin 2019 il y a 14 minutes, Noob a dit : Par rapport à python ça donne quoi ? (dsl je découvre) Aucune idée
Noob Posté 28 juin 2019 Signaler Posté 28 juin 2019 J'ai vu que c'est un facteur 25x plus lent que C++ et un facteur 6x plus lent que java sur des benchmarks. Du coup ça doit être bien plus rapide que python en brut, mais c'est pas forcément pertinent parce que python sert plus de driver haut niveau pour utiliser des bibliothèques très performantes derrière.
Mathieu_D Posté 28 juin 2019 Auteur Signaler Posté 28 juin 2019 Dans la programmation le cycle "langage de flux"* "code" me fascine. 1995-2000 : sql, sas, matlab, s 2005-2010 : Spss modeler, SAS Miner, Informatica et autres étaient triomphants. 2015-2020 : Python /R/Sql 2020-2025 : AutoML, API Google ML, AWS ML, Azure ML. Repeat... Quoique que les notebooks melants code, flux et autres arrivent comme dit plus haut.
Mathieu_D Posté 13 novembre 2019 Auteur Signaler Posté 13 novembre 2019 Est-ce que quelqu'un ici a déjà fait de l'analyse de réseaux avec Gephi par hasard ?
Solomos Posté 14 novembre 2019 Signaler Posté 14 novembre 2019 Pas moi, pour Gephi. Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..) ?
Mathieu_D Posté 14 novembre 2019 Auteur Signaler Posté 14 novembre 2019 50 minutes ago, Solomos said: Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..) ? J'peux fournir de l'archi Big Data mais je n'ai pas sous le coude je crois de profils risques et pas d'indep'. (c'est bizarre des connaissances spécifiques en Parquet, c'est juste le csv du big data en soi) Tu veux en parler en MP ?
Rincevent Posté 14 novembre 2019 Signaler Posté 14 novembre 2019 Le 13/11/2019 à 16:30, Mathieu_D a dit : Est-ce que quelqu'un ici a déjà fait de l'analyse de réseaux avec Gephi par hasard ? J'ai calculé des clôtures transitives de graphes par le passé, mais c'était en SQL seul. (Une vague histoire de grappes de clients et de comptes). Il y a 2 heures, Mathieu_D a dit : le csv du big data Ça donne envie, dis-donc.
Mathieu_D Posté 14 novembre 2019 Auteur Signaler Posté 14 novembre 2019 29 minutes ago, Rincevent said: Ça donne envie, dis-donc. C'est une histoire d'optimiser la transition entre le stockage froid pas cher (s3) et le calcul chaud dans Spark, ça marche bien.
Solomos Posté 4 février 2020 Signaler Posté 4 février 2020 Ils sont ambitieux les jeunes Data Scientist aujourd'hui. J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente. Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.
Mathieu_D Posté 4 février 2020 Auteur Signaler Posté 4 février 2020 Sur Paname c'est très chaud en effet. (grosse concurrence sur le recrutement - ma boîte a renoncé et ne démarche plus que des marocains et tunisiens de là bas qui veulent un sponsor pour venir -) Pour ta mission tu devrais cibler de jeunes économètres à l'ancienne qui voient SAS dans leur formation. Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.
cedric.org Posté 5 février 2020 Signaler Posté 5 février 2020 On 2/4/2020 at 11:39 AM, Solomos said: Ils sont ambitieux les jeunes Data Scientist aujourd'hui. J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente. Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux. Tu manques de buzzwords. Tensorflow. Keras. TPU.
Mathieu_D Posté 5 février 2020 Auteur Signaler Posté 5 février 2020 1 hour ago, cedric.org said: Tu manques de buzzwords. Tensorflow. Keras. TPU. En deep learning c'est plutôt PyTorch la star en ce moment.
Messages recommandés