Je raconte my life dans la data

Mathieu_D · 7 juin 2019

Comment ça me pête les couilles de déboguer du Sparklyr.

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

cedric.org · 7 juin 2019

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Mathieu_D · 7 juin 2019

21 minutes ago, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Le truc qui buzz sur ce segment : https://databricks.com/blog/2019/06/06/announcing-the-mlflow-1-0-release.html

Noob · 7 juin 2019

1 hour ago, Mathieu_D said:

Comment ça me pête les couilles de déboguer du Sparklyr.

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

Tell me more.

Je connais très peu spark, mais en principe tout ce qui concerne la parallélisation touche surtout au nombre d'opération à effectuer sur chaque donnée (parce que ça entraine tout un tas de problèmes dès que ta tâche ne peux pas être redémarrée rapidement). Dans un cas extrême tu pourrais bénéficier de spark dès que tu as deux inputs, si ton pipeline est long, tu peux déjà être gagnant, non ?

Après si le pipeline est court que t'as peu de donnée et qu'en plus il y a pas de passage à l'échelle en vue, effectivement ça n' pas vraiment d'intérêt.

Mathieu_D · 20 juin 2019

On 6/7/2019 at 11:52 PM, Noob said:

Tell me more.

Là on travaille sur une migration SAS vers R/Sparklyr.

Les programmes SAS impliquent beaucoup de boucles et de créations de tables intermédiaires, ce que Spark n'aime pas.

On n'avait pas de spec' pour refactoriser le code intelligemment en partant de la fin et donc on a dû coller à la pensée du code originelle qui était optimisée pour de toutes autres contraintes. (+ l'aspect 10 générations de prestas...)

On travaille en Sparklyr l'api de référence pour faire du Spark en R. L'Api converti du code R/Dplyr en SparkSQL.

Si on écrit trop de code avant de faire un point d'étape on se retrouve avec une requête monstrueuse et monstrueusement pas optimisée.

Donc il faut tâtonner, sachant que Spark est susceptible sur la gestion des blocs. (paradoxalement on a eu des erreurs out of memory sur des tables "small data", - ce qui apparemment est un symptôme de Spark qui n'arrive pas à paralléliser et fait n'importe quoi, sauf si on charge ces données dans la mémoire de Spark au départ plutôt que de partir d'un Parquet.

(Pour tout vous dire on a fait estimation*2 et on s'était engagé au forfait \o/ )

Mathieu_D · 20 juin 2019

On 6/7/2019 at 11:05 PM, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

cedric.org · 20 juin 2019

14 minutes ago, Mathieu_D said:

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Mathieu_D · 20 juin 2019

1 minute ago, cedric.org said:

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

cedric.org · 20 juin 2019

37 minutes ago, Mathieu_D said:

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Mathieu_D · 25 juin 2019

Personne pour commenter le rachat d'Altran par Cap Gemini ?

On 6/21/2019 at 12:55 AM, cedric.org said:

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Liber Pater · 25 juin 2019

il y a 17 minutes, Mathieu_D a dit :

Personne pour commenter le rachat d'Altran par Cap Gemini ?

A part que j'ai doublé ma plus-value sur Altran ?

Je pense qu'il y a évidemment des synergies qui sont possibles, donc plutôt une bonne nouvelle pour les deux entreprises. On peut d'ailleurs s'attendre à une hausse de Capgemini. Altran est quasi à son prix d'achat (14€), et après le dividende qui arrive dans 2 jours elle va revenir à 14€. Par contre en prenant le total des capi Capgemini + Altran, on a une évolution des cours globale de 10% alors qu'ils annoncent un impact relutif de 15%.

cedric.org · 25 juin 2019

10 hours ago, Mathieu_D said:

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Ce n'est pas la mentalité de la boîte, on staffe une grosse équipe en interne pour avoir toute la connaissance et monter tout nous meme.

Mathieu_D · 28 juin 2019

Repris d'un collègue :

Quote

Quel peut être l'avenir de la programmation? Chacun a ses desiderata , mais en voici quelques uns :

un langage simple déclaratif

un langage où tout est symbolique et universel (on peut mélanger des objets de touts genres , ie lettres, images, chiffres, concepts, ...)

un langage où les données sont dans un espace logique accessible de partout, eg je veux accéder aux données de twitter, aux données meteo, aux données de la ratp, de mon cpu, ... , en une ligne de code

un langage qui offre des api pour presque tout, y compris la data science

un langage où il n'y a a rien à installer, juste ouvrir un notebook et c'est tout

un langage rapide

Ce langage existe déjà, et est un avant-goût de ce que l'on aura peut-être dans un avenir proche : c'est le Wolfram language , langage créé par le créateur de Mathematica.
Je vous laisse le découvrir avec les liens suivants :

le notebook symbolique : https://develop.open.wolframcloud.com/objects/wpc-welcome/ThingsToTryComputationalNotebook.nb

le langage et ses bibliothèques : https://reference.wolfram.com/language/

Noob · 28 juin 2019

Mathematica rapide ?

Liber Pater · 28 juin 2019

il y a 6 minutes, Noob a dit :

Mathematica rapide ?

Wolfram

Noob · 28 juin 2019

1 hour ago, Liber Pater said:

Wolfram

Par rapport à python ça donne quoi ? (dsl je découvre)

Liber Pater · 28 juin 2019

il y a 14 minutes, Noob a dit :

Par rapport à python ça donne quoi ? (dsl je découvre)

Aucune idée

Noob · 28 juin 2019

J'ai vu que c'est un facteur 25x plus lent que C++ et un facteur 6x plus lent que java sur des benchmarks. Du coup ça doit être bien plus rapide que python en brut, mais c'est pas forcément pertinent parce que python sert plus de driver haut niveau pour utiliser des bibliothèques très performantes derrière.

Mathieu_D · 28 juin 2019

Dans la programmation le cycle "langage de flux"* "code" me fascine.

1995-2000 : sql, sas, matlab, s

2005-2010 : Spss modeler, SAS Miner, Informatica et autres étaient triomphants.

2015-2020 : Python /R/Sql

2020-2025 : AutoML, API Google ML, AWS ML, Azure ML.

Repeat...

Quoique que les notebooks melants code, flux et autres arrivent comme dit plus haut.

Mathieu_D · 1 juillet 2019

Fuck

image.png.0882dd88a5be6b97cf6e87fe75d8e9e3.png

Mathieu_D · 13 novembre 2019

Est-ce que quelqu'un ici a déjà fait de l'analyse de réseaux avec Gephi par hasard ?

Solomos · 14 novembre 2019

Pas moi, pour Gephi.

Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..) ?

Mathieu_D · 14 novembre 2019

50 minutes ago, Solomos said:

Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..) ?

J'peux fournir de l'archi Big Data mais je n'ai pas sous le coude je crois de profils risques et pas d'indep'.

(c'est bizarre des connaissances spécifiques en Parquet, c'est juste le csv du big data en soi)

Tu veux en parler en MP ?

Rincevent · 14 novembre 2019

Le 13/11/2019 à 16:30, Mathieu_D a dit :

Est-ce que quelqu'un ici a déjà fait de l'analyse de réseaux avec Gephi par hasard ?

J'ai calculé des clôtures transitives de graphes par le passé, mais c'était en SQL seul. :icon_surpris: (Une vague histoire de grappes de clients et de comptes).

Il y a 2 heures, Mathieu_D a dit :

le csv du big data

Ça donne envie, dis-donc. :icon_tourne:

Mathieu_D · 14 novembre 2019

29 minutes ago, Rincevent said:

Ça donne envie, dis-donc.

C'est une histoire d'optimiser la transition entre le stockage froid pas cher (s3) et le calcul chaud dans Spark, ça marche bien.

Mathieu_D · 1 janvier 2020

Solomos · 4 février 2020

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé.

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

Mathieu_D · 4 février 2020

Sur Paname c'est très chaud en effet. (grosse concurrence sur le recrutement - ma boîte a renoncé et ne démarche plus que des marocains et tunisiens de là bas qui veulent un sponsor pour venir -)

Pour ta mission tu devrais cibler de jeunes économètres à l'ancienne qui voient SAS dans leur formation.

Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.

cedric.org · 5 février 2020

On 2/4/2020 at 11:39 AM, Solomos said:

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé.

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

Tu manques de buzzwords. Tensorflow. Keras. TPU.

Mathieu_D · 5 février 2020

1 hour ago, cedric.org said:

Tu manques de buzzwords. Tensorflow. Keras. TPU.

En deep learning c'est plutôt PyTorch la star en ce moment.

Connexion

Statistique & Data Science

Je raconte my life dans la data

Messages recommandés

Mathieu_D

cedric.org

Mathieu_D

Noob

Mathieu_D

Mathieu_D

cedric.org

Mathieu_D

cedric.org

Mathieu_D

Liber Pater

cedric.org

Mathieu_D

Noob

Liber Pater

Noob

Liber Pater

Noob

Mathieu_D

Mathieu_D

Mathieu_D

Solomos

Mathieu_D

Rincevent

Mathieu_D

Mathieu_D

Solomos

Mathieu_D

cedric.org

Mathieu_D

Naviguer

Activité