Jump to content
Sign in to follow this  
Mathieu_D

Je raconte my life dans la data

Recommended Posts

Comment ça me pête les couilles de déboguer du Sparklyr.

 

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

Share this post


Link to post
Share on other sites

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Share this post


Link to post
Share on other sites
21 minutes ago, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Le truc qui buzz sur ce segment https://databricks.com/blog/2019/06/06/announcing-the-mlflow-1-0-release.html

Share this post


Link to post
Share on other sites
1 hour ago, Mathieu_D said:

Comment ça me pête les couilles de déboguer du Sparklyr.

 

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

Tell me more.

Je connais très peu spark, mais en principe tout ce qui concerne la parallélisation touche surtout au nombre d'opération à effectuer sur chaque donnée (parce que ça entraine tout un tas de problèmes dès que ta tâche ne peux pas être redémarrée rapidement). Dans un cas extrême tu pourrais bénéficier de spark dès que tu as deux inputs, si ton pipeline est long, tu peux déjà être gagnant, non ?

Après si le pipeline est court que t'as peu de donnée et qu'en plus il y a pas de passage à l'échelle en vue, effectivement ça n' pas vraiment d'intérêt. 

 

Share this post


Link to post
Share on other sites
On 6/7/2019 at 11:52 PM, Noob said:

Tell me more.

Là on travaille sur une migration SAS vers R/Sparklyr. 

Les programmes SAS impliquent beaucoup de boucles et de créations de tables intermédiaires, ce que Spark n'aime pas.

On n'avait pas de spec' pour refactoriser le code intelligemment en partant de la fin et donc on a dû coller à la pensée du code originelle qui était optimisée pour de toutes autres contraintes. (+ l'aspect 10 générations de prestas...)

 

On travaille en Sparklyr l'api de référence pour faire du Spark en R. L'Api converti du code R/Dplyr en SparkSQL. 

Si on écrit trop de code avant de faire un point d'étape on se retrouve avec une requête monstrueuse et monstrueusement pas optimisée.

Donc il faut tâtonner, sachant que Spark est susceptible sur la gestion des blocs. (paradoxalement on a eu des erreurs out of memory sur des tables "small data", - ce qui apparemment est un symptôme de Spark qui n'arrive pas à paralléliser et fait n'importe quoi, sauf si on charge ces données dans la mémoire de Spark au départ plutôt que de partir d'un Parquet.

 

(Pour tout vous dire on a fait estimation*2 et on s'était engagé au forfait \o/ )

  • Yea 1

Share this post


Link to post
Share on other sites
On 6/7/2019 at 11:05 PM, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

Share this post


Link to post
Share on other sites
14 minutes ago, Mathieu_D said:

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Share this post


Link to post
Share on other sites
1 minute ago, cedric.org said:

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

Share this post


Link to post
Share on other sites
37 minutes ago, Mathieu_D said:

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Share this post


Link to post
Share on other sites

Personne pour commenter le rachat d'Altran par Cap Gemini ?

 

On 6/21/2019 at 12:55 AM, cedric.org said:

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Share this post


Link to post
Share on other sites
il y a 17 minutes, Mathieu_D a dit :

Personne pour commenter le rachat d'Altran par Cap Gemini ?

A part que j'ai doublé ma plus-value sur Altran ? :D

Je pense qu'il y a évidemment des synergies qui sont possibles, donc plutôt une bonne nouvelle pour les deux entreprises. On peut d'ailleurs s'attendre à une hausse de Capgemini. Altran est quasi à son prix d'achat (14€), et après le dividende qui arrive dans 2 jours elle va revenir à 14€. Par contre en prenant le total des capi Capgemini + Altran, on a une évolution des cours globale de 10% alors qu'ils annoncent un impact relutif de 15%.

Share this post


Link to post
Share on other sites
10 hours ago, Mathieu_D said:

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Ce n'est pas la mentalité de la boîte, on staffe une grosse équipe en interne pour avoir toute la connaissance et monter tout nous meme.

Share this post


Link to post
Share on other sites

Repris d'un collègue :

 

Quote

Quel peut être l'avenir de la programmation? Chacun a ses desiderata , mais en voici quelques uns :

  • un langage simple déclaratif
  • un langage où tout est symbolique et universel (on peut mélanger des objets de touts genres , ie lettres, images, chiffres, concepts, ...)
  • un langage où les données sont dans un espace logique accessible de partout, eg je veux accéder aux données de twitter, aux données meteo, aux données de la ratp, de mon cpu, ... , en une ligne de code
  • un langage qui offre des api pour presque tout, y compris la data science
  • un langage où il n'y a a rien à installer, juste ouvrir un notebook et c'est tout
  • un langage rapide

Ce langage existe déjà, et est un avant-goût de ce que l'on aura peut-être dans un avenir proche : c'est le Wolfram language , langage créé par le créateur de Mathematica.
Je vous laisse le découvrir avec les liens suivants :

 

Share this post


Link to post
Share on other sites
1 hour ago, Liber Pater said:

Wolfram

Par rapport à python ça donne quoi ? (dsl je découvre)

 

Share this post


Link to post
Share on other sites
il y a 14 minutes, Noob a dit :

Par rapport à python ça donne quoi ? (dsl je découvre)

 

Aucune idée :D

Share this post


Link to post
Share on other sites

J'ai vu que c'est un facteur 25x plus lent que C++ et un facteur 6x plus lent que java sur des benchmarks. Du coup ça doit être bien plus rapide que python en brut, mais c'est pas forcément pertinent parce que  python sert plus de driver haut niveau pour utiliser des bibliothèques très performantes derrière.

Share this post


Link to post
Share on other sites

Dans la programmation le cycle "langage de flux"* "code" me fascine.

 

1995-2000 : sql, sas, matlab, s

 

2005-2010 Spss modeler, SAS Miner, Informatica et autres étaient triomphants.

 

2015-2020 : Python /R/Sql

 

2020-2025 : AutoML, API Google ML, AWS ML, Azure ML.

 

Repeat...

 

Quoique que les notebooks melants code, flux et autres arrivent comme dit plus haut.

Share this post


Link to post
Share on other sites
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...