Jump to content

Je raconte my life dans la data


Recommended Posts

Comment ça me pête les couilles de déboguer du Sparklyr.

 

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

Link to comment

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Link to comment
21 minutes ago, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Le truc qui buzz sur ce segment https://databricks.com/blog/2019/06/06/announcing-the-mlflow-1-0-release.html

Link to comment
1 hour ago, Mathieu_D said:

Comment ça me pête les couilles de déboguer du Sparklyr.

 

J'ai été faible, ça m'apprendra, je n'ai pas insisté pour dire qu'en "little data" c'était contre-productif, et que Spark passe plus de temps à calculer comment paralléliser qu'à exécuter vraiment des calculs.

Tell me more.

Je connais très peu spark, mais en principe tout ce qui concerne la parallélisation touche surtout au nombre d'opération à effectuer sur chaque donnée (parce que ça entraine tout un tas de problèmes dès que ta tâche ne peux pas être redémarrée rapidement). Dans un cas extrême tu pourrais bénéficier de spark dès que tu as deux inputs, si ton pipeline est long, tu peux déjà être gagnant, non ?

Après si le pipeline est court que t'as peu de donnée et qu'en plus il y a pas de passage à l'échelle en vue, effectivement ça n' pas vraiment d'intérêt. 

 

Link to comment
  • 2 weeks later...
On 6/7/2019 at 11:52 PM, Noob said:

Tell me more.

Là on travaille sur une migration SAS vers R/Sparklyr. 

Les programmes SAS impliquent beaucoup de boucles et de créations de tables intermédiaires, ce que Spark n'aime pas.

On n'avait pas de spec' pour refactoriser le code intelligemment en partant de la fin et donc on a dû coller à la pensée du code originelle qui était optimisée pour de toutes autres contraintes. (+ l'aspect 10 générations de prestas...)

 

On travaille en Sparklyr l'api de référence pour faire du Spark en R. L'Api converti du code R/Dplyr en SparkSQL. 

Si on écrit trop de code avant de faire un point d'étape on se retrouve avec une requête monstrueuse et monstrueusement pas optimisée.

Donc il faut tâtonner, sachant que Spark est susceptible sur la gestion des blocs. (paradoxalement on a eu des erreurs out of memory sur des tables "small data", - ce qui apparemment est un symptôme de Spark qui n'arrive pas à paralléliser et fait n'importe quoi, sauf si on charge ces données dans la mémoire de Spark au départ plutôt que de partir d'un Parquet.

 

(Pour tout vous dire on a fait estimation*2 et on s'était engagé au forfait \o/ )

  • Yea 1
Link to comment
On 6/7/2019 at 11:05 PM, cedric.org said:

Ah ça me fait penser que je vais bientôt mettre en place en tant que devops une pipeline ML en collaboration avec un data engineer et des data scientists. Du coup je vais regarder de près des trucs du style kubeflow, spark, etc. Pour l'instant on a des bouts de scotch autour de keras / tensorflow qui marchent pas trop mal mais qui sont horribles à maintenir et pas du tout optimisés. Et je n'ai jamais regardé de près donc je n'y comprends pas grand chose.

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

Link to comment
14 minutes ago, Mathieu_D said:

Oui au fait dit t'as pas besoin de prestas par hasard ou tu n'as pas un AO sous le coude ?

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Link to comment
1 minute ago, cedric.org said:

Non mais on recrute comme des brutes les profils de data engineer et surtout data scientists avec une grosse montée en puissance.

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

Link to comment
37 minutes ago, Mathieu_D said:

Si je me souviens bien tu es indep', tu parles de ton client audiovisuel là qui recrute en interne c'est ça ?

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Link to comment

Personne pour commenter le rachat d'Altran par Cap Gemini ?

 

On 6/21/2019 at 12:55 AM, cedric.org said:

J'ai quitté le monde de l'audiovisuel, je suis dans le monde ultra-liberal de l'optimisation de CA. Et j'ai été internalise suite à une proposition difficile à refuser.

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Link to comment
il y a 17 minutes, Mathieu_D a dit :

Personne pour commenter le rachat d'Altran par Cap Gemini ?

A part que j'ai doublé ma plus-value sur Altran ? :D

Je pense qu'il y a évidemment des synergies qui sont possibles, donc plutôt une bonne nouvelle pour les deux entreprises. On peut d'ailleurs s'attendre à une hausse de Capgemini. Altran est quasi à son prix d'achat (14€), et après le dividende qui arrive dans 2 jours elle va revenir à 14€. Par contre en prenant le total des capi Capgemini + Altran, on a une évolution des cours globale de 10% alors qu'ils annoncent un impact relutif de 15%.

Link to comment
10 hours ago, Mathieu_D said:

Tu es sûr en passant que tu n'as pas besoin de prestas de qualitay ?

Ce n'est pas la mentalité de la boîte, on staffe une grosse équipe en interne pour avoir toute la connaissance et monter tout nous meme.

Link to comment

Repris d'un collègue :

 

Quote

Quel peut être l'avenir de la programmation? Chacun a ses desiderata , mais en voici quelques uns :

  • un langage simple déclaratif
  • un langage où tout est symbolique et universel (on peut mélanger des objets de touts genres , ie lettres, images, chiffres, concepts, ...)
  • un langage où les données sont dans un espace logique accessible de partout, eg je veux accéder aux données de twitter, aux données meteo, aux données de la ratp, de mon cpu, ... , en une ligne de code
  • un langage qui offre des api pour presque tout, y compris la data science
  • un langage où il n'y a a rien à installer, juste ouvrir un notebook et c'est tout
  • un langage rapide

Ce langage existe déjà, et est un avant-goût de ce que l'on aura peut-être dans un avenir proche : c'est le Wolfram language , langage créé par le créateur de Mathematica.
Je vous laisse le découvrir avec les liens suivants :

 

Link to comment

J'ai vu que c'est un facteur 25x plus lent que C++ et un facteur 6x plus lent que java sur des benchmarks. Du coup ça doit être bien plus rapide que python en brut, mais c'est pas forcément pertinent parce que  python sert plus de driver haut niveau pour utiliser des bibliothèques très performantes derrière.

Link to comment

Dans la programmation le cycle "langage de flux"* "code" me fascine.

 

1995-2000 : sql, sas, matlab, s

 

2005-2010 Spss modeler, SAS Miner, Informatica et autres étaient triomphants.

 

2015-2020 : Python /R/Sql

 

2020-2025 : AutoML, API Google ML, AWS ML, Azure ML.

 

Repeat...

 

Quoique que les notebooks melants code, flux et autres arrivent comme dit plus haut.

Link to comment
  • 4 months later...

Pas moi, pour Gephi.

 

Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..)  ?

Link to comment
50 minutes ago, Solomos said:

Est-ce que qqun ici aurait dans son réseau un consultant MOA Big Data qui connait bien Spark, Hadoop, idéalement Apache Parquet, disponible sur Paris fin janvier/ébut février et connaissant un peu la question des risques financiers (VaR, PD, ..)  ?

 

J'peux fournir de l'archi Big Data mais je n'ai pas sous le coude je crois de profils risques et pas d'indep'.

(c'est bizarre des connaissances spécifiques en Parquet, c'est juste le csv du big data en soi)

 

Tu veux en parler en MP ? 

Link to comment
Le 13/11/2019 à 16:30, Mathieu_D a dit :

Est-ce que quelqu'un ici a déjà fait de l'analyse de réseaux avec Gephi par hasard ?

J'ai calculé des clôtures transitives de graphes par le passé, mais c'était en SQL seul. :icon_surpris: (Une vague histoire de grappes de clients et de comptes).

 

Il y a 2 heures, Mathieu_D a dit :

le csv du big data

Ça donne envie, dis-donc. :icon_tourne:

Link to comment
  • 1 month later...
  • 1 month later...

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. 

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

Link to comment

Sur Paname c'est très chaud en effet. (grosse concurrence sur le recrutement  - ma boîte a renoncé et ne démarche plus que des marocains et tunisiens de là bas qui veulent un sponsor pour venir -)

Pour ta mission tu devrais cibler de jeunes économètres à l'ancienne qui voient SAS dans leur formation.

 

Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.

Link to comment
On 2/4/2020 at 11:39 AM, Solomos said:

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. 

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

Tu manques de buzzwords. Tensorflow. Keras. TPU.

Link to comment
×
×
  • Create New...