Jump to content
Sign in to follow this  
Mathieu_D

Je raconte my life dans la data

Recommended Posts

En recherche, peut être, mais dans l'industrie je ne vois que du TF, pas vous ?

Share this post


Link to post
Share on other sites

 PyTorch pour le prototypage et TF pour la prod'.

Mais de l'autre côté de l'Atlantique PyTorch prend le dessus.

  • Yea 1

Share this post


Link to post
Share on other sites

Oui c'est vrai il y a un gros momentum... À voir si tf2 est la cassure finale (ça semble un peu chiant à upgrade) ou au contraire permet de réconcilier.

Share this post


Link to post
Share on other sites
On 2/4/2020 at 12:26 PM, Mathieu_D said:

Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.

 

Oui, en fait j'avais respecté le wording de l'annonce en disant "Data Science", mais bon, service conformité d'une banque + SAS, ça n'a trompé personne.

  • Haha 1

Share this post


Link to post
Share on other sites

Switch total du bureau d'étude vers du data pour moi, je viens de me prendre donc pleine face en une semaine:

l'ontologie, le data management, pandas et autre pyspark, jupyter et tout l'environnement de travail python.

Mais ça, c'était Lundi.

Mardi j'y ai ajouté SAFe sa race avec un bon PI planning des familles.

Mercredi j'y ai ajouté  le collag de l'ontologie de la donnée au processes de ma boite qui a une facheuse tendance à emboiter des objets sémantiques/logiques depuis 50 ans sans vraiment les définir en tant qu'objets IT.

Et Jeudi , parce que c'etait pas une semaine qui avait ASSEZ mis le bordel dans mon cerveau pour 6 mois, on m'a dit qu'il s'agissait d'un prérequis pour modéliser le tout dans un Knowledge Graph et que je devais me mettre à IQL.

Voilà, on est est vendredi, et le vendredi c'est ravioli, donc ce matin c’était caractérisation des objets en matrice de déviation IT/Data science et Process entreprise.

 

Bref, pour quelqu'un qui avait juste écrit une fonction lambda dans python avant de venir, c'était un peu dense. Voilà ce que c'est que de changer de métier pour cause de mid life crisis :D

 

  • Love 2

Share this post


Link to post
Share on other sites
On 2/4/2020 at 11:39 AM, Solomos said:

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. 

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

 

Ma boite a décidé de recruter sur profil pour avoir ce genre de profil dispo.

C'est moi qui vais faire passer le test SAS au candidat pour valider son niveau technique, je sais pas trop ou trouver un test SAS, Google ne m'aide pas trop pour le coup.

Je vais demander à mes collègues qui bossent dans des  cabinets plus gros.

 

C'est quand même plus sympa d'être du coté du recruteur.

  • Yea 1

Share this post


Link to post
Share on other sites

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris  ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

 

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS  ? Proc truc ou proc machin avec options bidules  ?  (sans doc)

 

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

  • Yea 1

Share this post


Link to post
Share on other sites
il y a 37 minutes, Mathieu_D a dit :

avec "paris", "Paris", "PARIS" comme libellé dans le champs ville

COLLATE Latin1_General_100_CI_AI for the win.

Share this post


Link to post
Share on other sites

Tiens fait du Bigquery en ce moment.

Ça marche bien.

Share this post


Link to post
Share on other sites

Bon sinon est-ce que quelqu'un peut me parler de Cap Gemini (Insights and Data) ici ?

Je suis assez avancé dans un process. (c'est plutôt moi qui freine)

 

J'me tâte.

Share this post


Link to post
Share on other sites

J'ai du mal avec les grosses SSII, mais c'est tout personnel. Je m'y suis toujours bien plus amusé chez un éditeur, encore plus côté start-up, ou tu peux vraiment créer quelque chose.

Share this post


Link to post
Share on other sites
On 2/26/2020 at 10:37 PM, Mathieu_D said:

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris  ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

 

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS  ? Proc truc ou proc machin avec options bidules  ?  (sans doc)

 

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

 

 

J'ai fait ça, du coup c'est plutôt un test base de données avec langage SAS.

S'il veut, il fera tout en Proc SQL sans problème,

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

  • Yea 1

Share this post


Link to post
Share on other sites
il y a 3 minutes, Solomos a dit :

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

Oh, really ?

Share this post


Link to post
Share on other sites
Just now, Rincevent said:

Oh, really ?

 

En compacité du code, en tout cas oui.

En temps de calcul, je pensais que oui, mais je me trompe peut-être (ou alors je fais pas la bonne combo de requête )

 

Attention, je parle de dédoublonnage suivant un critère, pas de faire le menage pour cleaner des pbs de DQ

Dans mon exemple, j'ai une table avec des RDV médicaux,  je veux sortir le prochain pour chacun des medécins

Share this post


Link to post
Share on other sites

Ça sert à ça les fonctions de fenêtrage, non ?

Share this post


Link to post
Share on other sites
2 hours ago, Rincevent said:

Ça sert à ça les fonctions de fenêtrage, non ?

 

Ah oui, ça marche aussi.

Share this post


Link to post
Share on other sites
On 2/26/2020 at 10:37 PM, Mathieu_D said:

avec "paris", "Paris", "PARIS"

 

Il m'a fait un WHERE City LIKE '%Paris%'

 

Jsuis sceptique sur le bonhomme

Share this post


Link to post
Share on other sites

Oui alors. J'ai une formation de 200 Heures dans la vie et je fais deja des tests distinct pour regarder un minimum la tête du dataset. je te confirme que c'est pas terrible.

Le mini je pense ca aurait été  WHERE UPPER(CITY) LIKE '%PARIS%', car quand on te fait tester une ville, clairement c'est sensé allumer une lumière sur la variabilité du format d'une string.

 

Après au vu des deux gonzes sortis d'école dans l'equipe, j'ai l’impression que le wrangling et particulierement la complétude et la tangente aux gold standards ca passe carrément à la trappe.

 

 

Share this post


Link to post
Share on other sites

Dans mon test, c'était un prénom composé et un nom à particule. 

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ') 

 

En plus, il a fait d'autres erreurs.

Share this post


Link to post
Share on other sites

oui ben c'est fail alors.

- Les noms prénoms tout le monde sait que ça pue.

- Il aurait du se le dire de lui même car c'est du niveau data +2 mois.

- Il l'a pas fait bien que tu lui ais dis

- Le minimum en vrai c'est de faire une ptite fonction qui sort tous les caractères et tuer tous les potentiels casse burnes, et on parle même pas re regex juste de replace.

 

Et en plus il a pas zélé alors que c'est pour une demande de taf, ce qui veut dire que le mindset est aux fraises.

  • Yea 1

Share this post


Link to post
Share on other sites

Bon après Cap Gé j'ai avance dans un process pour un cabinet data d'une vingtaine de personnes où ils sont bons en alimentation, DQ, et gouvernance mais  pas Data Science. (où ils veulent être meilleurs et ont déjà quelques jeunes et en projettent plus)

 

Autre ambiance.

Share this post


Link to post
Share on other sites
Il y a 4 heures, Solomos a dit :

Dans mon test, c'était un prénom composé et un nom à particule. 

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ') 

 

En plus, il a fait d'autres erreurs.

Pour les caractères spéciaux, j'ai fait l'autre jour une fonction dédiée qui prend chaîne à corriger et masque / liste de caractères, et qui te purge ta chaîne de tout ce qui n'est pas dans ton masque/liste ; et pour le sport elle fait ça avec ce qui se rapproche le plus du Map/Reduce en SQL (respectivement un produit cartésien avec une tally table, et un équivalent de Group_Concat).

 

Pour la casse, COLLATE Latin1_General_CI_AI et le tour est joué.

Share this post


Link to post
Share on other sites
Sign in to follow this  

×
×
  • Create New...