Aller au contenu

Je raconte my life dans la data


Messages recommandés

On 2/4/2020 at 12:26 PM, Mathieu_D said:

Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.

 

Oui, en fait j'avais respecté le wording de l'annonce en disant "Data Science", mais bon, service conformité d'une banque + SAS, ça n'a trompé personne.

  • Haha 1
Lien vers le commentaire
  • 3 weeks later...

Switch total du bureau d'étude vers du data pour moi, je viens de me prendre donc pleine face en une semaine:

l'ontologie, le data management, pandas et autre pyspark, jupyter et tout l'environnement de travail python.

Mais ça, c'était Lundi.

Mardi j'y ai ajouté SAFe sa race avec un bon PI planning des familles.

Mercredi j'y ai ajouté  le collag de l'ontologie de la donnée au processes de ma boite qui a une facheuse tendance à emboiter des objets sémantiques/logiques depuis 50 ans sans vraiment les définir en tant qu'objets IT.

Et Jeudi , parce que c'etait pas une semaine qui avait ASSEZ mis le bordel dans mon cerveau pour 6 mois, on m'a dit qu'il s'agissait d'un prérequis pour modéliser le tout dans un Knowledge Graph et que je devais me mettre à IQL.

Voilà, on est est vendredi, et le vendredi c'est ravioli, donc ce matin c’était caractérisation des objets en matrice de déviation IT/Data science et Process entreprise.

 

Bref, pour quelqu'un qui avait juste écrit une fonction lambda dans python avant de venir, c'était un peu dense. Voilà ce que c'est que de changer de métier pour cause de mid life crisis :D

 

  • Love 2
Lien vers le commentaire
On 2/4/2020 at 11:39 AM, Solomos said:

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé. 

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

 

Ma boite a décidé de recruter sur profil pour avoir ce genre de profil dispo.

C'est moi qui vais faire passer le test SAS au candidat pour valider son niveau technique, je sais pas trop ou trouver un test SAS, Google ne m'aide pas trop pour le coup.

Je vais demander à mes collègues qui bossent dans des  cabinets plus gros.

 

C'est quand même plus sympa d'être du coté du recruteur.

  • Yea 1
Lien vers le commentaire

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris  ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

 

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS  ? Proc truc ou proc machin avec options bidules  ?  (sans doc)

 

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

  • Yea 1
Lien vers le commentaire
On 2/26/2020 at 10:37 PM, Mathieu_D said:

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris  ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

 

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS  ? Proc truc ou proc machin avec options bidules  ?  (sans doc)

 

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

 

 

J'ai fait ça, du coup c'est plutôt un test base de données avec langage SAS.

S'il veut, il fera tout en Proc SQL sans problème,

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

  • Yea 1
Lien vers le commentaire
il y a 3 minutes, Solomos a dit :

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

Oh, really ?

Lien vers le commentaire
Just now, Rincevent said:

Oh, really ?

 

En compacité du code, en tout cas oui.

En temps de calcul, je pensais que oui, mais je me trompe peut-être (ou alors je fais pas la bonne combo de requête )

 

Attention, je parle de dédoublonnage suivant un critère, pas de faire le menage pour cleaner des pbs de DQ

Dans mon exemple, j'ai une table avec des RDV médicaux,  je veux sortir le prochain pour chacun des medécins

Lien vers le commentaire

Oui alors. J'ai une formation de 200 Heures dans la vie et je fais deja des tests distinct pour regarder un minimum la tête du dataset. je te confirme que c'est pas terrible.

Le mini je pense ca aurait été  WHERE UPPER(CITY) LIKE '%PARIS%', car quand on te fait tester une ville, clairement c'est sensé allumer une lumière sur la variabilité du format d'une string.

 

Après au vu des deux gonzes sortis d'école dans l'equipe, j'ai l’impression que le wrangling et particulierement la complétude et la tangente aux gold standards ca passe carrément à la trappe.

 

 

Lien vers le commentaire

Dans mon test, c'était un prénom composé et un nom à particule. 

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ') 

 

En plus, il a fait d'autres erreurs.

Lien vers le commentaire

oui ben c'est fail alors.

- Les noms prénoms tout le monde sait que ça pue.

- Il aurait du se le dire de lui même car c'est du niveau data +2 mois.

- Il l'a pas fait bien que tu lui ais dis

- Le minimum en vrai c'est de faire une ptite fonction qui sort tous les caractères et tuer tous les potentiels casse burnes, et on parle même pas re regex juste de replace.

 

Et en plus il a pas zélé alors que c'est pour une demande de taf, ce qui veut dire que le mindset est aux fraises.

  • Yea 1
Lien vers le commentaire

Bon après Cap Gé j'ai avance dans un process pour un cabinet data d'une vingtaine de personnes où ils sont bons en alimentation, DQ, et gouvernance mais  pas Data Science. (où ils veulent être meilleurs et ont déjà quelques jeunes et en projettent plus)

 

Autre ambiance.

Lien vers le commentaire
Il y a 4 heures, Solomos a dit :

Dans mon test, c'était un prénom composé et un nom à particule. 

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ') 

 

En plus, il a fait d'autres erreurs.

Pour les caractères spéciaux, j'ai fait l'autre jour une fonction dédiée qui prend chaîne à corriger et masque / liste de caractères, et qui te purge ta chaîne de tout ce qui n'est pas dans ton masque/liste ; et pour le sport elle fait ça avec ce qui se rapproche le plus du Map/Reduce en SQL (respectivement un produit cartésien avec une tally table, et un équivalent de Group_Concat).

 

Pour la casse, COLLATE Latin1_General_CI_AI et le tour est joué.

Lien vers le commentaire
  • 2 months later...

Mais bordel, qui a eu l'idée de fare une SP parfaitement monolithique sur des milliers de lignes pour pondre et exécuter un Merge dynamique ? Un merge basé sur une HashColumn en plus ? Une hashcolumn même pas capable de distinguer deux datetimes dont les Time sont différents ? Et d'où on a du datetime quand Date suffit ou que DateTime2 est disponible ?

 

:wallbash: 

Lien vers le commentaire

Je suis bien placé pour un poste de Lead Data Scientist dans une banque nouvellement rachetée par la BPCE.

 

Je me tâte.

 

J'ai pas mal revu mes priorités avec le confinement peut être qu'il vaut mieux que je sois interné maintenant.

Lien vers le commentaire

Mon frangin qui développe un site de compta en ligne a besoin de passer l'étape mysql maison sur un serveur OVH (situation qui traine depuis beaucoup trop longtemps) vers un support sql digne de ce nom, avec backup des bases , évidemment.Il stocke actuellement 7Go de data, et ça peut grossir raisonnablement dans les 5 prochaines années.

Les besoins IT ont l'air relativement bas au vu des KPI maison.


Avez vous vous une idée des offres qui correspondent à ce genre de projet ?

 

La particularité, c'est qu'il a construit une DB par client, plutôt qu'un ensemble de table dans une DB unique . (Il s'était dit à l'époque, débutant innocemment dans l'architecture DB qu'il y avait peut être une limite dans le nombre de table avant que ça rame sur un serveur basique) Aujourd'hui il est sur 100000 Tables , reparties sur 500 DB...

On pensait innocemment AWSer, mais ces bananes font payer à la database:D A noter qu'il y a moyen de repasser sur une structure 100K table dans une base avec un fros effort de gestion et un hack de son code pour l'attaquer, mais bon si il peut éviter de planter l'outil en production ....

Lien vers le commentaire

Yes. Façon la clé est dans chaque nom de DB, et il y a forcement un code au dessus pour le gérer, donc c'est réinjectable. Je pense juste que dans un premier temps il ne comptait pas toucher sa classe d'attaque des bases pour être sûr que ça plante pas. Le genre de DEv ou tu as pas touché a certains portions du code depuis 5 ans et vu qu'il y a eu aucune review quand ca marche, ca marche :D

Lien vers le commentaire

Sinon on peut invoquer @Rincevent mais je pense qu'en remodélisant un peu ça tient dans un MySQL basique vu la volumétrie invoquée.

(Mais ça reviendra peut être moins cher de tout foutre tel quel dans un redshift par exemple plutôt que de repenser le modèle, il faut sortir la calculatrice de la résolution de la dette technique.)

Lien vers le commentaire
×
×
  • Créer...