1. 6

La nostra ormai consueta rubrica di discussione sul carico di lavoro della settimana.

  1.  

  2. 3

    Per una volta mi permetto di partire io: sono preso con gli ultimi due esami del corso di laurea triennale, dopodiché potrò iniziare a lavorare a tempo pieno alla tesi, che avrà a che fare con la valutazione automatica del rischio privacy di un dataset oppure, se la mia relatrice troverà un progetto adatto, su un algoritmo di explanation dei risultati di una rete neurale (niente mi vieterà di mettere insieme questi due temi, ma ci penseremo poi).

    1. 2

      Daje per gli ultimi esami! 💪🏻

      Chiedo per curiosità, quando dici “valutazione automatica rischio privacy” cosa intendi di preciso? Avevo lavorato un po’ su k-anonymity ma non so se sto sbagliando comparison.

      1. 3

        Effettivamente mi sono spiegato male, scusami. Il framework che sto studiando prende un insieme di dati di mobilità (una sequenza di geolocalizzazioni di individui anonimizzati) e misura la probabilità che, prendendo sottoinsiemi del dataset a vari livelli di aggregazione e anonimizzazione, si possa risalire all’identificativo dell’utente Tizio conoscendo un insieme di informazioni quali “Tizio è stato nei luoghi X e Y” oppure “Tizio ha fatto 100 km questo mese”.

        1. 2

          Figo, mi sembra anche molto contemporanea come cosa visto le covid-tracking apps 😂

          1. 2

            In realtà tutta questa movimentazione di risorse è partita con il GDPR, ma con il covid la situazione sta tornando di attualità

    2. 3

      Ho uniformato le conversioni tra data type in tutto il sistema, tra parquet, numpy, codice C, file di configurazione e interfaccia utente.

      Continuerò la settimana produttizzando un’implementazione alternativa di un algoritmo che il data scientist mi ha buttato dal mio lato della barricata. Ho paura di cosa ci troverò.

      1. 2

        Da metà di settimana scorsa sto dando la caccia a informazioni interne della nostra piattaforma. Mi aspettavo di metterci due giorni, ma al momento ho già dovuto chiamare in causa:

        • due cluster MySQL per un totale di 3 DB
        • un SQL Server
        • un cluster Elasticsearch (3 indici)

        E sento che ne manca ancora…

        1. 2

          Per lavoro sto implementando un metodo euristico per risolvere una classe di problemi con importanti applicazioni nell’industria (pooling problem). I risultati preliminari sono molto incoraggianti.