Data Science
€30-250 EUR
Πληρώθηκε κατά την παράδοση
1. Κατεβάστε 5 σύνολα δεδομένων clustering από το UCI machine learning repository
([url removed, login to view]). Για καθένα από αυτά:
a. Τρέξτε τον αλγόριθμο k-means με διαφορετικό αριθμό clusters, περιλαμβανόμενου και
του σωστού τους πλήθους. Να χρησιμοποιήσετε ευκλείδεια συνάρτηση ομοιότητας.
Κάνετε διαγράμματα της σύγκλισης του αλγορίθμου, και της κατανομής των δεδομένων
σε clusters. Συγκρίνετε την τελευταία με την σωστή κατανομή των δεδομένων σε clusters,
όπως δίνεται από τους δημιουργούς των datasets («groundtruths»). Τι παρατηρείτε
καθώς αλλάζει το πλήθος των clusters σε σχέση με την τιμή της αντικειμενικής
συνάρτησης; Πώς το εξηγείτε;
b. Επαναλάβετε τα παραπάνω με χρήση Gaussian mixture models και απαντήσετε σε όλα τα
αντίστοιχα ερωτήματα του ερωτήματος (a). Θεωρήσετε στην ανάλυσή σας τόσο full όσο
και diagonal covariance matrices. Τι διαφορές παρατηρείτε στην επίδοση των δυο setups;
2. Βασισμένοι στο σχετικό demo του μαθήματος1, χρησιμοποιήστε την συλλογή κειμένων
20newsgroups dataset για να εκπαιδεύσετε ένα μοντέλο μάθησης topics με χρήση nonnegative
matrix factorization. Όπως και στο demo, αναπαραστήσετε κάθε κείμενο μέσω της
tf-idf αναπαράστασης, όπου κάθε κείμενο αντιπροσωπεύεται από έναν συνδυασμό της
σχετικής συχνότητας κάθε λήμματος σε ένα κείμενο, και της αντίστροφης σχετικής της
συχνότητας σε όλα τα κείμενα του corpus.
a. Δοκιμάστε τον αλγόριθμο με τουλάχιστον 5 διαφορετικές επιλογές του πλήθους των
latent features. Τι παρατηρείτε ως προς την σύγκλιση και τα υπολογιστικά κόστη; Που το
αποδίδετε;
b. Δοκιμάστε τον αλγόριθμο με τουλάχιστον 5 διαφορετικές επιλογές του πλήθους των
inferred topics. Τι παρατηρείτε ως προς την σύγκλιση και τα υπολογιστικά κόστη; Που το
αποδίδετε;
c. Τι συμβαίνει αν αυξήσουμε τον αριθμό των δειγμάτων ως προς την σύγκλιση και τα
υπολογιστικά κόστη; Που το αποδίδετε;
3. Φτιάξετε ένα σύστημα που να προβλέπει
4. Κατεβάστε τα datasets από: https://archive.ics.uci.edu/ml/datasets/UJI+Pen+Characters.
Χρησιμοποιήστε ΗΜΜ μοντέλα που θα εκπαιδευθούν με αυτά τα δεδομένα για να φτιάξετε
ένα σύστημα που μπορεί να αναγνωρίζει γραφή. Δοκιμάστε ΗΜΜ μοντέλα με διαφορετικό
πλήθος καταστάσεων. Τι παρατηρείτε ως προς την σύγκλιση, την ακρίβεια αναγνώρισης, και
τα υπολογιστικά κόστη; Πως ερμηνεύετε τα φαινόμενα με βάση την θεωρία που έχετε
διδαχθεί;
1 http://scikitlearn.
org/stable/auto_examples/applications/topics_extraction_with_nmf.html#exampleapplications-
topics-extraction-with-nmf-py
Ταυτότητα Εργασίας: #8924534
Σχετικά με την εργασία
1 freelancer κάνει προσφορά κατά μέσο όρο €222 για αυτή τη δουλειά
Hi, I am a Computational Biologist and have advanced skills in R and python programming. I implemented many machine learning algorithms to analysis biological datasets. Response me only if you can work in English. Περισσότερα