Find Jobs
Hire Freelancers

Custom clustering code for making groups of related terms

$250-750 USD

Κλειστή
Αναρτήθηκε πάνω από 10 χρόνια πριν

$250-750 USD

Πληρωμή κατά την παράδοση
Write custom clustering code for making groups if related terms. SOURCE: The source information will be a set of N-dimensional vectors, where N is a set of words that often appear in the same paragraphs as other words. The input are topics generated from a proprietary corpus using latent Dirichlet allocation (LDA). We currently have a dozen vectors (each vector is a topic from LDA), and N ~= 300. We have a simple file format delimitated with newlines, "|" and ";". OUTPUT: Code should be in a compiled language, such as Fortran or C. You will probably use Group Average Agglomerative Clusterer. We used python NLTK as a proof of concept, and we had preliminary success. You can see our simple python. There will be additional weighting information, as we have additional data about the weights of some of the other N words between eachother. The algorithm is intended to have the degree of clustering depend on the initial similarity of the clusters. There will be 5, tightly related tasks: 1) Write compiled code for merging our source vectors. The result will be analogous to our python NLTK sample. 2) Add weighting information we provide. (We have weighting scores for some of the N terms, which will cause any cluster they are in to be more or less important.). Specifically, we have 100 themes. Example themes are "sports" and "food". We know that the word "apple" has a high weight for the "food" theme, and a low score for the "sports" theme. Therefore a cluster containing [apple, THEME:sports] would be weighted lower than a cluster containing [apple, THEME:food]. 3) Adjust similarities for a subset M of N terms, so they are less likely to be combined. For example, if M = [orange, apple], then two sets [orange, banana] and [pear, apple] would be considered more distant. (not the subset M is the same as the THEMES in #2). Not all M have different relationships. Some are negative or positive. e.g., food:sports = -1; but computer:science = 0.8. We will provide a list. 4) Add information from an additional set of W vectors. These vectors are sets of terms extracted from Wikipedia. For example, a vector in W would be all the outgoing links from a wikipedia article, with higher weights depending on their closeness to the start of the wikipedia article. 5) Filter to omit stopwords (will be provided), irrelevant parts of speech (tbd), duplicates (i.e., no word should be in >1 final cluster), and low-probability groups (eliminated). The output will be a list of potentially related terms.
Ταυτότητα εργασίας: 4755692

Σχετικά με την εργασία

6 προτάσεις
Απομακρυσμένη Εργασία
Ενεργός/ή 11 χρόνια πριν

Ψάχνεις τρόπο για να κερδίσεις μερικά χρήματα;

Πλεονεκτήματα πλειοδοσίας στο Freelancer

Καθόρισε τον προϋπολογισμό σου και το χρονοδιάγραμμα
Πληρώσου για τη δουλειά σου
Περίγραψε την πρόταση σου
Η εγγραφή και η πλειοδοσία σε εργασίες είναι δωρεάν
6 freelancers δίνουν μια μέση προσφορά $499 USD για αυτή τη δουλειά
Avatar Χρήστη
I'm experienced in efficient algorithm deployment. Let's discuss the best approach on your PMB.
$950 USD σε 20 ημέρες
5,0 (8 αξιολογήσεις)
7,1
7,1
Avatar Χρήστη
Hi, I have experience in Algorithms and Clustering methods. Let me help you. I am ready to start.
$421 USD σε 10 ημέρες
4,8 (15 αξιολογήσεις)
4,6
4,6
Avatar Χρήστη
Hi, I am expert in algorithms. I can do it.
$300 USD σε 7 ημέρες
5,0 (1 αξιολόγηση)
2,4
2,4
Avatar Χρήστη
I can provide you this clustering algorithm. Looking forward to work with you..
$300 USD σε 3 ημέρες
0,0 (2 αξιολογήσεις)
0,0
0,0
Avatar Χρήστη
PLEASE CHAK PMB
$333 USD σε 4 ημέρες
0,0 (0 αξιολογήσεις)
0,0
0,0
Avatar Χρήστη
PLEASE CHAK PMB
$555 USD σε 3 ημέρες
0,0 (0 αξιολογήσεις)
0,0
0,0
Avatar Χρήστη
Hello, I am interested of this project.
$300 USD σε 10 ημέρες
0,0 (0 αξιολογήσεις)
0,0
0,0
Avatar Χρήστη
hi, i can done it for U. please pm to me. thanks
$722 USD σε 20 ημέρες
0,0 (0 αξιολογήσεις)
0,0
0,0

Σχετικά με τον πελάτη

Σημαία της UNITED STATES
Rockville, United States
5,0
83
Επαληθευμένη μέθοδος πληρωμής
Μέλος από Ιουν 26, 2010

Επαλήθευση Πελάτη

Ευχαριστούμε! Σου έχουμε στείλει ένα email με ένα σύνδεσμο για να διεκδικήσεις τη δωρεάν πίστωση σου.
Κάτι πήγε στραβά κατά την προσπάθεια αποστολής του email σου. Παρακαλούμε δοκίμασε ξανά.
Εγγεγραμμένοι Χρήστες Συνολικές Αναρτημένες Δουλειές
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Φόρτωση προεπισκόπησης
Δόθηκε πρόσβαση για Geolocation.
Η σύνδεση σου έχει λήξει και τώρα έχεις αποσυνδεθεί. Παρακαλούμε συνδέσου ξανά.