use BulkTanimotoSimilarity instead of pairwise FingerprintSimilarity loops

**Summary:** Tc is currently computed via pairwise `FingerprintSimilarity` loops and can be accelerated using `BulkTanimotoSimilarity`.

While profiling Tc-based nearest-neighbor computations, I noticed that `FingerprintSimilarity(fp1, fp2)` is used inside nested Python loops.

https://github.com/skinniderlab/CLM/blob/2cf5e22c241387f65cf88a809755cf8b80716c67/src/clm/commands/write_nn_Tc.py#L63
https://github.com/skinniderlab/CLM/blob/2cf5e22c241387f65cf88a809755cf8b80716c67/src/clm/commands/write_structural_prior_CV.py#L169
https://github.com/skinniderlab/CLM/blob/2cf5e22c241387f65cf88a809755cf8b80716c67/src/clm/commands/create_training_sets.py#L136
https://github.com/skinniderlab/CLM/blob/2cf5e22c241387f65cf88a809755cf8b80716c67/src/clm/functions.py#L408

RDKit provides a bulk API (`BulkTanimotoSimilarity`) that computes the same Tanimoto scores but is significantly faster for this use case. Here is a simple [benchmark](https://gist.github.com/seungchan-an/7adc53a4667186fdba9bc6a653293a9c) comparing the following approaches. Using Morgan bit vectors, all methods produced identical outputs, but performance differed substantially:
- pairwise `FingerprintSimilarity`: ~32 sec
- pairwise `TanimotoSimilarity`: ~24 sec
- `BulkTanimotoSimilarity`: ~1.4 sec

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

use BulkTanimotoSimilarity instead of pairwise FingerprintSimilarity loops #286

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

use BulkTanimotoSimilarity instead of pairwise FingerprintSimilarity loops #286

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions