diff --git a/notebook/examples.ipynb b/notebook/examples.ipynb index a8ebc78..7038c8c 100644 --- a/notebook/examples.ipynb +++ b/notebook/examples.ipynb @@ -2,24 +2,22 @@ "cells": [ { "cell_type": "code", - "execution_count": 3, + "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Using device CPU with 8 CPUs\n", + "Sequence 1 has lower than expected score for typical antibody sequences. Please inspect further for errors or misclassification.\n", + "Sequence 2 has lower than expected score for typical antibody sequences. Please inspect further for errors or misclassification.\n", "\n", "dict_keys(['Sequence 1', 'Sequence 2', 'Sequence 3', 'Sequence 4'])\n", "\n", - "numbering : [((1, ' '), 'A'), ((2, ' '), 'Q'), ((3, ' '), 'S'), ((4, ' '), 'V'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'L'), ((8, ' '), 'G'), ((9, ' '), 'S'), ((10, ' '), 'H'), ((11, ' '), 'V'), ((12, ' '), 'S'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'E'), ((16, ' '), 'G'), ((17, ' '), 'A'), ((18, ' '), 'L'), ((19, ' '), 'V'), ((20, ' '), 'L'), ((21, ' '), 'L'), ((22, ' '), 'R'), ((23, ' '), 'C'), ((24, ' '), 'N'), ((25, ' '), 'Y'), ((26, ' '), 'S'), ((27, ' '), 'S'), ((28, ' '), 'S'), ((29, ' '), 'V'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'P'), ((37, ' '), 'P'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'F'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'V'), ((44, ' '), 'Q'), ((45, ' '), 'Y'), ((46, ' '), 'P'), ((47, ' '), 'N'), ((48, ' '), 'Q'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'Q'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'L'), ((55, ' '), 'K'), ((56, ' '), 'Y'), ((57, ' '), 'T'), ((58, ' '), 'S'), ((59, ' '), 'A'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'A'), ((63, ' '), 'T'), ((64, ' '), 'L'), ((65, ' '), 'V'), ((66, ' '), 'K'), ((67, ' '), 'G'), ((68, ' '), 'I'), ((69, ' '), '-'), ((70, ' '), '-'), ((71, ' '), '-'), ((72, ' '), '-'), ((73, ' '), '-'), ((74, ' '), 'N'), ((75, ' '), 'G'), ((76, ' '), 'F'), ((77, ' '), 'E'), ((78, ' '), 'A'), ((79, ' '), 'E'), ((80, ' '), 'F'), ((81, ' '), 'K'), ((82, ' '), 'K'), ((83, ' '), 'S'), ((84, ' '), 'E'), ((85, ' '), 'T'), ((86, ' '), 'S'), ((87, ' '), 'F'), ((88, ' '), 'H'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'K'), ((92, ' '), 'P'), ((93, ' '), 'S'), ((94, ' '), 'A'), ((95, ' '), 'H'), ((96, ' '), 'M'), ((97, ' '), 'S'), ((98, ' '), 'D'), ((99, ' '), 'A'), ((100, ' '), 'A'), ((101, ' '), 'E'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'V'), ((107, ' '), 'S'), ((108, ' '), 'E'), ((109, ' '), 'Q'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'D'), ((114, ' '), 'D'), ((115, ' '), 'K'), ((116, ' '), 'I'), ((117, ' '), 'I'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'K'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'R'), ((124, ' '), 'L'), ((125, ' '), 'H'), ((126, ' '), 'I'), ((127, ' '), 'L'), ((128, ' '), 'P')]\n", - "chain_type : A\n", - "score : 32.16792297363281\n", - "query_start : 0\n", - "query_end : 111\n", - "error : None\n", - "scheme : imgt\n" + "Sequence 1 : {'numbering': [((1, ' '), 'A'), ((2, ' '), 'Q'), ((3, ' '), 'S'), ((4, ' '), 'V'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'L'), ((8, ' '), 'G'), ((9, ' '), 'S'), ((10, ' '), 'H'), ((11, ' '), 'V'), ((12, ' '), 'S'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'E'), ((16, ' '), 'G'), ((17, ' '), 'A'), ((18, ' '), 'L'), ((19, ' '), 'V'), ((20, ' '), 'L'), ((21, ' '), 'L'), ((22, ' '), 'R'), ((23, ' '), 'C'), ((24, ' '), 'N'), ((25, ' '), 'Y'), ((26, ' '), 'S'), ((27, ' '), 'S'), ((28, ' '), 'S'), ((29, ' '), 'V'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'P'), ((37, ' '), 'P'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'F'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'V'), ((44, ' '), 'Q'), ((45, ' '), 'Y'), ((46, ' '), 'P'), ((47, ' '), 'N'), ((48, ' '), 'Q'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'Q'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'L'), ((55, ' '), 'K'), ((56, ' '), 'Y'), ((57, ' '), 'T'), ((58, ' '), 'S'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), 'A'), ((65, ' '), 'A'), ((66, ' '), 'T'), ((67, ' '), 'L'), ((68, ' '), 'V'), ((69, ' '), 'K'), ((70, ' '), 'G'), ((71, ' '), 'I'), ((72, ' '), 'N'), ((73, ' '), '-'), ((74, ' '), '-'), ((75, ' '), 'G'), ((76, ' '), 'F'), ((77, ' '), 'E'), ((78, ' '), 'A'), ((79, ' '), 'E'), ((80, ' '), 'F'), ((81, ' '), 'K'), ((82, ' '), 'K'), ((83, ' '), 'S'), ((84, ' '), 'E'), ((85, ' '), 'T'), ((86, ' '), 'S'), ((87, ' '), 'F'), ((88, ' '), 'H'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'K'), ((92, ' '), 'P'), ((93, ' '), 'S'), ((94, ' '), 'A'), ((95, ' '), 'H'), ((96, ' '), 'M'), ((97, ' '), 'S'), ((98, ' '), 'D'), ((99, ' '), 'A'), ((100, ' '), 'A'), ((101, ' '), 'E'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'V'), ((107, ' '), 'S'), ((108, ' '), 'E'), ((109, ' '), 'Q'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'D'), ((114, ' '), 'D'), ((115, ' '), 'K'), ((116, ' '), 'I'), ((117, ' '), 'I'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'K'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'R'), ((124, ' '), 'L'), ((125, ' '), 'H'), ((126, ' '), 'I'), ((127, ' '), 'L'), ((128, ' '), '-')], 'chain_type': 'K', 'score': 19.414453506469727, 'query_start': 0, 'query_end': 110, 'error': None, 'scheme': 'imgt'}\n", + "Sequence 2 : {'numbering': [((1, ' '), '-'), ((2, ' '), '-'), ((3, ' '), '-'), ((4, ' '), '-'), ((5, ' '), '-'), ((6, ' '), '-'), ((7, ' '), '-'), ((8, ' '), '-'), ((9, ' '), '-'), ((10, ' '), '-'), ((11, ' '), '-'), ((12, ' '), '-'), ((13, ' '), '-'), ((14, ' '), '-'), ((15, ' '), '-'), ((16, ' '), '-'), ((17, ' '), '-'), ((18, ' '), '-'), ((19, ' '), '-'), ((20, ' '), '-'), ((21, ' '), '-'), ((22, ' '), '-'), ((23, ' '), '-'), ((24, ' '), '-'), ((25, ' '), '-'), ((26, ' '), '-'), ((27, ' '), '-'), ((28, ' '), '-'), ((29, ' '), '-'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), '-'), ((37, ' '), '-'), ((38, ' '), '-'), ((39, ' '), '-'), ((40, ' '), '-'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'D'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'L'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'R'), ((52, ' '), 'L'), ((53, ' '), 'I'), ((54, ' '), 'Y'), ((55, ' '), 'Y'), ((56, ' '), 'S'), ((57, ' '), 'F'), ((58, ' '), 'D'), ((59, ' '), 'V'), ((60, ' '), 'K'), ((61, ' '), 'D'), ((62, ' '), 'I'), ((63, ' '), 'N'), ((64, ' '), 'K'), ((65, ' '), 'G'), ((66, ' '), 'E'), ((67, ' '), 'I'), ((68, ' '), 'S'), ((69, ' '), 'D'), ((70, ' '), 'G'), ((71, ' '), 'Y'), ((72, ' '), 'S'), ((73, ' '), '-'), ((74, ' '), '-'), ((75, ' '), '-'), ((76, ' '), '-'), ((77, ' '), '-'), ((78, ' '), 'V'), ((79, ' '), 'S'), ((80, ' '), 'R'), ((81, ' '), 'Q'), ((82, ' '), '-'), ((83, ' '), 'A'), ((84, ' '), 'Q'), ((85, ' '), 'A'), ((86, ' '), 'K'), ((87, ' '), 'F'), ((88, ' '), 'S'), ((89, ' '), 'L'), ((90, ' '), 'S'), ((91, ' '), 'L'), ((92, ' '), 'E'), ((93, ' '), 'S'), ((94, ' '), 'A'), ((95, ' '), 'I'), ((96, ' '), 'P'), ((97, ' '), 'N'), ((98, ' '), 'Q'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'L'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'T'), ((107, ' '), 'S'), ((108, ' '), 'D'), ((109, ' '), 'E'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'S'), ((114, ' '), 'Y'), ((115, ' '), 'G'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'S'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'R'), ((124, ' '), 'L'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'V'), ((128, ' '), 'E')], 'chain_type': 'H', 'score': 19.768274307250977, 'query_start': 32, 'query_end': 110, 'error': None, 'scheme': 'imgt'}\n", + "Sequence 3 : {'numbering': [((1, ' '), 'E'), ((2, ' '), 'I'), ((3, ' '), 'V'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'S'), ((8, ' '), 'P'), ((9, ' '), 'D'), ((10, ' '), 'T'), ((11, ' '), 'L'), ((12, ' '), 'S'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'E'), ((18, ' '), 'R'), ((19, ' '), 'A'), ((20, ' '), 'T'), ((21, ' '), 'L'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'R'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'E'), ((28, ' '), 'S'), ((29, ' '), 'I'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'S'), ((37, ' '), 'S'), ((38, ' '), 'N'), ((39, ' '), 'L'), ((40, ' '), 'A'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'Q'), ((44, ' '), 'Q'), ((45, ' '), 'K'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'V'), ((50, ' '), 'P'), ((51, ' '), 'R'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'G'), ((57, ' '), 'A'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'T'), ((67, ' '), 'R'), ((68, ' '), 'A'), ((69, ' '), 'T'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'P'), ((73, ' '), '-'), ((74, ' '), 'A'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'T'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'E'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'Q'), ((96, ' '), 'S'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'F'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'Q'), ((106, ' '), 'Q'), ((107, ' '), 'Y'), ((108, ' '), 'N'), ((109, ' '), 'N'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'R'), ((114, ' '), 'L'), ((115, ' '), 'P'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'E'), ((126, ' '), 'I'), ((127, ' '), 'K'), ((128, ' '), '-')], 'chain_type': 'K', 'score': 30.13271713256836, 'query_start': 0, 'query_end': 107, 'error': None, 'scheme': 'imgt'}\n", + "Sequence 4 : {'numbering': [((1, ' '), 'E'), ((2, ' '), 'V'), ((3, ' '), 'Q'), ((4, ' '), 'L'), ((5, ' '), 'L'), ((6, ' '), 'E'), ((7, ' '), 'S'), ((8, ' '), 'G'), ((9, ' '), 'G'), ((10, ' '), '-'), ((11, ' '), 'G'), ((12, ' '), 'L'), ((13, ' '), 'V'), ((14, ' '), 'Q'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'G'), ((18, ' '), 'S'), ((19, ' '), 'L'), ((20, ' '), 'R'), ((21, ' '), 'L'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'A'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'G'), ((28, ' '), 'F'), ((29, ' '), 'T'), ((30, ' '), 'F'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'N'), ((36, ' '), 'H'), ((37, ' '), 'Y'), ((38, ' '), 'A'), ((39, ' '), 'M'), ((40, ' '), 'T'), ((41, ' '), 'W'), ((42, ' '), 'V'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'A'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'K'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'E'), ((52, ' '), 'W'), ((53, ' '), 'V'), ((54, ' '), 'A'), ((55, ' '), 'S'), ((56, ' '), 'S'), ((57, ' '), 'S'), ((58, ' '), 'G'), ((59, ' '), 'S'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'G'), ((63, ' '), 'R'), ((64, ' '), 'S'), ((65, ' '), 'T'), ((66, ' '), 'Y'), ((67, ' '), 'Y'), ((68, ' '), 'T'), ((69, ' '), 'D'), ((70, ' '), 'S'), ((71, ' '), 'V'), ((72, ' '), 'K'), ((73, ' '), '-'), ((74, ' '), 'G'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'V'), ((79, ' '), 'S'), ((80, ' '), 'R'), ((81, ' '), 'D'), ((82, ' '), 'N'), ((83, ' '), 'S'), ((84, ' '), 'K'), ((85, ' '), 'N'), ((86, ' '), 'T'), ((87, ' '), 'L'), ((88, ' '), 'Y'), ((89, ' '), 'L'), ((90, ' '), 'Q'), ((91, ' '), 'M'), ((92, ' '), 'N'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'R'), ((96, ' '), 'A'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'K'), ((107, ' '), 'S'), ((108, ' '), 'S'), ((109, ' '), 'N'), ((110, ' '), 'Y'), ((111, ' '), 'Y'), ((111, 'A'), 'G'), ((111, 'B'), 'S'), ((111, 'C'), 'G'), ((111, 'D'), 'S'), ((112, 'E'), 'Y'), ((112, 'D'), 'S'), ((112, 'C'), 'P'), ((112, 'B'), 'D'), ((112, 'A'), 'D'), ((112, ' '), 'Y'), ((113, ' '), 'Y'), ((114, ' '), 'H'), ((115, ' '), 'M'), ((116, ' '), 'D'), ((117, ' '), 'V'), ((118, ' '), 'W'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'T'), ((124, ' '), 'V'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'S'), ((128, ' '), 'G')], 'chain_type': 'H', 'score': 30.51480484008789, 'query_start': 0, 'query_end': 128, 'error': None, 'scheme': 'imgt'}\n" ] } ], @@ -27,9 +25,12 @@ "##### It can process a list of seqs #####\n", "from anarcii import Anarcii\n", "\n", - "model = Anarcii(seq_type=\"unknown\", batch_size=128, \n", - " cpu=True, ncpu=8, \n", - " mode=\"accuracy\", verbose=False)\n", + "model = Anarcii(seq_type=\"antibody\", batch_size=128, \n", + " cpu=False, \n", + " ncpu=8, \n", + " mode=\"accuracy\", verbose=False,\n", + " low_score_warn=True\n", + " )\n", "\n", "seq = [\n", " #Alpha\n", @@ -50,30 +51,15 @@ "print(results.keys())\n", "print()\n", "\n", - "for key, value in results['Sequence 1'].items():\n", + "for key, value in results.items():\n", " print(key, \":\", value)\n" ] }, { "cell_type": "code", - "execution_count": 2, + "execution_count": null, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "('Sequence 1', {'numbering': [((1, ' '), 'A'), ((2, ' '), 'Q'), ((3, ' '), 'S'), ((4, ' '), 'V'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'L'), ((8, ' '), 'G'), ((9, ' '), 'S'), ((10, ' '), 'H'), ((11, ' '), 'V'), ((12, ' '), 'S'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'E'), ((16, ' '), 'G'), ((17, ' '), 'A'), ((18, ' '), 'L'), ((19, ' '), 'V'), ((20, ' '), 'L'), ((21, ' '), 'L'), ((22, ' '), 'R'), ((23, ' '), 'C'), ((24, ' '), 'N'), ((25, ' '), 'Y'), ((26, ' '), 'S'), ((27, ' '), 'S'), ((28, ' '), 'S'), ((29, ' '), 'V'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'P'), ((37, ' '), 'P'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'F'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'V'), ((44, ' '), 'Q'), ((45, ' '), 'Y'), ((46, ' '), 'P'), ((47, ' '), 'N'), ((48, ' '), 'Q'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'Q'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'L'), ((55, ' '), 'K'), ((56, ' '), 'Y'), ((57, ' '), 'T'), ((58, ' '), 'S'), ((59, ' '), 'A'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'A'), ((63, ' '), 'T'), ((64, ' '), 'L'), ((65, ' '), 'V'), ((66, ' '), 'K'), ((67, ' '), 'G'), ((68, ' '), 'I'), ((69, ' '), '-'), ((70, ' '), '-'), ((71, ' '), '-'), ((72, ' '), '-'), ((73, ' '), '-'), ((74, ' '), 'N'), ((75, ' '), 'G'), ((76, ' '), 'F'), ((77, ' '), 'E'), ((78, ' '), 'A'), ((79, ' '), 'E'), ((80, ' '), 'F'), ((81, ' '), 'K'), ((82, ' '), 'K'), ((83, ' '), 'S'), ((84, ' '), 'E'), ((85, ' '), 'T'), ((86, ' '), 'S'), ((87, ' '), 'F'), ((88, ' '), 'H'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'K'), ((92, ' '), 'P'), ((93, ' '), 'S'), ((94, ' '), 'A'), ((95, ' '), 'H'), ((96, ' '), 'M'), ((97, ' '), 'S'), ((98, ' '), 'D'), ((99, ' '), 'A'), ((100, ' '), 'A'), ((101, ' '), 'E'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'V'), ((107, ' '), 'S'), ((108, ' '), 'E'), ((109, ' '), 'Q'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'D'), ((114, ' '), 'D'), ((115, ' '), 'K'), ((116, ' '), 'I'), ((117, ' '), 'I'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'K'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'R'), ((124, ' '), 'L'), ((125, ' '), 'H'), ((126, ' '), 'I'), ((127, ' '), 'L'), ((128, ' '), 'P')], 'chain_type': 'A', 'score': 32.16792297363281, 'query_start': 0, 'query_end': 111, 'error': None, 'scheme': 'imgt'})\n", - "\n", - "('Sequence 2', {'numbering': [((1, ' '), '-'), ((2, ' '), 'A'), ((3, ' '), 'D'), ((4, ' '), 'V'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'T'), ((8, ' '), 'P'), ((9, ' '), 'R'), ((10, ' '), 'N'), ((11, ' '), 'R'), ((12, ' '), 'I'), ((13, ' '), 'T'), ((14, ' '), 'K'), ((15, ' '), 'T'), ((16, ' '), 'G'), ((17, ' '), 'K'), ((18, ' '), 'R'), ((19, ' '), 'I'), ((20, ' '), 'M'), ((21, ' '), 'L'), ((22, ' '), 'E'), ((23, ' '), 'C'), ((24, ' '), 'S'), ((25, ' '), 'Q'), ((26, ' '), 'T'), ((27, ' '), 'K'), ((28, ' '), 'G'), ((29, ' '), 'H'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), '-'), ((37, ' '), 'D'), ((38, ' '), 'R'), ((39, ' '), 'M'), ((40, ' '), 'Y'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'D'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'L'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'R'), ((52, ' '), 'L'), ((53, ' '), 'I'), ((54, ' '), 'Y'), ((55, ' '), 'Y'), ((56, ' '), 'S'), ((57, ' '), 'F'), ((58, ' '), 'D'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), 'V'), ((64, ' '), 'K'), ((65, ' '), 'D'), ((66, ' '), 'I'), ((67, ' '), 'N'), ((68, ' '), 'K'), ((69, ' '), 'G'), ((70, ' '), 'E'), ((71, ' '), 'I'), ((72, ' '), 'S'), ((73, ' '), '-'), ((74, ' '), 'D'), ((75, ' '), 'G'), ((76, ' '), 'Y'), ((77, ' '), 'S'), ((78, ' '), 'V'), ((79, ' '), 'S'), ((80, ' '), 'R'), ((81, ' '), 'Q'), ((82, ' '), '-'), ((83, ' '), 'A'), ((84, ' '), 'Q'), ((85, ' '), 'A'), ((86, ' '), 'K'), ((87, ' '), 'F'), ((88, ' '), 'S'), ((89, ' '), 'L'), ((90, ' '), 'S'), ((91, ' '), 'L'), ((92, ' '), 'E'), ((93, ' '), 'S'), ((94, ' '), 'A'), ((95, ' '), 'I'), ((96, ' '), 'P'), ((97, ' '), 'N'), ((98, ' '), 'Q'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'L'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'T'), ((107, ' '), 'S'), ((108, ' '), 'D'), ((109, ' '), 'E'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'S'), ((114, ' '), 'Y'), ((115, ' '), 'G'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'S'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'R'), ((124, ' '), 'L'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'V'), ((128, ' '), '-')], 'chain_type': 'B', 'score': 31.522838592529297, 'query_start': 0, 'query_end': 109, 'error': None, 'scheme': 'imgt'})\n", - "\n", - "('Sequence 3', {'numbering': [((1, ' '), 'E'), ((2, ' '), 'I'), ((3, ' '), 'V'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'S'), ((8, ' '), 'P'), ((9, ' '), 'D'), ((10, ' '), 'T'), ((11, ' '), 'L'), ((12, ' '), 'S'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'E'), ((18, ' '), 'R'), ((19, ' '), 'A'), ((20, ' '), 'T'), ((21, ' '), 'L'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'R'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'E'), ((28, ' '), 'S'), ((29, ' '), 'I'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'S'), ((37, ' '), 'S'), ((38, ' '), 'N'), ((39, ' '), 'L'), ((40, ' '), 'A'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'Q'), ((44, ' '), 'Q'), ((45, ' '), 'K'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'V'), ((50, ' '), 'P'), ((51, ' '), 'R'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'G'), ((57, ' '), 'A'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'T'), ((67, ' '), 'R'), ((68, ' '), 'A'), ((69, ' '), 'T'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'P'), ((73, ' '), '-'), ((74, ' '), 'A'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'T'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'E'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'Q'), ((96, ' '), 'S'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'F'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'Q'), ((106, ' '), 'Q'), ((107, ' '), 'Y'), ((108, ' '), 'N'), ((109, ' '), 'N'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'R'), ((114, ' '), 'L'), ((115, ' '), 'P'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'E'), ((126, ' '), 'I'), ((127, ' '), 'K'), ((128, ' '), '-')], 'chain_type': 'K', 'score': 30.132719039916992, 'query_start': 0, 'query_end': 107, 'error': None, 'scheme': 'imgt'})\n", - "\n", - "('Sequence 4', {'numbering': [((1, ' '), 'E'), ((2, ' '), 'V'), ((3, ' '), 'Q'), ((4, ' '), 'L'), ((5, ' '), 'L'), ((6, ' '), 'E'), ((7, ' '), 'S'), ((8, ' '), 'G'), ((9, ' '), 'G'), ((10, ' '), '-'), ((11, ' '), 'G'), ((12, ' '), 'L'), ((13, ' '), 'V'), ((14, ' '), 'Q'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'G'), ((18, ' '), 'S'), ((19, ' '), 'L'), ((20, ' '), 'R'), ((21, ' '), 'L'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'A'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'G'), ((28, ' '), 'F'), ((29, ' '), 'T'), ((30, ' '), 'F'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'N'), ((36, ' '), 'H'), ((37, ' '), 'Y'), ((38, ' '), 'A'), ((39, ' '), 'M'), ((40, ' '), 'T'), ((41, ' '), 'W'), ((42, ' '), 'V'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'A'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'K'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'E'), ((52, ' '), 'W'), ((53, ' '), 'V'), ((54, ' '), 'A'), ((55, ' '), 'S'), ((56, ' '), 'S'), ((57, ' '), 'S'), ((58, ' '), 'G'), ((59, ' '), 'S'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'G'), ((63, ' '), 'R'), ((64, ' '), 'S'), ((65, ' '), 'T'), ((66, ' '), 'Y'), ((67, ' '), 'Y'), ((68, ' '), 'T'), ((69, ' '), 'D'), ((70, ' '), 'S'), ((71, ' '), 'V'), ((72, ' '), 'K'), ((73, ' '), '-'), ((74, ' '), 'G'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'V'), ((79, ' '), 'S'), ((80, ' '), 'R'), ((81, ' '), 'D'), ((82, ' '), 'N'), ((83, ' '), 'S'), ((84, ' '), 'K'), ((85, ' '), 'N'), ((86, ' '), 'T'), ((87, ' '), 'L'), ((88, ' '), 'Y'), ((89, ' '), 'L'), ((90, ' '), 'Q'), ((91, ' '), 'M'), ((92, ' '), 'N'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'R'), ((96, ' '), 'A'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'K'), ((107, ' '), 'S'), ((108, ' '), 'S'), ((109, ' '), 'N'), ((110, ' '), 'Y'), ((111, ' '), 'Y'), ((111, 'A'), 'G'), ((111, 'B'), 'S'), ((111, 'C'), 'G'), ((111, 'D'), 'S'), ((112, 'E'), 'Y'), ((112, 'D'), 'S'), ((112, 'C'), 'P'), ((112, 'B'), 'D'), ((112, 'A'), 'D'), ((112, ' '), 'Y'), ((113, ' '), 'Y'), ((114, ' '), 'H'), ((115, ' '), 'M'), ((116, ' '), 'D'), ((117, ' '), 'V'), ((118, ' '), 'W'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'T'), ((124, ' '), 'V'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'S'), ((128, ' '), 'G')], 'chain_type': 'H', 'score': 30.514766693115234, 'query_start': 0, 'query_end': 128, 'error': None, 'scheme': 'imgt'})\n", - "\n" - ] - } - ], + "outputs": [], "source": [ "# The dict can also be converted to a list\n", "for seq in list(results.items()):\n", @@ -83,20 +69,9 @@ }, { "cell_type": "code", - "execution_count": 4, + "execution_count": null, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Using device CPU with 12 CPUs\n", - "{'numbering': [((1, ' '), 'Q'), ((2, ' '), 'I'), ((3, ' '), 'H'), ((4, ' '), 'L'), ((5, ' '), 'V'), ((6, ' '), 'Q'), ((7, ' '), 'S'), ((8, ' '), 'G'), ((9, ' '), 'T'), ((10, ' '), '-'), ((11, ' '), 'E'), ((12, ' '), 'V'), ((13, ' '), 'K'), ((14, ' '), 'K'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'S'), ((18, ' '), 'S'), ((19, ' '), 'V'), ((20, ' '), 'T'), ((21, ' '), 'V'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'K'), ((25, ' '), 'A'), ((26, ' '), 'Y'), ((27, ' '), 'G'), ((28, ' '), 'V'), ((29, ' '), 'N'), ((30, ' '), 'T'), ((31, ' '), 'F'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'G'), ((36, ' '), 'L'), ((37, ' '), 'Y'), ((38, ' '), 'A'), ((39, ' '), 'V'), ((40, ' '), 'N'), ((41, ' '), 'W'), ((42, ' '), 'V'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'A'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'S'), ((50, ' '), 'L'), ((51, ' '), 'E'), ((52, ' '), 'Y'), ((53, ' '), 'I'), ((54, ' '), 'G'), ((55, ' '), 'Q'), ((56, ' '), 'I'), ((57, ' '), 'W'), ((58, ' '), 'R'), ((59, ' '), 'W'), ((60, ' '), 'K'), ((61, ' '), 'S'), ((62, ' '), 'S'), ((63, ' '), 'A'), ((64, ' '), 'S'), ((65, ' '), 'H'), ((66, ' '), 'H'), ((67, ' '), 'F'), ((68, ' '), 'R'), ((69, ' '), 'G'), ((70, ' '), 'R'), ((71, ' '), 'V'), ((72, ' '), 'L'), ((73, ' '), 'I'), ((74, ' '), 'S'), ((75, ' '), 'A'), ((76, ' '), 'V'), ((77, ' '), 'D'), ((78, ' '), 'L'), ((79, ' '), 'T'), ((80, ' '), 'G'), ((81, ' '), 'S'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'P'), ((85, ' '), 'P'), ((86, ' '), 'I'), ((87, ' '), 'S'), ((88, ' '), 'S'), ((89, ' '), 'L'), ((90, ' '), 'E'), ((91, ' '), 'I'), ((92, ' '), 'K'), ((93, ' '), 'N'), ((94, ' '), 'L'), ((95, ' '), 'T'), ((96, ' '), 'S'), ((97, ' '), 'D'), ((98, ' '), 'D'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'T'), ((106, ' '), 'T'), ((107, ' '), 'T'), ((108, ' '), 'S'), ((109, ' '), 'T'), ((110, ' '), 'Y'), ((111, ' '), 'D'), ((111, 'A'), 'K'), ((111, 'B'), 'W'), ((111, 'C'), 'S'), ((111, 'D'), 'G'), ((112, 'E'), 'L'), ((112, 'D'), 'H'), ((112, 'C'), 'H'), ((112, 'B'), 'D'), ((112, 'A'), 'G'), ((112, ' '), 'V'), ((113, ' '), 'M'), ((114, ' '), 'A'), ((115, ' '), 'F'), ((116, ' '), 'S'), ((117, ' '), 'S'), ((118, ' '), 'W'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'L'), ((124, ' '), 'I'), ((125, ' '), 'S'), ((126, ' '), 'V'), ((127, ' '), 'S'), ((128, ' '), 'A')], 'chain_type': 'H', 'score': 25.120664596557617, 'query_start': 0, 'query_end': 131, 'error': None, 'scheme': 'imgt'}\n", - "{'numbering': [((1, ' '), 'Q'), ((2, ' '), 'P'), ((3, ' '), 'G'), ((4, ' '), 'L'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'P'), ((8, ' '), 'P'), ((9, ' '), 'S'), ((10, ' '), '-'), ((11, ' '), 'V'), ((12, ' '), 'S'), ((13, ' '), 'K'), ((14, ' '), 'G'), ((15, ' '), 'L'), ((16, ' '), 'R'), ((17, ' '), 'Q'), ((18, ' '), 'T'), ((19, ' '), 'A'), ((20, ' '), 'T'), ((21, ' '), 'L'), ((22, ' '), 'T'), ((23, ' '), 'C'), ((24, ' '), 'T'), ((25, ' '), 'G'), ((26, ' '), 'N'), ((27, ' '), 'S'), ((28, ' '), 'N'), ((29, ' '), 'N'), ((30, ' '), 'V'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'G'), ((36, ' '), 'N'), ((37, ' '), 'Q'), ((38, ' '), 'G'), ((39, ' '), 'A'), ((40, ' '), 'A'), ((41, ' '), 'W'), ((42, ' '), 'L'), ((43, ' '), 'Q'), ((44, ' '), 'Q'), ((45, ' '), 'H'), ((46, ' '), 'Q'), ((47, ' '), 'G'), ((48, ' '), 'H'), ((49, ' '), 'P'), ((50, ' '), 'P'), ((51, ' '), 'K'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'S'), ((55, ' '), 'Y'), ((56, ' '), 'R'), ((57, ' '), 'N'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'N'), ((66, ' '), 'D'), ((67, ' '), 'R'), ((68, ' '), 'P'), ((69, ' '), 'S'), ((70, ' '), 'G'), ((71, ' '), 'I'), ((72, ' '), 'S'), ((73, ' '), '-'), ((74, ' '), 'E'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'A'), ((79, ' '), 'S'), ((80, ' '), 'R'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'N'), ((86, ' '), 'T'), ((87, ' '), 'A'), ((88, ' '), 'S'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'I'), ((92, ' '), 'T'), ((93, ' '), 'G'), ((94, ' '), 'L'), ((95, ' '), 'Q'), ((96, ' '), 'P'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'E'), ((100, ' '), 'A'), ((101, ' '), 'D'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'S'), ((106, ' '), 'T'), ((107, ' '), 'W'), ((108, ' '), 'D'), ((109, ' '), 'S'), ((110, ' '), 'S'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), 'L'), ((114, ' '), 'S'), ((115, ' '), 'A'), ((116, ' '), 'V'), ((117, ' '), 'V'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'G'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'L'), ((128, ' '), '-')], 'chain_type': 'L', 'score': 30.606189727783203, 'query_start': 9, 'query_end': 118, 'error': None, 'scheme': 'imgt'}\n", - "{'numbering': [((1, ' '), 'Q'), ((2, ' '), 'V'), ((3, ' '), 'Q'), ((4, ' '), 'L'), ((5, ' '), 'V'), ((6, ' '), 'Q'), ((7, ' '), 'S'), ((8, ' '), 'G'), ((9, ' '), 'A'), ((10, ' '), '-'), ((11, ' '), 'E'), ((12, ' '), 'V'), ((13, ' '), 'K'), ((14, ' '), 'K'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'S'), ((18, ' '), 'S'), ((19, ' '), 'V'), ((20, ' '), 'K'), ((21, ' '), 'V'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'K'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'G'), ((28, ' '), 'G'), ((29, ' '), 'T'), ((30, ' '), 'F'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'S'), ((36, ' '), 'S'), ((37, ' '), 'Y'), ((38, ' '), 'A'), ((39, ' '), 'I'), ((40, ' '), 'S'), ((41, ' '), 'W'), ((42, ' '), 'V'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'A'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'E'), ((52, ' '), 'W'), ((53, ' '), 'M'), ((54, ' '), 'G'), ((55, ' '), 'G'), ((56, ' '), 'I'), ((57, ' '), 'I'), ((58, ' '), 'P'), ((59, ' '), 'I'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'F'), ((63, ' '), 'G'), ((64, ' '), 'T'), ((65, ' '), 'A'), ((66, ' '), 'N'), ((67, ' '), 'Y'), ((68, ' '), 'A'), ((69, ' '), 'Q'), ((70, ' '), 'K'), ((71, ' '), 'F'), ((72, ' '), 'Q'), ((73, ' '), '-'), ((74, ' '), 'G'), ((75, ' '), 'R'), ((76, ' '), 'V'), ((77, ' '), 'T'), ((78, ' '), 'I'), ((79, ' '), 'T'), ((80, ' '), 'A'), ((81, ' '), 'D'), ((82, ' '), 'E'), ((83, ' '), 'S'), ((84, ' '), 'T'), ((85, ' '), 'S'), ((86, ' '), 'T'), ((87, ' '), 'A'), ((88, ' '), 'Y'), ((89, ' '), 'M'), ((90, ' '), 'E'), ((91, ' '), 'L'), ((92, ' '), 'S'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'R'), ((96, ' '), 'S'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'R'), ((107, ' '), 'E'), ((108, ' '), 'P'), ((109, ' '), 'D'), ((110, ' '), 'Y'), ((111, ' '), 'Y'), ((111, 'A'), 'D'), ((111, 'B'), 'S'), ((111, 'C'), 'S'), ((112, 'D'), 'G'), ((112, 'C'), 'Y'), ((112, 'B'), 'Y'), ((112, 'A'), 'P'), ((112, ' '), 'I'), ((113, ' '), 'D'), ((114, ' '), 'A'), ((115, ' '), 'F'), ((116, ' '), 'D'), ((117, ' '), 'I'), ((118, ' '), 'W'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'T'), ((124, ' '), 'V'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'S'), ((128, ' '), 'S')], 'chain_type': 'H', 'score': 30.965309143066406, 'query_start': 0, 'query_end': 126, 'error': None, 'scheme': 'imgt'}\n" - ] - } - ], + "outputs": [], "source": [ "##### It can also take a list of tuples... #####\n", "from anarcii import Anarcii\n", @@ -124,26 +99,9 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": null, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Using device CPU with 12 CPUs\n", - "\n", - "[([((1, ' '), '-'), ((2, ' '), '-'), ((3, ' '), '-'), ((4, ' '), '-'), ((5, ' '), '-'), ((6, ' '), '-'), ((7, ' '), '-'), ((8, ' '), '-'), ((9, ' '), '-'), ((10, ' '), '-'), ((11, ' '), '-'), ((12, ' '), '-'), ((13, ' '), '-'), ((14, ' '), '-'), ((15, ' '), '-'), ((16, ' '), '-'), ((17, ' '), '-'), ((18, ' '), 'S'), ((19, ' '), 'V'), ((20, ' '), 'K'), ((21, ' '), 'V'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'T'), ((25, ' '), 'S'), ((26, ' '), 'S'), ((27, ' '), 'E'), ((28, ' '), 'V'), ((29, ' '), 'T'), ((30, ' '), 'F'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), 'S'), ((36, ' '), 'S'), ((37, ' '), 'F'), ((38, ' '), 'A'), ((39, ' '), 'I'), ((40, ' '), 'S'), ((41, ' '), 'W'), ((42, ' '), 'V'), ((43, ' '), 'R'), ((44, ' '), 'Q'), ((45, ' '), 'A'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'G'), ((50, ' '), 'L'), ((51, ' '), 'E'), ((52, ' '), 'W'), ((53, ' '), 'L'), ((54, ' '), 'G'), ((55, ' '), 'G'), ((56, ' '), 'I'), ((57, ' '), 'S'), ((58, ' '), 'P'), ((59, ' '), 'M'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), 'F'), ((63, ' '), 'G'), ((64, ' '), 'T'), ((65, ' '), 'P'), ((66, ' '), 'N'), ((67, ' '), 'Y'), ((68, ' '), 'A'), ((69, ' '), 'Q'), ((70, ' '), 'K'), ((71, ' '), 'F'), ((72, ' '), 'Q'), ((73, ' '), '-'), ((74, ' '), 'G'), ((75, ' '), 'R'), ((76, ' '), 'V'), ((77, ' '), 'T'), ((78, ' '), 'I'), ((79, ' '), 'T'), ((80, ' '), 'A'), ((81, ' '), 'D'), ((82, ' '), 'Q'), ((83, ' '), 'S'), ((84, ' '), 'T'), ((85, ' '), 'R'), ((86, ' '), 'T'), ((87, ' '), 'A'), ((88, ' '), 'Y'), ((89, ' '), 'M'), ((90, ' '), 'D'), ((91, ' '), 'L'), ((92, ' '), 'R'), ((93, ' '), 'S'), ((94, ' '), 'L'), ((95, ' '), 'R'), ((96, ' '), 'S'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'T'), ((100, ' '), 'A'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'R'), ((107, ' '), 'S'), ((108, ' '), 'P'), ((109, ' '), 'S'), ((110, ' '), 'Y'), ((111, ' '), 'I'), ((111, 'A'), 'C'), ((111, 'B'), 'S'), ((112, 'B'), 'G'), ((112, 'A'), 'G'), ((112, ' '), 'T'), ((113, ' '), 'C'), ((114, ' '), 'V'), ((115, ' '), 'F'), ((116, ' '), 'D'), ((117, ' '), 'H'), ((118, ' '), 'W'), ((119, ' '), 'G'), ((120, ' '), 'Q'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'L'), ((124, ' '), 'V'), ((125, ' '), 'T'), ((126, ' '), 'V'), ((127, ' '), 'S'), ((128, ' '), 'S')], 0, 107)]\n", - "[{'chain_type': 'H', 'scheme': 'imgt', 'query_name': 'Sequence 1', 'query_start': 0, 'query_end': 107}]\n", - "None\n", - "\n", - "### A failed sequence should return None. ###\n", - "None\n", - "[{'chain_type': 'F', 'scheme': 'imgt', 'query_name': 'Sequence 2', 'query_start': None, 'query_end': None}]\n", - "None\n" - ] - } - ], + "outputs": [], "source": [ "### Want to have output that looks like original ANARCI? Use legacy mode. ###\n", "from anarcii import Anarcii\n", @@ -180,33 +138,9 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": null, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Using device CUDA with 12 CPUs\n", - "\n", - " sp|P01629|KV2A4_MOUSE Ig kappa chain V-II region 2S1.3 OS=Mus musculus OX=10090 PE=1 SV=1 \n", - " K 30.36195182800293 \n", - " [((1, ' '), 'D'), ((2, ' '), 'I'), ((3, ' '), 'V'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'A'), ((8, ' '), 'A'), ((9, ' '), 'F'), ((10, ' '), 'S'), ((11, ' '), 'N'), ((12, ' '), 'P'), ((13, ' '), 'V'), ((14, ' '), 'T'), ((15, ' '), 'L'), ((16, ' '), 'G'), ((17, ' '), 'T'), ((18, ' '), 'S'), ((19, ' '), 'A'), ((20, ' '), 'S'), ((21, ' '), 'F'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'R'), ((25, ' '), 'S'), ((26, ' '), 'S'), ((27, ' '), 'K'), ((28, ' '), 'S'), ((29, ' '), 'L'), ((30, ' '), 'Q'), ((31, ' '), 'Q'), ((32, ' '), 'S'), ((33, ' '), '-'), ((34, ' '), 'K'), ((35, ' '), 'G'), ((36, ' '), 'I'), ((37, ' '), 'T'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'Y'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'L'), ((44, ' '), 'Q'), ((45, ' '), 'K'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'S'), ((50, ' '), 'P'), ((51, ' '), 'Q'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'Q'), ((57, ' '), 'M'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'N'), ((67, ' '), 'L'), ((68, ' '), 'A'), ((69, ' '), 'S'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'P'), ((73, ' '), '-'), ((74, ' '), 'D'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'D'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'R'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'R'), ((94, ' '), 'V'), ((95, ' '), 'E'), ((96, ' '), 'A'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'V'), ((100, ' '), 'G'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'A'), ((106, ' '), 'N'), ((107, ' '), 'L'), ((108, ' '), 'Q'), ((109, ' '), 'E'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), '-'), ((114, ' '), 'L'), ((115, ' '), 'P'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'G'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'E'), ((126, ' '), 'I'), ((127, ' '), 'K'), ((128, ' '), '-')]\n", - "\n", - " sp|P01630|KV2A6_MOUSE Ig kappa chain V-II region 7S34.1 OS=Mus musculus OX=10090 PE=1 SV=1 \n", - " K 30.4111328125 \n", - " [((1, ' '), 'D'), ((2, ' '), 'I'), ((3, ' '), 'V'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'T'), ((8, ' '), 'A'), ((9, ' '), 'P'), ((10, ' '), 'S'), ((11, ' '), 'A'), ((12, ' '), 'L'), ((13, ' '), 'V'), ((14, ' '), 'T'), ((15, ' '), 'P'), ((16, ' '), 'G'), ((17, ' '), 'E'), ((18, ' '), 'S'), ((19, ' '), 'V'), ((20, ' '), 'S'), ((21, ' '), 'I'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'R'), ((25, ' '), 'S'), ((26, ' '), 'S'), ((27, ' '), 'K'), ((28, ' '), 'S'), ((29, ' '), 'L'), ((30, ' '), 'L'), ((31, ' '), 'H'), ((32, ' '), 'S'), ((33, ' '), '-'), ((34, ' '), 'N'), ((35, ' '), 'G'), ((36, ' '), 'N'), ((37, ' '), 'T'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'Y'), ((41, ' '), 'W'), ((42, ' '), 'F'), ((43, ' '), 'L'), ((44, ' '), 'Q'), ((45, ' '), 'R'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'C'), ((50, ' '), 'P'), ((51, ' '), 'Q'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'R'), ((57, ' '), 'M'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'N'), ((67, ' '), 'L'), ((68, ' '), 'A'), ((69, ' '), 'S'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'P'), ((73, ' '), '-'), ((74, ' '), 'D'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'A'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'R'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'R'), ((94, ' '), 'V'), ((95, ' '), 'E'), ((96, ' '), 'A'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'V'), ((100, ' '), 'G'), ((101, ' '), 'V'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'M'), ((106, ' '), 'Q'), ((107, ' '), 'Q'), ((108, ' '), 'R'), ((109, ' '), 'E'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), '-'), ((114, ' '), 'Y'), ((115, ' '), 'P'), ((116, ' '), 'Y'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'G'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'E'), ((126, ' '), 'I'), ((127, ' '), 'K'), ((128, ' '), '-')]\n", - "\n", - " sp|P01631|KV2A7_MOUSE Ig kappa chain V-II region 26-10 OS=Mus musculus OX=10090 PE=1 SV=1 \n", - " K 30.665319442749023 \n", - " [((1, ' '), 'D'), ((2, ' '), 'V'), ((3, ' '), 'V'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'T'), ((8, ' '), 'P'), ((9, ' '), 'L'), ((10, ' '), 'S'), ((11, ' '), 'L'), ((12, ' '), 'P'), ((13, ' '), 'V'), ((14, ' '), 'S'), ((15, ' '), 'L'), ((16, ' '), 'G'), ((17, ' '), 'D'), ((18, ' '), 'Q'), ((19, ' '), 'A'), ((20, ' '), 'S'), ((21, ' '), 'I'), ((22, ' '), 'S'), ((23, ' '), 'C'), ((24, ' '), 'R'), ((25, ' '), 'S'), ((26, ' '), 'S'), ((27, ' '), 'Q'), ((28, ' '), 'S'), ((29, ' '), 'L'), ((30, ' '), 'V'), ((31, ' '), 'H'), ((32, ' '), 'S'), ((33, ' '), '-'), ((34, ' '), 'N'), ((35, ' '), 'G'), ((36, ' '), 'N'), ((37, ' '), 'T'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'N'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'L'), ((44, ' '), 'Q'), ((45, ' '), 'K'), ((46, ' '), 'A'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'S'), ((50, ' '), 'P'), ((51, ' '), 'K'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'K'), ((57, ' '), 'V'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'N'), ((67, ' '), 'R'), ((68, ' '), 'F'), ((69, ' '), 'S'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'P'), ((73, ' '), '-'), ((74, ' '), 'D'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'S'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'D'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'K'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'R'), ((94, ' '), 'V'), ((95, ' '), 'E'), ((96, ' '), 'A'), ((97, ' '), 'E'), ((98, ' '), 'D'), ((99, ' '), 'L'), ((100, ' '), 'G'), ((101, ' '), 'I'), ((102, ' '), 'Y'), ((103, ' '), 'F'), ((104, ' '), 'C'), ((105, ' '), 'S'), ((106, ' '), 'Q'), ((107, ' '), 'T'), ((108, ' '), 'T'), ((109, ' '), 'H'), ((110, ' '), '-'), ((111, ' '), '-'), ((112, ' '), '-'), ((113, ' '), '-'), ((114, ' '), 'V'), ((115, ' '), 'P'), ((116, ' '), 'P'), ((117, ' '), 'T'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'G'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'K'), ((124, ' '), 'L'), ((125, ' '), 'E'), ((126, ' '), 'I'), ((127, ' '), 'K'), ((128, ' '), '-')]\n", - "\n", - " sp|P01691|KV10_RABIT Ig kappa chain V region 12F2 (Fragment) OS=Oryctolagus cuniculus OX=9986 PE=2 SV=1 \n", - " K 29.508617401123047 \n", - " [((1, ' '), 'A'), ((2, ' '), 'Y'), ((3, ' '), 'D'), ((4, ' '), 'M'), ((5, ' '), 'T'), ((6, ' '), 'Q'), ((7, ' '), 'T'), ((8, ' '), 'P'), ((9, ' '), 'A'), ((10, ' '), 'S'), ((11, ' '), 'V'), ((12, ' '), 'E'), ((13, ' '), 'V'), ((14, ' '), 'A'), ((15, ' '), 'V'), ((16, ' '), 'G'), ((17, ' '), 'G'), ((18, ' '), 'T'), ((19, ' '), 'V'), ((20, ' '), 'T'), ((21, ' '), 'I'), ((22, ' '), 'K'), ((23, ' '), 'C'), ((24, ' '), 'Q'), ((25, ' '), 'A'), ((26, ' '), 'S'), ((27, ' '), 'Q'), ((28, ' '), 'S'), ((29, ' '), 'I'), ((30, ' '), '-'), ((31, ' '), '-'), ((32, ' '), '-'), ((33, ' '), '-'), ((34, ' '), '-'), ((35, ' '), '-'), ((36, ' '), 'S'), ((37, ' '), 'T'), ((38, ' '), 'Y'), ((39, ' '), 'L'), ((40, ' '), 'S'), ((41, ' '), 'W'), ((42, ' '), 'Y'), ((43, ' '), 'Q'), ((44, ' '), 'Q'), ((45, ' '), 'K'), ((46, ' '), 'P'), ((47, ' '), 'G'), ((48, ' '), 'Q'), ((49, ' '), 'R'), ((50, ' '), 'P'), ((51, ' '), 'K'), ((52, ' '), 'L'), ((53, ' '), 'L'), ((54, ' '), 'I'), ((55, ' '), 'Y'), ((56, ' '), 'R'), ((57, ' '), 'A'), ((58, ' '), '-'), ((59, ' '), '-'), ((60, ' '), '-'), ((61, ' '), '-'), ((62, ' '), '-'), ((63, ' '), '-'), ((64, ' '), '-'), ((65, ' '), 'S'), ((66, ' '), 'T'), ((67, ' '), 'L'), ((68, ' '), 'A'), ((69, ' '), 'S'), ((70, ' '), 'G'), ((71, ' '), 'V'), ((72, ' '), 'S'), ((73, ' '), '-'), ((74, ' '), 'S'), ((75, ' '), 'R'), ((76, ' '), 'F'), ((77, ' '), 'K'), ((78, ' '), 'G'), ((79, ' '), 'S'), ((80, ' '), 'G'), ((81, ' '), '-'), ((82, ' '), '-'), ((83, ' '), 'S'), ((84, ' '), 'G'), ((85, ' '), 'T'), ((86, ' '), 'E'), ((87, ' '), 'F'), ((88, ' '), 'T'), ((89, ' '), 'L'), ((90, ' '), 'T'), ((91, ' '), 'I'), ((92, ' '), 'S'), ((93, ' '), 'G'), ((94, ' '), 'V'), ((95, ' '), 'E'), ((96, ' '), 'C'), ((97, ' '), 'A'), ((98, ' '), 'D'), ((99, ' '), 'A'), ((100, ' '), 'A'), ((101, ' '), 'T'), ((102, ' '), 'Y'), ((103, ' '), 'Y'), ((104, ' '), 'C'), ((105, ' '), 'Q'), ((106, ' '), 'Q'), ((107, ' '), 'G'), ((108, ' '), 'W'), ((109, ' '), 'S'), ((110, ' '), 'S'), ((111, ' '), '-'), ((112, ' '), 'S'), ((113, ' '), 'N'), ((114, ' '), 'V'), ((115, ' '), 'E'), ((116, ' '), 'N'), ((117, ' '), 'V'), ((118, ' '), 'F'), ((119, ' '), 'G'), ((120, ' '), 'G'), ((121, ' '), 'G'), ((122, ' '), 'T'), ((123, ' '), 'E'), ((124, ' '), 'V'), ((125, ' '), 'V'), ((126, ' '), 'V'), ((127, ' '), 'K'), ((128, ' '), '-')]\n" - ] - } - ], + "outputs": [], "source": [ "### Can also be passed a fasta file. ###\n", "from anarcii import Anarcii\n", @@ -230,17 +164,9 @@ }, { "cell_type": "code", - "execution_count": 8, + "execution_count": null, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Last output saved to tmp/test_write_csv.csv in scheme: None.\n" - ] - } - ], + "outputs": [], "source": [ "# Save the last numbered seqs to a csv.\n", "model.to_csv(\"tmp/test_write_csv.csv\")" @@ -249,7 +175,7 @@ ], "metadata": { "kernelspec": { - "display_name": "mobydick", + "display_name": "test_anarcii", "language": "python", "name": "python3" }, @@ -263,7 +189,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.13.2" + "version": "3.12.12" } }, "nbformat": 4, diff --git a/src/anarcii/input_data_processing/sequences.py b/src/anarcii/input_data_processing/sequences.py index 3e6d7f8..4488190 100644 --- a/src/anarcii/input_data_processing/sequences.py +++ b/src/anarcii/input_data_processing/sequences.py @@ -212,13 +212,13 @@ def _handle_long_sequences(self): # None ensures no error. self.offsets.pop(key, None) self.seqs.pop(key, None) - - # For first window we are looking from the start of the sequence. - if i==0: + + # For first window we look from the start of the sequence + if i == 0: self.offsets[new_key] = 0 else: self.offsets[new_key] = peak_idx_plus2 * SCFV_JUMP - + self.seqs[new_key] = window if self.verbose: diff --git a/src/anarcii/pipeline/__init__.py b/src/anarcii/pipeline/__init__.py index 952b582..8a3f2b5 100644 --- a/src/anarcii/pipeline/__init__.py +++ b/src/anarcii/pipeline/__init__.py @@ -100,6 +100,7 @@ def __init__( ncpu: int = -1, verbose: bool = False, max_seqs_len=1024 * 100, + low_score_warn=False, ): self.seq_type = seq_type.lower() @@ -112,6 +113,7 @@ def __init__( self.verbose = verbose self.cpu = cpu self.max_seqs_len = max_seqs_len + self.low_score_warn = low_score_warn self._last_numbered_output: dict | Path | None = None # Has a conversion to a new number scheme occured? @@ -263,6 +265,11 @@ def number(self, seqs: Input, scfv: bool = False, pdb_out_stem: str = None): if structure: write_pdbx_file(structure, stem=pdb_out_stem) + # Warn the user when a sequence falls below ~3SD from medians identified. + # This will not work in serialise mode. + if self.low_score_warn and not serialise: + print_low_score(self._last_numbered_output, self.seq_type, self.mode) + return self._last_numbered_output def to_scheme(self, scheme="imgt"): @@ -518,3 +525,54 @@ def write_pdbx_file( elif structure.input_format is gemmi.CoorFormat.Mmjson: with open(f"{stem}.json", "w") as f: f.write(document.as_json(mmjson=True)) + + +def print_low_score( + last_numbered_output: dict, + sequence_type: str, + mode: str, +) -> None: + """ + Print warnings for sequences whose scores fall below expected ranges. + + This function compares per-sequence scores against predefined warning + and failure thresholds for a given sequence type and mode (e.g. accuracy + or speed). If a score is above the failure threshold but at or below the + warning threshold, a warning message is printed to stdout. + + Although last_numbered_output can be a path with serialised output. + This is prevented by the if statement, so only a dictionary is taken. + + Working out how to run these print statements in serialse mode is not a + priority atm, but may be useful in the future. + """ + + warning_thresholds = { + "antibody_accuracy": 25, + "antibody_speed": 22.5, + "tcr_accuracy": 32.5, + "tcr_speed": 32.5, + "shark_accuracy": 24.5, + "shark_speed": 24.5, + } + fail_thresholds = { + "antibody_accuracy": 15, + "antibody_speed": 15, + "tcr_accuracy": 25, + "tcr_speed": 25, + "shark_accuracy": 24, + "shark_speed": 24, + } + + key = f"{sequence_type}_{mode}" + warning_threshold = warning_thresholds[key] + fail_threshold = fail_thresholds[key] + + for name, result in last_numbered_output.items(): + score = result["score"] + if fail_threshold < score <= warning_threshold: + print( + f"{name} has lower than expected score for typical " + f"{sequence_type} sequences. Please inspect further for " + f"errors or misclassification." + )