Abstract
Developing drugs has been and is still an ongoing field of research. Since drug development is frequently a time-consuming and costly process, Machine Learning is an important tool for reducing these factors.
A lot of different Machine Learning approaches for predicting binding affinities have been evaluated. In recent years, there has been an increase in interest in researching Deep Learning architectures, and with them, State-Of-The-Art performance could be reached. Accompanying this, better descriptors like circular fingerprints for drugs or property descriptors of proteins have been developed. In this field, Ru et al. (2022) presented a model that outperformed other architectures. Their similarity based feature engineering combined with Machine Learning resulted in State-Of-The-Art performance by reaching a Concordance Index of CI = 0.891 and a Mean Squared Error of MSE = 0.135. In this work, an attempt was made to further improve this approach by improving the similarity based feature engineering and applying a different Machine Learning method.
To achieve this, we first re-implemented the approach of Ru et al. (2022), NerLTR-DTA, as our first baseline. Next, we implemented a custom Gradient Boosted Regression Tree as our second and a Fully Connected Neural Net as our third baseline. Based on these prepended experiments we developed our Hopfield-DTA model by applying Modern Hopfield Layers, enriching the input descriptors of the drugs and targets.
In the result section we show that Hopfield-DTA has on average the best performance regarding Concordance Index and Mean Squared Error but we were not able to show that it is significantly different from our third baseline, the Fully Connected Neural Net.
Our results show that we could not achieve the performance of Ru et al. (2022) but that all of our tested models achieve better results than our strict re-implementation of NerLTR-DTA. All experiment results, including code, hyperparameters, and metrics, as well as the NerLTR-DTA re-implementation and the Hopfield-DTA implementation, are made public so that this work can be evaluated or Hopfield-DTA can be applied to a different domain. Hopfield-DTA and the experiments will be available at github.com/wutzination/Hopfield-DTA for at least 1 year after release of this work. Die Entwicklung von Medikamenten war und ist ein bestehendes Forschungsgebiet. Da die Entwicklung von Medikamenten häufig ein zeitaufwändiger und kostspieliger Prozess ist, ist maschinelles Lernen ein wichtiges Instrument zur Verringerung dieser Faktoren.
Es wurden viele verschiedene Ansätze des maschinellen Lernens zur Vorhersage von Bindungsaffinitäten bewertet. In den letzten Jahren hat das Interesse an der Erforschung von Deep Learning Architekturen zugenommen, mit welchen bereits State-Of-The-Art Ergebnisse erreicht werden konnten. Parallel dazu wurden bessere Deskriptoren wie zirkuläre Fingerabdrücke für Medikamente oder Deskriptoren zu den Eigenschaften von Proteinen entwickelt. In diesem Bereich haben Ru et al. (2022) ein Modell entwickelt, das andere Architekturen in der Performance übertreffen konnte. Ihr auf Ähnlichkeit basierendes Feature-Engineering in Kombination mit maschinellem Lernen konnte einen Concordance Index von CI = 0, 891 und einen Mean Squared Error von MSE = 0, 135 erreichen. In dieser Arbeit wurde versucht, diesen Ansatz weiter zu verbessern, indem das auf Ähnlichkeit basierende Feature-Engineering verbessert und eine andere Methode des maschinellen Lernens angewendet wurde.
Um dies zu erreichen, wird zuächst der Ansatz von Ru et al. (2022), NerLTR-DTA, als erste Baseline neu implementiert. Als nächstes wird ein eigener Gradient Boosted Regression Tree als zweite Baseline und ein Fully Connected Neural Net als dritte Baseline implementierten. Basierend auf diesen vorangestellten Experimenten wird ein Hopfield-DTA Modell entwickelt, in welchem Modern Hopfield Layer verwendet werden um die Eingangsdeskriptoren der Medikamente und Proteine anzureichern.
Im Ergebnisteil zeigen wir, dass Hopfield-DTA im Durchschnitt die beste Leistung in Bezug auf den Concordance Index und Mean Squared Error aufweist. Wir waren nicht in der Lage zu zeigen, dass sich Hopfield-DTA signifikant von unserer dritten Baseline, dem Fully Connected Neural Net, unterscheidet.
Unsere Ergebnisse zeigen, dass wir die Performance von Ru et al. (2022) nicht erreichen konnten. Alle unsere getesteten Modelle erzielten bessere Ergebnisse als unsere strikte Neuimplementierung von NerLTR-DTA. Alle Versuchsergebnisse, einschließlich des Codes, der Hyperparameter und der Metriken, sowie die Neuimplementierung von NerLTR-DTA und die Implementierung von Hopfield-DTA werden veröffentlicht, damit diese Arbeit evaluiert oder Hopfield-DTA auf einen anderen Bereich angewendet werden kann. Hopfield-DTA und die Experimente sind mindestens 1 Jahr lang nach Veröffentlichung dieser Arbeit auf github.com/wutzination/Hopfield- DTA verfügbar.
A lot of different Machine Learning approaches for predicting binding affinities have been evaluated. In recent years, there has been an increase in interest in researching Deep Learning architectures, and with them, State-Of-The-Art performance could be reached. Accompanying this, better descriptors like circular fingerprints for drugs or property descriptors of proteins have been developed. In this field, Ru et al. (2022) presented a model that outperformed other architectures. Their similarity based feature engineering combined with Machine Learning resulted in State-Of-The-Art performance by reaching a Concordance Index of CI = 0.891 and a Mean Squared Error of MSE = 0.135. In this work, an attempt was made to further improve this approach by improving the similarity based feature engineering and applying a different Machine Learning method.
To achieve this, we first re-implemented the approach of Ru et al. (2022), NerLTR-DTA, as our first baseline. Next, we implemented a custom Gradient Boosted Regression Tree as our second and a Fully Connected Neural Net as our third baseline. Based on these prepended experiments we developed our Hopfield-DTA model by applying Modern Hopfield Layers, enriching the input descriptors of the drugs and targets.
In the result section we show that Hopfield-DTA has on average the best performance regarding Concordance Index and Mean Squared Error but we were not able to show that it is significantly different from our third baseline, the Fully Connected Neural Net.
Our results show that we could not achieve the performance of Ru et al. (2022) but that all of our tested models achieve better results than our strict re-implementation of NerLTR-DTA. All experiment results, including code, hyperparameters, and metrics, as well as the NerLTR-DTA re-implementation and the Hopfield-DTA implementation, are made public so that this work can be evaluated or Hopfield-DTA can be applied to a different domain. Hopfield-DTA and the experiments will be available at github.com/wutzination/Hopfield-DTA for at least 1 year after release of this work. Die Entwicklung von Medikamenten war und ist ein bestehendes Forschungsgebiet. Da die Entwicklung von Medikamenten häufig ein zeitaufwändiger und kostspieliger Prozess ist, ist maschinelles Lernen ein wichtiges Instrument zur Verringerung dieser Faktoren.
Es wurden viele verschiedene Ansätze des maschinellen Lernens zur Vorhersage von Bindungsaffinitäten bewertet. In den letzten Jahren hat das Interesse an der Erforschung von Deep Learning Architekturen zugenommen, mit welchen bereits State-Of-The-Art Ergebnisse erreicht werden konnten. Parallel dazu wurden bessere Deskriptoren wie zirkuläre Fingerabdrücke für Medikamente oder Deskriptoren zu den Eigenschaften von Proteinen entwickelt. In diesem Bereich haben Ru et al. (2022) ein Modell entwickelt, das andere Architekturen in der Performance übertreffen konnte. Ihr auf Ähnlichkeit basierendes Feature-Engineering in Kombination mit maschinellem Lernen konnte einen Concordance Index von CI = 0, 891 und einen Mean Squared Error von MSE = 0, 135 erreichen. In dieser Arbeit wurde versucht, diesen Ansatz weiter zu verbessern, indem das auf Ähnlichkeit basierende Feature-Engineering verbessert und eine andere Methode des maschinellen Lernens angewendet wurde.
Um dies zu erreichen, wird zuächst der Ansatz von Ru et al. (2022), NerLTR-DTA, als erste Baseline neu implementiert. Als nächstes wird ein eigener Gradient Boosted Regression Tree als zweite Baseline und ein Fully Connected Neural Net als dritte Baseline implementierten. Basierend auf diesen vorangestellten Experimenten wird ein Hopfield-DTA Modell entwickelt, in welchem Modern Hopfield Layer verwendet werden um die Eingangsdeskriptoren der Medikamente und Proteine anzureichern.
Im Ergebnisteil zeigen wir, dass Hopfield-DTA im Durchschnitt die beste Leistung in Bezug auf den Concordance Index und Mean Squared Error aufweist. Wir waren nicht in der Lage zu zeigen, dass sich Hopfield-DTA signifikant von unserer dritten Baseline, dem Fully Connected Neural Net, unterscheidet.
Unsere Ergebnisse zeigen, dass wir die Performance von Ru et al. (2022) nicht erreichen konnten. Alle unsere getesteten Modelle erzielten bessere Ergebnisse als unsere strikte Neuimplementierung von NerLTR-DTA. Alle Versuchsergebnisse, einschließlich des Codes, der Hyperparameter und der Metriken, sowie die Neuimplementierung von NerLTR-DTA und die Implementierung von Hopfield-DTA werden veröffentlicht, damit diese Arbeit evaluiert oder Hopfield-DTA auf einen anderen Bereich angewendet werden kann. Hopfield-DTA und die Experimente sind mindestens 1 Jahr lang nach Veröffentlichung dieser Arbeit auf github.com/wutzination/Hopfield- DTA verfügbar.
| Original language | English |
|---|---|
| Qualification | Master |
| Awarding Institution |
|
| Supervisors/Reviewers |
|
| Publication status | Published - Sept 2023 |
Fields of science
- 102019 Machine learning
- 102018 Artificial neural networks
- 102032 Computational intelligence
- 102004 Bioinformatics
- 104022 Theoretical chemistry
- 101016 Optimisation
- 101028 Mathematical modelling
- 101031 Approximation theory
- 101019 Stochastics
- 102003 Image processing
- 103029 Statistical physics
- 101018 Statistics
- 101017 Game theory
- 102001 Artificial intelligence
- 202017 Embedded systems
- 101015 Operations research
- 101014 Numerical mathematics
- 101029 Mathematical statistics
- 101026 Time series analysis
- 101024 Probability theory
- 102013 Human-computer interaction
- 101027 Dynamical systems
- 305907 Medical statistics
- 101004 Biomathematics
- 305905 Medical informatics
- 102033 Data mining
- 102 Computer Sciences
- 305901 Computer-aided diagnosis and therapy
- 106007 Biostatistics
- 106005 Bioinformatics
- 202037 Signal processing
- 202036 Sensor systems
- 202035 Robotics
JKU Focus areas
- Digital Transformation
Cite this
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver