Schluss mit Code-Klonen: Dieses Intellij-Plugin entdeckt Copypasta in eurem Java-Code

Das IntelliJ-Plugin Anticopypaster (hier auf Github) soll Probleme mit kopierten und eingefügten Code-Schnipseln reduzieren helfen. Das Tool arbeitet mit der integrierten Java-Entwicklungsumgebung (IDE) von Jetbrains. In einem auf dem Wissenschafts-Server ArXiv veröffentlichten Papier erklären die Entwickelnden ihr Plugin.
Die Probleme des exzessiven Copy-and-paste
Sie weisen darauf hin, dass das Kopieren und Einfügen von Schnipseln bestehenden Codes zwar ein wesentlicher Bestandteil des Programmierens sei, aber zu Problemen hinsichtlich der Wartung, der Sicherheit und der Lizenzierung führen könne.
Während gegen das Kopieren und Einfügen an sich nichts einzuwenden sei, zeige die Forschung aber auch, dass das Vorhandensein von zu vielen Quelltext-Klonen innerhalb eines Projekts dessen Wartung erschweren kann, weil dadurch die Codebasis stark anwächst und das Pflegen mehrerer Instanzen des gleichen Snippets kaum sinnvoll zu handhaben sei. So heißt es in dem Papier: „Die Behebung von Schwachstellen in mehreren duplizierten Instanzen kann schwierig sein und zu erhöhten Sicherheitsrisiken führen.“
Nicht nur die Wartung wird schwieriger, womit dann potenzielle Sicherheitsrisiken einhergehen. Auch Probleme mit der Softwarelizenzierung seien möglich. So hatte bereits ein Papier aus dem Jahr 2020, das von denselben Forschenden verfasst wurde, das Klonen von Code in 24.000 Java-Projekten auf Github untersucht und dabei festgestellt, dass fast zehn Prozent der kopierten Code-Blöcke potenziell gegen ihre ursprünglichen Lizenzen verstoßen.
Copypasta ist ein namhaftes Problem mit großer Verbreitung
Dabei ist das Problem nicht etwa klein. Vielmehr lässt sich eine regelrechte Vorliebe Entwickelnder für Copypasta konstatieren, weshalb eine Menge doppelten Codes im Umlauf sei. So stammten im Jahr 2017 bereits etwa 70 Prozent des Codes auf Github aus kopierten Dateien. Die anhaltende Anziehungskraft von kopiertem Code hatte sogar zu einem Fake-Buch mit dem Titel „Copying and Pasting from Stack Overflow“ und T-Shirts mit demselben Spruch geführt.
Neben den handfesten Problemen, die Copypasta mit sich bringt, ist das Raus- und Reinkopieren der gleichen Quellcode-Blöcke innerhalb eines Projekts schlichtweg auch ein Zeichen für schlechte Programmierung und mieses Anwendungsdesign. Dagegen sollten Entwickelnde schon aus diesem Grunde aktiv vorgehen.
Unaufdringliche Vorgehensweise
Das Plugin Anticopypaster arbeitet unaufdringlich. Es überwacht die IDE im Hintergrund auf eingefügten Code und scannt die Java-Methoden innerhalb der Zieldatei, um Duplikate zu finden. In einem mehrschrittigen Verfahren sucht es nach wesentlichen Ähnlichkeiten – ohne dabei aktiv in den Workflow einzugreifen.
Das beginnt schon damit, dass es nicht direkt nach dem Einkopieren von Code Alarm schlägt, sondern vielmehr abwartet, ob der einkopierte Code nicht etwa doch noch bearbeitet wird. Nur wenn der geklonte Code auch nach einer konfigurierbaren Zeitspanne noch nicht verändert ist, prüft das Plugin, ob es sich bei dem eingefügten Fragment um Java-Code handelt und ob er korrekt aufgebaut ist.
Refactoring statt Copy-and-Paste
Ist dies der Fall, lässt AntiCopyPaster das Snippet durch sein integriertes Klassifizierungsmodell laufen, um zu prüfen, ob es für ein Refactoring mit der in IntelliJ Idea integrierten Extract-Methode geeignet ist. Ist das der Fall und nutzen Entwickelnde das Verfahren dann auch, sollten sie am Ende einen überschaubareren Code und zumindest die Chance, potenzielle Probleme im ursprünglichen Snippet zu erkennen, erhalten.
„Insgesamt hoffen wir, dass Anticopypaster Entwicklern helfen kann, die Qualität ihrer Projekte zu erhalten, indem es die Ausbreitung von Code-Klonen bekämpft“, heißt es in dem Papier der Tüftler – und „Wir hoffen auch, dass unsere Forschung weitere Arbeiten in diesem Bereich inspirieren kann.“ Die Pipeline des Tools lässt sich jedenfalls auch für andere „Fehler“ erweitern.