Für viele Pflanzengruppen gibt es bereits Sequenzdaten von nützlichen genetischen Markern. In diesem Projekt geht es darum, mit bioinformatischen Methoden festzustellen wie hoch die Korrelation zwischen auf Ähnlichkeit basierenden Sequenz Gruppen und den taxomomischen Gruppen (Arten) ist. In dem Zuge werden problematische Gruppen identifiziert und falsche Sequenzen aus dem Datensatz entfernt.
Als Resultat können wir sagen, für welche Arten eine Identifizierung mittels des entsprechenden Markers möglich ist und für welche entweder andere Marker gesucht werden müssen oder das angewendete Artkonzept in Frage gestellt werden muss.
Methodik: Prinzipiell kann man dieses Projekt mit phylogentischen Bäumen angehen. Bei großen Datensätzen allerdings empfiehlt es sich besser mit anderen Algorithmen zu arbeiten die z.B. ohne ein multiples Sequenzalignment zurecht kommen. Ein Beispiel hierfür ist USEARCH.In Kombination mit perl oder anderen Skriptsprachen lässt sich eine Analysepipeline erstellen, mit der man große Datensätze entsprechend auswerten kann.