Google-Alternative

Yacy: Suchmaschine als Open-Source-Projekt

Wer heute vom Suchen im Web redet, meint zumeist Google. Doch das Open-Source-Projekt Yacy zeigt, dass auch ohne amerikanische Firmen und Überwachung ein komfortables Suchen im Netz möglich ist.

Yacy

© Yacy

Yacy

Muss eine Suchmaschine zentralisiert sein? Nein, das Open-Source-Projekt Yacy entwickelt eine Suchmaschine im P2P-Modell, bei dem auch Sie mitmachen können. Moderate Hard- und Softwareanforderungen machen auch einen Betrieb "nebenbei" auf einem wenig ausgelasteten PC attraktiv. Bevor es Google gab, sorgten redaktionell gepflegte Webverzeichnisse wie Yahoo oder das Open Directory Project für Orientierung im Internet. Aber diese konnten bereits ab 1999 kaum Schritt halten mit dem World Wide Web, was Google groß machte. Doch viele Anwender hinterfragen heutzutage das Prinzip Google mit seinen automatisch ausschwärmenden Bots, die Texte indizieren und Links zählen.

Das größte Problem der automatischen Indexierung und Positionierung besteht darin, dass Link-Counts zwar viel über die Beliebtheit der verlinkten Seiten bei Webmastern und Autoren aussagen. Die tatsächlichen Besuchszahlen oder Nutzermeinungen fließen aber nicht oder auf nur auf Umwegen in die Ergebnisse ein. Ein weiteres Problem des Prinzip Google ist die Zentralität: In wenigen Rechenzentren werden nicht nur die Indexe, sondern auch Account-Daten, Dokumente und E-Mails aufbewahrt. Heute wissen wir, dass die NSA von Google angemietete Dark Fiber - also exklusiv genutzte Glasfaserstränge zwischen Rechenzentren - anzapfen, und den darüber laufenden (unverschlüsselten) Datenverkehr mitschneiden und archivieren. Das größte Problem am Versuch, Alternativen aufzubauen, ist die schiere Größe des World Wide Web: Je nach Zählweise umfasst das WWW zwischen 1,5 und 15 Milliarden Einzelseiten. Daran knabbert auch Microsoft, dessen Suchmaschine Bing noch lange nicht auf einen Index der Größe Googles zugreifen kann.

Das Yacy-Prinzip: Dezentralisierung

Yacy macht sich zwei Prinzipien zunutze: Die Software läuft dezentral auf vielen Rechnern, die untereinander Fragmente des Index und Suchanfragen austauschen. Jeder Knoten stellt dabei - in der Regel nur fürs lokale Netz - über einen Web-Server eine Suchseite bereit. Die Index-Erzeugung funktioniert dabei zweigleisig: Sie können einerseits selbst einen Crawler ausschwärmen lassen, der Seiten indexiert, die Sie interessieren oder die Sie betreuen.

Ein guter Startpunkt dafür ist meist eine von Firefox exportierte bookmarks.html. Wählen Sie dabei eine Indexierungstiefe von 2 oder maximal 3 (mit 6 oder 7 dürften Sie das gesamte verlinkte WWW erfassen). Andererseits arbeitet Yacy auch als indexierender Proxy: Sie stellen Ihren Browser so ein, dass alle Seiten über Yacy als Proxy geladen werden. Yacy behandelt die so erfassten Seiten als wären Sie vom Crawler geliefert und indexiert sie. Damit fließt die menschliche Komponente als wichtiger Aspekt in die Suchergebnisse ein: Seiten, die häufig besucht werden, sind aktueller im Index enthalten und werden dadurch mit höherer Wahrscheinlichkeit an andere Knoten weitergegeben. Daneben bietet die Suchseite die Möglichkeit, Ergebnisse zu bewerten und so nutzlose Ergebnisse herabzustufen.

Yacy in der Praxis

Als Erstes gilt es, einen Platz für Ihren Yacy-Knoten auszuwählen. Wir empfehlen für erste Gehversuche die Installation auf einem flotten PC. Diese Installation muss nicht dauerhaft sein, denn bei einem Yacy-Knoten, der einige Tage oder Wochen lief, wurden bereits große Teile des Indexes an andere Knoten verteilt. So können Sie nach einer Testphase diese temporäre Installation löschen und eine dauerhafte Installation auf einem anderen Rechner angehen. Ideal ist es, wenn der Yacy-Knoten über eine SSD verfügt, von der dem Index wenigstens 20 Gigabyte zur Verfügung stehen.

Yacy

© Archiv

Wichtig bei der ersten Installation: Der Nutzer sollte einen eindeutigen Peer- Namen vergeben, damit er den eigenen Yacy-Knoten auch wiederfi nden kann.

Auch Rechenpower und Speicherbandbreite schaden nicht, insbesondere bei aktivem Crawling. Dennoch reicht bei einer zurückhaltenden Konfiguration bereits ein Raspberry Pi oder Beagle Bone als Yacy-Server aus. Soll ein Einplatinen-Rechner extra für den Einsatz als Yacy-Server (und vielleicht für andere Server-Aufgaben im Heim- oder Büronetz wie OwnCloud) angeschafft werden, empfehlen wir Modellen mit SATA-Anschluss wie dem Cubie Board den Vorzug zu geben.

Yacy braucht Java

Yacy benötigt eine aktuelle Java Runtime Environment. Installieren oder aktualisieren Sie diese bevorzugt vor der Installation von Yacy. Anschließend fahren Sie mit der Yacy-Installation fort: Für Windows steht eine EXE-Datei bereit, wer eine Debian basierte Linux-Distribution einsetzt, kann ein Repository einbinden und anschließend Yacy per apt-get installieren. Diese Installationsart kon guriert Yacy gleich als Dienst und legt einen zugehörigen Nutzer an. Nach der Installation unter Windows ist Yacy zunächst nicht aktiv, sondern muss per Doppelklick auf eine Desktop-Verknüpfung gestartet werden, was auch gleich ein Browserfenster mit der Suchseite öffnet.

Bei einem Desktop-System stellt die Aufnahme der startenden Batch-Datei in den Autostart beim Login eine praktikable Lösung zum dauerhaften Start dar. Sollten Sie Yacy auf einem Windows-Server einsetzen wollen, ist ein wenig mehr Aufwand zu betreiben: Legen Sie einen Nutzer an, unter dessen Kennung yacy laufen soll, installieren und kon gurieren Sie Yacy, und verwenden Sie das Tool YAJSW (Yet another Java Service Wrapper - http://yajsw.sourceforge.net/), um so automatisiert aus der Prozess-ID eine Service-Definition erstellen zu lassen.

Yacy

© Archiv

Für den bidirektionalen Datenaustausch muss der Yacy-Knoten von außen erreichbar sein: Dafür sollten Anwender den Port 8090 im eigenen DSLRouter freigeben.

Über den Link Administration auf der Suchseite gelangen Sie zur Ersteinrichtung. Nach Auswahl der Sprache setzen Sie hier zunächst das Nutzungsszenario: In der Regel werden Sie die gemeinschaftliche Websuche unterstützen wollen, in vielen kleinen und mittleren Unternehmensnetzen sind jedoch auch die beiden anderen Szenarien der Indexierung des Intranets oder des Aufbaus eines themenspezifischen Indexes attraktiv. Wählen Sie daneben einen Hostnamen - dieser kann recht beliebig sein, er dient nur Ihnen zur Identifizierung des eigenen Knotens in Listen und Diagrammen. Bevor es nun an die Speicherung der Konfiguration geht, sollten Sie in den Port-Forwarding-Einstellungen den Port 8090 an den Yacy-Host durchreichen. Wenn Ihr DSL-Router die IP-Adresse des Yacy-Knotens nicht automatisch ermittelt, können Sie dies unter Windows mit dem CMD-Befehl ipfonfig /all, unter Linux mit einfachem ifconfig finden.

Yacy

© Archiv

Hilft bei der Erstellung eines eigenen Index: Als indexierender Proxy nimmt Yacy alle angesurften Seiten in den lokalen Index auf. So werden nicht nur Verlinkungsgraphen, sondern auch tatsächliche Nutzerpräferenzen berücksichtigt.

Power mit Proxy

Insbesondere wenn Yacy als Dienst auf einem Server läuft, sollten Sie einen Administratorzugang erstellen, um von jedem Rechner im Netzwerk Crawls starten und den Proxy verwalten zu können. Dies erledigen Sie unter dem mit Accounts bezeichneten Link. Das Passwort für Ihren Knoten sollten Sie komplex genug wählen, damit keine erfolgreichen Wörterbuchattacken unbefugten Dritten Zugriff auf Ihren Yacy-Knoten gewähren. Wenn Sie auch aus dem Internet Zugriff auf die Proxy-Funktion des Yacy-Knotens haben wollen, sollten Sie zudem im Abschnitt Benutzerkonten Proxy-Accounts erstellen. Account-Nutzern können Sie zudem erweiterte Rechte wie das Anlegen von Wiki-Seiten oder das Setzen von Bookmarks erlauben, was gerade in Firmenumgebungen attraktiv ist. Die Standardeinstellung für den reinen Proxy-Zugriff ist das Zulassen aller Anfragen vom lokalen Rechner aus sowie von IP-Adressblöcken, die mit 192.168.* und 10.* beginnen, das deckt rund 90 Prozent der Heimnetze ab. Lediglich der seltener von DSL-Routern benutzte Bereich 172.16.* bis 172.32.* wird davon nicht erfasst und muss manuell unter Erweiterte Einstellungen/ Proxy-Zugangs-Einstellungen eingetragen werden.

Unter Experten Crawl Start/Scraping Proxy stellen Sie Feinheiten des indexierenden Proxies ein. Setzen Sie die Indexiertiefe auf den Wert 1, wenn Yacy auf einer schnellen Maschine läuft und verhältnismäßig wenig Web-Traffic anfällt: In diesem Fall kann Yacy alle von aufgerufenen Seiten verlinkten Seiten laden und indexiert so erfahrungsgemäß viel Content aus dem Kontext aufgerufener Seiten. Der dadurch anfallende Traffic kann erheblich sein - probieren Sie einfach aus, ob die Performance Ihrer Internetverbindung beeinträchtigt wird. Setzen Sie auch unter System Administration/Erweiterte Einstellungen/ HTTP-Netzwerk" ein Häkchen bei Transparenter Proxy, Sie werden sonst möglicherweise mit einer etwas obskuren Fehlermeldung konfrontiert. Nun gilt es noch, den Yacy-Proxy im Browser einzustellen. unter Firefox beispielsweise unter Einstellungen/Netzwerk/Verbindung. Tragen Sie hier die IP-Adresse des Yacy-Knotens und den Port 8090 ein. Nach dem Aufruf der ersten Webseiten können Sie nun aus der rechten Seitenleiste der Proxy-Startseite heraus über den Link Lokales Crawlen einen Blick auf aktuell zu indexierende Seiten werfen. Gratulation: Sie sind nun Teil einer Suchmaschine und können über die Yacy-Suchseite auf den gemeinsamen Index zugreifen.

Yacy

© Archiv

Was macht mein Yacy gerade? Hier zeigt die Seite Lokales Crawlen, womit der eigene Knoten gerade beschäftigt ist - dieser indexiert vom Proxy gelieferte Web-Seiten.

Mit steigender Popularität der Suchmaschine ist Yacy auch für Spammer interessant. So gibt es immer wieder Versuche aus dem Adult-Content-Umfeld, eigene Seiten in den verteilten Index einfließen zu lassen. Dazu setzen die Spammer eigene Yacy-Server auf recht potenter Hardware auf, die Crawls über besagte Erwachsenen-Seiten durchführen - ganz wie es auch alle anderen Betreiber von Knoten tun. In der Regel werden solche Aktivitäten schnell von den Betreibern anderer Knoten erkannt und jeweils für den eigenen Knoten blockiert. Dennoch bleibt ein gewisser Bodensatz "Erwachsenen-Inhalte" Teil des Indexes, was kein Problem darstellt, solange diese Suchergebnisse nicht beeinflussen, bei denen andere Themen im Vordergrund stehen.

Google-Killer in Sicht?

Noch ist Yacy kein Google-Killer, dazu ist schon die Zahl von meist 500 bis 1000 gleichzeitig im Freeworld-Index aktiver Knoten zu klein. Da deren Index jedoch einen guten Querschnitt über tatsächlich angesurfte Seiten darstellt, ist die Qualität der Ergebnisse hoch. Punkten kann Yacy gewaltig, wenn nicht nur die Teilnahme an der gemeinschaftlichen Suche erwünscht ist, sondern ein Proxy mit fein einstellbarer Filterfunktion fürs Intranet gesucht wird.

Mehr zum Thema

Mobile Printing
Webbusiness

Mit iPhone & Co. sollte Drucken heute eigentlich einfacher gehen, doch bei der mobilen Revolution wurde diese Funktion schlicht vergessen. Langsam…
Probleme bei Cloud-Providern?
Cloud Computing

Cloud Computing bietet gerade auch kleineren und mittleren Unternehmen die Möglichkeit, flexibel zu bleiben und Ressourcen zu schonen.
Domain Registar Wechsel
Tipps

Der Wechsel des Domain-Registrars kostet Zeit, Geld und Nerven - und die Ausfallzeiten sind oft hoch. Ein Trick erspart Ihnen viel Ärger.
print
Mobil drucken

Vom Smartphone und Tablet drucken und alte Drucker mit Google Cloud Print aufrüsten: Unser umfassender Überblick zum Thema Cloud-Printing.