initial commit

2014-06-21 16:03:20 +02:00 · 2014-06-21 16:03:20 +02:00 · 2329e4a4df
commit 2329e4a4df
11 changed files with 459 additions and 0 deletions
--- a/44
+++ b/44
@ -0,0 +1,44 @@
+Be careful! What you do is only for testing and submitting bugs!
+Some important features may be correctly implemented!
+
+mail me: j [dot] schauer [at] email [dot] de
+
+All code is released unter GPLv3 or later
+
+
+1. install mksquashfs-tools
+on ubuntu you do this via
+sudo apt-get install squashfs-tools
+
+2. Obtain an wikipedia html dump from static.wikipedia.org
+be careful! the august 2007 version of the english wikipdia is 120GB extracted!!
+
+3. extract it to the folder where your scripts are located
+7zr x wikipedia-de-html.7z
+
+your directory structure for eg. german wikipedia dump (26GB extracted) should look like this:
+
+de/ <= all your extracted files
+README <= this file
+remove_files.sh <= bash script for removing unnecesarry files like talk pages
+create_linkindex.pl <= perl script for creating a links.list in eayh directory
+remove_everything.pl <= clean up all remainig junk in the dump files
+rename.pl <= rename everything
+
+4. edit all scripts for your language!
+
+heavy editing is to be done on remove_files.sh
+in the perl scripts you have to change this line according to your language folder:
+find(\&filehandler, "de");
+
+5. delete unnecessary files and dirs in your dump
+	rm -r de/COPYING.html de/index.html de/skins/ de/raw/ de/images/ de/upload/
+6. run remove_files.sh
+7. run create_linkindex.pl
+8. now delete all links with
+	find de/ -size -2k -type f -name '*.html' -delete
+9. run remove_everything.pl
+10. run rename.pl
+11. create the image file with
+	mksquashfs /de your_image_name
+12. test it and drop me a line if sth. went wrong!
--- a/create_linkindex.pl
+++ b/create_linkindex.pl
@ -0,0 +1,47 @@
+#!/usr/bin/perl -w
+
+use File::Find;
+use Encode;
+
+find(\&filehandler, "de");
+
+sub filehandler {
+	if(-s $_ < 2048 and /\.html$/) {
+		open(BLUB, $_);
+		@lines = <BLUB>;
+		close(BLUB);
+		if($#lines < 4) {
+			print "file too small: $File::Find::name\n";
+		} else {
+			if(($href) = $lines[4] =~ /<meta http-equiv=\"Refresh\" content=\"0;url=..\/..\/..\/.{1,9}\/.{1,9}\/.{1,9}\/(.*?\.html)\" \/>/) {
+
+				$href =~ s/%([0-9A-F]{2})/chr(hex($1))/eg; #clean uri
+
+				$href = decode_utf8($href);
+				#if a link has an uppercase letter beyond the first letter it has 4 hex digits on the end wich have to be removed
+				unless($href =~ s/^(.+?\p{Lu}+.*?)_[a-f0-9]{4}\.html$/$1/) {
+					#if this did not match it's all lowercase and has no hex to be removed
+					$href =~ s/^(.+?)\.html/$1/;
+				}
+				$href = encode_utf8($href);
+
+				$_ = decode_utf8($_);
+				#if a filename has an uppercase letter beyond the first letter it has 4 hex digits on the end wich have to be removed
+				unless($_ =~ s/^(.+?\p{Lu}+.*?)_[a-f0-9]{4}\.html$/$1/) {
+					#if this did not match it's all lowercase and has no hex to be removed
+					$_ =~ s/^(.+?)\.html$/$1/;
+				}
+				$_ = encode_utf8($_);
+				
+				$links = $ENV{PWD} . "/" . $File::Find::dir . "/links.list";
+				open(LIST, ">>$links");
+				print LIST "$_ $href\n";
+				close(LIST);
+			} else {
+				print "no match in $File::Find::name\n\$lines[4]: $lines[4]\n\n";
+			}
+		}
+	}
+}
+
+#DONE: richtiges umbenennen der files - siehe mediawiki/trunk/phase3/maintenance/dumpHTML.inc -> function getFriendlyName
--- a/BIN
+++ b/BIN
--- a/mokopedia.py
+++ b/mokopedia.py
@ -0,0 +1,78 @@
+#!/usr/bin/python
+
+import gtk
+import bz2
+import gtkhtml2
+import time
+
+class Mokopedia:
+    document = gtkhtml2.Document()
+
+    def delete_event(self, widget, event, data=None):
+        gtk.main_quit()
+        return False
+
+    def __init__(self):
+        self.window = gtk.Window(gtk.WINDOW_TOPLEVEL)
+        self.window.set_title("Mokopedia")
+        self.window.connect("delete_event", self.delete_event)
+        self.window.set_border_width(0)
+	self.window.set_default_size(480,640)
+
+	main_box = gtk.VBox()
+
+	search_box = gtk.HBox()
+
+	search_entry = gtk.Entry()
+	search_box.add(search_entry)
+
+	search_btn = gtk.Button("Search")
+	search_btn.connect("clicked", self.search)
+	search_box.pack_start(search_btn, False, False, 0)
+
+	#document.connect('request_url', request_url)
+	#document.connect('link_clicked', link_clicked)
+
+	self.displayarticle("Alexander_the_Great")
+
+	view = gtkhtml2.View()
+	view.set_document(self.document)
+
+	sw = gtk.ScrolledWindow()
+	sw.set_policy(gtk.POLICY_AUTOMATIC, gtk.POLICY_ALWAYS)
+	sw.add(view)
+	
+	main_box.pack_start(search_box, False, False, 0)
+
+	main_box.add(sw)
+        
+        self.window.add(main_box)
+        self.window.show_all()
+
+    def search(self, widget):
+        print "blubber"
+
+    def displayarticle(self, title):
+	self.document.clear()
+	self.document.open_stream('text/html')
+
+	before = time.time()
+	#f = open(title + ".html.bz2")
+	f = open("Alexander_the_Great (another copy).html")
+	#self.document.write_stream(bz2.decompress(f.read()))
+	self.document.write_stream(f.read())
+	f.close()
+	print time.time() - before
+	self.document.close_stream()
+
+        
+def main():
+    gtk.gdk.threads_init()
+    gtk.gdk.threads_enter() 
+    gtk.main()
+    gtk.gdk.threads_leave() 
+    
+       
+if (__name__ == '__main__'):
+    Mokopedia = Mokopedia()
+    main()
--- a/remove_catlinks.pl
+++ b/remove_catlinks.pl
@ -0,0 +1,24 @@
+#!/usr/bin/perl -w
+
+use File::Find;
+use Encode;
+
+find(\&filehandler, "de");
+
+sub filehandler {
+	if(-f $_ and $_ !~ /links\.list/) { #damit keine link.list dateien zerstört werden
+		open(BLUB, "$_");
+		@lines = <BLUB>;
+		close(BLUB);
+
+		#Lazy...
+		$lines[$#lines] =~ s/<div id=\"catlinks\">.*//;
+
+		#änderungen speichern
+		open(FILE, ">$_") or print "can't write to $File::Find::name\n";
+		print FILE @lines;
+		close(FILE);
+	}
+}
+
+#DONE: richtiges umbenennen der files - siehe mediawiki/trunk/phase3/maintenance/dumpHTML.inc -> function getFriendlyName
--- a/remove_everything.pl
+++ b/remove_everything.pl
@ -0,0 +1,115 @@
+#!/usr/bin/perl -w
+
+use File::Find;
+use Encode;
+
+find(\&filehandler, "de");
+
+sub filehandler {
+	if(/\.html$/) { #damit keine link.list dateien zerstört werden
+		open(BLUB, "$_");
+		@lines = <BLUB>;
+		close(BLUB);
+		$i=0;
+		$title="";
+		$beginning=0;
+		$ending=0;
+		while(!$title && $i<=$#lines) {
+			($title) = $lines[$i] =~ /<h1.*?>(.+)<\/h1>$/;
+			$i++
+		}
+		
+		if(!$title) { #TODO detect if $title == "0"
+			print "title not found in $File::Find::name\n";
+		}
+
+		#Beginn suchen
+		while(!$beginning && $i<=$#lines) {
+			if($lines[$i] =~ /<!-- start content -->/) {
+				$beginning = $i;
+			}
+			$i++
+		}
+		#Ende suchen
+		while(!$ending && $i<=$#lines) {
+			if($lines[$i] =~ s/<!-- end content -->//) {
+				$ending = $i;
+			}
+			$i++
+		}
+		#ersetzten
+		splice(@lines,$ending+1, $#lines-$ending, "");
+		splice(@lines,0,$beginning+1, "$title\n");
+			#vorletzte zeile löschen da diese seperat angefügt werden wird
+		splice(@lines,$#lines-2, 1, "");
+
+		$i=0;
+		while($i<=$#lines) {
+			#a *very* dirty way to get rid of unicode chars in URLs
+			$lines[$i] =~ s/%([0-9A-F]{2})/chr(hex($1))/eg;
+
+			#needed for proper uppercase detection
+			$lines[$i] = decode_utf8($lines[$i]);
+
+			#removing double spaces
+			$lines[$i] =~ s/[ ]{2,}//g;
+
+			#removing tabs
+			$lines[$i] =~ s/\t//g;
+
+			#removing empty lines
+			$lines[$i] =~ s/^\n$//g;
+
+			#removing the comment block on the end of some aricles
+			if($lines[$i] =~ /^<!-- $/) {
+				if($lines[$i+5] =~ /^-->$/) {
+					splice(@lines, $i, 6, "");
+				}
+			}
+
+			#removing editsection links
+			$lines[$i] =~ s/<span class=\"editsection\">.+?<\/span> //g;
+
+			#converting tex images to tex inside of code tags
+			$lines[$i] =~ s/<img class=\"tex\" alt=\"(.*?)\".*?\/>/<code>$1<\/code>/g;
+
+			#delete all title attributes
+			$lines[$i] =~ s/ title=\".*?\"//g;
+
+			#remove rel attributes
+			$lines[$i] =~ s/ rel=\"nofollow\"//g;
+
+			#if a link has an uppercase letter beyond the first letter it has 4 hex digits on the end wich have to be removed
+			$lines[$i] =~ s/<a href=\"\.\.\/\.\.\/\.\.\/.{1,9}\/.{1,9}\/.{1,9}\/([^\"]+?\p{Lu}+[^\"]*?)_[a-f0-9]{4}\.html(#?[^\"]*?)\">/<a href=\"$1$2\">/g;
+
+			#all remaining links only need to be cleaned up
+			$lines[$i] =~ s/<a href=\"\.\.\/\.\.\/\.\.\/.{1,9}\/.{1,9}\/.{1,9}\/([^\"]+?)\.html(#?[^\"]*?)\">/<a href=\"$1$2\">/g;
+			
+			#delete all thumbnail boxes
+			if($lines[$i] =~ /<div class=\"thumb t(right|left)\">/) {
+				splice(@lines,$i,7, "");
+			}
+
+			#delete all spans
+			$lines[$i] =~ s/<span .*?>(.*?)<\/span>/$1/g;
+
+			#delete all class and style attr.
+			$lines[$i] =~ s/ class=\".*?\"//g;
+			$lines[$i] =~ s/ style=\".*?\"//g;
+
+			#delete alle remaining images
+			$lines[$i] =~ s/<a .*?><img .*?\/><\/a>//g;
+			$lines[$i] =~ s/<img .*?\/>//g;
+
+			$lines[$i] = encode_utf8($lines[$i]);
+			$i++;
+		}
+
+		#änderungen speichern
+		open(FILE, ">$_") or print "can't write to $File::Find::name\n";
+		print FILE @lines;
+		close(FILE);
+	}
+}
+
+#DONE: richtiges umbenennen der files - siehe mediawiki/trunk/phase3/maintenance/dumpHTML.inc -> function getFriendlyName
--- a/remove_files.sh
+++ b/remove_files.sh
@ -0,0 +1,40 @@
+#!/bin/bash
+
+#echo lösche \"Kategorie~*\"
+#find de/ -type f -name "Kategorie~*" -delete
+echo lösche \"Kategorie_Diskussion~*\"
+find de/ -type f -name "Kategorie_Diskussion~*" -delete
+echo lösche \"Bild~*\"
+find de/ -type f -name "Bild~*" -delete
+echo lösche \"Bild_Diskussion~*\"
+find de/ -type f -name "Bild_Diskussion~*" -delete
+echo lösche \"Portal~*\"
+find de/ -type f -name "Portal~*" -delete
+echo lösche \"Portal_Diskussion~*\"
+find de/ -type f -name "Portal_Diskussion~*" -delete
+echo lösche \"Diskussion~*\"
+find de/ -type f -name "Diskussion~*" -delete
+echo lösche \"Vorlage~*\"
+find de/ -type f -name "Vorlage~*" -delete
+echo lösche \"Vorlage_Diskussion~*\"
+find de/ -type f -name "Vorlage_Diskussion~*" -delete
+echo lösche \"Benutzer~*\"
+find de/ -type f -name "Benutzer~*" -delete
+echo lösche \"Benutzer_Diskussion~*\"
+find de/ -type f -name "Benutzer_Diskussion~*" -delete
+#echo lösche \"Spezial~*\"
+#find de/ -type f -name "Spezial~*" -delete
+#echo lösche \"Wikipedia~*\"
+#find de/ -type f -name "Wikipedia~*" -delete
+echo lösche \"Wikipedia_Diskussion~*\"
+find de/ -type f -name "Wikipedia_Diskussion~*" -delete
+echo lösche \"MediaWiki~*\"
+find de/ -type f -name "MediaWiki~*" -delete
+echo lösche \"MediaWiki_Diskussion~*\"
+find de/ -type f -name "MediaWiki_Diskussion~*" -delete
+echo lösche \"Hilfe~*\"
+find de/ -type f -name "Hilfe~*" -delete
+echo lösche \"Hilfe_Diskussion~*\"
+find de/ -type f -name "Hilfe_Diskussion~*" -delete
+echo lösche \"WP~*\"
+find de/ -type f -name "WP~*" -delete
--- a/rename.pl
+++ b/rename.pl
@ -0,0 +1,24 @@
+#!/usr/bin/perl -w
+
+use File::Find;
+use Encode;
+
+$pwd = $ENV{PWD};
+find(\&filehandler, "de");
+
+sub filehandler {
+	if(/\.html$/) {
+		$_ = decode_utf8($_);
+		if($_ =~ s/(.+?\p{Lu}+.*?)_[a-f0-9]{4}\.html/$1/) {
+			$_ = encode_utf8($_);
+			rename( "$pwd/$File::Find::name", "$pwd/$File::Find::dir/$_");
+		} elsif($_ =~ s/(.+?)\.html/$1/) {
+			$_ = encode_utf8($_);
+			rename( "$pwd/$File::Find::name", "$pwd/$File::Find::dir/$_");
+		} else {
+			print "couldn't find filename pattern in $File::Find::name\n";
+		}
+	}
+}
+
+#DONE: richtiges umbenennen der files - siehe mediawiki/trunk/phase3/maintenance/dumpHTML.inc -> function getFriendlyName
--- a/71
+++ b/71
@ -0,0 +1,71 @@
+==originial p7z:
+	size:	2,124,093
+	dirs:	34125
+	files:	1724658
+
+==entpackt:
+	size:	26,124,760
+
+==löschung unnützer dateien:
+	size:	15,884,704
+	files:	1135661
+
+	**davon:
+		kaputt: 116
+		links: 454132
+
+==hinzufügen der links.list files TODO: dateigröße nach unten
+#create_linkindex.pl
+	size:	16,004,220
+	files:	1156229
+
+==löschen der links:
+#find de/ -size -2k -type f -name '*.html' -delete
+	size:	14,183,948
+	files:	701044
+
+==extrahieren des inhalts
+#extract_content.pl
+	size:	8575264
+
+==whitespaces und kommentare entfernen
+#clean_whitespaces_comments.pl
+	size:	8509992
+
+==editsection einträge entfernen
+#clean_edits.pl
+	size:	8197228
+
+==title attribute entfernen
+#clean_titles.pl
+	size:	7400248
+
+==tex images umwandeln
+#clean_tex.pl
+	size:	7395216
+
+==links umwandeln TODO: mit clean titles zusammenlegen
+#clean_links.pl
+	size:	6774260
+
+==thumbnail boxen löschen
+#clean_thumbnails.pl
+	size:	6515720
+
+==spans, class attr, style attr. löschen
+#clean_css_markup.pl
+	size:	5995296
+
+==bilder löschen
+#clean_images.pl
+	size:	5730456
+
+==alle umbenennen
+find de/ -type f | rename 's/^(.+?\/.{1,2}\/.{1,2}\/.{1,2}\/)(.+?[[:upper:]]+.*?)(_[a-f0-9]{4})\.html$/$1$2/' --
+
+find de/ -type f | rename 's/^(.+?\/.{1,2}\/.{1,2}\/.{1,2}\/)(.+?)\.html$/$1$2/' --
+
+
+in april: 664444 items, totalling 3.5 GB => 1GB
+	 701044	=> 1.1GB
+ 
--- a/test.pl
+++ b/test.pl
@ -0,0 +1,7 @@
+#!/usr/bin/perl -w
+
+$test = "%6d%69%74%73%75%68%69%6b%6f%40%75%62%75%6e%74%75%2e%63%6f%6d";
+
+$test =~ s/%([0-9a-f]{2})/chr(hex($1))/eg;
+
+print $test;
--- a/9
+++ b/9
@ -0,0 +1,9 @@
+remove		11m
+extract		110m
+remove_files	22m
+create_links	-	
+delete_links	12m
+remove_everyth	118m
+remove_catlink	31m
+rename		11m
+mksquashfs	62m