Update urlextractor_archiveteam.sh

2023-12-05 02:41:43 +00:00 · 2023-12-05 02:41:43 +00:00 · bd939a62de
commit bd939a62de
parent d95927c230
1 changed files with 1 additions and 5 deletions
--- a/urlextractor_archiveteam.sh
+++ b/urlextractor_archiveteam.sh
@ -12,10 +12,7 @@ export -f gzip_file
 for file in "$directory"/*_urls.txt; do
    filename=$(basename "$file")
    grep -E "http(s)?://(www\.)?mediafire.com" "$file" | sort -u >> "/opt/commoncrawl/export/mediafire_urls.txt"
    grep "https://t.me/" "$file" | sort -u >> "/opt/commoncrawl/export/t.me_urls.txt"
    grep "https://telegram.me/" "$file" | sort -u >> "/opt/commoncrawl/export/telegram.me_urls.txt"
    grep -E "http(s)?://(www\.)?i.imgur.com" "$file" | sort -u >> "/opt/commoncrawl/export/imgur_urls.txt"
    grep "sitemap.xml" "$file" | sort -u >> "/opt/commoncrawl/export/sitemap_urls.txt"
    grep "https://cdn.discordapp.com/" "$file" | sort -u >> "/opt/commoncrawl/export/discord_urls.txt"
    if [[ $filename != "mediafire_urls.txt" && $filename != "t.me_urls.txt" && $filename != "telegram.me_urls.txt" && $filename != "sitemap_urls.txt" ]]; then
@ -25,4 +22,3 @@ done
 # Wait for all gzip processes to finish
 wait