91f1af2cf41f49c0182f1d4e8fb2c7eb1ef51122
[.git] / shell_scripts / logs_own_vocabulary
1 #! /usr/bin/env bash
2
3 # see related ideas
4 #       http://fabien.benetou.fr/innovativ.it/www/HistoricalArchives/Seedea/Oimp/Ubiquitousvocabulary
5 #       http://fabien.benetou.fr/Cookbook/Cognition#LearningNewLanguage
6 # and most_used_commands
7
8 LOGS=web/thelab/stigmergylive/logs/ChannelLogger/freenode/#*/*
9
10 cat $LOGS | grep "<Utopiah" | sed -e "s/[^a-zA-Z]/ /g" | sed -e "s/ /\n/g" | sed -e "s/^.\{1,3\}$//" |sort | uniq
11
12 # cleaning by removing low frequency words
13 # ... | sed -e "s/[^a-zA-Z]/ /g" | sed -e "s/ /\n/g" | sed -e "s/^.\{1,3\}$//" |sort | uniq -c | grep -v " 1" | grep -v " 2" | grep -v " 3" | wc -l
14
15 # 10 most commonly used words
16 # ... | sed -e "s/[^a-zA-Z]/ /g" | sed -e "s/ /\n/g" | sed -e "s/^.\{1,3\}$//" |sort | uniq -c | sort -n | tail -15
17