吐き出す作業

金曜のゼミにてボスにtfidfの解析をもう一度考え直してみてということで
今までの解析は一旦ポイしてデータセットを人間の目で見て、特徴を探してみようってことに。


連休に入るので、前からしたかった自分のPCにグローバルIPを振り分ける作業。
山Pやトオルの手を借りて床をはぎ、LANケーブルを作成し、親ルータから自分のPCへと回線を引く。
hostsやらinterfacesやらを書き換えてサーバ化終了。
色々といらないサービス止めたり、sshdやらproftpdやらを入れたり。


んで、土曜はhtmlファイルからタイトルタグからサイト名、h1タグからURLを抜き出すRubyのプログラム。
ディレクトリ内の全てのファイルに処理を行う際にforeach使うんだろうけどわかんねってことで、プログラムの引数でファイル名指定して、開いてそれからHpricotで抽出。
んで、それをシェルスクリプトで回して抽出結果を標準出力で追記。


もっとスマートなやり方があるんだろうが、とりあえず今は目的のことができればOKってことで。
背中痛くなったからそろそろ寝ますかね。