750GB

卒論用のテストデータ探してたらYahoo!Researchで提供しているdataset発見。
一部で8GB×の6ファイル。圧縮後が。解凍すると250GB位。
んで、Fullになると圧縮で550GB。解凍すると750GBらしい。
一部の方だけ使わせてもらうため必要書類に署名やらをして国際FAXで送信。
週明けにはダウンロードするためのパスワードが送られてくるはず。


他にもKolariさん(自分の分野のお偉いさん)のデータセットがあるけど、そっちはそっちで。
後、Trecでもdatasetみつけたがその使い方がわかんね。
まずは普通に形態素解析やらしてtfidfしてみてどんなもんかやってみようとは思うけど。
言語はどうしよう・・・・。あと、独自のアイディアもいれこまねぇと。
雑誌会の奴の実装でもいいとか言っていたが・・・・。あれはあれでおもしろそうしな・・・。
まぁ、datasetをおいとくスペースを探すたびに出るか。