スパーバキュームマシーン - α万屋/*とりてんにっき*/

ではなくてサポートベクターマシーン。SVM。
昨日から3000件のうちの100件のブログを見て、目視でSplogORno-Splogに振り分けてました。
一サイトずつ根拠を書いて。ほとんどが英語のサイトで内容までは見ていられないのである程度の判断基準で。
研究室に入ってからずっとSPAM!SPAM!SPAM!SPLOG!SPLOG!SPLOG!って言っていたので先生方から
「んじゃー、おめー、自分の感覚をコンピーター化したらいいんじゃね？」ってことで目視確認。

100件見るのに結局半日かね。
データセットをサンプルとして見ていったんだけどもそのhtmlファイルのみを判断基準にしないといけないけど、
確認のためにインターネットアーカイブさんやらGoogleさんのキャッシュやらにお世話になりながら・・・・。
んで、パラメタにできそうなものをちょいちょいと見積もって・・・・。
んで、タイトルのSVMに放り投げるのですよー。SVMは

SVMではデータを二つの種類に分離するために、各データ点との距離が最大となる分離平面(超平面)を求めるマージン最大化という考え方を用いる。
最も簡単な場合である、与えられたデータを線形に分離することが可能である (例えば、3次元のデータを2次元平面で完全に区切ることができる)場合を考えよう。
このとき、SVMは与えられた学習用サンプルを、もっとも大胆に区切る境目を学習する。学習の結果得られた超平面は、境界に最も近いサンプルとの距離(マージン)が最大となるものとなる。
学習過程はラグランジュ乗数法を用いることにより、最適化問題の一種である凸二次計画問題で定式化される。ただし、学習サンプル数が増えると急速に計算量が増大するため、分割統治法の考え方を用いた手法なども提案されている。
サポートベクターマシン - Wikipedia

ですよ。この引用もコピペだけどもそれを悪質なコピペとするか、引用とするか、転載とするか・・・。
んなこと、誰かやってんだろうな・・・・・。とりあえず明日のゼミでBOSSに報告。