tsucchi’s diary(元はてなダイアリー)

はてなダイアリー(d.hatena.ne.jp/tsucchi1022)から移行したものです

勝手にブログ評論

毛の生えたようなもので紹介されてました。

勝手にブログ評論
まず、このブログを評論させた結果が、コチラ

で、ほとんど文章らしきものを書いていないtech noteをインプットに食わせてみたら、どうなるかなぁ、といたずら心をはたらかせてみたら、こうなりました。

勝手にブログ評論 - tsucchi's tech note評論 実ファイルにとって大切なものは3つある。コマンド、パラメータ化クエリ、それにアルゴリズムだ。

紳士たる者、ディレクトリ内を忘れるべからず。実ファイルは、率直に言ってモジュールである。それならば、システムクロックと実ファイルもまた両立できないのである。込むログとモジュール、どちらも生まれたての双生児のように似ている。ファイルはいわば、実ファイルにおけるロマネ・コンティだ。昨日紹介は食べたら無くなってしまう。スコットランドの古い諺だ。他に必要なものはなんだろうか?・・・そう、ローテーションだ。要するにモジュールとはエラーメッセージ抑制なのだ。カベルネ・ソーヴィニヨンの来歴が、1990年代まで明らかにされなかったように、ビューアと実ファイルの関係もまたいずれ明かされるであろう謎である。要するにバージョンとはパラメータ名なのだ。他に必要なものはなんだろうか?・・・そう、オブジェクト指向だ。個人的に最も興味深いのはバージョンアップよりもむしろタイプミスである。マラネロやモデナのような田舎町で作るスポーツカーよりもニューラルネットの方が好ましいと感じる人も居るかも知れない。デピアスですらメジアンに値段を付けて売るのは難しいのではないか。セーヌ川のほとりに、うち捨てられた読み込みがちらほら見える。見るに堪えない。充分熟成を重ねた設定ファイルには、一流のソムリエも舌を巻くだろう。結果論から言えば、重複回避は良かった。tsucchi's tech noteというタイトルを選ぶあたり、作者の並々ならぬセンスを感じる。そう。モジュールのように。1955年の実ファイルよりも、1953年の実ファイルの方が上等だ。それが常識というものである。さもありなん、である。そんな貴兄に本番環境。なにかの原因がモジュールにあると考えるのは、幼少期にトラウマを抱えている可能性がある。実ファイルとは一体何だ?その答えは軽量化版にある。よく考えてみよう。こんなときにモジュールを持ち出すのは、少々冒険である。そう。軽量化版だ。地中海の風というのは、-マイクロソフトを彷彿とさせる。

つーか、何?この腹筋ブレイカー。タイトルだけで十分悶絶だよ...。さらに、「他に必要なものはなんだろうか?・・・そう、オブジェクト指向だ。」と「1955年の実ファイルよりも、1953年の実ファイルの方が上等だ。それが常識というものである。」でとどめを刺されました。

それにしても、すごいハイレベルな形態素解析エンジンを持ってるなぁ。いったい何をどうやってるんだろ?

(追記)

作った人の blog 発見。(有名どころでした)
港区赤坂四畳半社長 - あなたのブログ、評論します。

そこで極めて適当に、ストップワードを抜き出す正規表現を書いてみました。

$keyword = mb_split("[\s\t・ \[\]\"[]『』=<>\/。/\?\&※:?【】=系的をやのでがにへと(べき|べからず |べからざるを)(かつ)(しかも)(っ[てた])(とき)とも(より)(そのほか)(しかし)(と(いう|いえば|すれば))(この)((なぜ)*なら [ば]*)((し|され)たら)(じゃ)(くらい)(くん)「」(だ(から|けど|が))な(から)(または|さもなくば)(たら)(したり)(する|すれば)((し|され)て)(だ|である)\(\),、。,(さん)\!\?(!)<><>]", $str); 

え?これだけ? てっきり新しく発見された形態素解析アルゴリズムとか使ってるもんだと思い込んでたよ。方法自体はちょっと考えれば誰でも思いつくところだもんなぁ。

tech note は、固有名詞ばっかり使っているけど、それがかなりうまくくくりだされてたから、「辞書を使う形式じゃないだろう」とは思いましたが、まさかこんな簡単な方法だったとは。。。