javascript で単語を取り出したい。
WEBページのリンク要素やコンテツから単語を抜き出したい。
単語を抜き出す正規表現
特定の語句の塊を抜き出しておく。
r=/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9\-]+|[a-zA-Z0-9]+/g
テキストを処理すると送り仮名や語活用なども意識する必要があってダルいので、大抵はこの正規表現使ってる。
実際にテキストから単語を取り出してみる。
str = "マイクロソフト Bluetoothキーボード Windows/Androidタブレット/iPad, iPhone対応 Universal Mobile Keyboard グレー P2Z-00051 " r=/[一-龠]+|[ぁ-ん]+|[ァ-ヴー]+|[a-zA-Z0-9]+|[a-zA-Z0-9]+/g str.match(r) ["マイクロソフト", "Bluetooth", "キーボード", "Windows", "Android", "タブレット", "iPad", "iPhone", "対応", "Universal", "Mobile", "Keyboard", "グレー", "P2Z-00051"]
綺麗なもんだ。
単語を抜き出すだけで結構使える。
単語の境界、つまりカタカナ漢字、アルファベットの境界で切断するんだけど、通常使う日本語には、コレが1番相性がいいと思う。
つまり、検索避けするなら 「かな」でブログかけってことですね。
関連資料
日経の社説を一気に取得する。自分で読むのはバカバカしいからRubyに日経を読ませる。 - それマグで!