言語教育学演習2010 | AiAsano | ReikaOkajima |
日程 †
- 6/24
- CBLS Chap.8&9
- テキスト整形・ランキングのリスト化
- ソフト(Source List Opener)で切り出し
- 6/3
- CBLS Chap.7
- 1960〜2009までのランキング
- 自動でとってくるための方法(URL/テキストの指定)
- 5/27
- CBLS Chap.5
- Top chart の情報の利用可能性
- Crawler を使って特定の歌手と歌の情報を取ってくる方法
- 5/20
- CBLS Chap.4
- Crawler レポート2
- Song Corpus 設計基準の話し合い
- 5/13
- CBLS Chap.3 Corpus mark-up
- Crawler の使用感報告
- 個人ページに評価を書き込む
- 5/6
- CBLS Chap.2
- Crawler の紹介
- 歌のサイトの収集
リンク †
歌詞のサイト †
原則、静的ページに限る
Web crawler & spider †
Song Corpus設計基準 †
- 内容
- アーティスト
- 年代
- ジャンル
- ロック、ポップス、ヒップホップ
- バラード(スタイル?)
- ランキングサイト
- グラミー賞
- ジャンル分けの参考になる
- 各ジャンルに多数の受賞者
ランキングのリスト化 †
使用ソフト †
- Source List Opener
- サクラエディタ
手順 †
アンダーバー(_)は半角スペースを表す
- 「??」は「’」だが、URLでは不要なので置換する
- 置換前:??
- 置換後:何も入力しない
- 正規表現はチェックしない
- 番号を置換する
- 置換前:^[0-9]+_
- 置換後:何も入力しない
- 正規表現をチェックする
- ^:行頭の指定
- [0-9]:任意の半角数字1文字
- +:1回またはそれ以上の繰り返し
- http:〜を文頭に挿入
- 置換前:^
- 置換後:http://www\.lyrics\.com/
- 正規表現をチェックする
- 正規表現に使われる記号を円マーク(\)でエスケープする
- 手作業で
- 曲名と歌手名の間のスペースをデリートし、タブを挿入
- タブを-lyrics-に置換する
- 置換前:\t
- 置換後:\-lyrics\-
- 正規表現をチェックする
- \t:タブの記号
- 正規表現に使われる記号を円マーク(\)でエスケープする
- 文末に.htmlをつける
- 置換前:$
- 置換後:\.html
- 正規表現をチェックする
- $:文末の指定
- 正規表現に使われる記号を円マーク(\)でエスケープする
タスク †
- 次回までにランキングのリスト化
- 1960〜1985:浅野さん
- 1986〜2009:岡島さん
- カテゴリーのプランを考えてくる