言語教育学演習2010 | AiAsano | ReikaOkajima |
Song Corpus 進捗状況 †
設計基準 †
- 1960〜2009年
- BillBoard?の年間1〜100位
進捗状況 †
- URLと歌詞部分のみのデータが完成(11/11)
- ヘッダーをつけるPerlのスクリプトが完成(11/21)
To do †
- スクリプトを走らせてデータを完成させる
- SkEにのせる
- ランキング情報を自動でヘッダーに入れるのは無理そう
- ヘッダーの曲名・歌手名の「'」がない
- ヘッダーの曲名・歌手名はハイフンでつながっている
日程 †
- 6/24
- CBLS Chap.8&9
- テキスト整形・ランキングのリスト化
- ソフト(Source List Opener)で切り出し
- 6/3
- CBLS Chap.7
- 1960〜2009までのランキング
- 自動でとってくるための方法(URL/テキストの指定)
- 5/27
- CBLS Chap.5
- Top chart の情報の利用可能性
- Crawler を使って特定の歌手と歌の情報を取ってくる方法
- 5/20
- CBLS Chap.4
- Crawler レポート2
- Song Corpus 設計基準の話し合い
- 5/13
- CBLS Chap.3 Corpus mark-up
- Crawler の使用感報告
- 個人ページに評価を書き込む
- 5/6
- CBLS Chap.2
- Crawler の紹介
- 歌のサイトの収集
リンク †
歌詞のサイト †
原則、静的ページに限る
Web crawler & spider †
ランキングのリスト化 †
使用ソフト †
- Source List Opener
- サクラエディタ
手順 †
アンダーバー(_)は半角スペースを表す
- 「??」は「’」だが、URLでは不要なので置換する
- 置換前:??
- 置換後:何も入力しない
- 正規表現はチェックしない
- 番号を置換する
- 置換前:^[0-9]+_
- 置換後:何も入力しない
- 正規表現をチェックする
- ^:行頭の指定
- [0-9]:任意の半角数字1文字
- +:1回またはそれ以上の繰り返し
- http:〜を文頭に挿入
- 置換前:^
- 置換後:http://www\.lyrics\.com/
- 正規表現をチェックする
- 正規表現に使われる記号を円マーク(\)でエスケープする
- 手作業で
- 曲名と歌手名の間のスペースをデリートし、タブを挿入
- タブを-lyrics-に置換する
- 置換前:\t
- 置換後:\-lyrics\-
- 正規表現をチェックする
- \t:タブの記号
- 正規表現に使われる記号を円マーク(\)でエスケープする
- 文末に.htmlをつける
- 置換前:$
- 置換後:\.html
- 正規表現をチェックする
- $:文末の指定
- 正規表現に使われる記号を円マーク(\)でエスケープする