言語教育学演習2010 | AiAsano | ReikaOkajima |

Song Corpus 進捗状況

設計基準

  • 1960〜2009年
  • BillBoard?の年間1〜100位

進捗状況

  • URLと歌詞部分のみのデータが完成(11/11)
  • ヘッダーをつけるPerlのスクリプトが完成(11/21)

To do

  • スクリプトを走らせてデータを完成させる
  • SkEにのせる
    • フォーマットの確認
  • ランキング情報を自動でヘッダーに入れるのは無理そう
  • ヘッダーの曲名・歌手名の「'」がない
  • ヘッダーの曲名・歌手名はハイフンでつながっている

日程

  • 6/24
    • CBLS Chap.8&9
    • テキスト整形・ランキングのリスト化
    • ソフト(Source List Opener)で切り出し
  • 6/3
    • CBLS Chap.7
    • 1960〜2009までのランキング
    • 自動でとってくるための方法(URL/テキストの指定)
  • 5/27
    • CBLS Chap.5
    • Top chart の情報の利用可能性
      • 年間チャートをできるだけ活用する
    • Crawler を使って特定の歌手と歌の情報を取ってくる方法
  • 5/20
    • CBLS Chap.4
    • Crawler レポート2
    • Song Corpus 設計基準の話し合い
  • 5/13
    • CBLS Chap.3 Corpus mark-up
    • Crawler の使用感報告
    • 個人ページに評価を書き込む
  • 5/6
    • CBLS Chap.2
    • Crawler の紹介
    • 歌のサイトの収集

リンク

歌詞のサイト

原則、静的ページに限る

Web crawler & spider

ランキングのリスト化

使用ソフト

  • Source List Opener
  • サクラエディタ

手順

アンダーバー(_)は半角スペースを表す

  • 「??」は「’」だが、URLでは不要なので置換する
    • 置換前:??
    • 置換後:何も入力しない
    • 正規表現はチェックしない
  • 番号を置換する
    • 置換前:^[0-9]+_ 
    • 置換後:何も入力しない
    • 正規表現をチェックする
      • ^:行頭の指定
      • [0-9]:任意の半角数字1文字
      • +:1回またはそれ以上の繰り返し
  • http:〜を文頭に挿入
    • 置換前:^
    • 置換後:http://www\.lyrics\.com/
    • 正規表現をチェックする
      • 正規表現に使われる記号を円マーク(\)でエスケープする
  • 手作業で
    • 曲名と歌手名の間のスペースをデリートし、タブを挿入
  • タブを-lyrics-に置換する
    • 置換前:\t
    • 置換後:\-lyrics\-
    • 正規表現をチェックする
      • \t:タブの記号
      • 正規表現に使われる記号を円マーク(\)でエスケープする
  • スペースをハイフン(-)に置換する
    • 置換前:_
    • 置換後:-
    • 正規表現はチェックしない
  • すべて小文字にする
    • 全体を選択→変換→小文字
  • 文末に.htmlをつける
    • 置換前:$
    • 置換後:\.html
    • 正規表現をチェックする
      • $:文末の指定
      • 正規表現に使われる記号を円マーク(\)でエスケープする

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-11-21 (日) 15:30:09 (4996d)