[[言語教育学演習2010]] | AiAsano | ReikaOkajima | **Song Corpus 進捗状況 [#v97cc0a4] ***設計基準 [#c175a590] -1960〜2009年 -BillBoardの年間1〜100位 ***進捗状況 [#rb628010] -URLと歌詞部分のみのデータが完成(11/11) -ヘッダーをつけるPerlのスクリプトが完成(11/21) ***To do [#j58e6464] --スクリプトを走らせてデータを完成させる --SkEにのせる ---フォーマットの確認 --ランキング情報を自動でヘッダーに入れるのは無理そう --ヘッダーの曲名・歌手名の「'」がない --ヘッダーの曲名・歌手名はハイフンでつながっている **日程 [#a6f4504f] -6/24 --CBLS Chap.8&9 --テキスト整形・ランキングのリスト化 --ソフト(Source List Opener)で切り出し -6/3 --CBLS Chap.7 --1960〜2009までのランキング --自動でとってくるための方法(URL/テキストの指定) -5/27 --CBLS Chap.5 --Top chart の情報の利用可能性 ---年間チャートをできるだけ活用する --Crawler を使って特定の歌手と歌の情報を取ってくる方法 -5/20 --CBLS Chap.4 --Crawler レポート2 --Song Corpus 設計基準の話し合い -5/13 --CBLS Chap.3 Corpus mark-up --Crawler の使用感報告 --個人ページに評価を書き込む -5/6 --CBLS Chap.2 --Crawler の紹介 --歌のサイトの収集 **リンク [#p2a4da25] ***歌詞のサイト [#mf0cc3c2] 原則、静的ページに限る -[[LetsSingIt:http://www.letssingit.com/]] -[[Lyrics.com:http://www.lyrics.com/]] -[[SING365.COM:http://www.sing365.com/index.html]] -[[Lyrics Master:http://www.kenichimaehashi.com/lyricsmaster/]] -[[Lyrics Search Engine:http://lyrics.astraweb.com/]] -[[OldieLyrics.com:http://www.oldielyrics.com/]] -[[A-Z Lyrics Universe:http://www.azlyrics.com/]] -[[Lyrics Freak:http://www.lyricsfreak.com/]] -[[musicoop:http://www.musicoop.com/]] -[[TSRocks:http://www.tsrocks.com/]] -[[Lyrics Reg.com:http://www.lyricsreg.com/]]× -[[e Lyrics.net:http://www.elyrics.net/]]× -[[Zone Lyrics:http://www.zonelyrics.net/]] -[[Music Babylon:http://www.musicbabylon.com/artists]]× -[[Seek Lyrics:http://www.seeklyrics.com/]] -[[daps lyrics:http://www.dapslyrics.com/]] -[[ST Lyrics:http://www.stlyrics.com/songs/index.html]] -[[Lyric ZZ.com:http://www.lyriczz.com/]] ***Web crawler & spider [#j53e4f86] -[[Web 巡回フリーソフト:http://freesoft-100.com/pasokon/save_webpage.html]] -[[Vector:http://www.vector.co.jp/vpack/filearea/win/net/www/auto/]] -[[goo:http://download.goo.ne.jp/software/category/win/net/www/auto/]] -[[窓の杜:http://www.forest.impress.co.jp/lib/inet/websupt/webpilot/]] **Song Corpus設計基準 [#j9c4eb3d] -内容 --歌の内容 -アーティスト --A〜Z -年代 --1950〜2010(60年×100曲?) -ジャンル --ロック、ポップス、ヒップホップ --バラード(スタイル?) -ランキングサイト --BillBoard ---今週分は100位まで見れる ---それ以前は有料登録 -グラミー賞 --ジャンル分けの参考になる --各ジャンルに多数の受賞者 **ランキングのリスト化 [#oae82db6] ***使用ソフト [#le352a0e] -Source List Opener -サクラエディタ ***手順 [#eff75617] アンダーバー(_)は半角スペースを表す -「??」は「’」だが、URLでは不要なので置換する --置換前:?? --置換後:何も入力しない --正規表現はチェックしない -番号を置換する --置換前:^[0-9]+_ --置換後:何も入力しない --正規表現をチェックする ---^:行頭の指定 ---[0-9]:任意の半角数字1文字 ---+:1回またはそれ以上の繰り返し -http:〜を文頭に挿入 --置換前:^ --置換後:http://www\.lyrics\.com/ --正規表現をチェックする ---正規表現に使われる記号を円マーク(\)でエスケープする -手作業で --曲名と歌手名の間のスペースをデリートし、タブを挿入 -タブを-lyrics-に置換する --置換前:\t --置換後:\-lyrics\- --正規表現をチェックする ---\t:タブの記号 ---正規表現に使われる記号を円マーク(\)でエスケープする -スペースをハイフン(-)に置換する --置換前:_ --置換後:- --正規表現はチェックしない -すべて小文字にする --全体を選択→変換→小文字 -文末に.htmlをつける --置換前:$ --置換後:\.html --正規表現をチェックする ---$:文末の指定 ---正規表現に使われる記号を円マーク(\)でエスケープする **タスク [#nbbf487d] -次回までにランキングのリスト化 --1960〜1985:浅野さん --1986〜2009:岡島さん -カテゴリーのプランを考えてくる