[[言語教育学演習2010]] | AiAsano | ReikaOkajima | 

**Song Corpus 進捗状況 [#v97cc0a4]
***設計基準 [#c175a590]
-1960〜2009年
-BillBoardの年間1〜100位

***進捗状況 [#rb628010]
-URLと歌詞部分のみのデータが完成(11/11)
-ヘッダーをつけるPerlのスクリプトが完成(11/21)

***To do [#j58e6464]
--スクリプトを走らせてデータを完成させる
--SkEにのせる
---フォーマットの確認

--ランキング情報を自動でヘッダーに入れるのは無理そう
--ヘッダーの曲名・歌手名の「'」がない
--ヘッダーの曲名・歌手名はハイフンでつながっている



**日程 [#a6f4504f]

-6/24
--CBLS Chap.8&9
--テキスト整形・ランキングのリスト化
--ソフト(Source List Opener)で切り出し

-6/3
--CBLS Chap.7
--1960〜2009までのランキング
--自動でとってくるための方法(URL/テキストの指定)


-5/27
--CBLS Chap.5
--Top chart の情報の利用可能性
---年間チャートをできるだけ活用する
--Crawler を使って特定の歌手と歌の情報を取ってくる方法


-5/20
--CBLS Chap.4
--Crawler レポート2
--Song Corpus 設計基準の話し合い


-5/13
--CBLS Chap.3 Corpus mark-up
--Crawler の使用感報告
--個人ページに評価を書き込む


-5/6
--CBLS Chap.2
--Crawler の紹介
--歌のサイトの収集


**リンク [#p2a4da25]

***歌詞のサイト [#mf0cc3c2]

原則、静的ページに限る

-[[LetsSingIt:http://www.letssingit.com/]]
-[[Lyrics.com:http://www.lyrics.com/]]
-[[SING365.COM:http://www.sing365.com/index.html]]
-[[Lyrics Master:http://www.kenichimaehashi.com/lyricsmaster/]]
-[[Lyrics Search Engine:http://lyrics.astraweb.com/]]
-[[OldieLyrics.com:http://www.oldielyrics.com/]]
-[[A-Z Lyrics Universe:http://www.azlyrics.com/]]


-[[Lyrics Freak:http://www.lyricsfreak.com/]]
-[[musicoop:http://www.musicoop.com/]]
-[[TSRocks:http://www.tsrocks.com/]]
-[[Lyrics Reg.com:http://www.lyricsreg.com/]]×
-[[e Lyrics.net:http://www.elyrics.net/]]×
-[[Zone Lyrics:http://www.zonelyrics.net/]]
-[[Music Babylon:http://www.musicbabylon.com/artists]]×
-[[Seek Lyrics:http://www.seeklyrics.com/]]
-[[daps lyrics:http://www.dapslyrics.com/]]
-[[ST Lyrics:http://www.stlyrics.com/songs/index.html]]
-[[Lyric ZZ.com:http://www.lyriczz.com/]]



***Web crawler & spider [#j53e4f86]

-[[Web 巡回フリーソフト:http://freesoft-100.com/pasokon/save_webpage.html]]
-[[Vector:http://www.vector.co.jp/vpack/filearea/win/net/www/auto/]]
-[[goo:http://download.goo.ne.jp/software/category/win/net/www/auto/]]
-[[窓の杜:http://www.forest.impress.co.jp/lib/inet/websupt/webpilot/]]


**Song Corpus設計基準 [#j9c4eb3d]

-内容
--歌の内容
-アーティスト
--A〜Z
-年代
--1950〜2010(60年×100曲?)
-ジャンル
--ロック、ポップス、ヒップホップ
--バラード(スタイル?)
-ランキングサイト
--BillBoard
---今週分は100位まで見れる
---それ以前は有料登録
-グラミー賞
--ジャンル分けの参考になる
--各ジャンルに多数の受賞者

**ランキングのリスト化 [#oae82db6]

***使用ソフト [#le352a0e]
-Source List Opener
-サクラエディタ

***手順 [#eff75617]
アンダーバー(_)は半角スペースを表す

-「??」は「’」だが、URLでは不要なので置換する
--置換前:??
--置換後:何も入力しない
--正規表現はチェックしない

-番号を置換する
--置換前:^[0-9]+_ 
--置換後:何も入力しない
--正規表現をチェックする
---^:行頭の指定
---[0-9]:任意の半角数字1文字
---+:1回またはそれ以上の繰り返し

-http:〜を文頭に挿入
--置換前:^
--置換後:http://www\.lyrics\.com/
--正規表現をチェックする
---正規表現に使われる記号を円マーク(\)でエスケープする

-手作業で
--曲名と歌手名の間のスペースをデリートし、タブを挿入

-タブを-lyrics-に置換する
--置換前:\t
--置換後:\-lyrics\-
--正規表現をチェックする
---\t:タブの記号
---正規表現に使われる記号を円マーク(\)でエスケープする

-スペースをハイフン(-)に置換する
--置換前:_
--置換後:-
--正規表現はチェックしない

-すべて小文字にする
--全体を選択→変換→小文字

-文末に.htmlをつける
--置換前:$
--置換後:\.html
--正規表現をチェックする
---$:文末の指定
---正規表現に使われる記号を円マーク(\)でエスケープする

**タスク [#nbbf487d]

-次回までにランキングのリスト化
--1960〜1985:浅野さん
--1986〜2009:岡島さん
-カテゴリーのプランを考えてくる



トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS